# TP Classifieur et Validation Croisée

L'objectif de ce travail pratique est de manipuler la bibliothèque `scikit-learn` et d’implémenter un classifieur avec une stratégie de validation croisée pour optimiser les hyperparamètres. Veillez à ne pas introduire de biais lors de l'ajustement de vos (hyper)paramètres.

## Charger des données

Nous allons d'abord charger des données dans notre environnement pour réaliser une classification. `scikit-learn` inclut des utilitaires de chargement de jeux de données dans le module `sklearn.datasets` [lien](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets). Prenez quelques minutes pour parcourir la liste des jeux de données et identifier les tâches de classification.

Pour ce TP, nous allons utiliser le jeu de données "wine" [lien](https://scikit-learn.org/stable/datasets/toy_dataset.html#wine-dataset)

In [None]:
from sklearn.datasets import load_wine
X,y = ...

In [None]:
from sklearn.datasets import load_wine
X,y = load_wine(return_X_y=True)

## Un premier classifieur SVM

`sklearn` propose des implémentations de différents algorithmes d’apprentissage. Comme vu en cours, nous allons nous concentrer sur les problèmes de classification. Nous allons commencer par les SVM.

Cette méthode est implémentée par la classe `SVC` du module `sklearn.svm`. Consultez la documentation pour vous familiariser et vérifier qu’elle correspond bien à la méthode de SVM vue en cours [lien](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html).

1) Créez une variable `model` correspondant à un `SVC`.

In [None]:
from sklearn.svm import SVC
model = ...

In [None]:
from sklearn.svm import SVC
model = SVC()

2) Entraînez le modèle sur le jeu de données `X` et prédisez les propriétés correspondantes.

In [None]:
model.fit(X,y)
pred = model.predict(X)


3) Évaluez la précision de votre prédiction. Vous pouvez utiliser la fonction `accuracy_score` du module `sklearn.metrics` [lien](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html).

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
from sklearn.metrics import accuracy_score
print(accuracy_score(y,pred))

In [None]:
# accuracy score est simplement la moyenne des bonnes classifs.
import numpy as np
acc = np.mean(y==pred)
print(acc)

## Prédire des nouvelles données

Félicitations, vous avez appris un premier modèle. Toutefois, il est peu utile car il prédit uniquement sur les données d'entraînement. Prédire sur des données jamais vues est plus pertinent.

1) Séparez votre jeu de données en un ensemble d'entraînement et un ensemble de test à l'aide de la fonction `train_test_split` du module `sklearn.model_selection`. Utilisez une `test_size` de 50% du jeu total, et fixez `random_state` à `42` pour la reproductibilité. Documentation [ici](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)
2) Entraînez votre modèle sur l’ensemble d’entraînement
3) Prédisez les valeurs de l’ensemble de test et affichez les performances

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = ...
model = ...
model.fit(...)
perf_test = ...
print(f"Performance on test is {perf_test:.2f}")

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=42)

In [None]:
model = SVC()
model.fit(X_train,y_train)
pred = model.predict(X_test)
perf_test = accuracy_score(y_test,pred)
print(f"Performance on test is {perf_test:.2f}") # perf différente que sur le train

## Ajuster l’hyperparamètre `C`

Lors de la création d’un nouvel objet `SVC`, on peut ajuster la valeur de `C` qui représente l’importance des erreurs dans le processus d’optimisation. L’objectif est de trouver la meilleure valeur de `C`, c’est-à-dire celle qui fonctionne le mieux sur des données non vues.

1) Calculez la performance (accuracy) pour différentes valeurs de `C` sur les ensembles d’entraînement et de test. On utilisera 25% du jeu de données pour l'entraînement et une échelle logarithmique (`np.logscale`) pour les valeurs de `C`.

   a) Divisez le jeu en entraînement et test (25% pour l'entraînement)

   b) Normalisez les données avec la classe `StandardScaler` du module `sklearn.preprocessing`. Attention à ne pas utiliser l'ensemble de test pour calculer les paramètres !

   c) Calculez le taux d'erreur de classification pour chaque `C` dans `np.logspace(-2,1,25)`

In [None]:
from sklearn.svm import SVC
import numpy as np
from sklearn.model_selection import train_test_split
import  matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score as score
from sklearn.preprocessing import StandardScaler


X_train, X_test, y_train, y_test = ...

In [None]:
from sklearn.svm import SVC
import numpy as np
from sklearn.model_selection import train_test_split
import  matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score as score
from sklearn.preprocessing import StandardScaler


X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.25, random_state=42)

scaler = StandardScaler()
X_train_norm = scaler.fit_transform(X_train)
X_test_norm = scaler.transform(X_test)

error_train = []
error_test = []
Cs = np.logspace(-2,1,25) # leur faire printer pour voir la tête du vecteur
for C in Cs:
    model = SVC(C=C)

    model.fit(X_train_norm,y_train)
    
    y_hat_train = model.predict(X_train_norm)
    y_hat_test = model.predict(X_test_norm)
    
    error_train.append(1-score(y_train, y_hat_train)) # on veut des erreurs pour le plot : erreur = 1 - perf
    error_test.append(1-score(y_test, y_hat_test))


2) Tracez les erreurs d'entraînement et de test en fonction de la complexité du modèle. Rappel : de petites valeurs de `C` correspondent à des modèles simples ; de grandes valeurs à des modèles plus complexes avec moins d'erreurs. Vérifiez que l’erreur d'entraînement diminue avec la complexité. Commentez l’erreur de test. Quelle est la meilleure valeur de `C` ?

**Indice** : utilisez la fonction `plot` du module `matplotlib.pyplot`

In [None]:
import matplotlib.pyplot as plt
plt.plot(...)
plt.xscale('log') # Recommandé pour afficher de manière lisible le plot

In [None]:
# Ici, on ne demande pas un plot annoté, mais juste les courbes et leurs interprétations.
# Attention, j'ai choisi le random state et le ratio du split pour que ce soit parlant
fig,ax = plt.subplots()
ax.plot(Cs,error_train)
ax.plot(Cs,error_test)
ax.set_xscale('log') # ou plt.xscale('log') mais le ax.set_xscale est + propre


arrow_style = { 'arrowstyle' : "->", 'connectionstyle' : "arc3"}

ax.legend([f" error on train", f" error on test"]);
ax.annotate("sous apprentissage",xy=(0.05,0.64),xytext=(0.01, 0.4),
            arrowprops=arrow_style)
ax.annotate("sur apprentissage",xy=(7.0,0.0),xytext=(1,0.4),
            arrowprops=arrow_style)

best_idx = np.argmin(error_test)
ax.annotate("Optimal",xy=(Cs[best_idx],error_test[best_idx]),
            xytext=(.5,0.2),
            arrowprops=arrow_style)

ax.set_ylabel("Erreur")
ax.set_xlabel("Complexité du modèle")

print(f"The best C value is {Cs[best_idx]:2f}")

## Protocole complet

Dans l’exercice précédent, nous avons choisi la meilleure valeur de `C` a posteriori, en fonction de sa performance sur l’ensemble de test. En conditions réelles, nous ne connaissons pas la performance sur des données non vues. Pour limiter ce biais, on utilise des ensembles d'entraînement, validation et test.

1) Divisez le jeu de données original en un ensemble d'entraînement et un ensemble de test (30% pour le test)

2) Utilisez la classe `GridSearchCV` pour faire une validation croisée et trouver la meilleure valeur de `C`.

In [None]:
from sklearn.svm import SVC
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from sklearn.model_selection import GridSearchCV



In [None]:
from sklearn.svm import SVC
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from sklearn.model_selection import GridSearchCV

scaler = StandardScaler()
X_norm =  scaler.fit_transform(X)

X_train_norm, X_test_norm, y_train, y_test = train_test_split(X_norm, y, test_size=0.3, random_state=42)

params={'C' : np.logspace(-2,2,25)}
model=SVC()
cv = GridSearchCV(model,param_grid=params)

cv.fit(X_train_norm,y_train)
cv.cv_results_ # a explorer par les étudiants

In [None]:
cv.best_estimator_

3) Prédisez la performance finale sur l’ensemble de test.

In [None]:

perf_test = ...
print(f"Accuracy on test = {perf_test}")

In [None]:
y_hat_test = cv.predict(X_test_norm)
perf_test = cv.score(X_test_norm,y_test)
print(f"Accuracy on test = {perf_test}")

4. Nous avons commis une erreur dans notre protocole. Nous avons enfreint la première règle : ne jamais utiliser l’ensemble de test pendant l’apprentissage. Pouvez-vous identifier le problème ?

Pour le résoudre, consultez la classe `Pipeline` de scikit-learn : https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html

In [None]:
# We used part of test set to normalize our data. 

In [None]:
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import Pipeline

X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.3,random_state=42)
pipe = Pipeline(steps=[('scaler', StandardScaler()), ('classifier', SVC())])
params={'classifier__C' : np.logspace(-2,2,25)}
cv = GridSearchCV(pipe,param_grid=params)
cv.fit(X_train, y_train)
cv.score(X_test, y_test)

5. **Bonus 1** Étendez le processus d’apprentissage pour ajuster le meilleur noyau

In [None]:
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import Pipeline

X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.3,random_state=42)
kernels= ['linear','poly','rbf','sigmoid'] # on pourra meme fitter chaque hyperparameter de chaque kernel (bonus)

C_values = np.logspace(-2,2,25)
# attention aux temps de calculs !
pipe = Pipeline(steps=[('scaler', StandardScaler()), ('classifier', SVC())])
params={'classifier__C' : C_values,
       'classifier__kernel' : kernels,
       'classifier__gamma' : ['scale','auto', 1e-5,1e-3,1e-1]
       }
cv = GridSearchCV(pipe,param_grid=params)
cv.fit(X_train, y_train)
cv.score(X_test, y_test)

7. **Bonus 2** Étendez le processus d’apprentissage pour comparer différents classifieurs

In [None]:
# long. Pour occuper les plus rapides