# TP 6 : La Régression Linéaire

Le but du TP est de mettre en oeuvre une régression linéaire sur un exemple jouet puis sur des données réelles. Pour cela, vous aurez besoin des formules du cours pour retrouver les coefficients permettant de calculer une régression linéaire. 


### Compétences associées :

| Numéro | Compétence | 
|:------------- |:--------------------:|
|RL001 | Savoir définir un modèle linéaire simple|
|RL004 | Être capable de modéliser la prédiction d’une nouvelle donnée|
|RL005 | Être capable de calculer l’erreur de prédiction|	
|RL007|Savoir calculer un intervalle de prédiction de la régression linéaire|
|RL103|Savoir retrouver l’expression des coefficients optimaux en fonction de X et y|
|RL104|Savoir retrouver l’expression de la prédiction d’une donnée x en fonction des coefficients optimaux|
|RL201|Savoir calculer le R² en fonction de la décomposition de la variance
|RL202|Savoir interpréter le R²|
|PY402|Être capable de calculer les coefficients optimaux de la régression linéaire (avec numpy)|


## Ex. 1 : La régression simple

1. Nous donnons les couples d’observations suivantes :

x| 18| 7 | 14| 31| 21| 5| 11| 16| 26| 29
-|---|---|---|---|---|---|---|---|---|---
y| 55| 17| 36| 85| 62| 18| 33| 41| 63| 87


In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
x=np.array([18, 7, 14, 31, 21, 5, 11, 16, 26, 29, 8])
y=np.array([55, 17, 36, 85, 62, 18, 33, 41, 63, 87, 2])

2. Tracer le graphique des couples $x$ et $y$. A partir de ce graphe, peut on soupconner une relation linéaire entre les variables $x$ et $y$ ?

3. Déterminer pour ces observations la droite de régression au sens des moindres carrés. Pour cela il faudra déterminer les coefficients a et b.

4. Tracez la droite de régression sur les données.

5. Donner une estimation des erreurs $\epsilon_i,i=1,n$

6. Calculer la moyenne empirique et la variance empirique des erreurs. Comparez la variance avec l'estimateur non biaisé de la variance donné par $s_y^2 = \frac{1}{n-1}\sum_{i=1}^n (y_i - \overline y)^2$

7. Donner une estimation plausible de $y$ lorsque $x = 17$. Quel intervalle de confiance associer à cette prédiction ?

8. a) Donner une estimation plausible de y lorsque x = 48. Quel intervalle de confiance associer à cette prédiction ?

b) Comparez le avec le précédent


9. Une nouvelle observation nous est fournie : $x_{11} = 48$ et $y_{11} = 2$
 1. Que devient la droite de regression linéaire ?

B. Quelle est l’influence de ce point sur cette droite ?

## Ex 2 : Régression sur $CO_2$ et température moyenne du globe

Le but de ce second exercice est d'appliquer la régression au sens des moindres carrés sur des données réelles. Ici la variable explicative est le taux de $CO_2$ dans l'atmosphère, et la variable à expliquer la température moyenne à la surface du globe, avec pour référence à 0 la température moyenne sur la période 1961-1990. 
Les données sont les mêmes que dans le TP4, où nous avons trouvé une corrélation d'environ 0.8. 
Maintenant, nous allons chercher à calculer les estimateurs du modèle linéaire. Il faut donc appliquer tout ce que nous avons vu sur des données jouets, et interprétez ces résultats.

1. Chargez les données contenues dans 'data_global_warming.npz'


In [None]:
import numpy as np
data = np.load('data_global_warming.npz')
temp = data['temp']
co2 = data['co2']


2. Créez une fonction `regression_fit` calculant les estimateurs $a$ et $b$ donné $x$ et $y$

In [None]:
def regression_fit(x_,y_):
 ...

3. Créez une fonction `regression_predict` qui calcule l'estimation de $y$ donnés $x$, $a$ et $b$. 

In [None]:
def regression_predict(x_,a_,b_):
 ...

4. Créez une fonction `residuals` qui calcule les résidus. Quelles sont les paramètres de cette fonction ? Est ce que les erreurs vous paraissent avoir une distribution gaussienne ?

In [None]:
def residuals(y_true, y_pred):
 ...

4. Calculez les valeurs prédites sur l'intervalle \[1,5\] avec un pas de 0.1 et plottez le résultat sur les données.

5. Affichez la valeur de $a$ et concluez sur la nature de la relation entre $CO_2$ et température.

# Bonus: Différentes manières de calculer le $R^2$

In [None]:
y_pred = regression_predict(co2,a,b)

(np.sum((y_pred - np.mean(temp))**2) /np.sum((temp - np.mean(temp))**2))

In [None]:
1 - (np.sum((temp - y_pred)**2)/np.sum((temp-np.mean(temp))**2))

In [None]:
np.corrcoef(y_pred.T, temp.T)[0,1]**2