# TP 6 : La Régression Linéaire

Le but du TP est de mettre en oeuvre une régression linéaire sur un exemple jouet puis sur des données réelles. Pour cela, vous aurez besoin des formules du cours pour retrouver les coefficients permettant de calculer une régression linéaire. 


### Compétences associées :

| Numéro        | Compétence           | 
|:------------- |:--------------------:|
|RL001 | Savoir définir un modèle linéaire simple|
|RL004 | Être capable de modéliser la prédiction d’une nouvelle donnée|
|RL005 | Être capable de calculer l’erreur de prédiction|	
|RL007|Savoir calculer un intervalle de prédiction de la régression linéaire|
|RL103|Savoir retrouver l’expression des coefficients optimaux en fonction de X et y|
|RL104|Savoir retrouver l’expression de la prédiction d’une donnée x en fonction des coefficients optimaux|
|RL201|Savoir calculer le R² en fonction de la décomposition de la variance
|RL202|Savoir interpréter le R²|
|PY402|Être capable de calculer les coefficients optimaux de la régression linéaire (avec numpy)|


## Ex. 1 : La régression simple

1. Nous donnons les couples d’observations suivantes :

x| 18| 7 | 14| 31| 21|  5| 11| 16| 26| 29
-|---|---|---|---|---|---|---|---|---|---
y| 55| 17| 36| 85| 62| 18| 33| 41| 63| 87


In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
x=np.array([18, 7, 14, 31, 21, 5, 11, 16, 26, 29, 8])
y=np.array([55, 17, 36, 85, 62, 18, 33, 41, 63, 87, 2])

2. Tracer le graphique des couples $x$ et $y$. A partir de ce graphe, peut on soupconner une relation linéaire entre les variables $x$ et $y$ ?

In [None]:
plt.plot(x,y,'o')
plt.show()

3. Déterminer pour ces observations la droite de régression au sens des moindres carrés. Pour cela il faudra déterminer les coefficients a et b.

In [None]:
sx2 = np.sum((x-np.mean(x))**2)
sxy=((x-np.mean(x)).T @ (y-np.mean(y)))
a = sxy/sx2
b = np.mean(y) - a*np.mean(x)
n = len(x)
print(a,b)

4. Tracez la droite de régression sur les données.

In [None]:
xm = np.min(x)-6; 
xM = np.max(x)+6;
ym = a*xm+b;
yM = a*xM+b;
plt.plot([xm,xM],[ym,yM],'g-', linewidth=2) # trace une ligne entre [xm, ym] et[xM,yM]
plt.plot(x,y,'o')
plt.show()

5. Donner une estimation des erreurs $\epsilon_i,i=1,n$

In [None]:
yp = a*x+b
e = y - yp
e

6. Calculer la moyenne empirique et la variance empirique des erreurs. Comparez la variance avec l'estimateur non biaisé de la variance donné par $s_y^2 = \frac{1}{n-1}\sum_{i=1}^n (y_i - \overline y)^2$

In [None]:
n = len(e)
sigma2_hat = 1/(n-1)* e.T@e # la moyenne des résidus est égale à 0
print(sigma2_hat) #estimateur non biaisé de la variance (si ils l'ont vu)
print(np.var(e))
print(np.mean(e))
plt.hist(e)

7. Donner une estimation plausible de $y$ lorsque $x = 17$. Quel intervalle de confiance associer à cette prédiction ?

In [None]:
from scipy.stats import t

xp = 17
yp = a*xp+b

#Les aider la dessus
t_s = t.ppf(0.025,n-2)  # statistique de student à n-2 degres de liberté  
interval = t_s*np.sqrt(sigma2_hat*(1+1/n+(xp-np.mean(x))**2/sx2));
plt.plot([xp, xp],[yp-interval, yp+interval],'c')
xm = np.min(x)
xM = np.max(x)
ym = a*xm+b
yM = a*xM+b

plt.plot([xm,xM],[ym,yM],'gv-', linewidth=2)
plt.plot(x,y,'b+')
plt.show()
print(interval)


8. a) Donner une estimation plausible de y lorsque x = 48. Quel intervalle de confiance associer à cette prédiction ?

In [None]:
xp = 48
yp = a*xp+b;
t_s = t.ppf(0.025,n-2)  # loi de student à n-2 ddl
interval = t_s*np.sqrt(sigma2_hat*(1+1/n+(xp-np.mean(x))**2/sx2));
print(interval)
print(yp+interval, yp-interval)

In [None]:
xp =  np.arange(xm,xM,.1)
yp = a*xp+b
tv = t.ppf(0.025,n-2)  
print(tv)
interval = tv*np.sqrt(sigma2_hat*(1+1/n+(xp-np.mean(x))**2/sx2));
plt.plot([xp, xp],[yp-interval, yp+interval],'c')
plt.plot([xm,xM],[ym,yM],'gv-', linewidth=2)
plt.plot(x,y,'b+')
plt.show()

In [None]:
plt.plot(np.abs(interval))

b) Comparez le avec le précédent


On s'écarte de la moyenne de x, donc ça augmente

9. Une nouvelle observation nous est fournie : $x_{11} = 48$ et $y_{11} = 2$
    1. Que devient la droite de regression linéaire ?

In [None]:
x_new = np.append(x, 48)
y_new= np.append(y, 2)
sx2 = np.sum((x_new-np.mean(x_new))**2),
sy2 = np.sum((y_new-np.mean(y_new))**2),
sxy=((x_new-np.mean(x_new)).T @ (y_new-np.mean(y_new)))
a = sxy/sx2
b = np.mean(y) - a*np.mean(x)
xm = np.min(x_new)-1;
xM = np.max(x_new)+1;
ym = a*xm+b;
yM = a*xM+b;
plt.plot(x_new,y_new,'b+')
plt.plot([xm, xM],[ym, yM],'r');
plt.show()

B. Quelle est l’influence de ce point sur cette droite ?

Il influe de manière disproportionné sur la droite de régression.
Calcul des $w_i$

In [None]:
w = (x_new - np.mean(x_new)) / np.sum((x_new - np.mean(x_new))**2)
print(w)
plt.bar(np.arange(len(w)), w);
#on voit bien la forte influence du dernier point

## Ex 2 : Régression sur $CO_2$ et température moyenne du globe

Le but de ce second exercice est d'appliquer la régression au sens des moindres carrés sur des données réelles. Ici la variable explicative est le taux de $CO_2$ dans l'atmosphère, et la variable à expliquer la température moyenne à la surface du globe, avec pour référence  à 0 la température moyenne sur la période 1961-1990. 
Les données sont les mêmes que dans le TP4, où nous avons trouvé une corrélation d'environ 0.8. 
Maintenant, nous allons chercher à calculer les estimateurs du modèle linéaire. Il faut donc appliquer tout ce que nous avons vu sur des données jouets, et interprétez ces résultats.

1. Chargez les données contenues dans 'data_global_warming.npz'


In [None]:
import numpy as np
data = np.load('data_global_warming.npz')
temp = data['temp']
co2 = data['co2']


In [None]:
plt.plot(co2,temp,'o')

2. Créez une fonction `regression_fit` calculant les estimateurs $a$ et $b$ donné $x$ et $y$

In [None]:
def regression_fit(x_,y_):
    ...

In [None]:
#Essayez de leur faire comprendre qu'il faut être efficace en termes de complexité
def regression_fit(x_,y_):
    import numpy as np
    mx = np.mean(x_)
    my = np.mean(y_)
    sx2 = np.sum((x_- mx)**2)
    sxy= np.sum((x_- mx) * (y_-my))
    a = sxy/sx2
    b = my - a*mx
    return a,b
a,b = regression_fit(co2,temp)

3. Créez une fonction `regression_predict` qui calcule l'estimation de $y$ donnés $x$, $a$ et $b$. 

In [None]:
def regression_predict(x_,a_,b_):
    ...

In [None]:
def regression_predict(x_,a_,b_):
    return x_*a_ + b_


4. Créez une fonction `residuals` qui calcule les résidus. Quelles sont les paramètres de cette fonction ? Est ce que les erreurs vous paraissent avoir une distribution gaussienne ?

In [None]:
def residuals(y_true, y_pred):
    ...

In [None]:
def residuals(y_true, y_pred):
    return y_true-y_pred

erreurs = residuals(temp,regression_predict(co2,a,b))
plt.hist(erreurs)
print(np.mean(erreurs))

4. Calculez les valeurs prédites sur l'intervalle \[1,5\] avec un pas de 0.1 et plottez le résultat sur les données.

In [None]:
x_plot = np.arange(1,5.1,.1)
y_plot = regression_predict(x_plot,a,b)
plt.plot(co2,temp,'o')
plt.plot(x_plot,y_plot)
print(y_plot.shape,x_plot.shape,b.shape,b.shape)


5. Affichez la valeur de $a$ et concluez sur la nature de la relation entre $CO_2$ et température.

a est > 0 donc la temp augmente avec le taux de CO2. 

En conclusion, essayez de les questionner si un modele lineaire est le plus adapté ? Surement qu'un modele polynomial serait mieux. Les interroger sur comment faire avec un modèle linéaire. La réponse : projeter x vers $[x,x^2, x^3, ..., ]$ ou même avec des combinaisons, et avppliquer une régression linéaire 
multiple

# Bonus: Différentes manières de calculer le $R^2$

In [None]:
y_pred = regression_predict(co2,a,b)

(np.sum((y_pred - np.mean(temp))**2) /np.sum((temp - np.mean(temp))**2))

In [None]:
1 - (np.sum((temp - y_pred)**2)/np.sum((temp-np.mean(temp))**2))

In [None]:
np.corrcoef(y_pred.T, temp.T)[0,1]**2