# TP 7 - Régression Linéaire Multiple


### Compétences associées :

| Numéro | Compétence | 
|:------------- |:--------------------:|
|RL101|	Savoir définir un modelé linéaire multiple|
|RL102| Savoir écrire la représentation matricielle du problème de régression au sens des moindres carrés|
|RL103| Savoir retrouver l’expression des coefficients optimaux en fonction de X et y|
|RL104| Savoir retrouver l’expression de la prédiction d’une donnée x en fonction des coefficients optimaux|
|PY403| Être capable de calculer les coefficients optimaux de la régression linéaire (avec scikit-learn)|		

## Ex 1: Régression multiple

Nous allons évaluer notre modèle de régression linéaire sur le jeu de données diabetes. Nous allons utiliser la variable à expliquer correspondant à un indice d'évolution de la maladie.
Plus de détails directement sur le site de sklearn : [lien](https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset)

Pour implémenter la régression multiple, nous allons utiliser la modélisation matricielle.

1. Charger les données et faites les analyses statistiques et visualisations qui vous paraissent appropriées. Commentez la deuxième colonne des données.

In [None]:
import numpy as np
import matplotlib.pyplot as plt 

from sklearn.datasets import load_diabetes
...

In [None]:
import numpy as np
import matplotlib.pyplot as plt 

from sklearn.datasets import load_diabetes
X,y = load_diabetes(return_X_y=True)
n,p = X.shape
plt.boxplot(X); # la deuxieme colonne est une variable qualitative (sexe) qui a été quantifiée (deux valeurs)
plt.figure();
plt.hist(y);

plt.figure()
cov = X.T@X
plt.matshow(cov)
plt.colorbar()
print(np.mean(X,axis=0))
print(np.var(X,axis=0)*n) # -> cf la doc pour l'explication

2. Construisez la matrice $X$ pour la régression linéaire. Pour rappel, dans le formalisme matriciel, il faut ajouter une colonne de 1 afin de prendre en compte le coefficient $a_0$.

La fusion de tableau sur numpy peut paraitre compliquée, étant donné le nombre de façons de faire différentes. La liste des fonctions existantes est disponible [ici](https://numpy.org/doc/stable/reference/routines.array-manipulation.html#joining-arrays). Un tutoriel est dispo [ici](https://kanoki.org/2020/01/10/concatenating-arrays-in-numpy/).
Pour cet exercice, on utilisera la fonction `np.concatenate` pour fusionner `X` et une vecteur colonne de 1 obtenu par `np.ones((n,1))`

In [None]:
n,p = X.shape
X_reg = np.concatenate((X,np.ones((n,1))), axis=1)
#équivalent à 
X_reg2 = np.column_stack((X,np.ones((n,1))))
print(X_reg.shape)

3. Calculez le vecteur $\alpha$ optimisant le problème de régression au sens des moindres carrés. Visualisez les différentes valeurs avec `plt.bar`
 
Attention : Il est généralement déconseillé d'inverser une matrice si cela n'est pas absolument nécessaire. Vous devriez trouver la fonction qu'il vous faut [ici](https://numpy.org/doc/stable/reference/routines.linalg.html#solving-equations-and-inverting-matrices)

In [None]:
alpha = ...

In [None]:
alpha = np.linalg.solve(X_reg.T@X_reg, X_reg.T@y) #Attention à bien utiliser X_reg !!!
plt.bar(np.arange(p+1),alpha)


4. Pour chaque observation, calculez la prédiction faite par le modèle en calculant $z=X\alpha$. 
Comparez aux valeurs réelles, et calculez la moyenne des valeurs absolues des résidus.

In [None]:
z = X_reg@alpha

In [None]:
erreurs = z-y
np.mean(z-y)

5. Calculez le coefficient de détermination R² pour évaluer la qualité de votre prédiction. Commentez votre résultat. Quelles pistes pour l'améliorer ?

Bonus : Vous pouvez essayer de le calculer de plusieurs manières différentes

In [None]:
SCT = np.sum((y-np.mean(y))**2)
SCE = np.sum((z-np.mean(y))**2)
print(SCE/SCT)
print(np.corrcoef(z,y)[0,1]**2)

In [None]:
# comparer avec sklearn
from sklearn.linear_model import LinearRegression
linreg = LinearRegression()
linreg.fit(X,y)
z=linreg.predict(X)
print(linreg.coef_,linreg.intercept_)
print(alpha)

## Ex. 2 — Histoire de température
Un méteorologue nous a fourni les données suivantes de température et de concentration en ozone mesurées au centre de la ville de Caen, à la même heure, les lundis de printemps 2007.

|x : Température | y : Ozone|
|:---:| --- |
|23.1 | 81.4|
|18.9 | 52.6|
|16.4 | 48.4|
|14.6 | 38.0|
|20.3 | 39.4|
|25.4 | 34.2|
|21.5 | 61.9|
|22.1 | 77.3|
|17.3 | 34.0|
|14.8 | 49.8|
|25.5 | 97.0|
|23.1 | 67.8|
|24.2 | 92.7|

pour expliquer la concentration d’ozone en fonction de la température, les météorologues proposent le modèle suivant :
\begin{equation}
y = \begin{cases}
 b + \varepsilon & \text{ si } x \lt c\\
 ax + d + \varepsilon & \text{ si } x \ge c
 \end{cases}
\end{equation}

Ces données sont présentes dans le fichier meteo.csv sur Moodle.

1. Réécrire le modèle en éliminant d en utilisant la contrainte de continuité du modèle

In [None]:
import numpy as np
data = np.loadtxt("meteo.csv", delimiter=",")
x = data[:, 0]
print(x)
y = data[:, 1]

La continuité implique $b = ac+d$ soit $d = b - ac$. Sans $d$ le modèle s'écrit alors : 
\begin{equation}
y = \begin{cases}
 b + \varepsilon & \text{ si } x \lt c\\
 a(x-c) + b + \varepsilon & \text{ si } x \ge c
 \end{cases}
\end{equation}

2. Sachant que c = 21, Nous allons calculer les coefficients a et b optimaux au sens des moindres carrés.

 a) Expliciter la transformation de X tel que le modèle s’écrive $y = X \alpha + \varepsilon$. Transformez vos données pour appliquer cette transformation.

In [None]:

c=21
x_transform = data[:, 0].copy()


x_transform = 0 si x < c, x-c sinon.


In [None]:
# on aurait pu faire en compréhension de liste, mais ce n'est pas le but de M8
for i,xi in enumerate(x_transform):
 if (xi < c) :
 x_transform[i] = 0
 else :
 x_transform[i] = xi - c

plt.plot(x,y,'o')
plt.figure()
plt.plot(x_transform,y,'o')

b) Calculer l’estimateur de a et b au sens des moindres carrés

In [None]:

X = np.stack([x_transform, np.ones(len(x_transform))], axis=-1)
a = np.linalg.solve(X.T@X, X.T@y)
print(a)

c) Visualiser les observations et le modèle de régression

In [None]:
import matplotlib.pyplot as plt 
plt.plot(x,y,'or')
z = X@a
plt.plot(x,z,'og')

xp = np.array([14,21,28]) # les points charnières
# pour les deux premiers, le modeles juste f(x) = b
yp = np.array([a[1],a[1],a[0]*(xp[2]-c)+a[1]])

plt.plot(xp,yp,'b')
plt.show()

3\. Prédictions
 
 a) Quelle serait d’après votre modèle la concentration d’ozone lorque la température est de 27 degrés.

In [None]:
new_x = 27

In [None]:
yp = np.array([new_x-c,1]) @ a
yp

b) Quelle serait d’après votre modèle la concentration d’ozone lorque la température est de 13 degrés.

In [None]:
# 13 < 21 -> pas de x dans le modele
yp = np.array([0,1]) @ a
yp

4\. Quelle est la qualité de la régression ? Calculez le coefficient de détermination $R^2$

In [None]:
e = y-X@a
SCT = np.sum((y-np.mean(y))**2)
SCM = np.sum((X*a-np.mean(y))**2)
SCR = e.T @ e;
R2 = 1 - SCR/SCT
SCT, SCM, SCR, R2
print(R2)

## Bonus : Ex. 3 — Regression

Cherchant à expliquer la température d’un four (y) en fonction de l’hygrométrie (x) un boulanger a réalisé dix huit expériences différentes.

In [None]:
import numpy as np 
x = np.array([-0.20, 0.72, 0.08, 1.39, 0.22, 0.87, 1.38, 0.94, 0.36, 1.22, 0.74, 0.13, 0.21, 0.56, -0.35, -0.30, 0.48,
0.48])
y = np.array([-0.04, 1.30, 0.08, 1.37, 0.27, 1.36, 1.44, 1.28, 0.62, 1.29, 1.41, 0.12, 0.26, 1.16, -0.04, -0.16, 0.93,
0.83])

1. Le voisin du boulanger, lui même boulanger à la retraite, explique que le modèle linéaire n’est pas le bon. Le bon modèle est le suivant :

\begin{equation}
y = \begin{cases}
 ax^2 + bx + \epsilon & \text{ si } x \le 0.6\\
 c + \epsilon & \text{ si } x \gt 0.6
 \end{cases}
\end{equation}
 a) Ecrire le modèle sous la forme

\begin{equation}
 y = X\alpha + \epsilon
\end{equation}
et construire la matrice X associée

La contrainte de continuité implique $a 0.36 + b 0.6 = c$. En éliminant $c$ le modèle devient : 
\begin{equation}
y = \begin{cases}
 ax^2 + bx + \epsilon & \text{ si } x \le 0.6\\
 0.36 a + 0.6 b + \epsilon & \text{ si } x \gt 0.6
 \end{cases}
\end{equation}
et donc
$$
X = \left(
 \begin{array}{cc}
 .2^2 & -.2 \\
 .36 & .6 \\
 .08^2 & .08 \\
 .36 & .6 \\
\vdots & \vdots\\
 .48^2 & .48 
 \end{array}
 \right) 
$$

In [None]:
ip = np.where(x>0.6)[0]
X = np.stack([x**2,x], axis=1)
X[ip] = np.ones((len(ip),1))*[0.36, 0.6]
print(X)

2\. Estimer les paramètres du modèle

In [None]:
a = np.linalg.solve(X.T@X, X.T@y)
e = y - X@a
S2hat = e.T@e/16

3\. Visualiser les observations et le modèle de régression

In [None]:
plt.plot(x,y,'or')
z = X@a
plt.plot(x,z,'og')

t = np.arange(-0.4, 0.61, 0.01)
tp = np.arange(0.6, 1.4, 0.01)

t1 = np.stack([t**2, t])
tp1 = np.stack([np.ones((len(tp)))*0.36, np.ones((len(tp)))*0.6])

Xt = np.concatenate([t1, tp1], axis=1)

plt.plot(np.concatenate([t, tp]), Xt.T @ a,'b')
plt.show()