# TP 8 : Diagnostic de la régression : analyse des observations
Le but du TP est de réaliser un diagnostic d'un modèle de régression d'un point de vue général, ainsi que via l'observation des variables. Ce TP vous permettra d'implémenter le calcul du $R^2$, ainsi que des coefficients de levier et de contribution.

| Numéro | Compétence | 
|:------------- |:--------------------:|
|PY502|	Afficher un résumé du diagnostic de la régression et savoir l’analyser|
|RL203|	Savoir analyser les résidus de régression|
|RL204|	Comprendre la définition de l’effet levier d’une observation|
|RL205|	Comprendre la définition de la contribution d’un couple|


In [None]:
import numpy as np
import matplotlib.pyplot as plt

## Ex. 1 — Détection de points aberrants dans la régression
On considère les n = 11 observations suivantes :

i| 1| 2 |3| 4| 5| 6| 7| 8| 9 |10| 11
---|---|---|---|---|---|---|---|---|---|---|---
x | -1.0782 |0.0838| 0.1524 |0.2290| 0.4427| 0.4505| 0.5383| 0.8258| 0.9133| 0.9961| 3.0597
y| -0.8307| 0.1538 |0.0926| 0.2336| 0.3903| 0.1005| 0.4812 |0.6595| 0.7175| 0.7648 |0.3519

Les observations $y$ sont liées aux $x$ à travers le modèle linéaire :
$y_i = ax_i + b + \epsilon_i \text{, avec } i = 1, n$
où les $\epsilon_i$ sont des variables aléatoires i.i.d. distribuées selon une loi normale centrée de variance
$\sigma^2$ inconnue et $(a, b)$ sont deux paramètres inconnus.

1. Effectuons les calculs liés au modèle de régression et à son diagnostic.

 a) construire une matrice $X$ et un vecteur $y$ contenant les données de la régression que l’on souhaite effectuer.

In [None]:
data = np.array([
 [1, -1.0782, -.8307],
 [2, 0.0838, 0.1538],
 [3, 0.1524, 0.0926],
 [4, 0.2290, 0.2336],
 [5, 0.4427, 0.3903],
 [6, 0.4505, 0.1005],
 [7, 0.5383, 0.4812],
 [8, 0.8258, 0.6595],
 [9, 0.9133, 0.7175],
 [10, 0.9961, 0.7648],
 [11, 3.0597, 0.3519]
])
X = ...
y = ...


a) Calculer l’estimation de $a$ et $b$ sens des moindres carrés

In [None]:
...
a = ...
b = ...

b) Plotter $x$ et $y$, ainsi que votre droite de régression.

c) Calculer des résidus et une estimation non biaisée de la variance des erreurs $\sigma^2$.
> **Aide** Combien de degré de libertés pour les résidus ?

d) Évaluer la qualité globale de la régression

e) Calculer le levier de chaque observation. Affichez les valeurs sous forme d'un graphique en barres.

In [None]:
h = ...

g) Calculer la contribution de chaque observation. Idem, affichez les valeur sous forme de graphiques en barres.

In [None]:
c = ...

h) Visualisez tous ces résultats dans un tableau contenant le vecteur des observations
$x$, le vecteur des réponses $y$, les prédiction du modèle, les résidus, les leviers, les
contributions et une variable binaire repérant les points dont la contribution dépasse
$4/n$. Ces résultats vous paraissent ils cohérents ?

2. Nous allons maintenant « consolider » ces résultats en écrivant une fonction réutilisable (et par la même nous abstraire du copier/coller et de ces effets néfastes).
 
a) Écrire une fonction Python ma_reg permettant d’intégrer les calculs fait précédemment. Votre fonction prendra la matrice $X$ et le vecteur $y$ comme paramètres d’entrée et retournera :
 
- l’estimation des paramètres de la régression sens des moindres carrés,
- une estimation de la variance des erreurs $\sigma^2$,
- le coefficient de détermination $R^2$
- une matrice n × 3 contenants des éléments permettant de réaliser le diagnostic de la régression à savoir :
 - les résidus,
 - le levier de chaque observation,
 - la contribution de chaque observation.

In [None]:
def ma_reg(X,y):
 pass

c) Écrire un script Python permettant de tester cette fonction. Que constatez vous ?

d) Que se passe t’il si l’on exécute les instruction suivantes ?

In [None]:
yp = X
a, s2, R2, diagd = ma_reg(X,yp)

e) Ajouter au début de la fonction ma_reg un test permettant de vérifier que les dimensions de la matrice $X$ et du vecteur $y$ sont bien conformes

In [None]:
def ma_reg(X,y):
 pass

3\. Effectuer le diagnostic de la régression
 
a) trouver une observation avec un résidu important et un faible levier

b) trouver une observation avec un faible résidu et un fort levier
 
 

c) trouver une observation avec un fort résidu et un levier important. Vérifier que vous avez bien détecté qu’il s’agit d’un point aberrant.
 
 

 
d) Après avoir éliminé le point aberrant, refaire toutes les étapes de la régression

a) trouver une observation avec un résidu important et un faible levier
 
C'est le cas du 6ème point dans la régression 
 
b) trouver une observation avec un faible résidu et un fort levier
 
C'est le cas du premier point ($H_{11} = 0.75$)

## Ex. 2 — Modèle mal spécifié
On considère les n = 11 observations suivantes :

x| 1.00 |1.50| 2.00| 2.50| 3.00| 3.50| 4.00| 4.50| 5.00| 5.50| 6.0000
---|---|---|---|---|---|---|---|---|---|---|---|
y| 5.10| 4.56| 4.85| 7.48| 9.10| 11.65| 14.87| 19.20| 24.23| 32.10| 39.80

1. Effectuer le régression linéaire entre x et y et déterminer le coefficient de corrélation et visualiser les résidus. Ces résidus sont-ils conformes aux hypothèses de la régression ?

In [None]:
data = np.array([[1, 5.1],
 [1.5, 4.56],
 [2, 4.85],
 [2.5, 7.48],
 [3, 9.1],
 [3.5, 11.65],
 [4, 14.87],
 [4.5, 19.2],
 [5, 24.23],
 [5.5, 32.1],
 [6, 39.8]])


2\. Effectuer la régression polynomiale (degré 2) entre x et y et déterminer le coefficient de détermination. La régression polynomiale consiste à faire l’hypothèse que les observations $y$ sont liées aux $x$ à travers le modèle quadratique :

$y_i = a_0 + a_1x_i + a_2x^2_i + \epsilon_i\text{, avec } i = 1, n$

où les $\epsilon_i$ sont des variables aléatoires i.i.d. distribuées selon une loi normale centrée de
variance $\sigma^2$ inconnue et $(a_0, a_1, a_2)$ sont trois paramètres inconnus.

3\. Visualiser les résidus de la régression et vérifier qu’ils vérifient bien les hypothèses de la régression.

4\. Comparez les coefficients de détermination des deux régressions.