# TP 10-2: Tests Statistiques

Le but du TP est de mettre en oeuvre les tests statistiques de t-student et du $\chi^2$ dans un contexte simple.


| Numéro        | Compétence           | 
|:------------- |:--------------------:|
|TS004|	Être capable de déterminer la statistique à utiliser|
|TS005|	Savoir conclure suite à un résultat du test statistique|
|TS101|	Savoir dans quel contexte utiliser un test du chi2|
|TS102|	Savoir calculer le nombre de degrés de liberté d’un test du chi2|
|TS103|	Etre capable d'appliquer un test du chi2 sur un tableau de contingence|
|TS104|	Connaître les limites du test du chi2|
|TS201|	Savoir dans quel contexte utiliser un test de student|
|TS202|	Connaître les limites du test de student|
|TS203|	Savoir calculer le nombre de degrés de liberté d’un test de student|
|PY603|	Être capable de mettre en œuvre un test de student|
|PY604|	Être capable de mettre en œuvre un test du chi^2 (adéquation et indépendance)|


##  $\chi^2$ Complet

Le but de cet exercice est de mettre en oeuvre un test statistique du $\chi^2$ de A à Z.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.io as sio
import scipy.stats as stats

Un échantillon aléatoire de 1367 diplômes d’université, délivrés en 2013, a donné la répartition suivante : 

/|Licence|Maîtrise|Doctorat
--|---|---|---
Masculin|534|144|22
Féminin|515|141|11

Peut-on statistiquement affirmer que genre et le niveau de diplôme obtenu sont liés ?


1. Donnez les hypothèses du tests
2. Quelle est la statistique à considérer ? Quel risque $\alpha$ considérez vous ?
3. Construire le tableau $T$ des effectifs théoriques
    

A.     

$\mathcal{H}_0$,  genre et le niveau de diplôme obtenu ne sont pas liés    (indépendance)
$\mathcal{H}_1$,  genre et le niveau de diplôme obtenu sont liés    

B. 

la distance du Chi2, alpha=0.05 (l'alpha est un choix)


In [None]:
#C
O = np.array([[534, 144, 22], [515, 141, 11]])
m = np.sum(O, axis=0) #les marginales
n = np.sum(O, axis=1)
          
T = np.outer(n, m) / np.sum(n)
T

4. Calculer la distance du $\chi_2$ entre les observations et les valeurs théoriques

In [None]:
D = np.sum((O-T)**2/T)
D

5. Quel est le nombre de degrés de liberté de la loi sous $\mathcal{H}_0$ ?

In [None]:
ddl = (len(n)-1)*(len(m)-1)
ddl

6. calculez la p-valeur du test

In [None]:
#deux manieres
print( 1 - stats.chi2.cdf(D,ddl))
print(stats.chi2.sf(D,ddl))



7. Quelle est votre conclusion ?

In [None]:
alpha=0.05
p = stats.chi2.sf(D,ddl)
if p < alpha:
    print("H_o est rejetée, genre et diplomes ne sont pas indépendants")
else:
    print("H_o est gardée, genre et diplomes sont indépendants")

In [None]:
# vérification 

chi2, p, dof, ex = stats.chi2_contingency(O)
print(chi2, p, dof, ex)

# $\chi^2$ pour test d'adéquation

(Si on a le temps, sinon semaine prochaine !)

On considère des variables qui peuvent prendre 4 valeurs différentes, notées $A,B,C$ et $D$, avec des probabilités respectives $p_A,p_B,p_C$ et $p_D$. On a récolté un échantillon de telles variables, les résultats sont résumés dans le tableau suivant :

Valeur prise |A|B|C|D
---|---|---|---|---
Effectif observé|48|53|17|12

1. Peut-on raisonnablement affirmer que $\{p_A=p_B=0,4$ et $p_C=p_D= 0,1\}$?

    1. Donnez les hypothèses du test
    2. Quelle est la statistique à considérer
    3. Construire le vecteur $T$ des effectifs théoriques

In [None]:
import numpy as np
import scipy.stats as stats

In [None]:
#H_O adéquation OK
#test du chi2 ==> calcul de la distance du chi2
O = np.array([48, 53, 17, 12])
p = np.array([.4, .4, .1, .1])
T = p * np.sum(O)
T

D.  calculer la distance du $\chi^2$ entre les observations et les valeurs théoriques

In [None]:
Dchi2 =np.sum((O-T)**2/T)
Dchi2

E. Quel est le nombre de degrés de liberté de la loi sous $\mathcal{H}_0$ ?

In [None]:
ddl = len(O) - 1

ddl

F. calculez la p-valeur du test

In [None]:
pval = 1 - stats.chi2.cdf(Dchi2, ddl)
pval = stats.chi2.sf(Dchi2, ddl)

pval

G. que concluez vous ?



Que l'on peut raisonnablement affirmer que $P(A)=P(B)=0,4$ et $P(C)=P(D)=0,1$

In [None]:
Di, pval = stats.chisquare(O,T)
print(Di,pval)

# Test de Student et Hauteurs d'Arbres

Dans deux types de forêts distincts, on a mesuré en mètre les hauteurs dominantes respectivement de 14 et 13 peuplements du même age choisis au hasard et indépendamment.


type\peuplement   | 1|2|3|4|5|6|7|8|9|10|11|12|13|14|
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---
type 1 |23.4 |24.4 |24.6 |24.9 |25.0 |26.2 |26.3 |26.8 |26.8 |26.9 |27.0 |27.6 |27.7 |28.5
type 2 |22.5 |22.9 |23.7 |24.0 |24.4 |24.5 |25.3 |26.0 |26.2 |26.4 |26.7 |26.9 |27.4| |

Considérons un risque de première espèce de 0,05. En considérant que la variance des hauteurs mesurées est connue $(\sigma^2 = 1.7)$, on cherche à savoir si les hauteurs moyennes des deux types de forêts sont identiques.


1. Posez les hypothèses

* $H_0$   les deux forêts sont identiques : $\mu_1 = \mu_2$    
* $H_1$    les deux forêts sont différentes: $\mu_1 \neq \mu_2$

2. Quel statistique et quel test allez vous utilisez ? Justifiez votre réponse !


la différence des moyennes centrée réduite/ test z car variance connue et H_0 suit une loi normale.

3. Calculez la statistique et la p-valeur associées à vos données

In [None]:
import numpy as np
import scipy.stats as stats
x = np.array([23.4, 24.4, 24.6, 24.9, 25.0, 26.2, 26.3, 26.8, 26.8, 26.9, 27.0, 27.6, 27.7, 28.5])
y = np.array([22.5, 22.9, 23.7, 24.0, 24.4, 24.5, 25.3, 26.0, 26.2, 26.4, 26.7, 26.9, 27.4])
nx = len(x)
ny = len(y)
mx = np.mean(x)
my = np.mean(y)
sig2 = 1.7
u = (mx-my)/np.sqrt(sig2*(1/nx+1/ny))
pval = 2*(1 - stats.norm.cdf(abs(u),0,1))
pval

la p-val étant inférieure au seuil choisi (ici 0,05), on rejette H0

4. les deux forêts sont-elles toujours identiques si l’on suppose que la variance des hauteurs mesurées est inconnue ?
Justifiez votre raisonnement

In [None]:
#variance inconnue donc test de t-student

Sx = np.sum((x-mx)**2)
Sy = np.sum((y-my)**2)

shat = (Sx + Sy)/(nx+ny-2)

t = (mx-my)/np.sqrt(shat*(1/nx+1/ny))

pval = 2*(1 - stats.t.cdf(abs(t),nx+ny-2))

pval, shat, t

In [None]:
# vérification à l'aide de scipy.stats
s,p = stats.ttest_ind(x,y)
print(s,p)

la p-val étant de 0.1 donc superieur à 0.05, on garde H0

# Mesure de dépendance Exam

Cet exercice reprend le médian 2024. Il s'agit de mettre en oeuvre le test du chi2, et de recalculer le tableau de contingence.

Pour cet exercice, nous allons nous intéresser aux poissons observés sur chacun des sites le long de la rivière du Doubs. Pour cela, nous allons utiliser une liste indiquant si les sites sont pollués ou non.

In [None]:
sites_pollues = np.array([False, False, False, False, False, False, False, True, True, False, False, False, False, False, False, False, False, False, False, False, False, False, True, True, True, True, True, True, True, True])


1. Nous allons évaluer la dépendance entre la pollution d'un site de prélèvement et les espèces de poissons observées sur chacun des sites. Analysez les variables especes et poissons pour comprendre son contenu.  Quelles sont les modalités de chacune des variables ? Quelle est votre hypothèse nulle ? 

In [None]:
import numpy as np 
especes = np.load("doubs_species.npy",allow_pickle=True)
poissons = np.load("doubs_fish.npy")


# Deux variables qualitatives
#modalités variable 1 : pollué, non pollué
# modalités variables 2 : 
especes[:,1]

Hypothese nulle : la distribution des especes est indépendante de la pollution.

2. Calculez le tableau de contingence entre la pollution des sites et les espèces observées. Comparez et assurez vous de trouver la même chose que le tableau fourni. Si ce n'est pas le cas, utilisez `contingence_prof` pour le reste de l'exercice.  

In [None]:
contingence = ... 


In [None]:
# calcul du tableau de contingence
# Le tableau de contingence va renseigner le nb de poissons observés pour chaque espece et chaque type de site (pollué ou non)
n,p = poissons.shape
cont = np.zeros((2,p))
for i in range(n):
    if sites_pollues[i]:
        cont[1] += poissons[i] # site pollue en 2 eme ligne
    else:
        cont[0] += poissons[i]
print(cont)

3. Calculez les effectifs marginaux pour chaque ligne et colonne, ainsi que l'effectif total.

In [None]:

marg_l = ...
marg_c = ...
n = ...

In [None]:
marg_l = np.sum(contingence_prof,axis=1)
marg_c = np.sum(contingence_prof,axis=0)
n = np.sum(contingence_prof)


4. Calculez le tableau théorique des effectifs, sous l'hypothèse que les deux variables soient indépendantes

In [None]:
tab_theo = ...

In [None]:
tab_theo = 1/n * np.outer(marg_l,marg_c)
print(tab_theo)

5. Calculez la distance du chi2 associée à ces deux variables

In [None]:
chi2 = ...
print(chi2)

In [None]:
chi2 = np.sum((tab_theo - contingence_prof)**2/tab_theo)
print(chi2)

7. Est ce que vous rejetez l'hypothèse nulle ? 

In [None]:
from scipy.stats import chi2_contingency
chi2_contingency(contingence_prof)
# p value tres faible -> on rejette