# TP 10 : P-valeurs
Le but du TP est de réaliser des simulations de variable aléatoire et des calculs de P-valeurs.

| Numéro | Compétence | 
|:------------- |:--------------------:|
|TS001|	Savoir définir une hypothèse nulle|
|TS002|	Connaître les différences entre les deux types d’erreurs|
|TS003|	Savoir interpréter une p-valeur|
|PY601|	Savoir calculer une p-valeur|
|PY602|	Être capable de calculer une statistique avec scipy|


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.io as sio
import scipy.stats as st

## Ex. 0 : Échauffement
1. Qu'est-ce que le module scipy.stats ?
2. Que font les méthodes `pdf`, `cdf`, `sf`, `ppf` et `isf` de `scipy.stats.norm` ?

https://docs.scipy.org/doc/scipy/reference/stats.html 

scipy.stats.norm correspond à une loi normale

 - pdf $$ f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp^{-\frac{(x-m)^2}{2 \sigma^2}}$$
 - cdf $$ F(x) = P(X \leq x) = \int_{-\infty}^x f(t) dt $$
 - sf $$sf(x) = 1 - F(x)$$
 - ppf
 - isf


$$p = \mathbb{P}(X < t)$$
$$p = cdf(t)$$
$$t = ppf(p)$$
$$s = \mathbb{P}(X \geq t)$$
$$ s = sf(t) $$
$$ t = isf(s) $$

et on a $$sf(t) = 1 - cdf(t)$$

3\. Dessinez les densités de probabilité d'une loi normale centrée réduite et une autre loi Normale $\mathcal{N}(\frac{1}{2}, 1.5^2)$.

In [None]:
from scipy.stats import norm
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-4, 4, 100)
plt.plot(x, norm.?(?))
plt.plot(x, norm.?(?, loc=?, scale=?))
plt.legend(['N(0,1)','N(1/2,1.5^2)'])
plt.grid()
plt.show()

In [None]:
from scipy.stats import norm
import numpy as np
import matplotlib.pyplot as plt
x = np.linspace(-4, 4, 100)
plt.plot(x, norm.pdf(x))
plt.plot(x, norm.pdf(x, loc=0.5, scale=1.5))
plt.legend(['N(0,1)','N(1/2,1.5^2)'])
plt.grid()
plt.show()

4\. Calculez, pour $X$ une variable aléatoire suivant une loi normale $\mathcal{N}(0,1)$ et $t \in R^+$, $\mathbb{P}(X < t)$ et $\mathbb{P}(|X| < t)$

In [None]:
t = 1.96
#P(X **aide** : vous pouvez utiliser la méthode `choice` de `numpy.random`

In [None]:
n, p = 1000, 10
rand = np.random.choice(?, size=[?, ?])

In [None]:
n, p = 1000, 10
rand = np.random.choice([0,1], size=[n, p]) #face est codé par 0, pile par 1
print(rand.shape)
print(rand[0:50,0:10])

2. Comptez le nombre de pile de chaque tirage et affichez l'histogramme correspondant. Sachant qu'une loi binomiale tend vers une loi normale $\mathcal{N}(p*pr,p*pr*(1-pr))$, tracez la densité de probabilité correspondante.

In [None]:
nb_pile = ?
plt.hist(nb_pile,bins=11)

pr = 1/2

x = np.linspace(-1, 11, 100)
plt.plot(x, ?*norm.?(x, loc=?, scale=?))


In [None]:
nb_pile = np.sum(rand, axis=1)
print(nb_pile.shape)
print(nb_pile[:10])
 
plt.hist(nb_pile,bins=11)

pr = 1/2
x = np.linspace(-1, 11, 100)

plt.plot(x, n*norm.pdf(x, loc=p*pr, scale=np.sqrt(p*pr*(1-pr))))


Car la loi binômiale $B(n,p)$ tend vers une loi normale d'espérence $np$ et de variance $npq$.

3. Comptez le nombre d’échantillons dans lesquels vous avez tiré de $k=0 $ à $p= 10$ fois piles.

In [None]:
mods,freqs = ?

In [None]:
mods, freqs = np.unique(nb_pile, return_counts=True)
mods, freqs

4. Comptez le nombre théorique moyen d’échantillon dans lesquels vous auriez du avoir de $k=0$ à $p=10$ fois piles.

In [None]:
import scipy.stats as st
print(p,n)
#loi binomiale de param pr pour p répetitions
# pmf : probability mass function
pr_observer_i_pile = np.array([st.binom.pmf(i, p, pr) for i in range(11)])
pr_observer_i_pile*n # transformation des probas en effectif

5. Approchez ce nombre en utilisant la loi normale

In [None]:
# param loi normale (TCL)
normal = np.array([st.norm.pdf(i, p*pr, np.sqrt(p*pr*(1-pr))) for i in range(11)])
normal*n

6. Affichez vos résultats. À savoir les effectifs observés, les effectifs prédits par la loi binomiale ainsi que les effectifs prédits par la loi normale.

In [None]:
plt.plot(np.arange(len(freqs)), freqs ,'o-', label='Echantillons')
plt.plot(np.arange(len(pr_observer_i_pile)), pr_observer_i_pile*n ,'x-r', label='Binomial')
plt.plot(np.arange(len(normal)), normal*n ,'+:g', label='Normale')
plt.legend()
#Les échantillons sont légeement différents

7. que se passe t’il lorsque $n=1000000$ et $p= 20$ ?

In [None]:
n, p = 1000000, 20

In [None]:
n, p = 1000000, 20
rand = np.random.choice([0,1], size=[n, p])
sums = np.sum(rand, axis=1)
mods, freqs = np.unique(sums, return_counts=True)

# Il y a une chance de tirer 0 ou 20 piles !
if 0 not in mods:
 mods = np.concatenate([[0], mods])
 freqs = np.concatenate([[0], freqs])
if 20 not in mods:
 mods = np.concatenate([mods, [20]])
 freqs = np.concatenate([freqs, [20]])


binom = n * np.array([st.binom.pmf(i, p, 0.5) for i in range(p+1)])
normal = n * np.array([st.norm.pdf(i, p/2, np.sqrt(p/4)) for i in range(p+1)])
plt.plot(np.arange(p+1), freqs ,'o-', label='Echantillons')
plt.plot(np.arange(p+1), binom ,'x-r', label='Binomial')
plt.plot(np.arange(p+1), normal ,'+:g', label='Normale')
plt.legend()
# on est bien plus proche de l'équivalence loi binomiale/normale/echantillons

## Ex. 2: La binômiale

On propose un questionnaire comprenant 10 questions avec chacune deux réponses possibles,l’une vraie et l’autre fausse. Pour tester si une personne interrogée répond correctement, on adopte la règle suivante : si 7 réponses ou plus sont correctes on admet que la personne n'a pas répondu au hasard.

1. Donner les deux hypothèses du tests

l'élève à travaillé : p > 1/2
l'élève a répondu au hasard : p = 1/2

$\begin{cases}
 \mathcal{H}_0: p = 1/2\\
 \mathcal{H}_1: p > 1/2
 \end{cases}
 $

2. Quelle est la p-valeur du test d’une personne qui a donné 8 réponses correctes ?

$$\mbox{p-val} = P(X \geq 8) = 1 - P(X \leq 8)$$

In [None]:
n = 10 # 10 questions
p = 1/2 # Hypothese H_0
p_val = (1 - st.binom.cdf(8,n,p)) #evenement plus rare que au moins 8 réponses correctes
p_val2 = st.binom.sf(8,n,p) # deux manieres de calculer
print(p_val,p_val2)

3. Quelle est la probabilité de décider qu’une personne à répondu correctement alors qu’elle a répondu au hasard ?

Si $X$ est une v.a. binômiale $B(n,p)$ avec $p=1/2$, 
$$
P(X \geq 7)
$$

In [None]:
alpha = (1 - st.binom.cdf(7,n,p)) # idem qu'avant
print(alpha)

4\. Que devient cette probabilité lorsque chacune des questions posées comporte trois réponses dont une seule est vraie ?

In [None]:
p = 1/3
alpha = (1 - st.binom.cdf(6,n,p))
alpha

## Ex. 3: La grande échelle FDR (Bonus mais intéressant !!)

Les industries pharmaceutiques ont toujours eu pour objectif de développer des méthodes permettant la production de nouvelles molécules thérapeutiques. L’approche privilégiée consiste à générer un grand nombre de molécules de les tester afin de décider si elles sont actives ou non. On parle alors de criblage ou screening. Nous allons supposer dans cet exercice que nous savons que parmi 1000 molécules testées, seulement 100 ont un effet avéré (et donc sont actives). Nous allons supposer que le risque de première espèce du test utilisé est de 5 % et que la puissance de ce test est de 0,7 et utiliser la théorie des tests statistiques vue en cours.

1. Quelle est, en moyenne, le nombre de faux positifs (le nombre de molécules réellement inactives que le test va déclarer actives) ?

on pose les hypothèses :
* H_0 : molécule inactive
* H_1 : molecule active

$\alpha$ :P(decider H1 | H0 est vraie) <- les faux positifs

In [None]:
# parmi toutes les réellement inactives, je commets 5 % d 'erreur 
alpha = 0.05 # mon risque alpha
nb_H0 = 900 # les inactives
alpha*nb_H0

2. Quelle est, en moyenne, le nombre de faux négatifs (le nombre de molécules actives que le test va déclarer inactives) ?

In [None]:
#beta : Decider H0 alors que H1 est vrai
puissance = .7
beta= 1-puissance 
nb_H1 = 1000-nb_H0
beta*nb_H1

3. Donnez une estimation de la probabilité de déclarer une molécule active alors qu’elle ne l’est pas.

In [None]:
# L'ensemble des molecules décidées active : P(D1|H0) + P(D1|H1)
decid_H1 = alpha*nb_H0 + (1-beta)*nb_H1

print(f"Nb molecules décidées active : {decid_H1}")

# parmi toutes les molécules décidées actives, quelle proportion de molécules ne le sont pas ?
p_err = (alpha*nb_H0)/decid_H1 # part des réellement H0 parmi les décidées H1
print(f"proba : {p_err}")

4. Qu’en concluez vous ?

Si je décide une molécule active, j'ai encore beaucoup d'incertitudes... Pourtant ma p valeur est standard à .05 !

5. Donnez la matrice de confusion « moyenne » du test


|/|molécule active|molecule inactive|totaux|
|---|---|---|---|
|test positif|?|?|?|
|test negatif|?|?|?|
|totaux|100|900|1000|



|/|molcule active|molecule inactive|totaux|
|---|---|---|---|
|test positif|70|45|115|
|test negatif|30|855|885|
|totaux|100|900|1000|
