SlideShare une entreprise Scribd logo
1  sur  80
Télécharger pour lire hors ligne
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Probabilites  statistiques 
quelques brefs rappels # 2 
Arthur Charpentier, 2014 
http ://freakonometrics.hypotheses.org/category/courses/m1-statistique 
1
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Plan du cours 
 Introduction, la modelation statistique 
 Rappels de probabilite 
 Fonctions usuelles, P, F, f, E, Var 
 Lois uselles, discetes et continues 
 Conditionnement, esperance conditionnelle et melanges 
 Convergence, approximations et theoremes limites 
 Loi(s) des grands nombres 
 Theoreme central limite 
 Rappels de statistique (mathematique) 
 De la statistique descriptive a la statistique mathematique 
 Echantillonnage, moyenne et variance 
 Intervalle de con
ance 
 Introduction aux tests 
2
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
L'estimateur comme variable aleatoire 
En statistique descriptive, on construit des estimateurs comme des fonctions des 
valeurs de l'echantillon, fx1;    ; xng, e.g. 
xn = 
x1 +    + xn 
n 
En statistique mathematique, on suppose que xi = Xi(!), i.e. la realisation d'un 
variable aleatoire sous-jacente 
Xn = 
X1 +    + Xn 
n 
X1,..., Xn etant des variables aleatoires, Xn devient une variable aleatoire. 
Exemple : supposons que nous disposons d'un echantillon de n = 20 valeurs 
tirees suivant une loi uniforme sur [0; 1]. 
3
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Distribution de la moyenne d'un échantillon U([0,1]) 
Fréquence 
0.0 0.2 0.4 0.6 0.8 1.0 
0 50 100 150 200 250 300 
0.457675 
l 
Figure 1 { Distribution de la moyenne de fX1;    ;X10g, Xi  U([0; 1]). 
4
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Distribution de la moyenne d'un échantillon U([0,1]) 
Fréquence 
0.0 0.2 0.4 0.6 0.8 1.0 
0 50 100 150 200 250 300 
0.567145 
l l l l l l l ll l l l l l l l ll l l l l l l l l l l l l l l l l l l l ll l l l l l ll l l l l l l l l l l l l ll l lll l l l l l l l l ll ll l l ll l l l ll l l l l l lll ll ll l l ll l l l l l 
lll l ll l ll ll ll ll l l l l l lll ll l l ll ll l l ll l l l l ll ll l l ll l ll l l l l ll lll l l l l l ll l l l l ll l lll lll ll ll l l Figure 2 { Distribution de la moyenne de fX1;    ;X10g, Xi  U([0; 1]). 
5
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
L'estimateur comme variable aleatoire 
Si l'echantillon change, l'estimateur n'est pas le m^eme. 
Constituons 1000 echantillons de maniere aleatoire. En moyenne, l'estimateur 
vaut 1=2. Aussi, la moyenne empirique est un estimateur sans biais de 1=2, 
l'esperance mathematique de la loi uniforme sur [0; 1]. 
Cet estimateur a une variance, et aussi une loi (en l'occurence une densite). Ici, 
la moyenne empirique suit (presque) une loi normale. 
On distingera toutefois les comportements a distance
nie (n
xe) et 
asymptotique (theoremes limites - loi des grands nombres et theoreme central 
limite - obtenus lorsque n ! 1). 
6
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Petites proprietes preliminaires 
Soit x = (x1;    ; xn) 2 Rn. Posons x = 
x1 +    + xn 
n 
. Alors, 
min 
m2R 
( 
Xn 
i=1 
[xi  m]2 
) 
= 
Xn 
i=1 
[xi  x]2 
et 
Xn 
i=1 
[xi  x]2 = 
Xn 
i=1 
x2i 
 nx2 
7
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
La moyenne (empirique) 
De
nition 1. Soit fX1;    ;Xng des variables i.i.d. de loi F. La moyenne 
empirique est 
Xn = 
X1 +    + Xn 
n 
= 
1 
n 
Xn 
i=1 
Xi 
Si on suppose les Xi d'esperance
nie (notee ), alors 
E(Xn) = E 
  
1 
n 
Xn 
i=1 
Xi 
! 
= 
1 
n 
Xn 
i=1 
E(Xi) = 
1 
n 
n =  
 par linearite de l'esperance 
Proposition 2. Si on suppose les Xi d'esperance
nie (notee ), 
E(Xn) = : 
La moyenne est un estimateur sans biais de l'esperance mathematique. 
8
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
La moyenne (empirique) 
Si on suppose les Xi independants de variance
nie (notee 2), alors 
Var(Xn) = Var 
  
1 
n 
Xn 
i=1 
Xi 
! 
= 
1 
n2 
Xn 
i=1 
Var (Xi) = 
1 
n2 n2 = 
2 
n 
 car les variables sont independantes, et car la variance est quadratique. 
Proposition 3. Si on suppose les Xi i.i.d. de variance
nie (notee 2), 
Var(Xn) = 
2 
n 
: 
9
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
La variance (empirique) 
De
nition 4. Soit fX1;    ;Xng des variables i.i.d. de loi F. La variance 
empirique est 
S2n 
= 
1 
n  1 
Xn 
i=1 
[Xi  Xn]2: 
Si on suppose les Xi de variance
nie (notee 2), 
E(S2n 
) = E 
  
1 
n  1 
Xn 
i=1 
[Xi  Xn]2 
! 
= 
E 
  
1 
n  1 
 
Xn 
i=1 
X2 
i  nX 
2 
n 
#! 
 par la propriete preliminaire enoncee auparavant 
E(S2n 
) = 
1 
n  1 
[nE(X2 
i )  nE(X 
2 
)] 
= 
1 
n  1 
 
n(2 + 2)  n 
 
2 
n 
+ 2 
 
= 2 
 car Var(X) = E(X2)  E(X)2 
10
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
La variance (empirique) 
Proposition 5. Si on suppose les Xi independants de variance
nie (notee 2), 
E(S2n 
) = 2: 
2n 
La variance (empirique) est un estimateur sans biais de la variance. 
Remarque Pour avoir un estimateur sans biais, on considere comme estimateur 
S, avec un facteur n  1, et non pas 
eS2n 
= 
1 
n 
Xn 
i=1 
[Xi  Xn]2 
(qui reste un estimateur classique). 
11
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Cas d'un echantillon Gaussien 
2n 
Proposition 6. Si on suppose les Xi i.i.d. de loi N(; 2), alors 
 Xn et Ssont des variables aleatoires independantes, 
 Xn a pour loi N 
 
; 
2 
n 
 
 (n  1)S2n 
=2 a pour loi 2(n  1). 
Remarque Pour comprendre l'histoire du n  1 degres de libertes pour une 
somme de n termes, notons que 
S2n 
= 
1 
n  1 
 
Xn 
i=1 
(Xi  Xn)2 
# 
= 
1 
n  1 
 
(X1  Xn)2 + 
Xn 
i=2 
(Xi  Xn)2 
# 
soit S2n 
= 
1 
n  1 
2 
4 
  
Xn 
i=2 
!2 
(Xi  Xn) 
+ 
Xn 
i=2 
(Xi  Xn)2 
3 
5 
car 
Xn 
i=1 
(Xi  Xn) = 0. Aussi S2n 
est fonction de n  1 variables (centrees), 
X2  Xn;    ;Xn  Xn 
12
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Cas d'un echantillon Gaussien 
Proposition 7. Si on suppose les Xi i.i.d. de loi N(; 2), alors 
 
p 
n 
Xn   
 
suit une loi N(0; 1) 
 
p 
n 
Xn   
Sn 
suit une loi de Student a n  1 degres de liberte 
En eet, 
p 
n 
Xn   
S 
= 
p 
n 
Xn   
| {z } 
N(0;1) 
= 
r 
(n  1)S2n 
2 | {z } 
2(n1) 
 
p 
n  1 
13
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Proprietes asymptotiques 
Proposition 8. Si on suppose les Xi i.i.d. de loi F, de moyenne  et de 
variance 2 (
nie). Alors pour tout   0, 
lim 
n!1P(jXn  j  ) = 0 
i.e. Xn 
P! 
 (convergence en probabilite). 
Proposition 9. Si on suppose les Xi i.i.d. de loi F, de moyenne  et de 
variance 2 (
nie). Alors pour tout   0, 
lim 
n!1P(jS2n 
 2j  )  
Var(S2n 
) 
2 
i.e. une condition susante pour que S2n 
P! 
2 (convergence en probabilite) est 
que Var(S2n 
) ! 0 lorsque n ! 1. 
14
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Proprietes asymptotiques 
Proposition 10. Si on suppose les Xi i.i.d. de loi F, de moyenne  et de 
variance 2 (
nie). Alors pour tout z 2 R, 
lim 
n!1P 
 
p 
n 
Xn   
 
 z 
 
= 
Z z 
1 
1 
p 
2 
exp 
 
 
t2 
2 
 
dt 
i.e. 
p 
n 
Xn   
 
L! 
N(0; 1): 
Remarque Si les Xi ont pour loi N(; 2), alors 
p 
n 
Xn   
 
 N(0; 1): 
15
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Estimation de la variance 
Considerons un echantillon Gaussien, alors 
Var 
 
(n  1)S2n 
2 
 
= Var(Z) avec Z  2 
n1 
donc cette quantite vaut 
(n  1)2 
4 Var(S2n 
) = 2(n  1) 
de telle sorte que 
Var(S2n 
) = 
2(n  1)4 
(n  1)2 = 
24 
(n  1) 
: 
16
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Estimation de l'ecart-type et de la variance 
Considerons le cas ou Xi  N(; 2). Un estimateur naturel de  est 
Sn = 
p 
S2n 
= 
vuut 
1 
n  1 
Xn 
i=1 
(Xi  Xn)2 
On peut alors montrer que 
E(Sn) = 
r 
2 
n  1 
(n=2) 
([n  1]=2) 
  
 
1  
1 
4n 
 
7 
32n2 
 
6=  
mais 
Sn 
P! 
 et 
p 
n(Sn  ) 
L! 
N 
 
0; 
 
2 
 
17
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Estimation de l'ecart-type et de la variance 
0 50 100 150 
0.93 0.95 0.97 0.99 
Taille de l'échantillon (n) 
Biais (multiplicatif) 
Figure 3 { Biais lors de l'estimation de l'ecart-type. 
18
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Echantillon transforme 
Soit g : R ! R susemment reguliere pour ecrire un developpement de Taylor en 
tout point, 
g(x) = g(x0) + g0(x0)  [x  x0] + un reste 
Soit Yi = g(Xi). Alors, si E(Xi) =  avec g0()6= 0 
Yi = g(Xi)  g() + g0()  [Xi  ] 
de telle sorte que 
E(Yi) = E(g(Xi))  g() 
et 
Var(Yi) = Var(g(Xi))  [g0()]2Var(Xi) 
Remarque Il ne s'agit que d'approximations. 
19
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Echantillon transforme 
La delta-method permet d'obtenir des proprietes asymptotiques. 
Proposition 11. Si on suppose les Xi i.i.d. de loi F, de moyenne  et de 
variance 2 (
nie), alors 
p 
n(Xn  ) 
L! 
N(0; 2) 
Et si g0()6= 0, alors 
p 
n(g(Xn)  g()) 
L! 
N(0; [g0()]22) 
Proposition 12. Si on suppose les Xi i.i.d. de loi F, de moyenne  et de 
variance 2 (
nie), et si g0() = 0 mais g00()6= 0, alors 
p 
n(g(Xn)  g()) 
L! 
g00() 
2 
22(1) 
20
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Echantillon transforme 
Example Si 6= 0, 
p 
n 
 
1 
Xn 
 
1 
 
 
L! 
N 
 
0; 
1 
4 2 
 
21
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Intervalle de con
ance pour  
Quand on parlera de l'intervalle de con
ance de  a un niveau de con
ance 1   
(e.g. 95%), il s'agira du plus petit intervallle I tel que 
P( 2 I) = 1  : 
Notons u le quantile de la loi N(0; 1) au niveau , i.e. 
u=2 = u1=2 veri
e (u=2) = =2 
Comme Z = 
p 
n 
Xn   
 
 N (0; 1), 
on peut en deduire que P(Z 2 [u=2; u1=2]) = 1  , 
et donc 
P 
 
 2 
 
X + 
u=2 p 
n 
;X + 
u1=2 p 
n 
 
 
= 1  : 
22
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Intervalle de con
ance, moyenne d'un echantillon normal 
 si  = 10%, u1=2 = 1:64 et donc, avec une probabilite de 90%, 
X  
1:64 
p 
n 
    X + 
1:64 
p 
n 
; 
 si  = 5%, u1=2 = 1:96 et donc, avec une probabilite de 95%, 
X  
1:96 
p 
n 
    X + 
1:96 
p 
n 
; 
23
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Intervalle de con
ance, moyenne d'un echantillon normal 
Si la variance est inconnue, on l'estime par S2n 
= 
1 
n  1 
  
Xn 
i=1 
X2 
i 
! 
 X 
2 
n. 
On a vu que 
(n  1)S2n 
2 = 
Xn 
i=1 
0 
BB@ 
Xi  E(X) 
| {z } 
N(0;1) 
1 
2 
CCA 
| {z } 
loi du 2(n) 
 
0 
BBB@ 
Xn  E(X) 
p 
| = 
{z n } 
N(0;1) 
1 
2 
CCCA 
| {z } 
loi du 2(1) 
Le theoreme de Cochrane permet de conclure que 
(n  1)S2n 
2 
 2(n  1). 
24
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
2n 
Intervalle de con
ance, moyenne d'un echantillon normal 
Comme Xn et Ssont independantes, 
T = 
p 
n  1 
Xn   
Sn 
= 
Xn 
p 
= 
q n1 
(n1)S2n 
(n1)2 
 St(n  1): 
Si t(n1) 
=2 designe le quantile de la loi St(n  1) au niveau =2, i.e. 
t(n) 
=2 = t(n1) 
1=2 veri
e P(T  t(n1) 
=2 ) = =2 
on peut en deduire que P(T 2 [t(n1) 
=2 ; t(n1) 
1=2]) = 1  , et donc 
P 
0 
@ 2 
2 
4X + 
t(n1) 
=2 p 
n  1 
;X + 
t(n1) 
1=2 p 
n  1 
 
3 
5 
1 
A = 1  : 
25
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Intervalle de con
ance, moyenne d'un echantillon normal 
 si n = 10 et  = 10%, u1=2 = 1:833 et donc, avec une probabilite de 90%, 
X  
1:833 
p 
n 
    X + 
1:833 
p 
n 
; 
 si n = 10 et si  = 5%, u1=2 = 2:262 et donc, avec une probabilite de 95%, 
X  
2:262 
p 
n 
    X + 
2:262 
p 
n 
; 
−3 −2 −1 0 1 2 3 
0.0 0.1 0.2 0.3 0.4 
Quantiles 
Intervalle de confiance 
IC 90% 
IC 95% 
Figure 4 { Quantiles pour n = 10,  connue ou inconnue. 
26
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Intervalle de con
ance, moyenne d'un echantillon normal 
 si n = 20 et  = 10%, u1=2 = 1:729 et donc, avec une probabilite de 90%, 
X  
1:729 
p 
n 
    X + 
1:729 
p 
n 
; 
 si n = 20 et si  = 5%, u1=2 = 2:093 et donc, avec une probabilite de 95%, 
X  
2:093 
p 
n 
    X + 
2:093 
p 
n 
; 
−3 −2 −1 0 1 2 3 
0.0 0.1 0.2 0.3 0.4 
Quantiles 
Intervalle de confiance 
IC 90% 
IC 95% 
Figure 5 { Quantiles pour n = 20,  connue ou inconnue. 
27
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Intervalle de con
ance, moyenne d'un echantillon normal 
 si n = 100 et  = 10%, u1=2 = 1:660 et donc, avec une probabilite de 90%, 
X  
1:660 
p 
n 
    X + 
1:660 
p 
n 
; 
 si n = 100 et si  = 5%, u1=2 = 1:984 et donc, avec une probabilite de 95%, 
X  
1:984 
p 
n 
    X + 
1:984 
p 
n 
; 
−3 −2 −1 0 1 2 3 
0.0 0.1 0.2 0.3 0.4 
Quantiles 
Intervalle de confiance 
IC 90% 
IC 95% 
Figure 6 { Quantiles pour n = 100,  connue ou inconnue. 
28
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
La lecture des tables 
Fonction de repartition de la loi normale X  N(0; 1), 
P(X  u) = (u) = 
Z u 
1 
1 
p 
2 
ey2=2dy 
Example P(X  1; 96) = 0; 975. 
29
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Interpretation d'un intervalle de con
ance 
Si on genere des echantillons i.i.d. suivant une loi N(; 2), avec  et 2
xes, il y 
a 90 chances sur 100 que  soit dans un des intervalles suivants 
 
X + 
u=2 p 
n 
;X + 
u1=2 p 
n 
 
 
l 
l 
l 
l 
ll 
l 
l 
l 
l 
l 
lll 
l 
l 
ll 
l 
ll 
l 
l 
ll 
l 
ll 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
ll 
l 
l 
ll 
l 
l 
l 
ll 
l 
l 
l 
l 
ll 
l 
l 
l 
ll 
l 
l 
ll 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
ll 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
ll 
l 
l 
ll 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
ll 
l 
l 
ll 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
ll 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
ll 
l 
l 
l 
l 
l 
l 
l 
l 
ll 
l 
l 
l 
ll 
l 
l 
l 
l 
l 
l 
l 
l 
l 
0 50 100 150 200 
−1.0 −0.5 0.0 0.5 1.0 
intervalle de confiance Figure 7 { Intervalle de con
ance pour , avec 2 connue. 
30
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Interpretation d'un intervalle de con
ance 
ou 2 
4X + 
t(n1) 
=2 p 
n  1 
;X + 
t(n1) 
1=2 p 
n  1 
 
3 
5 
l 
l 
l 
l 
ll 
l 
l 
l 
l 
l 
lll 
l 
l 
ll 
l 
ll 
l 
l 
ll 
l 
ll 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
ll 
l 
l 
ll 
l 
l 
l 
ll 
l 
l 
l 
l 
ll 
l 
l 
l 
ll 
l 
l 
ll 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
ll 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
ll 
l 
l 
ll 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
ll 
l 
l 
ll 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
ll 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
ll 
l 
l 
l 
l 
l 
l 
l 
l 
ll 
l 
l 
l 
ll 
l 
l 
l 
l 
l 
l 
l 
l 
l 
0 50 100 150 200 
−1.0 −0.5 0.0 0.5 1.0 
intervalle de confiance 
Figure 8 { Intervalle de con
ance pour , avec 2 estimee. 
31
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Un peu de tests 
Le lien entre la decision est la vraie valeur peut ^etre represente par le tableau 
ci-dessous 
H0 vraie H1 vraie 
Decision d0 Bonne decision erreur de seconde espece 
Decision d1 erreur de premiere espece Bonne decision 
32
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Resumons les principaux tests usuels 
Considerons un test d'egalite de moyenne sur un echantillon 
8 
: 
H0 :  = 0 
H0 : 6=0 
La statistique de test est 
T = 
p 
n 
x  0 
s 
ou s2 = 
1 
n  1 
Xn 
i=1 
(xi  x)2; 
qui veri
e, sous H0, T  St(n  1). 
−6 −4 −2 0 2 4 6 
0.0 0.1 0.2 0.3 0.4 
33
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Comparaison de moyennes de deux echantillons 
Considerons un test d'egalite de moyenne sur deux echantillons. 
On dispose de deux echantillons, fx1;    ; xng et fy1;    ; ymg. On souhaite tester 
8 
: 
H0 : X = Y 
H0 : X6=Y 
On rajoute une hypothese, X  N(X; 2X 
) et Y  N(Y ; 2Y 
), i.e. 
X  N 
 
X; 
2X 
n 
 
et Y  N 
 
Y ; 
2Y 
m 
 
34
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Comparaison de moyennes de deux echantillons 
−1 0 1 2 0.0 0.5 1.0 1.5 2.0 
l ll l l l l l l ll l l l l 
35
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Comparaison de moyennes de deux echantillons 
Par independance entre X et Y , notons que  = X  Y suit une loi normale, 
E() = X  Y et V ar() = 
2X 
n 
+ 
2Y 
m 
Donc sous H0, X  Y = 0 et donc 
D  N 
 
0; 
2X 
n 
+ 
2Y 
m 
 
; 
i.e.  = 
X  Y r 
2X 
n 
+ 
2Y 
m 
 N(0; 1): 
36
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Comparaison de moyennes de deux echantillons 
Probleme X et Y sont inconnus : on les remplace par des estimateurs bX et 
bY , 
i.e.  = 
X  Y r 
b2X 
n 
+ 
b2Y 
m 
 St(); 
ou  est une fonction (compliquee) de n1 et n2. 
On se donne un seuil d'acceptation  2 [0; 1] (e.g. 10%), 
8 
: 
on accepte H0 si t=2    t1=2 
on accepte H0 si   t=2 ou   t1=2 
37
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
REJET REJET 
−2 −1 0 1 2 
0.0 0.1 0.2 0.3 0.4 0.5 
l ll l ll l l l ll ll l l 
ACCEPTATION 
38
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
On peut se demander la probabilite p d'obtenir une valueur au moins aussi 
grande que  si H0 est vraie, 
p = P(jZj  jjjH0 vraie) = P(jZj  jjjZ  St()): 
−2 −1 0 1 2 
0.0 0.1 0.2 0.3 0.4 0.5 
l ll l ll l l l ll ll l l 
34.252 % 
39
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Sous R, t.test(x, y, alternative = c(two.sided, less, greater), mu = 0, 
var.equal = FALSE, conf.level = 0.95) permet de tester si les moyennes de deux 
chantillons x et y sont egales (mu=0), contre H1 : X6= Y (two.sided). 
−2 −1 0 1 2 
0.0 0.5 1.0 1.5 2.0 
l ll l l l ll l l l l l ll l 
40
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
REJET REJET 
−2 −1 0 1 2 
0.0 0.1 0.2 0.3 0.4 0.5 
l ll l l l ll l l l l l ll l 
ACCEPTATION 
41
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
−2 −1 0 1 2 
0.0 0.1 0.2 0.3 0.4 0.5 
l ll l l l ll l l l l l ll l 
2.19 % 
42
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Resumons les principaux tests usuels 
Considerons un test d'egalite de moyenne sur un echantillon 
8 
: 
H0 :  = 0 
H0 : 0 
La statistique de test est 
T = 
p 
n 
x  0 
s 
ou s2 = 
1 
n  1 
Xn 
i=1 
(xi  x)2; 
qui veri
e, sous H0, T  St(n  1). 
−6 −4 −2 0 2 4 6 
0.0 0.1 0.2 0.3 0.4 
43
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Resumons les principaux tests usuels 
Considerons un test d'egalite de moyenne sur un echantillon 
8 
: 
H0 :  = 0 
H0 : 0 
La statistique de test est 
T = 
p 
n 
x  0 
s 
ou s2 = 
1 
n  1 
Xn 
i=1 
(xi  x)2; 
qui veri
e, sous H0, T  St(n  1). 
−6 −4 −2 0 2 4 6 
0.0 0.1 0.2 0.3 0.4 
44
Arthur CHARPENTIER - Rappels de probabilites  statistiques 
Resumons les principaux tests usuels 
Considerons un test d'egalite de variance sur un echantillon 
8 
: 
H0 : 2 = 2 
0 
H0 : 26=2 
0 
La statistique de test est 
T = 
(n  1)s2 
2 
0 
ou s2 = 
1 
n  1 
Xn 
i=1 
(xi  x)2; 
qui veri

Contenu connexe

Tendances (20)

Slides ensae-2016-6
Slides ensae-2016-6Slides ensae-2016-6
Slides ensae-2016-6
 
Slide 2040-1-a2013
Slide 2040-1-a2013Slide 2040-1-a2013
Slide 2040-1-a2013
 
Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2
 
Slides act6420-e2014-partie-2
Slides act6420-e2014-partie-2Slides act6420-e2014-partie-2
Slides act6420-e2014-partie-2
 
Slides ensae-2016-7
Slides ensae-2016-7Slides ensae-2016-7
Slides ensae-2016-7
 
Slides 2040-5
Slides 2040-5Slides 2040-5
Slides 2040-5
 
Slides 2040-4
Slides 2040-4Slides 2040-4
Slides 2040-4
 
Slides ensae 4
Slides ensae 4Slides ensae 4
Slides ensae 4
 
Slides 2040-4
Slides 2040-4Slides 2040-4
Slides 2040-4
 
Slides ensae-2016-4
Slides ensae-2016-4Slides ensae-2016-4
Slides ensae-2016-4
 
Slides ensae 3
Slides ensae 3Slides ensae 3
Slides ensae 3
 
Slides ensae-2016-5
Slides ensae-2016-5Slides ensae-2016-5
Slides ensae-2016-5
 
Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1
 
Slides ensae 5
Slides ensae 5Slides ensae 5
Slides ensae 5
 
Slides ensae-2016-2
Slides ensae-2016-2Slides ensae-2016-2
Slides ensae-2016-2
 
Slides act2040-a2013-2
Slides act2040-a2013-2Slides act2040-a2013-2
Slides act2040-a2013-2
 
Cours gestion-actifs-r1-part-2b
Cours gestion-actifs-r1-part-2bCours gestion-actifs-r1-part-2b
Cours gestion-actifs-r1-part-2b
 
Slides 2040-3
Slides 2040-3Slides 2040-3
Slides 2040-3
 
Slides 2040-7-a2013
Slides 2040-7-a2013Slides 2040-7-a2013
Slides 2040-7-a2013
 
Slides 2040-6
Slides 2040-6Slides 2040-6
Slides 2040-6
 

En vedette (20)

Rappels stats-2014-part1
Rappels stats-2014-part1Rappels stats-2014-part1
Rappels stats-2014-part1
 
Econometrics, PhD Course, #1 Nonlinearities
Econometrics, PhD Course, #1 NonlinearitiesEconometrics, PhD Course, #1 Nonlinearities
Econometrics, PhD Course, #1 Nonlinearities
 
Slides econometrics-2017-graduate-2
Slides econometrics-2017-graduate-2Slides econometrics-2017-graduate-2
Slides econometrics-2017-graduate-2
 
Econometrics 2017-graduate-3
Econometrics 2017-graduate-3Econometrics 2017-graduate-3
Econometrics 2017-graduate-3
 
Slides inequality 2017
Slides inequality 2017Slides inequality 2017
Slides inequality 2017
 
Slides lyon-anr
Slides lyon-anrSlides lyon-anr
Slides lyon-anr
 
Slides ts-1
Slides ts-1Slides ts-1
Slides ts-1
 
Eco558 1a
Eco558 1aEco558 1a
Eco558 1a
 
Cours add-r1-part1
Cours add-r1-part1Cours add-r1-part1
Cours add-r1-part1
 
Slides maths eco_rennes
Slides maths eco_rennesSlides maths eco_rennes
Slides maths eco_rennes
 
Testing for Extreme Volatility Transmission
Testing for Extreme Volatility Transmission Testing for Extreme Volatility Transmission
Testing for Extreme Volatility Transmission
 
HdR
HdRHdR
HdR
 
Slides ensae-2016-9
Slides ensae-2016-9Slides ensae-2016-9
Slides ensae-2016-9
 
Slides ensae-2016-8
Slides ensae-2016-8Slides ensae-2016-8
Slides ensae-2016-8
 
Slides Bank England
Slides Bank EnglandSlides Bank England
Slides Bank England
 
Pricing Game, 100% Data Sciences
Pricing Game, 100% Data SciencesPricing Game, 100% Data Sciences
Pricing Game, 100% Data Sciences
 
Slides ensae-2016-10
Slides ensae-2016-10Slides ensae-2016-10
Slides ensae-2016-10
 
Slides ensae-2016-11
Slides ensae-2016-11Slides ensae-2016-11
Slides ensae-2016-11
 
Slides ineq-2
Slides ineq-2Slides ineq-2
Slides ineq-2
 
Inequalities #3
Inequalities #3Inequalities #3
Inequalities #3
 

Similaire à Rappels stats-2014-part2

Exam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd yearExam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd yearChristian Robert
 
1_Probabilites et variables aleatoires.ppt
1_Probabilites et variables aleatoires.ppt1_Probabilites et variables aleatoires.ppt
1_Probabilites et variables aleatoires.pptthomharry78
 
Aates ch08 lois-a-densite
Aates ch08 lois-a-densiteAates ch08 lois-a-densite
Aates ch08 lois-a-densiteManar Sefiane
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptxsara6496
 
Mathématiques Générales.pdf
Mathématiques Générales.pdfMathématiques Générales.pdf
Mathématiques Générales.pdfKarimBara2
 
Algebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.comAlgebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.cometude cours
 
DS6-CB-sujet (1).pdf
DS6-CB-sujet (1).pdfDS6-CB-sujet (1).pdf
DS6-CB-sujet (1).pdfhajar517389
 
Ts exam-h2014-correction
Ts exam-h2014-correctionTs exam-h2014-correction
Ts exam-h2014-correctionDaha Ahmed
 
Hasard09 artificiel
Hasard09 artificielHasard09 artificiel
Hasard09 artificielnahdiste
 
Robust sequentiel learning
Robust sequentiel learningRobust sequentiel learning
Robust sequentiel learningCdiscount
 
Cours de probabilités chap2.pptx
Cours de probabilités chap2.pptxCours de probabilités chap2.pptx
Cours de probabilités chap2.pptxHanaeElabbas
 

Similaire à Rappels stats-2014-part2 (20)

Exam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd yearExam of June 2016, Mathematical Statistics 3rd year
Exam of June 2016, Mathematical Statistics 3rd year
 
Slides cirm-copulasv3
Slides cirm-copulasv3Slides cirm-copulasv3
Slides cirm-copulasv3
 
Slides act6420-e2014-ts-2
Slides act6420-e2014-ts-2Slides act6420-e2014-ts-2
Slides act6420-e2014-ts-2
 
1_Probabilites et variables aleatoires.ppt
1_Probabilites et variables aleatoires.ppt1_Probabilites et variables aleatoires.ppt
1_Probabilites et variables aleatoires.ppt
 
Aates ch08 lois-a-densite
Aates ch08 lois-a-densiteAates ch08 lois-a-densite
Aates ch08 lois-a-densite
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptx
 
Mathématiques Générales.pdf
Mathématiques Générales.pdfMathématiques Générales.pdf
Mathématiques Générales.pdf
 
Algebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.comAlgebre1 s1 par www.etudecours.com
Algebre1 s1 par www.etudecours.com
 
Chapitre1.pdf
Chapitre1.pdfChapitre1.pdf
Chapitre1.pdf
 
DS6-CB-sujet (1).pdf
DS6-CB-sujet (1).pdfDS6-CB-sujet (1).pdf
DS6-CB-sujet (1).pdf
 
Ts exam-h2014-correction
Ts exam-h2014-correctionTs exam-h2014-correction
Ts exam-h2014-correction
 
Hasard09 artificiel
Hasard09 artificielHasard09 artificiel
Hasard09 artificiel
 
Robust sequentiel learning
Robust sequentiel learningRobust sequentiel learning
Robust sequentiel learning
 
Cours stat2-kharrat
Cours stat2-kharratCours stat2-kharrat
Cours stat2-kharrat
 
Cours de probabilités chap2.pptx
Cours de probabilités chap2.pptxCours de probabilités chap2.pptx
Cours de probabilités chap2.pptx
 
compte
comptecompte
compte
 
01 lois-à-densité
01 lois-à-densité01 lois-à-densité
01 lois-à-densité
 
Analyse1 cour.pdf
Analyse1 cour.pdfAnalyse1 cour.pdf
Analyse1 cour.pdf
 
Vraisembl
VraisemblVraisembl
Vraisembl
 
Vraisembl
VraisemblVraisembl
Vraisembl
 

Plus de Arthur Charpentier (20)

Family History and Life Insurance
Family History and Life InsuranceFamily History and Life Insurance
Family History and Life Insurance
 
ACT6100 introduction
ACT6100 introductionACT6100 introduction
ACT6100 introduction
 
Family History and Life Insurance (UConn actuarial seminar)
Family History and Life Insurance (UConn actuarial seminar)Family History and Life Insurance (UConn actuarial seminar)
Family History and Life Insurance (UConn actuarial seminar)
 
Control epidemics
Control epidemics Control epidemics
Control epidemics
 
STT5100 Automne 2020, introduction
STT5100 Automne 2020, introductionSTT5100 Automne 2020, introduction
STT5100 Automne 2020, introduction
 
Family History and Life Insurance
Family History and Life InsuranceFamily History and Life Insurance
Family History and Life Insurance
 
Machine Learning in Actuarial Science & Insurance
Machine Learning in Actuarial Science & InsuranceMachine Learning in Actuarial Science & Insurance
Machine Learning in Actuarial Science & Insurance
 
Reinforcement Learning in Economics and Finance
Reinforcement Learning in Economics and FinanceReinforcement Learning in Economics and Finance
Reinforcement Learning in Economics and Finance
 
Optimal Control and COVID-19
Optimal Control and COVID-19Optimal Control and COVID-19
Optimal Control and COVID-19
 
Slides OICA 2020
Slides OICA 2020Slides OICA 2020
Slides OICA 2020
 
Lausanne 2019 #3
Lausanne 2019 #3Lausanne 2019 #3
Lausanne 2019 #3
 
Lausanne 2019 #4
Lausanne 2019 #4Lausanne 2019 #4
Lausanne 2019 #4
 
Lausanne 2019 #2
Lausanne 2019 #2Lausanne 2019 #2
Lausanne 2019 #2
 
Lausanne 2019 #1
Lausanne 2019 #1Lausanne 2019 #1
Lausanne 2019 #1
 
Side 2019 #10
Side 2019 #10Side 2019 #10
Side 2019 #10
 
Side 2019 #11
Side 2019 #11Side 2019 #11
Side 2019 #11
 
Side 2019 #12
Side 2019 #12Side 2019 #12
Side 2019 #12
 
Side 2019 #9
Side 2019 #9Side 2019 #9
Side 2019 #9
 
Side 2019 #8
Side 2019 #8Side 2019 #8
Side 2019 #8
 
Side 2019 #7
Side 2019 #7Side 2019 #7
Side 2019 #7
 

Rappels stats-2014-part2

  • 1. Arthur CHARPENTIER - Rappels de probabilites statistiques Probabilites statistiques quelques brefs rappels # 2 Arthur Charpentier, 2014 http ://freakonometrics.hypotheses.org/category/courses/m1-statistique 1
  • 2. Arthur CHARPENTIER - Rappels de probabilites statistiques Plan du cours Introduction, la modelation statistique Rappels de probabilite Fonctions usuelles, P, F, f, E, Var Lois uselles, discetes et continues Conditionnement, esperance conditionnelle et melanges Convergence, approximations et theoremes limites Loi(s) des grands nombres Theoreme central limite Rappels de statistique (mathematique) De la statistique descriptive a la statistique mathematique Echantillonnage, moyenne et variance Intervalle de con
  • 3. ance Introduction aux tests 2
  • 4. Arthur CHARPENTIER - Rappels de probabilites statistiques L'estimateur comme variable aleatoire En statistique descriptive, on construit des estimateurs comme des fonctions des valeurs de l'echantillon, fx1; ; xng, e.g. xn = x1 + + xn n En statistique mathematique, on suppose que xi = Xi(!), i.e. la realisation d'un variable aleatoire sous-jacente Xn = X1 + + Xn n X1,..., Xn etant des variables aleatoires, Xn devient une variable aleatoire. Exemple : supposons que nous disposons d'un echantillon de n = 20 valeurs tirees suivant une loi uniforme sur [0; 1]. 3
  • 5. Arthur CHARPENTIER - Rappels de probabilites statistiques Distribution de la moyenne d'un échantillon U([0,1]) Fréquence 0.0 0.2 0.4 0.6 0.8 1.0 0 50 100 150 200 250 300 0.457675 l Figure 1 { Distribution de la moyenne de fX1; ;X10g, Xi U([0; 1]). 4
  • 6. Arthur CHARPENTIER - Rappels de probabilites statistiques Distribution de la moyenne d'un échantillon U([0,1]) Fréquence 0.0 0.2 0.4 0.6 0.8 1.0 0 50 100 150 200 250 300 0.567145 l l l l l l l ll l l l l l l l ll l l l l l l l l l l l l l l l l l l l ll l l l l l ll l l l l l l l l l l l l ll l lll l l l l l l l l ll ll l l ll l l l ll l l l l l lll ll ll l l ll l l l l l lll l ll l ll ll ll ll l l l l l lll ll l l ll ll l l ll l l l l ll ll l l ll l ll l l l l ll lll l l l l l ll l l l l ll l lll lll ll ll l l Figure 2 { Distribution de la moyenne de fX1; ;X10g, Xi U([0; 1]). 5
  • 7. Arthur CHARPENTIER - Rappels de probabilites statistiques L'estimateur comme variable aleatoire Si l'echantillon change, l'estimateur n'est pas le m^eme. Constituons 1000 echantillons de maniere aleatoire. En moyenne, l'estimateur vaut 1=2. Aussi, la moyenne empirique est un estimateur sans biais de 1=2, l'esperance mathematique de la loi uniforme sur [0; 1]. Cet estimateur a une variance, et aussi une loi (en l'occurence une densite). Ici, la moyenne empirique suit (presque) une loi normale. On distingera toutefois les comportements a distance
  • 9. xe) et asymptotique (theoremes limites - loi des grands nombres et theoreme central limite - obtenus lorsque n ! 1). 6
  • 10. Arthur CHARPENTIER - Rappels de probabilites statistiques Petites proprietes preliminaires Soit x = (x1; ; xn) 2 Rn. Posons x = x1 + + xn n . Alors, min m2R ( Xn i=1 [xi m]2 ) = Xn i=1 [xi x]2 et Xn i=1 [xi x]2 = Xn i=1 x2i nx2 7
  • 11. Arthur CHARPENTIER - Rappels de probabilites statistiques La moyenne (empirique) De
  • 12. nition 1. Soit fX1; ;Xng des variables i.i.d. de loi F. La moyenne empirique est Xn = X1 + + Xn n = 1 n Xn i=1 Xi Si on suppose les Xi d'esperance
  • 13. nie (notee ), alors E(Xn) = E 1 n Xn i=1 Xi ! = 1 n Xn i=1 E(Xi) = 1 n n = par linearite de l'esperance Proposition 2. Si on suppose les Xi d'esperance
  • 14. nie (notee ), E(Xn) = : La moyenne est un estimateur sans biais de l'esperance mathematique. 8
  • 15. Arthur CHARPENTIER - Rappels de probabilites statistiques La moyenne (empirique) Si on suppose les Xi independants de variance
  • 16. nie (notee 2), alors Var(Xn) = Var 1 n Xn i=1 Xi ! = 1 n2 Xn i=1 Var (Xi) = 1 n2 n2 = 2 n car les variables sont independantes, et car la variance est quadratique. Proposition 3. Si on suppose les Xi i.i.d. de variance
  • 17. nie (notee 2), Var(Xn) = 2 n : 9
  • 18. Arthur CHARPENTIER - Rappels de probabilites statistiques La variance (empirique) De
  • 19. nition 4. Soit fX1; ;Xng des variables i.i.d. de loi F. La variance empirique est S2n = 1 n 1 Xn i=1 [Xi Xn]2: Si on suppose les Xi de variance
  • 20. nie (notee 2), E(S2n ) = E 1 n 1 Xn i=1 [Xi Xn]2 ! = E 1 n 1 Xn i=1 X2 i nX 2 n #! par la propriete preliminaire enoncee auparavant E(S2n ) = 1 n 1 [nE(X2 i ) nE(X 2 )] = 1 n 1 n(2 + 2) n 2 n + 2 = 2 car Var(X) = E(X2) E(X)2 10
  • 21. Arthur CHARPENTIER - Rappels de probabilites statistiques La variance (empirique) Proposition 5. Si on suppose les Xi independants de variance
  • 22. nie (notee 2), E(S2n ) = 2: 2n La variance (empirique) est un estimateur sans biais de la variance. Remarque Pour avoir un estimateur sans biais, on considere comme estimateur S, avec un facteur n 1, et non pas eS2n = 1 n Xn i=1 [Xi Xn]2 (qui reste un estimateur classique). 11
  • 23. Arthur CHARPENTIER - Rappels de probabilites statistiques Cas d'un echantillon Gaussien 2n Proposition 6. Si on suppose les Xi i.i.d. de loi N(; 2), alors Xn et Ssont des variables aleatoires independantes, Xn a pour loi N ; 2 n (n 1)S2n =2 a pour loi 2(n 1). Remarque Pour comprendre l'histoire du n 1 degres de libertes pour une somme de n termes, notons que S2n = 1 n 1 Xn i=1 (Xi Xn)2 # = 1 n 1 (X1 Xn)2 + Xn i=2 (Xi Xn)2 # soit S2n = 1 n 1 2 4 Xn i=2 !2 (Xi Xn) + Xn i=2 (Xi Xn)2 3 5 car Xn i=1 (Xi Xn) = 0. Aussi S2n est fonction de n 1 variables (centrees), X2 Xn; ;Xn Xn 12
  • 24. Arthur CHARPENTIER - Rappels de probabilites statistiques Cas d'un echantillon Gaussien Proposition 7. Si on suppose les Xi i.i.d. de loi N(; 2), alors p n Xn suit une loi N(0; 1) p n Xn Sn suit une loi de Student a n 1 degres de liberte En eet, p n Xn S = p n Xn | {z } N(0;1) = r (n 1)S2n 2 | {z } 2(n1) p n 1 13
  • 25. Arthur CHARPENTIER - Rappels de probabilites statistiques Proprietes asymptotiques Proposition 8. Si on suppose les Xi i.i.d. de loi F, de moyenne et de variance 2 (
  • 26. nie). Alors pour tout 0, lim n!1P(jXn j ) = 0 i.e. Xn P! (convergence en probabilite). Proposition 9. Si on suppose les Xi i.i.d. de loi F, de moyenne et de variance 2 (
  • 27. nie). Alors pour tout 0, lim n!1P(jS2n 2j ) Var(S2n ) 2 i.e. une condition susante pour que S2n P! 2 (convergence en probabilite) est que Var(S2n ) ! 0 lorsque n ! 1. 14
  • 28. Arthur CHARPENTIER - Rappels de probabilites statistiques Proprietes asymptotiques Proposition 10. Si on suppose les Xi i.i.d. de loi F, de moyenne et de variance 2 (
  • 29. nie). Alors pour tout z 2 R, lim n!1P p n Xn z = Z z 1 1 p 2 exp t2 2 dt i.e. p n Xn L! N(0; 1): Remarque Si les Xi ont pour loi N(; 2), alors p n Xn N(0; 1): 15
  • 30. Arthur CHARPENTIER - Rappels de probabilites statistiques Estimation de la variance Considerons un echantillon Gaussien, alors Var (n 1)S2n 2 = Var(Z) avec Z 2 n1 donc cette quantite vaut (n 1)2 4 Var(S2n ) = 2(n 1) de telle sorte que Var(S2n ) = 2(n 1)4 (n 1)2 = 24 (n 1) : 16
  • 31. Arthur CHARPENTIER - Rappels de probabilites statistiques Estimation de l'ecart-type et de la variance Considerons le cas ou Xi N(; 2). Un estimateur naturel de est Sn = p S2n = vuut 1 n 1 Xn i=1 (Xi Xn)2 On peut alors montrer que E(Sn) = r 2 n 1 (n=2) ([n 1]=2) 1 1 4n 7 32n2 6= mais Sn P! et p n(Sn ) L! N 0; 2 17
  • 32. Arthur CHARPENTIER - Rappels de probabilites statistiques Estimation de l'ecart-type et de la variance 0 50 100 150 0.93 0.95 0.97 0.99 Taille de l'échantillon (n) Biais (multiplicatif) Figure 3 { Biais lors de l'estimation de l'ecart-type. 18
  • 33. Arthur CHARPENTIER - Rappels de probabilites statistiques Echantillon transforme Soit g : R ! R susemment reguliere pour ecrire un developpement de Taylor en tout point, g(x) = g(x0) + g0(x0) [x x0] + un reste Soit Yi = g(Xi). Alors, si E(Xi) = avec g0()6= 0 Yi = g(Xi) g() + g0() [Xi ] de telle sorte que E(Yi) = E(g(Xi)) g() et Var(Yi) = Var(g(Xi)) [g0()]2Var(Xi) Remarque Il ne s'agit que d'approximations. 19
  • 34. Arthur CHARPENTIER - Rappels de probabilites statistiques Echantillon transforme La delta-method permet d'obtenir des proprietes asymptotiques. Proposition 11. Si on suppose les Xi i.i.d. de loi F, de moyenne et de variance 2 (
  • 35. nie), alors p n(Xn ) L! N(0; 2) Et si g0()6= 0, alors p n(g(Xn) g()) L! N(0; [g0()]22) Proposition 12. Si on suppose les Xi i.i.d. de loi F, de moyenne et de variance 2 (
  • 36. nie), et si g0() = 0 mais g00()6= 0, alors p n(g(Xn) g()) L! g00() 2 22(1) 20
  • 37. Arthur CHARPENTIER - Rappels de probabilites statistiques Echantillon transforme Example Si 6= 0, p n 1 Xn 1 L! N 0; 1 4 2 21
  • 38. Arthur CHARPENTIER - Rappels de probabilites statistiques Intervalle de con
  • 39. ance pour Quand on parlera de l'intervalle de con
  • 40. ance de a un niveau de con
  • 41. ance 1 (e.g. 95%), il s'agira du plus petit intervallle I tel que P( 2 I) = 1 : Notons u le quantile de la loi N(0; 1) au niveau , i.e. u=2 = u1=2 veri
  • 42. e (u=2) = =2 Comme Z = p n Xn N (0; 1), on peut en deduire que P(Z 2 [u=2; u1=2]) = 1 , et donc P 2 X + u=2 p n ;X + u1=2 p n = 1 : 22
  • 43. Arthur CHARPENTIER - Rappels de probabilites statistiques Intervalle de con
  • 44. ance, moyenne d'un echantillon normal si = 10%, u1=2 = 1:64 et donc, avec une probabilite de 90%, X 1:64 p n X + 1:64 p n ; si = 5%, u1=2 = 1:96 et donc, avec une probabilite de 95%, X 1:96 p n X + 1:96 p n ; 23
  • 45. Arthur CHARPENTIER - Rappels de probabilites statistiques Intervalle de con
  • 46. ance, moyenne d'un echantillon normal Si la variance est inconnue, on l'estime par S2n = 1 n 1 Xn i=1 X2 i ! X 2 n. On a vu que (n 1)S2n 2 = Xn i=1 0 BB@ Xi E(X) | {z } N(0;1) 1 2 CCA | {z } loi du 2(n) 0 BBB@ Xn E(X) p | = {z n } N(0;1) 1 2 CCCA | {z } loi du 2(1) Le theoreme de Cochrane permet de conclure que (n 1)S2n 2 2(n 1). 24
  • 47. Arthur CHARPENTIER - Rappels de probabilites statistiques 2n Intervalle de con
  • 48. ance, moyenne d'un echantillon normal Comme Xn et Ssont independantes, T = p n 1 Xn Sn = Xn p = q n1 (n1)S2n (n1)2 St(n 1): Si t(n1) =2 designe le quantile de la loi St(n 1) au niveau =2, i.e. t(n) =2 = t(n1) 1=2 veri
  • 49. e P(T t(n1) =2 ) = =2 on peut en deduire que P(T 2 [t(n1) =2 ; t(n1) 1=2]) = 1 , et donc P 0 @ 2 2 4X + t(n1) =2 p n 1 ;X + t(n1) 1=2 p n 1 3 5 1 A = 1 : 25
  • 50. Arthur CHARPENTIER - Rappels de probabilites statistiques Intervalle de con
  • 51. ance, moyenne d'un echantillon normal si n = 10 et = 10%, u1=2 = 1:833 et donc, avec une probabilite de 90%, X 1:833 p n X + 1:833 p n ; si n = 10 et si = 5%, u1=2 = 2:262 et donc, avec une probabilite de 95%, X 2:262 p n X + 2:262 p n ; −3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 Quantiles Intervalle de confiance IC 90% IC 95% Figure 4 { Quantiles pour n = 10, connue ou inconnue. 26
  • 52. Arthur CHARPENTIER - Rappels de probabilites statistiques Intervalle de con
  • 53. ance, moyenne d'un echantillon normal si n = 20 et = 10%, u1=2 = 1:729 et donc, avec une probabilite de 90%, X 1:729 p n X + 1:729 p n ; si n = 20 et si = 5%, u1=2 = 2:093 et donc, avec une probabilite de 95%, X 2:093 p n X + 2:093 p n ; −3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 Quantiles Intervalle de confiance IC 90% IC 95% Figure 5 { Quantiles pour n = 20, connue ou inconnue. 27
  • 54. Arthur CHARPENTIER - Rappels de probabilites statistiques Intervalle de con
  • 55. ance, moyenne d'un echantillon normal si n = 100 et = 10%, u1=2 = 1:660 et donc, avec une probabilite de 90%, X 1:660 p n X + 1:660 p n ; si n = 100 et si = 5%, u1=2 = 1:984 et donc, avec une probabilite de 95%, X 1:984 p n X + 1:984 p n ; −3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 Quantiles Intervalle de confiance IC 90% IC 95% Figure 6 { Quantiles pour n = 100, connue ou inconnue. 28
  • 56. Arthur CHARPENTIER - Rappels de probabilites statistiques La lecture des tables Fonction de repartition de la loi normale X N(0; 1), P(X u) = (u) = Z u 1 1 p 2 ey2=2dy Example P(X 1; 96) = 0; 975. 29
  • 57. Arthur CHARPENTIER - Rappels de probabilites statistiques Interpretation d'un intervalle de con
  • 58. ance Si on genere des echantillons i.i.d. suivant une loi N(; 2), avec et 2
  • 59. xes, il y a 90 chances sur 100 que soit dans un des intervalles suivants X + u=2 p n ;X + u1=2 p n l l l l ll l l l l l lll l l ll l ll l l ll l ll l l l l l l l l l l l ll l l ll l l l ll l l l l ll l l l ll l l ll l l l l l l l l l l l l l ll l l l l l l l l l l l l l l l l l l l l l l l l l ll l l ll l l l l l l l l l l l l ll l l ll l l l l l l l l l l l l ll l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l ll l l l l l l l l ll l l l ll l l l l l l l l l 0 50 100 150 200 −1.0 −0.5 0.0 0.5 1.0 intervalle de confiance Figure 7 { Intervalle de con
  • 60. ance pour , avec 2 connue. 30
  • 61. Arthur CHARPENTIER - Rappels de probabilites statistiques Interpretation d'un intervalle de con
  • 62. ance ou 2 4X + t(n1) =2 p n 1 ;X + t(n1) 1=2 p n 1 3 5 l l l l ll l l l l l lll l l ll l ll l l ll l ll l l l l l l l l l l l ll l l ll l l l ll l l l l ll l l l ll l l ll l l l l l l l l l l l l l ll l l l l l l l l l l l l l l l l l l l l l l l l l ll l l ll l l l l l l l l l l l l ll l l ll l l l l l l l l l l l l ll l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l ll l l l l l l l l ll l l l ll l l l l l l l l l 0 50 100 150 200 −1.0 −0.5 0.0 0.5 1.0 intervalle de confiance Figure 8 { Intervalle de con
  • 63. ance pour , avec 2 estimee. 31
  • 64. Arthur CHARPENTIER - Rappels de probabilites statistiques Un peu de tests Le lien entre la decision est la vraie valeur peut ^etre represente par le tableau ci-dessous H0 vraie H1 vraie Decision d0 Bonne decision erreur de seconde espece Decision d1 erreur de premiere espece Bonne decision 32
  • 65. Arthur CHARPENTIER - Rappels de probabilites statistiques Resumons les principaux tests usuels Considerons un test d'egalite de moyenne sur un echantillon 8 : H0 : = 0 H0 : 6=0 La statistique de test est T = p n x 0 s ou s2 = 1 n 1 Xn i=1 (xi x)2; qui veri
  • 66. e, sous H0, T St(n 1). −6 −4 −2 0 2 4 6 0.0 0.1 0.2 0.3 0.4 33
  • 67. Arthur CHARPENTIER - Rappels de probabilites statistiques Comparaison de moyennes de deux echantillons Considerons un test d'egalite de moyenne sur deux echantillons. On dispose de deux echantillons, fx1; ; xng et fy1; ; ymg. On souhaite tester 8 : H0 : X = Y H0 : X6=Y On rajoute une hypothese, X N(X; 2X ) et Y N(Y ; 2Y ), i.e. X N X; 2X n et Y N Y ; 2Y m 34
  • 68. Arthur CHARPENTIER - Rappels de probabilites statistiques Comparaison de moyennes de deux echantillons −1 0 1 2 0.0 0.5 1.0 1.5 2.0 l ll l l l l l l ll l l l l 35
  • 69. Arthur CHARPENTIER - Rappels de probabilites statistiques Comparaison de moyennes de deux echantillons Par independance entre X et Y , notons que = X Y suit une loi normale, E() = X Y et V ar() = 2X n + 2Y m Donc sous H0, X Y = 0 et donc D N 0; 2X n + 2Y m ; i.e. = X Y r 2X n + 2Y m N(0; 1): 36
  • 70. Arthur CHARPENTIER - Rappels de probabilites statistiques Comparaison de moyennes de deux echantillons Probleme X et Y sont inconnus : on les remplace par des estimateurs bX et bY , i.e. = X Y r b2X n + b2Y m St(); ou est une fonction (compliquee) de n1 et n2. On se donne un seuil d'acceptation 2 [0; 1] (e.g. 10%), 8 : on accepte H0 si t=2 t1=2 on accepte H0 si t=2 ou t1=2 37
  • 71. Arthur CHARPENTIER - Rappels de probabilites statistiques REJET REJET −2 −1 0 1 2 0.0 0.1 0.2 0.3 0.4 0.5 l ll l ll l l l ll ll l l ACCEPTATION 38
  • 72. Arthur CHARPENTIER - Rappels de probabilites statistiques On peut se demander la probabilite p d'obtenir une valueur au moins aussi grande que si H0 est vraie, p = P(jZj jjjH0 vraie) = P(jZj jjjZ St()): −2 −1 0 1 2 0.0 0.1 0.2 0.3 0.4 0.5 l ll l ll l l l ll ll l l 34.252 % 39
  • 73. Arthur CHARPENTIER - Rappels de probabilites statistiques Sous R, t.test(x, y, alternative = c(two.sided, less, greater), mu = 0, var.equal = FALSE, conf.level = 0.95) permet de tester si les moyennes de deux chantillons x et y sont egales (mu=0), contre H1 : X6= Y (two.sided). −2 −1 0 1 2 0.0 0.5 1.0 1.5 2.0 l ll l l l ll l l l l l ll l 40
  • 74. Arthur CHARPENTIER - Rappels de probabilites statistiques REJET REJET −2 −1 0 1 2 0.0 0.1 0.2 0.3 0.4 0.5 l ll l l l ll l l l l l ll l ACCEPTATION 41
  • 75. Arthur CHARPENTIER - Rappels de probabilites statistiques −2 −1 0 1 2 0.0 0.1 0.2 0.3 0.4 0.5 l ll l l l ll l l l l l ll l 2.19 % 42
  • 76. Arthur CHARPENTIER - Rappels de probabilites statistiques Resumons les principaux tests usuels Considerons un test d'egalite de moyenne sur un echantillon 8 : H0 : = 0 H0 : 0 La statistique de test est T = p n x 0 s ou s2 = 1 n 1 Xn i=1 (xi x)2; qui veri
  • 77. e, sous H0, T St(n 1). −6 −4 −2 0 2 4 6 0.0 0.1 0.2 0.3 0.4 43
  • 78. Arthur CHARPENTIER - Rappels de probabilites statistiques Resumons les principaux tests usuels Considerons un test d'egalite de moyenne sur un echantillon 8 : H0 : = 0 H0 : 0 La statistique de test est T = p n x 0 s ou s2 = 1 n 1 Xn i=1 (xi x)2; qui veri
  • 79. e, sous H0, T St(n 1). −6 −4 −2 0 2 4 6 0.0 0.1 0.2 0.3 0.4 44
  • 80. Arthur CHARPENTIER - Rappels de probabilites statistiques Resumons les principaux tests usuels Considerons un test d'egalite de variance sur un echantillon 8 : H0 : 2 = 2 0 H0 : 26=2 0 La statistique de test est T = (n 1)s2 2 0 ou s2 = 1 n 1 Xn i=1 (xi x)2; qui veri
  • 81. e, sous H0, T 2(n 1). 0 10 20 30 40 0.00 0.02 0.04 0.06 0.08 0.10 45
  • 82. Arthur CHARPENTIER - Rappels de probabilites statistiques Resumons les principaux tests usuels Considerons un test d'egalite de variance sur un echantillon 8 : H0 : 2 = 2 0 H0 : 22 0 La statistique de test est T = (n 1)s2 2 0 ou s2 = 1 n 1 Xn i=1 (xi x)2; qui veri
  • 83. e, sous H0, T 2(n 1). 0 10 20 30 40 0.00 0.02 0.04 0.06 0.08 0.10 46
  • 84. Arthur CHARPENTIER - Rappels de probabilites statistiques Resumons les principaux tests usuels Considerons un test d'egalite de variance sur un echantillon 8 : H0 : 2 = 2 0 H0 : 22 0 La statistique de test est T = (n 1)s2 2 0 ou s2 = 1 n 1 Xn i=1 (xi x)2; qui veri
  • 85. e, sous H0, T 2(n 1). 0 10 20 30 40 0.00 0.02 0.04 0.06 0.08 0.10 47
  • 86. Arthur CHARPENTIER - Rappels de probabilites statistiques Resumons les principaux tests usuels Considerons un test d'egalite de moyennes sur deux echantillons 8 : H0 : 1 = 2 H0 : 16=2 La statistique de test est T = r n1n2 n1 + n2 [x1 x2] [1 2] s ou s2 = (n1 1)s21 + (n2 1)s22 n1 + n2 2 ; qui veri
  • 87. e, sous H0, T St(n1 + n2 2). −6 −4 −2 0 2 4 6 0.0 0.1 0.2 0.3 0.4 48
  • 88. Arthur CHARPENTIER - Rappels de probabilites statistiques Resumons les principaux tests usuels Considerons un test d'egalite de moyennes sur deux echantillons 8 : H0 : 1 = 2 H0 : 12 La statistique de test est T = r n1n2 n1 + n2 [x1 x2] [1 2] s ou s2 = (n1 1)s21 + (n2 1)s22 n1 + n2 2 ; qui veri
  • 89. e, sous H0, T St(n1 + n2 2). −6 −4 −2 0 2 4 6 0.0 0.1 0.2 0.3 0.4 49
  • 90. Arthur CHARPENTIER - Rappels de probabilites statistiques Resumons les principaux tests usuels Considerons un test d'egalite de moyennes sur deux echantillons 8 : H0 : 1 = 2 H0 : 12 La statistique de test est T = r n1n2 n1 + n2 [x1 x2] [1 2] s ou s2 = (n1 1)s21 + (n2 1)s22 n1 + n2 2 ; qui veri
  • 91. e, sous H0, T St(n1 + n2 2). −6 −4 −2 0 2 4 6 0.0 0.1 0.2 0.3 0.4 50
  • 92. Arthur CHARPENTIER - Rappels de probabilites statistiques Resumons les principaux tests usuels Considerons un test d'egalite de variances sur deux echantillons 8 : 1 = 2 H0 : 2 2 H0 : 2 16=2 2 La statistique de test est T = s21 s22 ; si s21 s22 ; qui veri
  • 93. e, sous H0, T F(n1 1; n2 1). 0 10 20 30 40 0.00 0.02 0.04 0.06 0.08 0.10 51
  • 94. Arthur CHARPENTIER - Rappels de probabilites statistiques Resumons les principaux tests usuels Considerons un test d'egalite de variances sur deux echantillons 8 : 1 = 2 H0 : 2 2 H0 : 2 12 2 La statistique de test est T = s21 s22 ; si s21 s22 ; qui veri
  • 95. e, sous H0, T F(n1 1; n2 1). 0 10 20 30 40 0.00 0.02 0.04 0.06 0.08 0.10 52
  • 96. Arthur CHARPENTIER - Rappels de probabilites statistiques Resumons les principaux tests usuels Considerons un test d'egalite de variances sur deux echantillons 8 : 1 = 2 H0 : 2 2 H0 : 2 12 2 La statistique de test est T = s21 s22 ; si s21 s22 ; qui veri
  • 97. e, sous H0, T F(n1 1; n2 1). 0 10 20 30 40 0.00 0.02 0.04 0.06 0.08 0.10 53
  • 98. Arthur CHARPENTIER - Rappels de probabilites statistiques Modele parametrique On dispose d'un echantillon fx1; ; xng, de n observations independantes. On suppose que les xi sont des realisations d'une variable aleatoire X dont la loi F est inconnue. Le but est de determiner F. En statistique parametrique, on suppose que F appartient necessairement a une famille caracterisee par un parametre 2 . X suit une loi de Bernoulli, X B(p), = p 2 (0; 1), X suit une loi de Poisson, X P(), = 2 R+, X suit une loi normale, X N(; ), = (; ) 2 R R+, On cherche donc une valeur de , notee 0, inconnue, telle que l'on supposera que X suit une loi F0 . Remarque On supposera souvent que est un ouvert, il est delicat d'estimer sur les bords. 54
  • 99. Arthur CHARPENTIER - Rappels de probabilites statistiques Exemple : jeu de pile ou face On dispose d'un echantillon fpile; pile; face; pile; face; pile; face; face; pile; face; pile; faceg que l'on interpr^etera en posant X = 8 : 1 si pile 0 si face: On dispose de l'echantillon f1; 1; 0; 1; 0; 1; 0; 0; 1; 0; 1; 0g On peut supposer ici que X suite une loi binomiale, X B(p), de parametre p inconnu (mais que l'on va chercher a estimer). 55
  • 100. Arthur CHARPENTIER - Rappels de probabilites statistiques Inference statistique Quelle est la vraie valeur de p, que l'on ne conna^t pas ? Quelle est la valeur de p la plus vraisemblable ? Sur n lancers, la probabilite d'obtenir precisement l'echantillon fx1; ; xng est P(X1 = x1; ;Xn = xn); ou X1; ;Xn sont n versions independentes de X, supposees suivre la loi B(p). Aussi, P(X1 = x1; ;Xn = xn) = Yn i=1 P(Xi = xi) = Yn i=1 pxi (1 p)1xi ; car pxi (1 p)1xi = 8 : p si xi vaut 1 1 p si xi vaut 0 56
  • 101. Arthur CHARPENTIER - Rappels de probabilites statistiques Inference statistique Aussi, P(X1 = x1; ;Xn = xn) = p Pn Pn i=1 xi (1 p) i=1 1xi : Cette fonction, qui depend de p mais aussi de fx1; ; xng est appelee vraisemblance de l'echantillon, et sera notee L (likelihood), Pn L(p; x1; ; xn) = p i=1 xi (1 p) Pn i=1 1xi : Ici, nous avons obtenu 5 valeurs de 1 et 6 fois 0. On en deduit les vraisemblances suivante en fonction de l'echantillon. 57
  • 102. Arthur CHARPENTIER - Rappels de probabilites statistiques Valeur de p L(p; x1; ; xn) 0.1 5.314410e-06 0.2 8.388608e-05 0.3 2.858871e-04 0.4 4.777574e-04 0.5 4.882812e-04 0.6 3.185050e-04 0.7 1.225230e-04 0.8 2.097152e-05 0.9 5.904900e-07 0.0 0.2 0.4 0.6 0.8 1.0 0e+00 1e−04 2e−04 3e−04 4e−04 5e−04 Probabilité p Vraisemblance L l l l l l l l l l La valeur la plus vraisemblance pour p est obtenue au maximum de la vraisemblance, i.e. 0.4545. 58
  • 103. Arthur CHARPENTIER - Rappels de probabilites statistiques Inference statistique Peut-on utiliser la moyenne empirique ? Rappelons que l'on dispose de l'echantillon f1; 1; 0; 1; 0; 1; 0; 0; 1; 0; 1; 0g Rappelons que pour une loi binomiale, E(X) = p. Aussi, il pourrait ^etre legitime de considerer comme estimateur de p la version empirique de E(X), i.e. x. Un estimateur naturel de p serait donc x 5=11 = 0:4545. 59
  • 104. Arthur CHARPENTIER - Rappels de probabilites statistiques Le maximum de vraisemblance Formellement, si f designe la vraie loi (inconnue) de X, la densite de X si X est continue, i.e. f(x) = dF(x) dx = F0(x), la loi de probabilite de X si X n'est pas continue, i.e. f(x) = P(X = x), La vraisemblance s'ecrit, comme les Xi sont i.i.d. L(; x1; ; xn) = P(X1 = x1; ;Xn = xn) = Yn i=1 f(xi) Un estimateur naturel pour est obtenu au maximum de la vraisemblance, b 2 argmaxfL(; x1; ; xn); 2 g: Petite remarque pratique : pour toute fonction croissante h, b 2 argmaxfh (L(; x1; ; xn)) ; 2 g: 60
  • 105. Arthur CHARPENTIER - Rappels de probabilites statistiques Le maximum de vraisemblance 0 1 2 3 4 5 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 Figure 9 { Invariance de la position du maximum par transformation croissante. 61
  • 106. Arthur CHARPENTIER - Rappels de probabilites statistiques Le maximum de vraisemblance Prenons le cas particulier de la fonction h = log b 2 argmaxflog (L(; x1; ; xn)) ; 2 g: i.e. on cherche le maximum de la log-vraisemblance, qui s'ecrit simplement log L(; x1; ; xn) = Xn i=1 log f(xi) et pour chercher le maximum, la condition du 1er ordre impose de calculer des derivees (et la derivee d'une somme est plus simple a calculer que la probabilite d'un produit), si L(; x) est derivable. 62
  • 107. Arthur CHARPENTIER - Rappels de probabilites statistiques 0.0 0.2 0.4 0.6 0.8 1.0 0e+00 1e−04 2e−04 3e−04 4e−04 5e−04 Probabilité p Vraisemblance L l l l l l l l l l 0.0 0.2 0.4 0.6 0.8 1.0 −30 −25 −20 −15 −10 Probabilité p Log vraisemblance L l l l l l l l l l Figure 10 { Fonction de vraisemblance et de log-vraisemblance. 63
  • 108. Arthur CHARPENTIER - Rappels de probabilites statistiques Le maximum de vraisemblance Les quations de vraisemblance sont alors condition du premier ordre si 2 Rk; @ log (L(; x1; ; xn)) @
  • 109.
  • 110.
  • 111.
  • 112. =b = 0 si 2 R; @ log (L(; x1; ; xn)) @
  • 113.
  • 114.
  • 115.
  • 116. =b = 0 condition du second ordre si 2 Rk; @2 log (L(; x1; ; xn)) @@0
  • 117.
  • 118.
  • 119.
  • 121. nie negative si 2 R; @2 log (L(; x1; ; xn)) @
  • 122.
  • 123.
  • 124.
  • 125. =b 0 La fonction @ log (L(; x1; ; xn)) @ est appele fonction score : au maximum de vraisemblance, le score est nul. 64
  • 126. Arthur CHARPENTIER - Rappels de probabilites statistiques La notion d'information de Fisher Un estimateur b de sera dit exhaustif s'il fournit autant d'information sur que l'ensemble des observations fx1; ; xng. L'information de Fisher associee a une densite f, R est I() = E d d 2 log f(X) ou X a pour loi f; I() = V ar d d log f(X) = E d2 d2 log f(X) : Notons que l'information de Fisher est simplement la variance du score. Pour parle aussi d'information de Fisher pour un observation unique. Dans le cas d'un echantillon X1; ;Xn de densite f, l'information est In() = n I(). 65
  • 127. Arthur CHARPENTIER - Rappels de probabilites statistiques Notions d'ecacite et d'optimalite Si b est une estimateur sans biais de , alors V ar(b) 1 nI() . Un estimateur qui atteint cette borne sera dit ecace. Mais la borne n'est pas toujours atteignable. Un estimateur b sans biais sera dit optimal s'il est de variance minimale parmi tous les estimateurs sans biais. La notion d'information de Fisher en dimension plus grande L'information de Fisher est la matrice k k I = [Ii;j ] ou Ii;j = E @ @i ln f(X) @ @j : ln f(X) 66
  • 128. Arthur CHARPENTIER - Rappels de probabilites statistiques Exemple de calcul d'information de Fisher Soit X suivant une loi P(), log f(x) = + x log log(x!) et d2 d2 log f(x) = x 2 I() = E d2 d2 log f(X) = E X 2 = 1 Pour une loi B(n; ), I() = n (1 ) Pour une loi BN(; 2), I() = 1 2 Pour une loi BN(; ), I() = 1 22 67
  • 129. Arthur CHARPENTIER - Rappels de probabilites statistiques Le maximum de vraisemblance De
  • 130. nition 13. Soit fx1; ; xng un echantillon de loi f, ou 2 . On appelle estimateur du maximum de vraisemblance bn de bn 2 argmaxfL(; x1; ; xn); 2 g: Proposition 14. Sous quelques conditions techniques, bn converge presque s^urement vers , bn p:s: ! . Proposition 15. Sous quelques conditions techniques, bn est un estimateur asymptotiquement ecace de , p n(bn ) L! N(0; I1()): L'estimateur du maximum de vraisemblance n'a aucune raison d'^etre sans biais. 68
  • 131. Arthur CHARPENTIER - Rappels de probabilites statistiques Le maximum de vraisemblance, cas N(; 2) Soit fx1; ; xng un echantillon independant, distribue suivant la loi N(; 2), de densite f(x j ; 2) = 1 p 2 exp (x )2 22 : La vraisemblance est alors f(x1; : : : ; xn j ; 2) = Yn i=1 f(xi j ; 2) = 1 22 n=2 exp Pn i=1(xi )2 22 ; ou encore f(x1; : : : ; xn j ; 2) = 1 22 n=2 exp Pn i=1(xi x)2 + n(x )2 22 : 69
  • 132. Arthur CHARPENTIER - Rappels de probabilites statistiques Le maximum de vraisemblance, cas N(; 2) Le maximum de vraisemblance en est obtenu a l'aide de la condition du premier ordre, @ @ log 1 22 n=2 exp Pn i=1(xi x)2 + n(x )2 22 ! = @ @ log 1 22 n=2 Pn i=1(xi x)2 + n(x )2 22 ! = 0 2n(x ) 22 = 0: qui donne b = x = Pn i=1 xi=n. 70
  • 133. Arthur CHARPENTIER - Rappels de probabilites statistiques La seconde condition du premier ordre s'ecrit @ @ log 1 22 n=2 exp Pn i=1(xi x)2 + n(x )2 22 ! = @ @ n 2 log 1 22 Pn i=1(xi x)2 + n(x )2 22 = n + Pn i=1(xi x)2 + n(x )2 3 = 0: Le maximum est alors obtenu pour b2 = Pn i=1(xi b)2=n: Par substitution de b, on peut ecrire b2 = 1 n Xn i=1 (xi x)2 = 1 n Xn i=1 x2i 1 n2 Xn i=1 Xn j=1 xixj : On peut noter facilement que E [b] = , mais aussi E h c2 i = n 1 n 2. 71
  • 134. Arthur CHARPENTIER - Rappels de probabilites statistiques Le maximum de vraisemblance, cas uniforme sur [0; ] La densite des Xi est ici f(x) = 1 1(0 x ). La vraisemblance s'ecrit alors L(; x1; ; xn) = 1 n Yn i=1 1(0 xi ) = 1 n 1(0 inffxig supfxig ): Cette fonction n'est pas derivable en , mais on note que L est maximale pour le plus petit possible, i.e. b = supfxig. l lllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.000 0.001 0.002 0.003 0.004 72
  • 135. Arthur CHARPENTIER - Rappels de probabilites statistiques Le maximum de vraisemblance Notons que l'estimateur du maximum de vraisemblance n'est par necessairement unique. Supposons que fx1; ; xng soient uniforment distribuees sur [; + 1]. Si b = supfxig 1 inffxig = b+ Alors tout estimateur b 2 [b; b+] est un estimateur du maximum de vraisemblance de . En
  • 136. n l'estimateur du maximum de vraisemblance n'est pas forcement sans biais. Dans le cas de la loi exponentielle b = 1=x. En utilisant des proprietes de la loi inverse-gamma, onm peut montrer que E(b) = n n 1 : 73
  • 137. Arthur CHARPENTIER - Rappels de probabilites statistiques Le maximum de vraisemblance, aspects numeriques Pour les lois usuelles, sous R, library(MASS) permet de calculer le maximum de vraisemblance pour les lois usuelles, e.g. fitdistr(x.norm,normal) pour estimer les parametres d'une loi normale pour un echantillon x. Si on souhaite utiliser des methodes numeriques sous R, LV - function(theta)f-sum(log(dexp(x,theta)))g puis optim(2,LV) permet de calculer numeriquement le maximum de la fonction de log-vraisemblance. Parfois, obtenir le maximum de la vraisemblance peut ^etre dicile, ou impossible. On peut alors utiliser des methodes de type Newton-Rahpson ou la methode du score pour approcher numeriquement le maximum. Soit S(x; ) = @ @ log f(x; ) la fonction score. On pose Sn() = Xn i=1 S(Xi; ): 74
  • 138. Arthur CHARPENTIER - Rappels de probabilites statistiques En faisant un developpement de Taylor, de Sn au voisinage de 0, Sn(x) = Sn(0) + (x 0)S0n (y) pour y 2 [x; 0] En x = bn, Sn(bn) = 0 = +(bn 0)S0n (y) pour y 2 [0; bn] Aussi, bn = 0 Sn(0) S(y) 0n pour y 2 [0; bn] 75
  • 139. Arthur CHARPENTIER - Rappels de probabilites statistiques Le maximum de vraisemblance, aspects numeriques Construisons la suite (Newton-Raphson) b(i+1) n = b(i) n Sn(b(i) n ) S0n (b(i) n ) ; a partir d'une valeur initiale b(0) n bien choisie. Construisons la suite (methode du score) b(i+1) n = b(i) n Sn(b(i) n ) nI(b(i) n ) ; a partir d'une valeur initiale b(0) n bien choisie. 76
  • 140. Arthur CHARPENTIER - Rappels de probabilites statistiques La methode des moments La methode des moments est la methode la plus simple et la plus intuitive pour estimer un parametre . Si E(X) = g(), on cherche b tel que x = g(b). Exemple Dans le cas d'une loi exponentielle sur E(), P(X x) = 1 ex, E(X) = 1=, donc b = 1=x. Exemple Dans le cas d'une loi uniforme sur [0; ], E(X) = =2, donc b = 2x. Si 2 R2, on utilise egalement soit V ar(X), soit E(X2). 77
  • 141. Arthur CHARPENTIER - Rappels de probabilites statistiques Comparer des estimateurs Parmi les proprietes usuelles des estimateurs, sans biais, E(bn) = , convergent, bn P! , quand n ! 1 p n(b ) asymptotiquement normal, L! N(0; 2) quand n ! 1, ecace optimal Soient T1 et T2 deux estimateurs sans biais, alors T1 sera dit plus ecace que T2 s'il est de variance plus faible. Pour comparer deux estimateurs sans biais, on compare souvent leur variance. Le meilleur estimateur aura la variance la plus faible. 78
  • 142. Arthur CHARPENTIER - Rappels de probabilites statistiques Comparer des estimateurs, biais vs. variance −2 −1 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 Figure 11 { Choisir un estimateur, b1 versus b2. 79
  • 143. Arthur CHARPENTIER - Rappels de probabilites statistiques Comparer des estimateurs, biais vs. variance b1 estime avec biais (E(b1)6= E()), b2 estime sans biais (E(b2) = E()), V ar(b1) V ar(b2). L'estimateur b1 peut ^etre interessant des lors que l'on peut estimer correctement le biais. Mais le biais est souvent une fonction de (qui est inconnu), le biais est souvent une fonction compliquee de . 80