Hitting time for bessel processes and WOMS algorithm
slides statistique mathématique.pdf
1. Statistique mathématique
Master Analyse Economique et Modélisation
FSJES-Souissi
Version en cours de finalisation, à ne pas diffuser!
July 26, 2021
July 26, 2021 1 / 76
2. Introduction
L’objectif de ce module est double, la première partie porte sur des rappels
et compléments sur les techniques probabilistes qui seront utilisées. La
deuxième partie portera sur des méthodes statistiques concernant entre
autres les modèles statistiques, les méthodes d’échantillonnage et
d’estimation puis une introduction à la statistique non-paramétrique.
Le module a pour objectif de mettre en évidence les principes généraux
aidant à la prise de décision et la résolution des problèmes statistiques, en
accordant une attention particulière aux applications en sciences
économiques et sociales (y compris la finance, la gestion, · · · ).
July 26, 2021 2 / 76
3. Rappel de probabilité
Exercice
Soient A et B deux événements tel que:
P(A) = 0.8 P(B) = 0.7
1 Est-il possible d’avoir P(A ∩ B) = 0.1?
2 Est-il possible d’avoir P(A ∩ B) = 0.77?
3 Quelle est la valeur maximale de P(A ∩ B)?
4 Quelle est la valeur minimale de P(A ∩ B)?
July 26, 2021 3 / 76
4. Rappel de probabilité
Correction
1 Est-il possible d’avoir P(A ∩ B) = 0.1?
Par défintion, on a :
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
= 0.7 + 0.8 − 0.1 = 1.4
P(A ∪ B) > 1, ce qui est impossible.
2 Est-il possible d’avoir P(A ∩ B) = 0.77?
On sait que :
A ∩ B ⊂ B =⇒ P(A ∩ B) ≤ P(B)
=⇒ 0.77 ≤ 0.7
Cette inégalité est absurde, il est donc impossible d’avoir P(A ∩ B) = 0.77.
July 26, 2021 4 / 76
5. Rappel de probabilité
Correction
3 Quelle est la valeur maximale de P(A ∩ B)?
On sait que ∀(A, B) ∈ Ω:
P(A ∩ B) ≤ min P(A), P(B)
D’où:
P(A ∩ B) ≤ 0.7 =⇒ max P(A ∩ B) ≤ 0.7
Donc, la valeur maximale de P(A ∩ B) est de 0.7.
July 26, 2021 5 / 76
6. Rappel de probabilité
Correction
4 Quelle est la valeur minimale de P(A ∩ B)?
On distingue 2 cas :
Si A et B sont indépendants, on a:
P(A ∩ B) = P(A) × P(B) = 0.7 × 0.8 = 0.56
Si A et B sont dépendants, on a:
P(A ∩ B) = P(A) + P(B) − P(A ∪ B) = 1.5 − P(A ∪ B)
Ainsi, si P(A ∪ B) = 0 alors P(A ∩ B) = 1.5 ce qui est impossible car c’est
une valeur supérieur à 1. Or, on sait que P(A ∪ B) ∈ [0, 1]. D’où, si
P(A ∪ B) = 1, alors la valeur minimale de P(A ∩ B) est 0.5.
July 26, 2021 6 / 76
7. Les variables aléatoire
Definition
Une variable aléatoire X est une fonction de l’ensemble fondamental Ω à
valeurs dans R:
X : Ω −→ R
Lorsque la variable X ne prend que des valeurs discrètes, on parle de
variable aléatoire discrète.
July 26, 2021 7 / 76
8. Les variables aléatoire
Exemples
On jette deux dés distincts et on s’intéresse à la somme des points. On
note X cette variable aléatoire, elle est définie par:
X :Ω → R avec Ω = {(1, 1), (1, 2), · · · , (6, 5), (6, 6)}
(ω1, ω2) → ω1 + ω2
L’ensemble des valeurs possibles de X est {2, 3, · · · , 12}.
On lance toujours deux dés, mais cette fois on s’intéresse au plus grand
chiffre Y obtenu. On a alors:
Y :Ω → R avec Ω = {(1, 1), (1, 2), · · · , (6, 5), (6, 6)}
(ω1, ω2) → max(ω1, ω2)
La variable Y est à valeurs dans {1,2,· · · ,6}.
July 26, 2021 8 / 76
9. Fonction de répartition
La loi de probabilité d’une variable aléatoire permet de connaı̂tre les
chances d’apparition des différentes valeurs de cette variable.
Definition
Soit X une variable aléatoire. La loi de probabilité de X est définie par la
fonction FX , appelée fonction de répartition de la variable X, définie par:
FX :R → [0, 1]
x → P(X ≤ x)
On dit que deux variables aléatoires X et Y ont la même loi si elles ont la
même fonction de répartition FX = FY .
July 26, 2021 9 / 76
10. Lois discrètes usuelles
Loi binomiale
La loi Binomiale est utilisée pour modéliser un sondage avec remise.
C’est la loi du nombre de succès lorsqu’on renouvelle n fois de manière
indépendante une épreuve de Bernoulli de paramètre p. On note X le
nombre de succès obtenus à l’issue des n épreuves. Sa loi s’appelle loi
Binomiale de paramètres n et p, X ∼ B(n, p).
P(X = k) = n
p
pk
(1 − p)1−k
July 26, 2021 10 / 76
11. Lois discrètes usuelles
Le figure ci-dessous donne une représentation d’une distribution binomiale
pour un échantillon de taille n = 50 et pour différente valeur de p.
July 26, 2021 11 / 76
12. Lois discrètes usuelles
Loi Hypergéométrique
La loi hypergéométrique est utilisée pour modéliser un sondage sans
remise. C’est le cas de pratiquement tous les sondages (notamment
lorsqu’on veut étudier la conformité d’un lot de médicaments, étudier le
nombre de cellules atteintes par un virus, . . .), X ∼ H(N, m, n).
P(X = k) =
(m
k )
N−m
n−k
(N
n )
si k ∈ {0, ..., min(m, n)}
July 26, 2021 12 / 76
13. Lois discrètes usuelles
Dans la figure ci-dessous on représente le tirage sans remise de 20 boules
blanches dans une urnes contenant d’abords 70 boules blanches et 30
boules noires. Par la suite, on effectue une deuxième expérience dans une
urne contenant 20 boules blanches et 30 boules noires.
July 26, 2021 13 / 76
14. Lois discrètes usuelles
Loi de Poisson
La loi de Poisson est utilisée pour modéliser le comptage d’événements
rares, c’est à dire des événements ayant une faible probabilité de
réalisation : maladies rares, accidents mortels rares, le titrage d’une
solution virale, pannes, radioactivité ..., X ∼ P(λ)
P(X = k) =
λk
k!
e−λ
July 26, 2021 14 / 76
15. Lois discrètes usuelles
On donne une distribution de poisson représentant le nombre d’accident
dans une usine pour différente valeur de λ.
July 26, 2021 15 / 76
16. Lois discrètes usuelles
Exercice
On jette 10 fois une pièce de monnaie bien équilibrée en notant chaque
fois le résultat.
On note X la variable aléatoire qui a chaque partie associe le nombre de
”face” obtenue.
1 Justifier que la loi de probabilité suivie par la variable X est une loi
binomiale.
2 Calculer la probabilité d’événement E:”le nombre de face” est compris
entre 3 et 6.
July 26, 2021 16 / 76
17. Lois discrètes usuelles
Exercice
1 Justifier que la loi de probabilité suivie par la variable X est une loi
binomiale.
On répète 10 fois une expérience équiprobable, avec :
Ω = {P, F} et P(X = 0) = C0
10p0
(1 − p)10
P(X = 1) = C1
10p1
(1 − p)10−1
.
.
.
P(X = 10) = C10
10 p10
(1 − p)10−10
On a ∀k ∈ {0, 1, , 10} : P(X = k) = Ck
10pk(1 − p)10−k. Donc,
X ∼ B(10, 0.5).
July 26, 2021 17 / 76
18. Lois discrètes usuelles
Exercice
2 Calculer la probabilité d’événement E:”le nombre de face” est compris
entre 3 et 6.
P(E) = P(X = 3) + P(X = 4) + P(X = 5) + P(X = 6)
= C3
10p3
(1 − p)7
+ C4
10p4
(1 − p)6
+ C5
10p5
(1 − p)5
+ C6
10p6
(1 − p)4
P(E) = 0.53
July 26, 2021 18 / 76
19. Variable aléatoire continue
Definition
Une variable aléatoire X est continue, s’il existe une fonction f définie sur
R telle que la fonction de répartition de X s’écrit:
∀x ∈ R FX (x) =
Z x
−∞
f (t)dt
où f est une fonction intégrable sur R satisfaisant les conditions suivantes
:
1 ∀t ∈ R, f (t) ≥ 0.
2
R +∞
−∞ f (t)dt = 1
Une fonction qui vérifie les conditions 1. et 2. est appelée densité de
probabilité.
July 26, 2021 19 / 76
20. Variable aléatoire continue
Exercice
Le temps requis pour qu’un étudiant complète un examen d’une heure est
une variable aléatoire ayant une densité de probabilité:
f (y) =
(
cy2 + y si 0 ≤ y ≤ 1
0 sinon
1 Déterminer la constante c.
2 Déterminer la fonction de répartition F.
July 26, 2021 20 / 76
21. Variable aléatoire continue
Correction
1 Déterminer la constante c.
Puisque f est une densité de probabilité, on a:
Z 1
0
f (y)dy = 1
=⇒
c
3
y3
+
y2
2
1
0
= 1
=⇒
c
3
+
1
2
= 1
=⇒ c =
3
2
July 26, 2021 21 / 76
22. Variable aléatoire continue
Correction
2 Déterminer la fonction de répartition F.
Par définition, on a:
F(t) =
Z t
−∞
f (y)dy
=
Z t
0
3
2
y2
+ ydy
=
1
3
y3
+
y2
2
t
0
=
t3
2
+
t2
2
=
t2(t + 1)
2
July 26, 2021 22 / 76
24. Lois continues usuelles
Loi uniforme
Elle permet de modéliser le tirage d’un nombre aléatoire dans l’intervalle
[a, b], X ∼ U ([a, b]).
La fonction de densité est donnée par :
f (x) =
(
1
b−a , si x ∈ [a, b]
0, sinon
La fonction de répartition est donnée par :
F(x) =
0, si x a
x−a
b−a , si x ∈ [a, b]
1, si x b
July 26, 2021 24 / 76
25. Lois continues usuelles
La figure ci-dessous représente la fonction de densité de la loi uniforme sur
différent intervalle [a, b].
July 26, 2021 25 / 76
26. Lois continues usuelles
Loi exponentielle
Elle permet en général de modéliser des durées de vie ou des temps
d’attente, X ∼ E(λ).
La fonction de densité est donnée par :
f (x) =
(
λe−λx , si x ≥ 0
0, si x 0
La fonction de répartition est donnée par :
F(x) =
(
0, si x 0
e−λx , , si x ≥ 0
July 26, 2021 26 / 76
27. Lois continues usuelles
La figure ci-dessous représente la fonction de densité de la loi exponentielle
pour différente valeur de λ.
July 26, 2021 27 / 76
28. Lois continues usuelles
Loi normale
La loi Normale est une loi centrale dans la théorie des probabilités. Elle est
notamment très utilisée en statistique. Une grandeur influencée par un
grand nombre de paramètres indépendants est souvent modélisée par une
loi normale, X ∼ N(m, σ2).
La fonction de densité est donnée par :
f (x) =
1
σ
√
2π
e−
(x−m)2
2σ2
July 26, 2021 28 / 76
29. Lois continues usuelles
La figure ci-dessous représente la fonction de densité de la loi normale
pour différente valeur des paramètres (m, σ).
July 26, 2021 29 / 76
30. Espérance d’une variable aléatoire
Definition
L’espérance d’une variable aléatoire X est notée E(X). Elle représente la
valeur moyenne prise par la variable X.
1 Si X est une variable discrète à valeurs dans {x1, · · · , x2} , son
espérance est:
E(X) = x1P(X = x1) + · · · + xnP(X = xn) =
n
X
i=1
xi P(X = xi )
2 Si X est une variable continue à densité f , son espérance est:
E(X) =
Z +∞
−∞
xf (x)dx
Lorsqu’une variable X vérifie E(X) = 0, on dit que la variable est
centrée.
July 26, 2021 30 / 76
31. Espérance d’une variable aléatoire
Propriété
1 L’espérance est linéaire :
Soient a et b ∈ R deux variables aléatoires X et Y d’espérance finie
alors
E(aX + bY ) = aE(X) + bE(Y )
2 Si X ≥ 0, alors E(X) ≥ 0.
3 Si X ≤ Y , alors E(X) ≤ E(Y ).
July 26, 2021 31 / 76
32. Variance d’une variable aléatoire
L’écart type représente l’écart moyen (la distance moyenne) entre la
variable et sa moyenne. Elle mesure la dispersion d’une variable, plus
l’écart-type est grand plus la variable prend des valeurs qui peuvent être
éloignées les unes des autres, plus l’écart-type est petit plus la variable
prend des valeurs proches de sa moyenne.
Definition
La variance d’une variable aléatoire X, notée Var(X), est définie par:
Var(X) = E
(X − E(X))2
L’écart type est la racine carrée de la variance :
σ(X) =
p
Var(X)
Lorsqu’une variable X vérifie Var(X) = 1, on dit que la variable est
réduite.
July 26, 2021 32 / 76
33. Variance d’une variable aléatoire
Remarque
La variance s’écrit aussi Var(X) = E(X2) − E(X)2
Propriété
1 Var(X) = 0 ssi X est constante.
2 Soient a et b ∈ R, alors Var(aX + b) = a2Var(X).
July 26, 2021 33 / 76
34. Inégalité de Markov
Soit X une variable aléatoire telle que m = E (X) +∞, alors:
∀λ 0, P (X λ) ≤
E (X)
λ
Inégalité de Bienaymé-Tchebychev
Soit X une variable aléatoire telle que V (X) = σ2 +∞, alors:
∀ 0, P (|X − E (X)| ≥ ) ≤
V (X)
σ2
July 26, 2021 34 / 76
35. Convergence en probabilité
Definition
Soit (Xn)n≥0 une suite de variable aléatoire quelconque (discrète,
continue), on dit que (Xn) converge en probabilité vers X ssi:
∀ 0, P (|Xn − X| ≥ ) −
−
−
−
→
n→+∞
0 ⇔ lim
n→+∞
P (|Xn − X| ≥ ) = 0
Remarque
On note: Xn
P
−
→ X
July 26, 2021 35 / 76
36. Propriété
Soit (Xn) une suite de variable aléatoire et f : R → R une fonction réelle,
alors:
Si Xn
P
−
→ X alors f (Xn)
P
−
→ f (X)
Exemple d’application
Soient (Xn) et (Yn) deux suites de variables aléatoires tel que :
Xn
P
−
→ X et Yn
P
−
→ Y
Si f : R2 → R est uniformément continue alors :
f (Xn, Yn)
P
−
→ f (X, Y )
July 26, 2021 36 / 76
37. Loi des grands nombres
Definition
Soit (Xn) une suite de variable aléatoire indépendante telle que ∀n ∈ N
E (Xn) = m et Var (Xn) = σ2, alors on a:
X =
1
n
n
X
i=1
Xi
P
−
→ E (Xn) = m
July 26, 2021 37 / 76
38. Convergence en loi
Definition
Soit (Xn) une suite de variable aléatoire. On dit que Xn converge en loi
vers X, et on note Xn
`
−
→ X, si et seulement si :
lim
n→+∞
F (Xn) = F (X) où lim
n→+∞
FXn (x) = FX (x)
Avec Fz la fonction de répartition de z.
Théorème
Si Xn
P
−
→ X alors on a que Xn
`
−
→ X.
La réciproque est fausse.
July 26, 2021 38 / 76
39. Propriété
Soient (Xn) et (Yn) deux suites de variable aléatoire et λ ∈ R, si Xn
`
−
→ X
et Yn
`
−
→ λ alors:
1 Xn + Yn
`
−
→ X + λ
2 Xn × Yn
`
−
→ λX
3 Xn
Yn
`
−
→ X
λ (si λ 6= 0)
Théorème
Si Xn
`
−
→ X alors f (Xn)
`
−
→ f (X).
Avec f une fonction réel continue.
July 26, 2021 39 / 76
40. Théorème centrale limite (TCL)
Le Théorème Central Limite (TCL) est un pilier des statistiques et des
probabilités. Le théorème exprime que lorsque la taille de l’échantillon est
grande, la distribution de la moyenne entre plusieurs échantillons
approchera une distribution gaussienne.
Théorème
Soit (Xn) une suite de variable aléatoire indépendante et identiquement
distribué, telle que E (Xn) = m et Var (Xn) = σ2. Alors on a:
√
n
X − m
σ
`
−
→ N(0, 1)
July 26, 2021 40 / 76
41. Théorème centrale limite
Exercice:
Des tubes fluorescents fabriqués par une entreprise ont une durée de vie
moyenne de 800 heures. L’écart-type de la durée de vie est évalué à 60.
On prélève un échantillon aléatoire simple de 50 tubes dans la production
d’une journée et on mesure la durée de vie des tubes.
Quelle est la probabilité d’obtenir une durée de vie moyenne comprise
entre 790 et 810 heures ?
July 26, 2021 41 / 76
42. Théorème centrale limite
Correction:
On note Xn la durée de vie moyenne des tubes fluorescents.
Notre échantillon à une taille de 50, supérieur à 30. Donc, notre
échantillon suit une loi normale N(µ, σ2), avec µ = 800 et σ = 60.
On cherche à déterminer la probabilité d’obtenir une durée de vie moyenne
comprise entre 790 et 810 heurs, c’est à dire P
790 ≤ Xn ≤ 810
.
Or, d’après le théorème central limite Zn =
√
n
σ Xn − µ
`
−
→ N(0, 1).
P
790 ≤ Xn ≤ 810
⇒ P
790 − 800 ≤ Xn − 800 ≤ 810 − 800
⇒ P
60
√
50
(790 − 800) ≤
√
50
60
Xn − 800
≤
√
50
60
(810 − 800)
#
⇒ P [−1.17 ≤ Zn ≤ 1.17]
July 26, 2021 42 / 76
43. Théorème centrale limite
Correction:
Par conséquent, on a:
P [−1.17 ≤ Zn ≤ 1.17] = F(1.17) − F(−1.17)
= F(1.17) − (1 − F(1.17))
= F(1.17) − 1 + F(1.17)
= 2 × F(1.17) − 1
= 2 × 0.8790 − 1
P [−1.17 ≤ Zn ≤ 1.17] = 0.758
Donc, la probabilité d’obtenir une durée de vie moyenne comprise entre
790 et 810 heures est de 75.8%.
July 26, 2021 43 / 76
44. Exercice:
Soient X1, X2, · · · , Xn des variables aléatoires i.i.d de densité
f (x) = exp
−(x − θ)e−(x−θ)
, où θ ∈ R+.
Étudier la convergence en loi de Tn tel que:
Tn =
1
n
n
X
i=1
e−(xi −θ)
July 26, 2021 44 / 76
45. Correction:
D’abord, on détermine la densité de Yi , tel que Tn = 1
n
Pn
i=1 yi . Notons
Hy la fonction de répartition de Y , on a par définition:
Hy = P (y t) = P
e−(xi −θ)
t
= P (−xi + θ ln(θ))
= P (xi ≥ − ln(t) + θ)
= P
xi ≥ ln
1
t
+ θ
= P xi ≥ t0
= 1 − P xi ≤ t0
Hy = 1 − Fxi (t0
) avecy 0
Fxi est la fonction de répartition de Xi .
July 26, 2021 45 / 76
46. Correction:
D’où:
hy =
1 − Fxi
ln
1
t
+ θ
0
=
1/y2
1/y
× f (xi ) = −
1
y
× f
ln
1
t
+ θ
= −
1
y
eln(y)−e− ln(y)
= −
1
y
ye−y
hy = e−y
On’en déduit que yi ,→ Exp(1) Or X ,→ Exp(λ) =⇒ E(X) = 1
λ et
V (X) = 1
λ2 . On’en déduit que Tn est la moyenne de n variable yi , qui sont
i.i.d d’espérance µ = 1 et σ2 = 1, donc par le TCL:
√
n
(Tn − 1)
1
`
−
→ N(0, 1)
July 26, 2021 46 / 76
48. Estimation statistique
Dans la pratique on rencontre plusieurs problèmes où l’on cherche à
évaluer la valeur approchée d’un paramètre associé à une population d’une
taille assez grande en se basant sur un échantillon vérifiant l’hypothèse
d’échantillonage aléatoire simple de n observation issue de cette
population.
Ces paramètres d’intérêt peuvent être l’espérance, la variance, la moyenne,
· · · d’une variable aléatoire qui suit une loi `. Cela fait l’objet d’estimation
statistique (inférence statistique). Autrement dit, dans un échantillon
aléatoire de taille n, on suppose qu’une série statistique x1, x2, · · · , xn
correspond à des réalisations de n variables aléatoires X1, X2, · · · , Xn. Il
s’agit de trouver une estimation d’un paramètre inconnue de la population
à partir de ces n réalisations.
July 26, 2021 48 / 76
49. Estimation statistique
Soit X une variable aléatoire dont la loi dépend d’un paramètre θ, élément
d’un sous-ensemble donné Θ de R, appelée espace des paramètres. On
cherche à estimer θ à partir d’un échantillon (X1, X2, · · · , Xn) de variable
aléatoire i.i.d. Avec, (x1, x2, · · · , xn) la série de réalisation de cet
échantillon.
Definition
Un estimateur Tn de θ est une variable aléatoire qui dépend de X tel que:
Tn = Tn (X1, X2, · · · , Xn)
Et chaque réalisation Tn (x1, x2, · · · , xn) est un estimateur de θ.
July 26, 2021 49 / 76
50. Estimation statistique
Exemples:
L’estimateur classique de la moyenne théorique µ est la moyenne empirique
X = 1
n
Pn
i=1 Xi . Déterminons l’espérance et la variance de cet estimateur:
1 E Xn
= 1
n
Pn
i=1 E (Xi ) = 1
n
Pn
i=1 µ = 1
n × nµ = µ.
2 V Xn
= 1
n2
Pn
i=1 V (Xi ) = 1
n2 × nσ2 = σ2/n
July 26, 2021 50 / 76
51. Estimation statistique
Definition
On dit qu’un estimateur Tn de θ est sans biais si et seulement si
E (Tn) = θ.
Definition
On dit qu’un estimateur Tn de θ est asymptotiquement sans biais si et
seulement si limn→+∞ E (Tn) = θ.
Théorème
Tout estimateur Tn de θ sans biais dont la variance tend vers 0 est
convergent.
July 26, 2021 51 / 76
52. Estimation statistique
Preuve théorème:
D’après l’inégalité de Bienaymé-Tchebychev on a:
P (|Tn − θ| )
V (Tn)
2
, ∀ 0
Pour 0 fixé et en faisant tendre n vers +∞, on aura donc:
P (|Tn − θ| )
P
−
−
−
−
→
n→+∞
0
Cela signifie que Tn
P
−
−
−
−
→
n→+∞
θ. D’où Tn est un estimateur convergent.
July 26, 2021 52 / 76
53. Estimation statistique
Théorème
Tout estimateur Tn de θ asymptotiquement sans biais, dont la variance
tend vers 0 est convergent.
Exercice: Soit (Xi ) un échantillon aléatoire simple, tel que
∀i, E (Xi ) = m +∞. Montrons que X = 1
n
Pn
i=1 Xi est un estimateur
convergent.
July 26, 2021 53 / 76
54. Estimation statistique
Correction:
On commence par calculer le biais associé à notre estimateur:
Biais X
= E X
− m =
1
n
n
X
i=1
E (Xi ) − m =
1
n
n
X
i=1
m − m = 0
Ainsi, X est un estimateur sans biais. Par la suite, on détermine sa
variance:
Var (x) =
1
n2
n
X
i=1
Var (Xi ) =
σ2
n
Par passage à la limite, limn→+∞ Var (x) = limn→+∞
σ2
n = 0.
X est un est estimateur sans biais et dont la variance → 0, donc X est
un estimateur convergent.
July 26, 2021 54 / 76
55. Estimation statistique
Definition
La précision d’un estimateur Tn de θ se mesure par sa moyenne
quadratique:
EQ (Tn) = E
h
(Tn − θ)2
i
= Var (Tn) + b2
n(θ)
Avec b2
n(θ) = [E (Tn) − θ]2
, le biais.
Remarque
Parmi les estimateurs sans biais de θ le plus précis (optimal) est celui qui à
la plus petite variance.
July 26, 2021 55 / 76
56. Estimation statistique
Preuve:
EQ (Tn) = E
h
(Tn − θ)2
i
= E
h
(Tn − E(Tn) + E(Tn) − θ)2
i
= E
h
(Tn − E(Tn))2
i
+ 2E [(Tn − E(Tn)) (E(Tn) − θ)]
+ E
h
(E(Tn) − θ)2
i
Comme E(Tn) − θ est une constante, on a que
E
h
(Tn − θ)2
i
= (E(Tn) − θ) et que E [(Tn − E(Tn))] = 0. Ainsi:
E
h
(Tn − θ)2
i
= Var(Tn) + (E(Tn) − θ)2
= Var (Tn) + b2
n(θ)
= EQ(Tn)
July 26, 2021 56 / 76
57. Estimation statistique
Inégalité de Fréchet-Darmois-Cramer-Rao (FDCR)
Si la variable aléatoire X prend ses valeurs dans un ensemble qui ne
dépend pas de θ, si la densité f (x, θ) est de classe C2 (2 fois continûment
dérivable) par rapport à θ, et sous certaines conditions de régularité, tout
estimateur Tn sans biais de θ dont la variance existe vérifie l’inégalité
FDCR:
Var (Tn) ≥
1
In(θ)
où In(θ) la quantité d’information de Fisher définie par:
In(θ) = E
∂ ln L
∂θ
2
#
= E
−
∂2 ln L
∂2θ
Avec L la fonction de vraisemblance.
July 26, 2021 57 / 76
58. Estimation statistique
Definition
on appelle vraisemblance (likelihood) de l’échantillon (X1, X2, · · · , Xn) la
loi de probabilité de ce n-uplet, notée L(x1, x2, · · · , xn) et définie par:
L(x1, x2, · · · , xn; θ) =
(Qn
i=1 P (Xi = xi |θ) , pourXune v.a discrète
Qn
i=1 f (xi ; θ) , pourXune v.a continue
Les conditions de régularité sont :
On suppose que l’ensemble des estimateurs Θ est un ensemble ouvert
sur lequel la densité f (x, θ) ne s’annule en aucun point x et est
dérivable par rapport à θ.
On suppose aussi que l’on peut intervenir dérivation par rapport à θ
et intégration, et que la quantité d’information de Fisher est
strictement positive.
July 26, 2021 58 / 76
59. Estimation statistique
Efficacité d’un estimateur
La borne inférieure pour la variance des estimateurs sans biais peut être
atteinte ou non. Si cette borne est effectivement atteinte par un
estimateur, il sera donc le meilleur, selon ce critère parmi l’ensemble des
estimateurs sans biais.
Definition
Un estimateur sans biais Tn est efficace si sa variance est égale à la borne
inférieure de FDCR:
V (Tn) =
1
In(θ)
July 26, 2021 59 / 76
60. Estimation statistique
Exemple:
Soit X suit la loi exponentielle de paramètre 1/θ, avec θ 0, de densité:
f (x, θ) =
1
θ
e−x/θ
; x ≥ 0
Par définition, on a:
E(X) = θ et Var(X) = θ2
Xn est un estimateur sans biais et convergent. De plus, c’est un
estimateur efficace de θ. Dans la suite on montre ce caractère d’efficacité
de l’estimateur Xn.
July 26, 2021 60 / 76
61. Estimation statistique
Soient X1, X2, · · · , Xn, n variables exponentielles indépendantes,
déterminons la fonction de vraisemblance:
L(x1, x2, · · · , xn; θ) =
n
Y
i=1
f (xi ; θ)
=
n
Y
i=1
1
θ
e−xi /θ
=
1
θn
e− 1
θ
Pn
i=1 xi
En introduisant la fonction ln on obtient:
ln L(x1, x2, · · · , xn; θ) = −n ln(θ) −
1
θ
n
X
i=1
xi
⇒
∂ ln L(x1, x2, · · · , xn; θ)
∂θ
= −
n
θ
+
1
θ2
n
X
i=1
xi
July 26, 2021 61 / 76
62. Estimation statistique
On dérive une seconde fois par rapport à θ et on calcule l’espérance de
cette quantité:
E
∂2 ln L(x1, x2, · · · , xn; θ)
∂2θ
= E −
n
θ2
+
2
θ3
n
X
i=1
xi
!
= −
n
θ2
+
2
θ3
n
X
i=1
E(xi ) = −
n
θ2
+
2
θ3
× nθ
= −
n
θ2
+
2n
θ2
July 26, 2021 62 / 76
63. Estimation statistique
Ainsi, on peut déterminer la quantité d’information de Fisher :
In(θ) = E
∂2 ln L(x1, x2, · · · , xn; θ)
∂2θ
= −
n
θ2
+
2n
θ2
In(θ) =
n
θ2
Or:
Var(Xn) =
1
n2
n
X
i=1
Var(xi ) =
1
n2
× nθ2
Var(Xn) =
θ2
n
On remarque que:
In(θ) =
1
θ2
n
=
1
Var(Xn)
Donc, Xn est un estimateur efficace.
July 26, 2021 63 / 76
64. Estimation statistique
Soit un n-échantillon d’une variable aléatoire X. Soit Tn une statistique
fonction de X1, X2, · · · , Xn de loi g(t, θ) (densité dans le cas continue et
P(T = t) dans le cas discret).
Definition
T sera site exhaustive si l’on a L(x; θ) = g(t, θ)h(x) (principe de
factorisation), en d’autres termes si la densité conditionnelle de
l’échantillon est indépendante du paramètre.
Ceci signifie qu’une fois T est connu, aucune valeur de l’échantillon ni
aucune autre statistique n’apportera d’informations supplémentaires
sur le paramètre inconnu θ.
July 26, 2021 64 / 76
65. Estimation statistique
Théorème
Théorème de Neyman et Fisher (théorème de factorisation
Une statistique Tn est exhaustive s’il existe deux applications mesurables
positives g et h telles que la densité L de l’échantillon puisse se factoriser
sous la forme:
L(x1, x2, · · · , xn; θ) = g(t; θ)h(x1, x2, · · · , xn)
Exemple: Soit un n-échantillon suivant une loi de poisson de paramètre λ
inconnu. On a:
L(x1, x2, · · · , xn; λ) =
n
Y
i=1
λxi
xi !
e−λ
= e−nλ λ
Pn
i=1 xi
Qn
i=1 xi !
July 26, 2021 65 / 76
66. Estimation statistique
Exemple (suite):
T =
Pn
i=1 Xi est une statistique exhaustive,on sait que T suit une loi de
poisson de paramètre nλ et la densité peut se factoriser de la façon
suivante:
L(x1, x2, · · · , xn; λ) = g(t; λ) × h(x)
Avec: g(t; λ) = e−nλ (nλ)t
t! et h(x) = t!
nt
Qn
i=1 xi !
July 26, 2021 66 / 76
67. Méthodes d’estimation statistique
Quand il n’y a pas d’estimateurs ponctuels évidents tels que la moyenne
empirique et la variance empirique, on les construit par deux méthodes :
méthode du maximum de vraisemblance et méthode des moments.
Méthode d’estimation du maximum de vraisemblance (EMV)
Soient x1, x2, · · · , xn des réalisations des variables aléatoires indépendantes
X1, X2, · · · , Xn de lois de probabilité inconnues mais identiques. Nous
cherchons à estimer cette loi P inconnue à partir des observations
x1, x2, · · · , xn.
La méthode de maximum de vraisemblance (EMV) est basée sur la
vraisemblance, qui est la probabilité conjointe de la série x1, x2, · · · , xn:
L(x1, x2, · · · , xn; θ) =
n
Y
i=1
P(Xi = xi )
July 26, 2021 67 / 76
68. Méthodes d’estimation statistique
Une fois qu’on a obtenu la vraisemblance L(x1, x2, · · · , xn; θ), on cherche à
la maximiser. La maximisation de L est identique à la maximisation de son
logarithme ln L. L’estimateur qui maximise la vraisemblance est celui qui
satisfait les conditions suivantes:
(∂ ln L(x1,x2,··· ,xn;θ)
∂θ = 0
∂2 ln L(x1,x2,··· ,xn;θ)
∂2θ
0
On prend comme estimateur de θ la solution de l’équation
∂ ln L(x1,x2,··· ,xn;θ)
∂θ = 0 et qui vérifie ∂2 ln L(x1,x2,··· ,xn;θ)
∂2θ
0.
July 26, 2021 68 / 76
69. Méthodes d’estimation statistique
Definition
On appelle l’estimateur du maximum de vraisemblance EMV toute
fonction b
θn de x1, x2, · · · , xn qui vérifie :
L(x1, x2, · · · ,n ; b
θn) = max
θ∈Θ
L(x1, x2, · · · , xn; θ)
Propriété
S’il existe une statistique exhaustive T, alors l’estimateur du maximum de
vraisemblance en dépend.
July 26, 2021 69 / 76
70. Méthodes d’estimation statistique
Puisque pour une statistique exhaustive:
L(x1, x2, · · · ,n ; θ) = g(t; θ) × h(x)
Ainsi, résoudre l’équation ∂ ln L(x1,x2,··· ,xn;θ)
∂θ = 0 revient à résoudre
∂ ln g(t1,t2,··· ,tn;θ)
∂θ = 0, donc l’estimateur de θ est b
θ.
Propriété
Si b
θ est un estimateur de maximum de vraisemblance de θ, alors f (b
θ) est
l’estimateur de maximum de vraisemblance de f (θ)
July 26, 2021 70 / 76
71. Méthodes d’estimation statistique
Exemple: Estimation par la méthode EMV de la moyenne m de la
loi normale
Soient X1, X2, · · · , Xn, n variables aléatoires de lois normales et
indépendantes. On suppose que la variance σ2 est connue:
Xi ,→ N(m, σ)
La fonction de densité de probabilité est :
f (xi =
1
σ
√
2π
e− 1
2σ2 (xi −m)2
Ainsi, la vraisemblance de la loi normale est :
L(x1, x2, · · · , xn; m) =
n
Y
i=1
f (xi ) =
n
Y
i=1
1
σ
√
2π
e− 1
2σ2 (xi −m)2
=
1
σ
√
2π
2
e− 1
2σ2
Pn
i=1(xi −m)2
July 26, 2021 71 / 76
72. Méthodes d’estimation statistique
Une fois qu’on a obtenu la vraisemblance L(x1, x2, · · · , xn; m), on cherche
à la maximiser. La maximisation de L est identique à la maximisation de
son logarithme ln L:
ln L(x1, x2, · · · , xn; m) = −n ln
σ
√
2π
−
1
2σ2
n
X
i=1
(xi − m)2
⇒
∂ ln L
∂m
=
1
σ2
n
X
i=1
(xi − m)
Ainsi :
∂ ln L
∂m
= 0 ⇔
1
σ2
n
X
i=1
(xi − m) = 0 ⇔
n
X
i=1
xi − nm = 0
La solution de cette équation est b
m = 1
n
Pn
i=1 xi . b
m est un maximum car :
∂2 ln L
∂2m
=
−n
σ2
0
July 26, 2021 72 / 76
73. Méthodes d’estimation statistique
Estimation par la méthode des moments
La méthode des moments consiste à estimer les paramètres inconnus en
utilisant les moments d’ordre 1 et 1 : E(X) et E(X2). Il s’agit de résoudre
le système en égalant les moments théoriques aux moments empiriques en
fonctions des paramètres inconnues. La solution des équations si elle existe
et est unique, sera appelée estimateur obtenu par la méthode des
moments.
July 26, 2021 73 / 76
74. Méthodes d’estimation statistique
Exemple: Soit la fonction de répartition suivante:
fθ(x) =
(
1
θ e− 1
θ
(x−γ)
, si x γ, θ 0
0, sinon
Posons alors Y = X − γ, d’où:
fθ(y) =
(
1
θ e− 1
θ
y
, si y 0, θ 0
0, sinon
Ainsi, Y suit une loi exponentielle de paramètre 1
θ . Donc, E(Y ) = θ et
Var(Y ) = θ2. Par la suite, on doit calculer E(Y ) et E(Y 2).
July 26, 2021 74 / 76
75. Méthodes d’estimation statistique
Exemple (suite): On a:
(
E(Y ) = θ
Var(Y ) = θ2
⇔
(
E(X − γ) = θ
Var(X − γ) = θ2
⇔
(
E(X) = θ + γ
Var(X) = θ2
⇔
(
E(X) = θ + γ
E(X2) − E(X)2 = θ2
⇔
(
E(X) = θ + γ
E(X2) = (θ + γ)2 + θ2
En égalant les moments théoriques aux moments empiriques en fonctions
des paramètres inconnues θ et γ:
(
E(X) = 1
n
Pn
i=1 xi
E(X2) = 1
n
Pn
i=1 x2
i
July 26, 2021 75 / 76
76. Méthodes d’estimation statistique
Ainsi, on trouve :
(
b
θ + b
γ = x
(b
θ + b
γ)2 + b
θ2 = 1
n
Pn
i=1 x2
i
⇔
(
b
θ = x − b
γ
x2 + b
θ2 = 1
n
Pn
i=1 x2
i
⇔
(
b
θ = x − b
γ
b
θ2 = 1
n
Pn
i=1 x2
i − x2
⇔
(
b
γ = x − b
θ
b
θ2 = s2
⇔
(
b
γ = x − s
b
θ = s
July 26, 2021 76 / 76