SlideShare une entreprise Scribd logo
1  sur  76
Télécharger pour lire hors ligne
Statistique mathématique
Master Analyse Economique et Modélisation
FSJES-Souissi
Version en cours de finalisation, à ne pas diffuser!
July 26, 2021
July 26, 2021 1 / 76
Introduction
L’objectif de ce module est double, la première partie porte sur des rappels
et compléments sur les techniques probabilistes qui seront utilisées. La
deuxième partie portera sur des méthodes statistiques concernant entre
autres les modèles statistiques, les méthodes d’échantillonnage et
d’estimation puis une introduction à la statistique non-paramétrique.
Le module a pour objectif de mettre en évidence les principes généraux
aidant à la prise de décision et la résolution des problèmes statistiques, en
accordant une attention particulière aux applications en sciences
économiques et sociales (y compris la finance, la gestion, · · · ).
July 26, 2021 2 / 76
Rappel de probabilité
Exercice
Soient A et B deux événements tel que:
P(A) = 0.8 P(B) = 0.7
1 Est-il possible d’avoir P(A ∩ B) = 0.1?
2 Est-il possible d’avoir P(A ∩ B) = 0.77?
3 Quelle est la valeur maximale de P(A ∩ B)?
4 Quelle est la valeur minimale de P(A ∩ B)?
July 26, 2021 3 / 76
Rappel de probabilité
Correction
1 Est-il possible d’avoir P(A ∩ B) = 0.1?
Par défintion, on a :
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
= 0.7 + 0.8 − 0.1 = 1.4
P(A ∪ B) > 1, ce qui est impossible.
2 Est-il possible d’avoir P(A ∩ B) = 0.77?
On sait que :
A ∩ B ⊂ B =⇒ P(A ∩ B) ≤ P(B)
=⇒ 0.77 ≤ 0.7
Cette inégalité est absurde, il est donc impossible d’avoir P(A ∩ B) = 0.77.
July 26, 2021 4 / 76
Rappel de probabilité
Correction
3 Quelle est la valeur maximale de P(A ∩ B)?
On sait que ∀(A, B) ∈ Ω:
P(A ∩ B) ≤ min P(A), P(B)
D’où:
P(A ∩ B) ≤ 0.7 =⇒ max P(A ∩ B) ≤ 0.7
Donc, la valeur maximale de P(A ∩ B) est de 0.7.
July 26, 2021 5 / 76
Rappel de probabilité
Correction
4 Quelle est la valeur minimale de P(A ∩ B)?
On distingue 2 cas :
 Si A et B sont indépendants, on a:
P(A ∩ B) = P(A) × P(B) = 0.7 × 0.8 = 0.56
 Si A et B sont dépendants, on a:
P(A ∩ B) = P(A) + P(B) − P(A ∪ B) = 1.5 − P(A ∪ B)
Ainsi, si P(A ∪ B) = 0 alors P(A ∩ B) = 1.5 ce qui est impossible car c’est
une valeur supérieur à 1. Or, on sait que P(A ∪ B) ∈ [0, 1]. D’où, si
P(A ∪ B) = 1, alors la valeur minimale de P(A ∩ B) est 0.5.
July 26, 2021 6 / 76
Les variables aléatoire
Definition
Une variable aléatoire X est une fonction de l’ensemble fondamental Ω à
valeurs dans R:
X : Ω −→ R
Lorsque la variable X ne prend que des valeurs discrètes, on parle de
variable aléatoire discrète.
July 26, 2021 7 / 76
Les variables aléatoire
Exemples
On jette deux dés distincts et on s’intéresse à la somme des points. On
note X cette variable aléatoire, elle est définie par:
X :Ω → R avec Ω = {(1, 1), (1, 2), · · · , (6, 5), (6, 6)}
(ω1, ω2) → ω1 + ω2
L’ensemble des valeurs possibles de X est {2, 3, · · · , 12}.
On lance toujours deux dés, mais cette fois on s’intéresse au plus grand
chiffre Y obtenu. On a alors:
Y :Ω → R avec Ω = {(1, 1), (1, 2), · · · , (6, 5), (6, 6)}
(ω1, ω2) → max(ω1, ω2)
La variable Y est à valeurs dans {1,2,· · · ,6}.
July 26, 2021 8 / 76
Fonction de répartition
La loi de probabilité d’une variable aléatoire permet de connaı̂tre les
chances d’apparition des différentes valeurs de cette variable.
Definition
Soit X une variable aléatoire. La loi de probabilité de X est définie par la
fonction FX , appelée fonction de répartition de la variable X, définie par:
FX :R → [0, 1]
x → P(X ≤ x)
On dit que deux variables aléatoires X et Y ont la même loi si elles ont la
même fonction de répartition FX = FY .
July 26, 2021 9 / 76
Lois discrètes usuelles
Loi binomiale
La loi Binomiale est utilisée pour modéliser un sondage avec remise.
C’est la loi du nombre de succès lorsqu’on renouvelle n fois de manière
indépendante une épreuve de Bernoulli de paramètre p. On note X le
nombre de succès obtenus à l’issue des n épreuves. Sa loi s’appelle loi
Binomiale de paramètres n et p, X ∼ B(n, p).
P(X = k) = n
p

pk
(1 − p)1−k
July 26, 2021 10 / 76
Lois discrètes usuelles
Le figure ci-dessous donne une représentation d’une distribution binomiale
pour un échantillon de taille n = 50 et pour différente valeur de p.
July 26, 2021 11 / 76
Lois discrètes usuelles
Loi Hypergéométrique
La loi hypergéométrique est utilisée pour modéliser un sondage sans
remise. C’est le cas de pratiquement tous les sondages (notamment
lorsqu’on veut étudier la conformité d’un lot de médicaments, étudier le
nombre de cellules atteintes par un virus, . . .), X ∼ H(N, m, n).
P(X = k) =
(m
k )

N−m
n−k

(N
n )
si k ∈ {0, ..., min(m, n)}
July 26, 2021 12 / 76
Lois discrètes usuelles
Dans la figure ci-dessous on représente le tirage sans remise de 20 boules
blanches dans une urnes contenant d’abords 70 boules blanches et 30
boules noires. Par la suite, on effectue une deuxième expérience dans une
urne contenant 20 boules blanches et 30 boules noires.
July 26, 2021 13 / 76
Lois discrètes usuelles
Loi de Poisson
La loi de Poisson est utilisée pour modéliser le comptage d’événements
rares, c’est à dire des événements ayant une faible probabilité de
réalisation : maladies rares, accidents mortels rares, le titrage d’une
solution virale, pannes, radioactivité ..., X ∼ P(λ)
P(X = k) =
λk
k!
e−λ
July 26, 2021 14 / 76
Lois discrètes usuelles
On donne une distribution de poisson représentant le nombre d’accident
dans une usine pour différente valeur de λ.
July 26, 2021 15 / 76
Lois discrètes usuelles
Exercice
On jette 10 fois une pièce de monnaie bien équilibrée en notant chaque
fois le résultat.
On note X la variable aléatoire qui a chaque partie associe le nombre de
”face” obtenue.
1 Justifier que la loi de probabilité suivie par la variable X est une loi
binomiale.
2 Calculer la probabilité d’événement E:”le nombre de face” est compris
entre 3 et 6.
July 26, 2021 16 / 76
Lois discrètes usuelles
Exercice
1 Justifier que la loi de probabilité suivie par la variable X est une loi
binomiale.
On répète 10 fois une expérience équiprobable, avec :
Ω = {P, F} et P(X = 0) = C0
10p0
(1 − p)10
P(X = 1) = C1
10p1
(1 − p)10−1
.
.
.
P(X = 10) = C10
10 p10
(1 − p)10−10
On a ∀k ∈ {0, 1, , 10} : P(X = k) = Ck
10pk(1 − p)10−k. Donc,
X ∼ B(10, 0.5).
July 26, 2021 17 / 76
Lois discrètes usuelles
Exercice
2 Calculer la probabilité d’événement E:”le nombre de face” est compris
entre 3 et 6.
P(E) = P(X = 3) + P(X = 4) + P(X = 5) + P(X = 6)
= C3
10p3
(1 − p)7
+ C4
10p4
(1 − p)6
+ C5
10p5
(1 − p)5
+ C6
10p6
(1 − p)4
P(E) = 0.53
July 26, 2021 18 / 76
Variable aléatoire continue
Definition
Une variable aléatoire X est continue, s’il existe une fonction f définie sur
R telle que la fonction de répartition de X s’écrit:
∀x ∈ R FX (x) =
Z x
−∞
f (t)dt
où f est une fonction intégrable sur R satisfaisant les conditions suivantes
:
1 ∀t ∈ R, f (t) ≥ 0.
2
R +∞
−∞ f (t)dt = 1
Une fonction qui vérifie les conditions 1. et 2. est appelée densité de
probabilité.
July 26, 2021 19 / 76
Variable aléatoire continue
Exercice
Le temps requis pour qu’un étudiant complète un examen d’une heure est
une variable aléatoire ayant une densité de probabilité:
f (y) =
(
cy2 + y si 0 ≤ y ≤ 1
0 sinon
1 Déterminer la constante c.
2 Déterminer la fonction de répartition F.
July 26, 2021 20 / 76
Variable aléatoire continue
Correction
1 Déterminer la constante c.
Puisque f est une densité de probabilité, on a:
Z 1
0
f (y)dy = 1
=⇒

c
3
y3
+
y2
2
1
0
= 1
=⇒
c
3
+
1
2
= 1
=⇒ c =
3
2
July 26, 2021 21 / 76
Variable aléatoire continue
Correction
2 Déterminer la fonction de répartition F.
Par définition, on a:
F(t) =
Z t
−∞
f (y)dy
=
Z t
0
3
2
y2
+ ydy
=

1
3
y3
+
y2
2
t
0
=
t3
2
+
t2
2
=
t2(t + 1)
2
July 26, 2021 22 / 76
Variable aléatoire continue
Correction
Ainsi, on a:
F(t) =





0, si t  0
t2(t+1)
2 , si 0 ≤ t  1
1, si t ≥ 1
July 26, 2021 23 / 76
Lois continues usuelles
Loi uniforme
Elle permet de modéliser le tirage d’un nombre aléatoire dans l’intervalle
[a, b], X ∼ U ([a, b]).
La fonction de densité est donnée par :
f (x) =
(
1
b−a , si x ∈ [a, b]
0, sinon
La fonction de répartition est donnée par :
F(x) =





0, si x  a
x−a
b−a , si x ∈ [a, b]
1, si x  b
July 26, 2021 24 / 76
Lois continues usuelles
La figure ci-dessous représente la fonction de densité de la loi uniforme sur
différent intervalle [a, b].
July 26, 2021 25 / 76
Lois continues usuelles
Loi exponentielle
Elle permet en général de modéliser des durées de vie ou des temps
d’attente, X ∼ E(λ).
La fonction de densité est donnée par :
f (x) =
(
λe−λx , si x ≥ 0
0, si x  0
La fonction de répartition est donnée par :
F(x) =
(
0, si x  0
e−λx , , si x ≥ 0
July 26, 2021 26 / 76
Lois continues usuelles
La figure ci-dessous représente la fonction de densité de la loi exponentielle
pour différente valeur de λ.
July 26, 2021 27 / 76
Lois continues usuelles
Loi normale
La loi Normale est une loi centrale dans la théorie des probabilités. Elle est
notamment très utilisée en statistique. Une grandeur influencée par un
grand nombre de paramètres indépendants est souvent modélisée par une
loi normale, X ∼ N(m, σ2).
La fonction de densité est donnée par :
f (x) =
1
σ
√
2π
e−
(x−m)2
2σ2
July 26, 2021 28 / 76
Lois continues usuelles
La figure ci-dessous représente la fonction de densité de la loi normale
pour différente valeur des paramètres (m, σ).
July 26, 2021 29 / 76
Espérance d’une variable aléatoire
Definition
L’espérance d’une variable aléatoire X est notée E(X). Elle représente la
valeur moyenne prise par la variable X.
1 Si X est une variable discrète à valeurs dans {x1, · · · , x2} , son
espérance est:
E(X) = x1P(X = x1) + · · · + xnP(X = xn) =
n
X
i=1
xi P(X = xi )
2 Si X est une variable continue à densité f , son espérance est:
E(X) =
Z +∞
−∞
xf (x)dx
Lorsqu’une variable X vérifie E(X) = 0, on dit que la variable est
centrée.
July 26, 2021 30 / 76
Espérance d’une variable aléatoire
Propriété
1 L’espérance est linéaire :
Soient a et b ∈ R deux variables aléatoires X et Y d’espérance finie
alors
E(aX + bY ) = aE(X) + bE(Y )
2 Si X ≥ 0, alors E(X) ≥ 0.
3 Si X ≤ Y , alors E(X) ≤ E(Y ).
July 26, 2021 31 / 76
Variance d’une variable aléatoire
L’écart type représente l’écart moyen (la distance moyenne) entre la
variable et sa moyenne. Elle mesure la dispersion d’une variable, plus
l’écart-type est grand plus la variable prend des valeurs qui peuvent être
éloignées les unes des autres, plus l’écart-type est petit plus la variable
prend des valeurs proches de sa moyenne.
Definition
La variance d’une variable aléatoire X, notée Var(X), est définie par:
Var(X) = E

(X − E(X))2

L’écart type est la racine carrée de la variance :
σ(X) =
p
Var(X)
Lorsqu’une variable X vérifie Var(X) = 1, on dit que la variable est
réduite.
July 26, 2021 32 / 76
Variance d’une variable aléatoire
Remarque
La variance s’écrit aussi Var(X) = E(X2) − E(X)2
Propriété
1 Var(X) = 0 ssi X est constante.
2 Soient a et b ∈ R, alors Var(aX + b) = a2Var(X).
July 26, 2021 33 / 76
Inégalité de Markov
Soit X une variable aléatoire telle que m = E (X)  +∞, alors:
∀λ  0, P (X  λ) ≤
E (X)
λ
Inégalité de Bienaymé-Tchebychev
Soit X une variable aléatoire telle que V (X) = σ2  +∞, alors:
∀  0, P (|X − E (X)| ≥ ) ≤
V (X)
σ2
July 26, 2021 34 / 76
Convergence en probabilité
Definition
Soit (Xn)n≥0 une suite de variable aléatoire quelconque (discrète,
continue), on dit que (Xn) converge en probabilité vers X ssi:
∀  0, P (|Xn − X| ≥ ) −
−
−
−
→
n→+∞
0 ⇔ lim
n→+∞
P (|Xn − X| ≥ ) = 0
Remarque
On note: Xn
P
−
→ X
July 26, 2021 35 / 76
Propriété
Soit (Xn) une suite de variable aléatoire et f : R → R une fonction réelle,
alors:
Si Xn
P
−
→ X alors f (Xn)
P
−
→ f (X)
Exemple d’application
Soient (Xn) et (Yn) deux suites de variables aléatoires tel que :
Xn
P
−
→ X et Yn
P
−
→ Y
Si f : R2 → R est uniformément continue alors :
f (Xn, Yn)
P
−
→ f (X, Y )
July 26, 2021 36 / 76
Loi des grands nombres
Definition
Soit (Xn) une suite de variable aléatoire indépendante telle que ∀n ∈ N
E (Xn) = m et Var (Xn) = σ2, alors on a:
X =
1
n
n
X
i=1
Xi
P
−
→ E (Xn) = m
July 26, 2021 37 / 76
Convergence en loi
Definition
Soit (Xn) une suite de variable aléatoire. On dit que Xn converge en loi
vers X, et on note Xn
`
−
→ X, si et seulement si :
lim
n→+∞
F (Xn) = F (X) où lim
n→+∞
FXn (x) = FX (x)
Avec Fz la fonction de répartition de z.
Théorème
Si Xn
P
−
→ X alors on a que Xn
`
−
→ X.
La réciproque est fausse.
July 26, 2021 38 / 76
Propriété
Soient (Xn) et (Yn) deux suites de variable aléatoire et λ ∈ R, si Xn
`
−
→ X
et Yn
`
−
→ λ alors:
1 Xn + Yn
`
−
→ X + λ
2 Xn × Yn
`
−
→ λX
3 Xn
Yn
`
−
→ X
λ (si λ 6= 0)
Théorème
Si Xn
`
−
→ X alors f (Xn)
`
−
→ f (X).
Avec f une fonction réel continue.
July 26, 2021 39 / 76
Théorème centrale limite (TCL)
Le Théorème Central Limite (TCL) est un pilier des statistiques et des
probabilités. Le théorème exprime que lorsque la taille de l’échantillon est
grande, la distribution de la moyenne entre plusieurs échantillons
approchera une distribution gaussienne.
Théorème
Soit (Xn) une suite de variable aléatoire indépendante et identiquement
distribué, telle que E (Xn) = m et Var (Xn) = σ2. Alors on a:
√
n

X − m
σ

`
−
→ N(0, 1)
July 26, 2021 40 / 76
Théorème centrale limite
Exercice:
Des tubes fluorescents fabriqués par une entreprise ont une durée de vie
moyenne de 800 heures. L’écart-type de la durée de vie est évalué à 60.
On prélève un échantillon aléatoire simple de 50 tubes dans la production
d’une journée et on mesure la durée de vie des tubes.
Quelle est la probabilité d’obtenir une durée de vie moyenne comprise
entre 790 et 810 heures ?
July 26, 2021 41 / 76
Théorème centrale limite
Correction:
On note Xn la durée de vie moyenne des tubes fluorescents.
Notre échantillon à une taille de 50, supérieur à 30. Donc, notre
échantillon suit une loi normale N(µ, σ2), avec µ = 800 et σ = 60.
On cherche à déterminer la probabilité d’obtenir une durée de vie moyenne
comprise entre 790 et 810 heurs, c’est à dire P

790 ≤ Xn ≤ 810

.
Or, d’après le théorème central limite Zn =
√
n
σ Xn − µ
 `
−
→ N(0, 1).
P

790 ≤ Xn ≤ 810

⇒ P

790 − 800 ≤ Xn − 800 ≤ 810 − 800

⇒ P

60
√
50
(790 − 800) ≤
√
50
60
Xn − 800

≤
√
50
60
(810 − 800)
#
⇒ P [−1.17 ≤ Zn ≤ 1.17]
July 26, 2021 42 / 76
Théorème centrale limite
Correction:
Par conséquent, on a:
P [−1.17 ≤ Zn ≤ 1.17] = F(1.17) − F(−1.17)
= F(1.17) − (1 − F(1.17))
= F(1.17) − 1 + F(1.17)
= 2 × F(1.17) − 1
= 2 × 0.8790 − 1
P [−1.17 ≤ Zn ≤ 1.17] = 0.758
Donc, la probabilité d’obtenir une durée de vie moyenne comprise entre
790 et 810 heures est de 75.8%.
July 26, 2021 43 / 76
Exercice:
Soient X1, X2, · · · , Xn des variables aléatoires i.i.d de densité
f (x) = exp

−(x − θ)e−(x−θ)

, où θ ∈ R+.
Étudier la convergence en loi de Tn tel que:
Tn =
1
n
n
X
i=1
e−(xi −θ)
July 26, 2021 44 / 76
Correction:
D’abord, on détermine la densité de Yi , tel que Tn = 1
n
Pn
i=1 yi . Notons
Hy la fonction de répartition de Y , on a par définition:
Hy = P (y  t) = P

e−(xi −θ)
 t

= P (−xi + θ  ln(θ))
= P (xi ≥ − ln(t) + θ)
= P

xi ≥ ln

1
t

+ θ

= P xi ≥ t0

= 1 − P xi ≤ t0

Hy = 1 − Fxi (t0
) avecy  0
Fxi est la fonction de répartition de Xi .
July 26, 2021 45 / 76
Correction:
D’où:
hy =

1 − Fxi

ln

1
t

+ θ
0
=
1/y2
1/y
× f (xi ) = −
1
y
× f

ln

1
t

+ θ

= −
1
y
eln(y)−e− ln(y)
= −
1
y
ye−y
hy = e−y
On’en déduit que yi ,→ Exp(1) Or X ,→ Exp(λ) =⇒ E(X) = 1
λ et
V (X) = 1
λ2 . On’en déduit que Tn est la moyenne de n variable yi , qui sont
i.i.d d’espérance µ = 1 et σ2 = 1, donc par le TCL:
√
n
(Tn − 1)
1
`
−
→ N(0, 1)
July 26, 2021 46 / 76
Chapitre 2 : Estimation statistique
July 26, 2021 47 / 76
Estimation statistique
Dans la pratique on rencontre plusieurs problèmes où l’on cherche à
évaluer la valeur approchée d’un paramètre associé à une population d’une
taille assez grande en se basant sur un échantillon vérifiant l’hypothèse
d’échantillonage aléatoire simple de n observation issue de cette
population.
Ces paramètres d’intérêt peuvent être l’espérance, la variance, la moyenne,
· · · d’une variable aléatoire qui suit une loi `. Cela fait l’objet d’estimation
statistique (inférence statistique). Autrement dit, dans un échantillon
aléatoire de taille n, on suppose qu’une série statistique x1, x2, · · · , xn
correspond à des réalisations de n variables aléatoires X1, X2, · · · , Xn. Il
s’agit de trouver une estimation d’un paramètre inconnue de la population
à partir de ces n réalisations.
July 26, 2021 48 / 76
Estimation statistique
Soit X une variable aléatoire dont la loi dépend d’un paramètre θ, élément
d’un sous-ensemble donné Θ de R, appelée espace des paramètres. On
cherche à estimer θ à partir d’un échantillon (X1, X2, · · · , Xn) de variable
aléatoire i.i.d. Avec, (x1, x2, · · · , xn) la série de réalisation de cet
échantillon.
Definition
Un estimateur Tn de θ est une variable aléatoire qui dépend de X tel que:
Tn = Tn (X1, X2, · · · , Xn)
Et chaque réalisation Tn (x1, x2, · · · , xn) est un estimateur de θ.
July 26, 2021 49 / 76
Estimation statistique
Exemples:
L’estimateur classique de la moyenne théorique µ est la moyenne empirique
X = 1
n
Pn
i=1 Xi . Déterminons l’espérance et la variance de cet estimateur:
1 E Xn

= 1
n
Pn
i=1 E (Xi ) = 1
n
Pn
i=1 µ = 1
n × nµ = µ.
2 V Xn

= 1
n2
Pn
i=1 V (Xi ) = 1
n2 × nσ2 = σ2/n
July 26, 2021 50 / 76
Estimation statistique
Definition
On dit qu’un estimateur Tn de θ est sans biais si et seulement si
E (Tn) = θ.
Definition
On dit qu’un estimateur Tn de θ est asymptotiquement sans biais si et
seulement si limn→+∞ E (Tn) = θ.
Théorème
Tout estimateur Tn de θ sans biais dont la variance tend vers 0 est
convergent.
July 26, 2021 51 / 76
Estimation statistique
Preuve théorème:
D’après l’inégalité de Bienaymé-Tchebychev on a:
P (|Tn − θ|  ) 
V (Tn)
2
, ∀  0
Pour   0 fixé et en faisant tendre n vers +∞, on aura donc:
P (|Tn − θ|  )
P
−
−
−
−
→
n→+∞
0
Cela signifie que Tn
P
−
−
−
−
→
n→+∞
θ. D’où Tn est un estimateur convergent.
July 26, 2021 52 / 76
Estimation statistique
Théorème
Tout estimateur Tn de θ asymptotiquement sans biais, dont la variance
tend vers 0 est convergent.
Exercice: Soit (Xi ) un échantillon aléatoire simple, tel que
∀i, E (Xi ) = m  +∞. Montrons que X = 1
n
Pn
i=1 Xi est un estimateur
convergent.
July 26, 2021 53 / 76
Estimation statistique
Correction:
On commence par calculer le biais associé à notre estimateur:
Biais X

= E X

− m =
1
n
n
X
i=1
E (Xi ) − m =
1
n
n
X
i=1
m − m = 0
Ainsi, X est un estimateur sans biais. Par la suite, on détermine sa
variance:
Var (x) =
1
n2
n
X
i=1
Var (Xi ) =
σ2
n
Par passage à la limite, limn→+∞ Var (x) = limn→+∞
σ2
n = 0.
X est un est estimateur sans biais et dont la variance → 0, donc X est
un estimateur convergent.
July 26, 2021 54 / 76
Estimation statistique
Definition
La précision d’un estimateur Tn de θ se mesure par sa moyenne
quadratique:
EQ (Tn) = E
h
(Tn − θ)2
i
= Var (Tn) + b2
n(θ)
Avec b2
n(θ) = [E (Tn) − θ]2
, le biais.
Remarque
Parmi les estimateurs sans biais de θ le plus précis (optimal) est celui qui à
la plus petite variance.
July 26, 2021 55 / 76
Estimation statistique
Preuve:
EQ (Tn) = E
h
(Tn − θ)2
i
= E
h
(Tn − E(Tn) + E(Tn) − θ)2
i
= E
h
(Tn − E(Tn))2
i
+ 2E [(Tn − E(Tn)) (E(Tn) − θ)]
+ E
h
(E(Tn) − θ)2
i
Comme E(Tn) − θ est une constante, on a que
E
h
(Tn − θ)2
i
= (E(Tn) − θ) et que E [(Tn − E(Tn))] = 0. Ainsi:
E
h
(Tn − θ)2
i
= Var(Tn) + (E(Tn) − θ)2
= Var (Tn) + b2
n(θ)
= EQ(Tn)
July 26, 2021 56 / 76
Estimation statistique
Inégalité de Fréchet-Darmois-Cramer-Rao (FDCR)
Si la variable aléatoire X prend ses valeurs dans un ensemble qui ne
dépend pas de θ, si la densité f (x, θ) est de classe C2 (2 fois continûment
dérivable) par rapport à θ, et sous certaines conditions de régularité, tout
estimateur Tn sans biais de θ dont la variance existe vérifie l’inégalité
FDCR:
Var (Tn) ≥
1
In(θ)
où In(θ) la quantité d’information de Fisher définie par:
In(θ) = E

∂ ln L
∂θ
2
#
= E

−
∂2 ln L
∂2θ

Avec L la fonction de vraisemblance.
July 26, 2021 57 / 76
Estimation statistique
Definition
on appelle vraisemblance (likelihood) de l’échantillon (X1, X2, · · · , Xn) la
loi de probabilité de ce n-uplet, notée L(x1, x2, · · · , xn) et définie par:
L(x1, x2, · · · , xn; θ) =
(Qn
i=1 P (Xi = xi |θ) , pourXune v.a discrète
Qn
i=1 f (xi ; θ) , pourXune v.a continue
Les conditions de régularité sont :
On suppose que l’ensemble des estimateurs Θ est un ensemble ouvert
sur lequel la densité f (x, θ) ne s’annule en aucun point x et est
dérivable par rapport à θ.
On suppose aussi que l’on peut intervenir dérivation par rapport à θ
et intégration, et que la quantité d’information de Fisher est
strictement positive.
July 26, 2021 58 / 76
Estimation statistique
Efficacité d’un estimateur
La borne inférieure pour la variance des estimateurs sans biais peut être
atteinte ou non. Si cette borne est effectivement atteinte par un
estimateur, il sera donc le meilleur, selon ce critère parmi l’ensemble des
estimateurs sans biais.
Definition
Un estimateur sans biais Tn est efficace si sa variance est égale à la borne
inférieure de FDCR:
V (Tn) =
1
In(θ)
July 26, 2021 59 / 76
Estimation statistique
Exemple:
Soit X suit la loi exponentielle de paramètre 1/θ, avec θ  0, de densité:
f (x, θ) =
1
θ
e−x/θ
; x ≥ 0
Par définition, on a:
E(X) = θ et Var(X) = θ2
Xn est un estimateur sans biais et convergent. De plus, c’est un
estimateur efficace de θ. Dans la suite on montre ce caractère d’efficacité
de l’estimateur Xn.
July 26, 2021 60 / 76
Estimation statistique
Soient X1, X2, · · · , Xn, n variables exponentielles indépendantes,
déterminons la fonction de vraisemblance:
L(x1, x2, · · · , xn; θ) =
n
Y
i=1
f (xi ; θ)
=
n
Y
i=1
1
θ
e−xi /θ
=
1
θn
e− 1
θ
Pn
i=1 xi
En introduisant la fonction ln on obtient:
ln L(x1, x2, · · · , xn; θ) = −n ln(θ) −
1
θ
n
X
i=1
xi
⇒
∂ ln L(x1, x2, · · · , xn; θ)
∂θ
= −
n
θ
+
1
θ2
n
X
i=1
xi
July 26, 2021 61 / 76
Estimation statistique
On dérive une seconde fois par rapport à θ et on calcule l’espérance de
cette quantité:
E

∂2 ln L(x1, x2, · · · , xn; θ)
∂2θ

= E −
n
θ2
+
2
θ3
n
X
i=1
xi
!
= −
n
θ2
+
2
θ3
n
X
i=1
E(xi ) = −
n
θ2
+
2
θ3
× nθ
= −
n
θ2
+
2n
θ2
July 26, 2021 62 / 76
Estimation statistique
Ainsi, on peut déterminer la quantité d’information de Fisher :
In(θ) = E

∂2 ln L(x1, x2, · · · , xn; θ)
∂2θ

= −
n
θ2
+
2n
θ2
In(θ) =
n
θ2
Or:
Var(Xn) =
1
n2
n
X
i=1
Var(xi ) =
1
n2
× nθ2
Var(Xn) =
θ2
n
On remarque que:
In(θ) =
1
θ2
n
=
1
Var(Xn)
Donc, Xn est un estimateur efficace.
July 26, 2021 63 / 76
Estimation statistique
Soit un n-échantillon d’une variable aléatoire X. Soit Tn une statistique
fonction de X1, X2, · · · , Xn de loi g(t, θ) (densité dans le cas continue et
P(T = t) dans le cas discret).
Definition
T sera site exhaustive si l’on a L(x; θ) = g(t, θ)h(x) (principe de
factorisation), en d’autres termes si la densité conditionnelle de
l’échantillon est indépendante du paramètre.
Ceci signifie qu’une fois T est connu, aucune valeur de l’échantillon ni
aucune autre statistique n’apportera d’informations supplémentaires
sur le paramètre inconnu θ.
July 26, 2021 64 / 76
Estimation statistique
Théorème
Théorème de Neyman et Fisher (théorème de factorisation
Une statistique Tn est exhaustive s’il existe deux applications mesurables
positives g et h telles que la densité L de l’échantillon puisse se factoriser
sous la forme:
L(x1, x2, · · · , xn; θ) = g(t; θ)h(x1, x2, · · · , xn)
Exemple: Soit un n-échantillon suivant une loi de poisson de paramètre λ
inconnu. On a:
L(x1, x2, · · · , xn; λ) =
n
Y
i=1
λxi
xi !
e−λ
= e−nλ λ
Pn
i=1 xi
Qn
i=1 xi !
July 26, 2021 65 / 76
Estimation statistique
Exemple (suite):
T =
Pn
i=1 Xi est une statistique exhaustive,on sait que T suit une loi de
poisson de paramètre nλ et la densité peut se factoriser de la façon
suivante:
L(x1, x2, · · · , xn; λ) = g(t; λ) × h(x)
Avec: g(t; λ) = e−nλ (nλ)t
t! et h(x) = t!
nt
Qn
i=1 xi !
July 26, 2021 66 / 76
Méthodes d’estimation statistique
Quand il n’y a pas d’estimateurs ponctuels évidents tels que la moyenne
empirique et la variance empirique, on les construit par deux méthodes :
méthode du maximum de vraisemblance et méthode des moments.
Méthode d’estimation du maximum de vraisemblance (EMV)
Soient x1, x2, · · · , xn des réalisations des variables aléatoires indépendantes
X1, X2, · · · , Xn de lois de probabilité inconnues mais identiques. Nous
cherchons à estimer cette loi P inconnue à partir des observations
x1, x2, · · · , xn.
La méthode de maximum de vraisemblance (EMV) est basée sur la
vraisemblance, qui est la probabilité conjointe de la série x1, x2, · · · , xn:
L(x1, x2, · · · , xn; θ) =
n
Y
i=1
P(Xi = xi )
July 26, 2021 67 / 76
Méthodes d’estimation statistique
Une fois qu’on a obtenu la vraisemblance L(x1, x2, · · · , xn; θ), on cherche à
la maximiser. La maximisation de L est identique à la maximisation de son
logarithme ln L. L’estimateur qui maximise la vraisemblance est celui qui
satisfait les conditions suivantes:
(∂ ln L(x1,x2,··· ,xn;θ)
∂θ = 0
∂2 ln L(x1,x2,··· ,xn;θ)
∂2θ
 0
On prend comme estimateur de θ la solution de l’équation
∂ ln L(x1,x2,··· ,xn;θ)
∂θ = 0 et qui vérifie ∂2 ln L(x1,x2,··· ,xn;θ)
∂2θ
 0.
July 26, 2021 68 / 76
Méthodes d’estimation statistique
Definition
On appelle l’estimateur du maximum de vraisemblance EMV toute
fonction b
θn de x1, x2, · · · , xn qui vérifie :
L(x1, x2, · · · ,n ; b
θn) = max
θ∈Θ
L(x1, x2, · · · , xn; θ)
Propriété
S’il existe une statistique exhaustive T, alors l’estimateur du maximum de
vraisemblance en dépend.
July 26, 2021 69 / 76
Méthodes d’estimation statistique
Puisque pour une statistique exhaustive:
L(x1, x2, · · · ,n ; θ) = g(t; θ) × h(x)
Ainsi, résoudre l’équation ∂ ln L(x1,x2,··· ,xn;θ)
∂θ = 0 revient à résoudre
∂ ln g(t1,t2,··· ,tn;θ)
∂θ = 0, donc l’estimateur de θ est b
θ.
Propriété
Si b
θ est un estimateur de maximum de vraisemblance de θ, alors f (b
θ) est
l’estimateur de maximum de vraisemblance de f (θ)
July 26, 2021 70 / 76
Méthodes d’estimation statistique
Exemple: Estimation par la méthode EMV de la moyenne m de la
loi normale
Soient X1, X2, · · · , Xn, n variables aléatoires de lois normales et
indépendantes. On suppose que la variance σ2 est connue:
Xi ,→ N(m, σ)
La fonction de densité de probabilité est :
f (xi =
1
σ
√
2π
e− 1
2σ2 (xi −m)2
Ainsi, la vraisemblance de la loi normale est :
L(x1, x2, · · · , xn; m) =
n
Y
i=1
f (xi ) =
n
Y
i=1
1
σ
√
2π
e− 1
2σ2 (xi −m)2
=

1
σ
√
2π
2
e− 1
2σ2
Pn
i=1(xi −m)2
July 26, 2021 71 / 76
Méthodes d’estimation statistique
Une fois qu’on a obtenu la vraisemblance L(x1, x2, · · · , xn; m), on cherche
à la maximiser. La maximisation de L est identique à la maximisation de
son logarithme ln L:
ln L(x1, x2, · · · , xn; m) = −n ln

σ
√
2π

−
1
2σ2
n
X
i=1
(xi − m)2
⇒
∂ ln L
∂m
=
1
σ2
n
X
i=1
(xi − m)
Ainsi :
∂ ln L
∂m
= 0 ⇔
1
σ2
n
X
i=1
(xi − m) = 0 ⇔
n
X
i=1
xi − nm = 0
La solution de cette équation est b
m = 1
n
Pn
i=1 xi . b
m est un maximum car :
∂2 ln L
∂2m
=
−n
σ2
 0
July 26, 2021 72 / 76
Méthodes d’estimation statistique
Estimation par la méthode des moments
La méthode des moments consiste à estimer les paramètres inconnus en
utilisant les moments d’ordre 1 et 1 : E(X) et E(X2). Il s’agit de résoudre
le système en égalant les moments théoriques aux moments empiriques en
fonctions des paramètres inconnues. La solution des équations si elle existe
et est unique, sera appelée estimateur obtenu par la méthode des
moments.
July 26, 2021 73 / 76
Méthodes d’estimation statistique
Exemple: Soit la fonction de répartition suivante:
fθ(x) =
(
1
θ e− 1
θ
(x−γ)
, si x  γ, θ  0
0, sinon
Posons alors Y = X − γ, d’où:
fθ(y) =
(
1
θ e− 1
θ
y
, si y  0, θ  0
0, sinon
Ainsi, Y suit une loi exponentielle de paramètre 1
θ . Donc, E(Y ) = θ et
Var(Y ) = θ2. Par la suite, on doit calculer E(Y ) et E(Y 2).
July 26, 2021 74 / 76
Méthodes d’estimation statistique
Exemple (suite): On a:
(
E(Y ) = θ
Var(Y ) = θ2
⇔
(
E(X − γ) = θ
Var(X − γ) = θ2
⇔
(
E(X) = θ + γ
Var(X) = θ2
⇔
(
E(X) = θ + γ
E(X2) − E(X)2 = θ2
⇔
(
E(X) = θ + γ
E(X2) = (θ + γ)2 + θ2
En égalant les moments théoriques aux moments empiriques en fonctions
des paramètres inconnues θ et γ:
(
E(X) = 1
n
Pn
i=1 xi
E(X2) = 1
n
Pn
i=1 x2
i
July 26, 2021 75 / 76
Méthodes d’estimation statistique
Ainsi, on trouve :
(
b
θ + b
γ = x
(b
θ + b
γ)2 + b
θ2 = 1
n
Pn
i=1 x2
i
⇔
(
b
θ = x − b
γ
x2 + b
θ2 = 1
n
Pn
i=1 x2
i
⇔
(
b
θ = x − b
γ
b
θ2 = 1
n
Pn
i=1 x2
i − x2
⇔
(
b
γ = x − b
θ
b
θ2 = s2
⇔
(
b
γ = x − s
b
θ = s
July 26, 2021 76 / 76

Contenu connexe

Similaire à slides statistique mathématique.pdf

(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)mohamedchaouche
 
Chap9 methode binomiale
Chap9 methode binomialeChap9 methode binomiale
Chap9 methode binomialeCONFITURE
 
Aates ch08 lois-a-densite
Aates ch08 lois-a-densiteAates ch08 lois-a-densite
Aates ch08 lois-a-densiteManar Sefiane
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiplemohamedchaouche
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdfSidiAbdallah1
 
Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciwospro-academy
 
Exercices corriges application_lineaire_et_determinants
Exercices corriges application_lineaire_et_determinantsExercices corriges application_lineaire_et_determinants
Exercices corriges application_lineaire_et_determinantssarah Benmerzouk
 
M1_exercices_corriges.pdf
M1_exercices_corriges.pdfM1_exercices_corriges.pdf
M1_exercices_corriges.pdfDurelDonfack
 
Etude d'article d'optimisation : Proximal algorithms
Etude d'article d'optimisation : Proximal algorithmsEtude d'article d'optimisation : Proximal algorithms
Etude d'article d'optimisation : Proximal algorithmsKhalilBergaoui
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Pierre Robentz Cassion
 
Math%E9matiques%20 Ct
Math%E9matiques%20 CtMath%E9matiques%20 Ct
Math%E9matiques%20 Ctglenoo
 
Vecteurs aléatoires sur un espace fini ou dénombrable
Vecteurs aléatoires sur un espace fini ou dénombrableVecteurs aléatoires sur un espace fini ou dénombrable
Vecteurs aléatoires sur un espace fini ou dénombrableIbtissam medarhri
 
Hitting time for bessel processes and WOMS algorithm
Hitting time for bessel processes and WOMS algorithmHitting time for bessel processes and WOMS algorithm
Hitting time for bessel processes and WOMS algorithmVictor Bontemps
 

Similaire à slides statistique mathématique.pdf (20)

Tadti crs3-n
Tadti crs3-nTadti crs3-n
Tadti crs3-n
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)
 
Chap9 methode binomiale
Chap9 methode binomialeChap9 methode binomiale
Chap9 methode binomiale
 
Aates ch08 lois-a-densite
Aates ch08 lois-a-densiteAates ch08 lois-a-densite
Aates ch08 lois-a-densite
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon ici
 
01 lois-à-densité
01 lois-à-densité01 lois-à-densité
01 lois-à-densité
 
Exercices corriges application_lineaire_et_determinants
Exercices corriges application_lineaire_et_determinantsExercices corriges application_lineaire_et_determinants
Exercices corriges application_lineaire_et_determinants
 
Regression logistque
Regression  logistqueRegression  logistque
Regression logistque
 
Cours stat2-kharrat
Cours stat2-kharratCours stat2-kharrat
Cours stat2-kharrat
 
Chapitre1.pdf
Chapitre1.pdfChapitre1.pdf
Chapitre1.pdf
 
Comment faire disparaître les rides
Comment faire disparaître les ridesComment faire disparaître les rides
Comment faire disparaître les rides
 
M1_exercices_corriges.pdf
M1_exercices_corriges.pdfM1_exercices_corriges.pdf
M1_exercices_corriges.pdf
 
Cours regression 4
Cours regression 4Cours regression 4
Cours regression 4
 
Etude d'article d'optimisation : Proximal algorithms
Etude d'article d'optimisation : Proximal algorithmsEtude d'article d'optimisation : Proximal algorithms
Etude d'article d'optimisation : Proximal algorithms
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)
 
Math%E9matiques%20 Ct
Math%E9matiques%20 CtMath%E9matiques%20 Ct
Math%E9matiques%20 Ct
 
Vecteurs aléatoires sur un espace fini ou dénombrable
Vecteurs aléatoires sur un espace fini ou dénombrableVecteurs aléatoires sur un espace fini ou dénombrable
Vecteurs aléatoires sur un espace fini ou dénombrable
 
Hitting time for bessel processes and WOMS algorithm
Hitting time for bessel processes and WOMS algorithmHitting time for bessel processes and WOMS algorithm
Hitting time for bessel processes and WOMS algorithm
 

slides statistique mathématique.pdf

  • 1. Statistique mathématique Master Analyse Economique et Modélisation FSJES-Souissi Version en cours de finalisation, à ne pas diffuser! July 26, 2021 July 26, 2021 1 / 76
  • 2. Introduction L’objectif de ce module est double, la première partie porte sur des rappels et compléments sur les techniques probabilistes qui seront utilisées. La deuxième partie portera sur des méthodes statistiques concernant entre autres les modèles statistiques, les méthodes d’échantillonnage et d’estimation puis une introduction à la statistique non-paramétrique. Le module a pour objectif de mettre en évidence les principes généraux aidant à la prise de décision et la résolution des problèmes statistiques, en accordant une attention particulière aux applications en sciences économiques et sociales (y compris la finance, la gestion, · · · ). July 26, 2021 2 / 76
  • 3. Rappel de probabilité Exercice Soient A et B deux événements tel que: P(A) = 0.8 P(B) = 0.7 1 Est-il possible d’avoir P(A ∩ B) = 0.1? 2 Est-il possible d’avoir P(A ∩ B) = 0.77? 3 Quelle est la valeur maximale de P(A ∩ B)? 4 Quelle est la valeur minimale de P(A ∩ B)? July 26, 2021 3 / 76
  • 4. Rappel de probabilité Correction 1 Est-il possible d’avoir P(A ∩ B) = 0.1? Par défintion, on a : P(A ∪ B) = P(A) + P(B) − P(A ∩ B) = 0.7 + 0.8 − 0.1 = 1.4 P(A ∪ B) > 1, ce qui est impossible. 2 Est-il possible d’avoir P(A ∩ B) = 0.77? On sait que : A ∩ B ⊂ B =⇒ P(A ∩ B) ≤ P(B) =⇒ 0.77 ≤ 0.7 Cette inégalité est absurde, il est donc impossible d’avoir P(A ∩ B) = 0.77. July 26, 2021 4 / 76
  • 5. Rappel de probabilité Correction 3 Quelle est la valeur maximale de P(A ∩ B)? On sait que ∀(A, B) ∈ Ω: P(A ∩ B) ≤ min P(A), P(B) D’où: P(A ∩ B) ≤ 0.7 =⇒ max P(A ∩ B) ≤ 0.7 Donc, la valeur maximale de P(A ∩ B) est de 0.7. July 26, 2021 5 / 76
  • 6. Rappel de probabilité Correction 4 Quelle est la valeur minimale de P(A ∩ B)? On distingue 2 cas : Si A et B sont indépendants, on a: P(A ∩ B) = P(A) × P(B) = 0.7 × 0.8 = 0.56 Si A et B sont dépendants, on a: P(A ∩ B) = P(A) + P(B) − P(A ∪ B) = 1.5 − P(A ∪ B) Ainsi, si P(A ∪ B) = 0 alors P(A ∩ B) = 1.5 ce qui est impossible car c’est une valeur supérieur à 1. Or, on sait que P(A ∪ B) ∈ [0, 1]. D’où, si P(A ∪ B) = 1, alors la valeur minimale de P(A ∩ B) est 0.5. July 26, 2021 6 / 76
  • 7. Les variables aléatoire Definition Une variable aléatoire X est une fonction de l’ensemble fondamental Ω à valeurs dans R: X : Ω −→ R Lorsque la variable X ne prend que des valeurs discrètes, on parle de variable aléatoire discrète. July 26, 2021 7 / 76
  • 8. Les variables aléatoire Exemples On jette deux dés distincts et on s’intéresse à la somme des points. On note X cette variable aléatoire, elle est définie par: X :Ω → R avec Ω = {(1, 1), (1, 2), · · · , (6, 5), (6, 6)} (ω1, ω2) → ω1 + ω2 L’ensemble des valeurs possibles de X est {2, 3, · · · , 12}. On lance toujours deux dés, mais cette fois on s’intéresse au plus grand chiffre Y obtenu. On a alors: Y :Ω → R avec Ω = {(1, 1), (1, 2), · · · , (6, 5), (6, 6)} (ω1, ω2) → max(ω1, ω2) La variable Y est à valeurs dans {1,2,· · · ,6}. July 26, 2021 8 / 76
  • 9. Fonction de répartition La loi de probabilité d’une variable aléatoire permet de connaı̂tre les chances d’apparition des différentes valeurs de cette variable. Definition Soit X une variable aléatoire. La loi de probabilité de X est définie par la fonction FX , appelée fonction de répartition de la variable X, définie par: FX :R → [0, 1] x → P(X ≤ x) On dit que deux variables aléatoires X et Y ont la même loi si elles ont la même fonction de répartition FX = FY . July 26, 2021 9 / 76
  • 10. Lois discrètes usuelles Loi binomiale La loi Binomiale est utilisée pour modéliser un sondage avec remise. C’est la loi du nombre de succès lorsqu’on renouvelle n fois de manière indépendante une épreuve de Bernoulli de paramètre p. On note X le nombre de succès obtenus à l’issue des n épreuves. Sa loi s’appelle loi Binomiale de paramètres n et p, X ∼ B(n, p). P(X = k) = n p pk (1 − p)1−k July 26, 2021 10 / 76
  • 11. Lois discrètes usuelles Le figure ci-dessous donne une représentation d’une distribution binomiale pour un échantillon de taille n = 50 et pour différente valeur de p. July 26, 2021 11 / 76
  • 12. Lois discrètes usuelles Loi Hypergéométrique La loi hypergéométrique est utilisée pour modéliser un sondage sans remise. C’est le cas de pratiquement tous les sondages (notamment lorsqu’on veut étudier la conformité d’un lot de médicaments, étudier le nombre de cellules atteintes par un virus, . . .), X ∼ H(N, m, n). P(X = k) = (m k ) N−m n−k (N n ) si k ∈ {0, ..., min(m, n)} July 26, 2021 12 / 76
  • 13. Lois discrètes usuelles Dans la figure ci-dessous on représente le tirage sans remise de 20 boules blanches dans une urnes contenant d’abords 70 boules blanches et 30 boules noires. Par la suite, on effectue une deuxième expérience dans une urne contenant 20 boules blanches et 30 boules noires. July 26, 2021 13 / 76
  • 14. Lois discrètes usuelles Loi de Poisson La loi de Poisson est utilisée pour modéliser le comptage d’événements rares, c’est à dire des événements ayant une faible probabilité de réalisation : maladies rares, accidents mortels rares, le titrage d’une solution virale, pannes, radioactivité ..., X ∼ P(λ) P(X = k) = λk k! e−λ July 26, 2021 14 / 76
  • 15. Lois discrètes usuelles On donne une distribution de poisson représentant le nombre d’accident dans une usine pour différente valeur de λ. July 26, 2021 15 / 76
  • 16. Lois discrètes usuelles Exercice On jette 10 fois une pièce de monnaie bien équilibrée en notant chaque fois le résultat. On note X la variable aléatoire qui a chaque partie associe le nombre de ”face” obtenue. 1 Justifier que la loi de probabilité suivie par la variable X est une loi binomiale. 2 Calculer la probabilité d’événement E:”le nombre de face” est compris entre 3 et 6. July 26, 2021 16 / 76
  • 17. Lois discrètes usuelles Exercice 1 Justifier que la loi de probabilité suivie par la variable X est une loi binomiale. On répète 10 fois une expérience équiprobable, avec : Ω = {P, F} et P(X = 0) = C0 10p0 (1 − p)10 P(X = 1) = C1 10p1 (1 − p)10−1 . . . P(X = 10) = C10 10 p10 (1 − p)10−10 On a ∀k ∈ {0, 1, , 10} : P(X = k) = Ck 10pk(1 − p)10−k. Donc, X ∼ B(10, 0.5). July 26, 2021 17 / 76
  • 18. Lois discrètes usuelles Exercice 2 Calculer la probabilité d’événement E:”le nombre de face” est compris entre 3 et 6. P(E) = P(X = 3) + P(X = 4) + P(X = 5) + P(X = 6) = C3 10p3 (1 − p)7 + C4 10p4 (1 − p)6 + C5 10p5 (1 − p)5 + C6 10p6 (1 − p)4 P(E) = 0.53 July 26, 2021 18 / 76
  • 19. Variable aléatoire continue Definition Une variable aléatoire X est continue, s’il existe une fonction f définie sur R telle que la fonction de répartition de X s’écrit: ∀x ∈ R FX (x) = Z x −∞ f (t)dt où f est une fonction intégrable sur R satisfaisant les conditions suivantes : 1 ∀t ∈ R, f (t) ≥ 0. 2 R +∞ −∞ f (t)dt = 1 Une fonction qui vérifie les conditions 1. et 2. est appelée densité de probabilité. July 26, 2021 19 / 76
  • 20. Variable aléatoire continue Exercice Le temps requis pour qu’un étudiant complète un examen d’une heure est une variable aléatoire ayant une densité de probabilité: f (y) = ( cy2 + y si 0 ≤ y ≤ 1 0 sinon 1 Déterminer la constante c. 2 Déterminer la fonction de répartition F. July 26, 2021 20 / 76
  • 21. Variable aléatoire continue Correction 1 Déterminer la constante c. Puisque f est une densité de probabilité, on a: Z 1 0 f (y)dy = 1 =⇒ c 3 y3 + y2 2 1 0 = 1 =⇒ c 3 + 1 2 = 1 =⇒ c = 3 2 July 26, 2021 21 / 76
  • 22. Variable aléatoire continue Correction 2 Déterminer la fonction de répartition F. Par définition, on a: F(t) = Z t −∞ f (y)dy = Z t 0 3 2 y2 + ydy = 1 3 y3 + y2 2 t 0 = t3 2 + t2 2 = t2(t + 1) 2 July 26, 2021 22 / 76
  • 23. Variable aléatoire continue Correction Ainsi, on a: F(t) =      0, si t 0 t2(t+1) 2 , si 0 ≤ t 1 1, si t ≥ 1 July 26, 2021 23 / 76
  • 24. Lois continues usuelles Loi uniforme Elle permet de modéliser le tirage d’un nombre aléatoire dans l’intervalle [a, b], X ∼ U ([a, b]). La fonction de densité est donnée par : f (x) = ( 1 b−a , si x ∈ [a, b] 0, sinon La fonction de répartition est donnée par : F(x) =      0, si x a x−a b−a , si x ∈ [a, b] 1, si x b July 26, 2021 24 / 76
  • 25. Lois continues usuelles La figure ci-dessous représente la fonction de densité de la loi uniforme sur différent intervalle [a, b]. July 26, 2021 25 / 76
  • 26. Lois continues usuelles Loi exponentielle Elle permet en général de modéliser des durées de vie ou des temps d’attente, X ∼ E(λ). La fonction de densité est donnée par : f (x) = ( λe−λx , si x ≥ 0 0, si x 0 La fonction de répartition est donnée par : F(x) = ( 0, si x 0 e−λx , , si x ≥ 0 July 26, 2021 26 / 76
  • 27. Lois continues usuelles La figure ci-dessous représente la fonction de densité de la loi exponentielle pour différente valeur de λ. July 26, 2021 27 / 76
  • 28. Lois continues usuelles Loi normale La loi Normale est une loi centrale dans la théorie des probabilités. Elle est notamment très utilisée en statistique. Une grandeur influencée par un grand nombre de paramètres indépendants est souvent modélisée par une loi normale, X ∼ N(m, σ2). La fonction de densité est donnée par : f (x) = 1 σ √ 2π e− (x−m)2 2σ2 July 26, 2021 28 / 76
  • 29. Lois continues usuelles La figure ci-dessous représente la fonction de densité de la loi normale pour différente valeur des paramètres (m, σ). July 26, 2021 29 / 76
  • 30. Espérance d’une variable aléatoire Definition L’espérance d’une variable aléatoire X est notée E(X). Elle représente la valeur moyenne prise par la variable X. 1 Si X est une variable discrète à valeurs dans {x1, · · · , x2} , son espérance est: E(X) = x1P(X = x1) + · · · + xnP(X = xn) = n X i=1 xi P(X = xi ) 2 Si X est une variable continue à densité f , son espérance est: E(X) = Z +∞ −∞ xf (x)dx Lorsqu’une variable X vérifie E(X) = 0, on dit que la variable est centrée. July 26, 2021 30 / 76
  • 31. Espérance d’une variable aléatoire Propriété 1 L’espérance est linéaire : Soient a et b ∈ R deux variables aléatoires X et Y d’espérance finie alors E(aX + bY ) = aE(X) + bE(Y ) 2 Si X ≥ 0, alors E(X) ≥ 0. 3 Si X ≤ Y , alors E(X) ≤ E(Y ). July 26, 2021 31 / 76
  • 32. Variance d’une variable aléatoire L’écart type représente l’écart moyen (la distance moyenne) entre la variable et sa moyenne. Elle mesure la dispersion d’une variable, plus l’écart-type est grand plus la variable prend des valeurs qui peuvent être éloignées les unes des autres, plus l’écart-type est petit plus la variable prend des valeurs proches de sa moyenne. Definition La variance d’une variable aléatoire X, notée Var(X), est définie par: Var(X) = E (X − E(X))2 L’écart type est la racine carrée de la variance : σ(X) = p Var(X) Lorsqu’une variable X vérifie Var(X) = 1, on dit que la variable est réduite. July 26, 2021 32 / 76
  • 33. Variance d’une variable aléatoire Remarque La variance s’écrit aussi Var(X) = E(X2) − E(X)2 Propriété 1 Var(X) = 0 ssi X est constante. 2 Soient a et b ∈ R, alors Var(aX + b) = a2Var(X). July 26, 2021 33 / 76
  • 34. Inégalité de Markov Soit X une variable aléatoire telle que m = E (X) +∞, alors: ∀λ 0, P (X λ) ≤ E (X) λ Inégalité de Bienaymé-Tchebychev Soit X une variable aléatoire telle que V (X) = σ2 +∞, alors: ∀ 0, P (|X − E (X)| ≥ ) ≤ V (X) σ2 July 26, 2021 34 / 76
  • 35. Convergence en probabilité Definition Soit (Xn)n≥0 une suite de variable aléatoire quelconque (discrète, continue), on dit que (Xn) converge en probabilité vers X ssi: ∀ 0, P (|Xn − X| ≥ ) − − − − → n→+∞ 0 ⇔ lim n→+∞ P (|Xn − X| ≥ ) = 0 Remarque On note: Xn P − → X July 26, 2021 35 / 76
  • 36. Propriété Soit (Xn) une suite de variable aléatoire et f : R → R une fonction réelle, alors: Si Xn P − → X alors f (Xn) P − → f (X) Exemple d’application Soient (Xn) et (Yn) deux suites de variables aléatoires tel que : Xn P − → X et Yn P − → Y Si f : R2 → R est uniformément continue alors : f (Xn, Yn) P − → f (X, Y ) July 26, 2021 36 / 76
  • 37. Loi des grands nombres Definition Soit (Xn) une suite de variable aléatoire indépendante telle que ∀n ∈ N E (Xn) = m et Var (Xn) = σ2, alors on a: X = 1 n n X i=1 Xi P − → E (Xn) = m July 26, 2021 37 / 76
  • 38. Convergence en loi Definition Soit (Xn) une suite de variable aléatoire. On dit que Xn converge en loi vers X, et on note Xn ` − → X, si et seulement si : lim n→+∞ F (Xn) = F (X) où lim n→+∞ FXn (x) = FX (x) Avec Fz la fonction de répartition de z. Théorème Si Xn P − → X alors on a que Xn ` − → X. La réciproque est fausse. July 26, 2021 38 / 76
  • 39. Propriété Soient (Xn) et (Yn) deux suites de variable aléatoire et λ ∈ R, si Xn ` − → X et Yn ` − → λ alors: 1 Xn + Yn ` − → X + λ 2 Xn × Yn ` − → λX 3 Xn Yn ` − → X λ (si λ 6= 0) Théorème Si Xn ` − → X alors f (Xn) ` − → f (X). Avec f une fonction réel continue. July 26, 2021 39 / 76
  • 40. Théorème centrale limite (TCL) Le Théorème Central Limite (TCL) est un pilier des statistiques et des probabilités. Le théorème exprime que lorsque la taille de l’échantillon est grande, la distribution de la moyenne entre plusieurs échantillons approchera une distribution gaussienne. Théorème Soit (Xn) une suite de variable aléatoire indépendante et identiquement distribué, telle que E (Xn) = m et Var (Xn) = σ2. Alors on a: √ n X − m σ ` − → N(0, 1) July 26, 2021 40 / 76
  • 41. Théorème centrale limite Exercice: Des tubes fluorescents fabriqués par une entreprise ont une durée de vie moyenne de 800 heures. L’écart-type de la durée de vie est évalué à 60. On prélève un échantillon aléatoire simple de 50 tubes dans la production d’une journée et on mesure la durée de vie des tubes. Quelle est la probabilité d’obtenir une durée de vie moyenne comprise entre 790 et 810 heures ? July 26, 2021 41 / 76
  • 42. Théorème centrale limite Correction: On note Xn la durée de vie moyenne des tubes fluorescents. Notre échantillon à une taille de 50, supérieur à 30. Donc, notre échantillon suit une loi normale N(µ, σ2), avec µ = 800 et σ = 60. On cherche à déterminer la probabilité d’obtenir une durée de vie moyenne comprise entre 790 et 810 heurs, c’est à dire P 790 ≤ Xn ≤ 810 . Or, d’après le théorème central limite Zn = √ n σ Xn − µ ` − → N(0, 1). P 790 ≤ Xn ≤ 810 ⇒ P 790 − 800 ≤ Xn − 800 ≤ 810 − 800 ⇒ P 60 √ 50 (790 − 800) ≤ √ 50 60 Xn − 800 ≤ √ 50 60 (810 − 800) # ⇒ P [−1.17 ≤ Zn ≤ 1.17] July 26, 2021 42 / 76
  • 43. Théorème centrale limite Correction: Par conséquent, on a: P [−1.17 ≤ Zn ≤ 1.17] = F(1.17) − F(−1.17) = F(1.17) − (1 − F(1.17)) = F(1.17) − 1 + F(1.17) = 2 × F(1.17) − 1 = 2 × 0.8790 − 1 P [−1.17 ≤ Zn ≤ 1.17] = 0.758 Donc, la probabilité d’obtenir une durée de vie moyenne comprise entre 790 et 810 heures est de 75.8%. July 26, 2021 43 / 76
  • 44. Exercice: Soient X1, X2, · · · , Xn des variables aléatoires i.i.d de densité f (x) = exp −(x − θ)e−(x−θ) , où θ ∈ R+. Étudier la convergence en loi de Tn tel que: Tn = 1 n n X i=1 e−(xi −θ) July 26, 2021 44 / 76
  • 45. Correction: D’abord, on détermine la densité de Yi , tel que Tn = 1 n Pn i=1 yi . Notons Hy la fonction de répartition de Y , on a par définition: Hy = P (y t) = P e−(xi −θ) t = P (−xi + θ ln(θ)) = P (xi ≥ − ln(t) + θ) = P xi ≥ ln 1 t + θ = P xi ≥ t0 = 1 − P xi ≤ t0 Hy = 1 − Fxi (t0 ) avecy 0 Fxi est la fonction de répartition de Xi . July 26, 2021 45 / 76
  • 46. Correction: D’où: hy = 1 − Fxi ln 1 t + θ 0 = 1/y2 1/y × f (xi ) = − 1 y × f ln 1 t + θ = − 1 y eln(y)−e− ln(y) = − 1 y ye−y hy = e−y On’en déduit que yi ,→ Exp(1) Or X ,→ Exp(λ) =⇒ E(X) = 1 λ et V (X) = 1 λ2 . On’en déduit que Tn est la moyenne de n variable yi , qui sont i.i.d d’espérance µ = 1 et σ2 = 1, donc par le TCL: √ n (Tn − 1) 1 ` − → N(0, 1) July 26, 2021 46 / 76
  • 47. Chapitre 2 : Estimation statistique July 26, 2021 47 / 76
  • 48. Estimation statistique Dans la pratique on rencontre plusieurs problèmes où l’on cherche à évaluer la valeur approchée d’un paramètre associé à une population d’une taille assez grande en se basant sur un échantillon vérifiant l’hypothèse d’échantillonage aléatoire simple de n observation issue de cette population. Ces paramètres d’intérêt peuvent être l’espérance, la variance, la moyenne, · · · d’une variable aléatoire qui suit une loi `. Cela fait l’objet d’estimation statistique (inférence statistique). Autrement dit, dans un échantillon aléatoire de taille n, on suppose qu’une série statistique x1, x2, · · · , xn correspond à des réalisations de n variables aléatoires X1, X2, · · · , Xn. Il s’agit de trouver une estimation d’un paramètre inconnue de la population à partir de ces n réalisations. July 26, 2021 48 / 76
  • 49. Estimation statistique Soit X une variable aléatoire dont la loi dépend d’un paramètre θ, élément d’un sous-ensemble donné Θ de R, appelée espace des paramètres. On cherche à estimer θ à partir d’un échantillon (X1, X2, · · · , Xn) de variable aléatoire i.i.d. Avec, (x1, x2, · · · , xn) la série de réalisation de cet échantillon. Definition Un estimateur Tn de θ est une variable aléatoire qui dépend de X tel que: Tn = Tn (X1, X2, · · · , Xn) Et chaque réalisation Tn (x1, x2, · · · , xn) est un estimateur de θ. July 26, 2021 49 / 76
  • 50. Estimation statistique Exemples: L’estimateur classique de la moyenne théorique µ est la moyenne empirique X = 1 n Pn i=1 Xi . Déterminons l’espérance et la variance de cet estimateur: 1 E Xn = 1 n Pn i=1 E (Xi ) = 1 n Pn i=1 µ = 1 n × nµ = µ. 2 V Xn = 1 n2 Pn i=1 V (Xi ) = 1 n2 × nσ2 = σ2/n July 26, 2021 50 / 76
  • 51. Estimation statistique Definition On dit qu’un estimateur Tn de θ est sans biais si et seulement si E (Tn) = θ. Definition On dit qu’un estimateur Tn de θ est asymptotiquement sans biais si et seulement si limn→+∞ E (Tn) = θ. Théorème Tout estimateur Tn de θ sans biais dont la variance tend vers 0 est convergent. July 26, 2021 51 / 76
  • 52. Estimation statistique Preuve théorème: D’après l’inégalité de Bienaymé-Tchebychev on a: P (|Tn − θ| ) V (Tn) 2 , ∀ 0 Pour 0 fixé et en faisant tendre n vers +∞, on aura donc: P (|Tn − θ| ) P − − − − → n→+∞ 0 Cela signifie que Tn P − − − − → n→+∞ θ. D’où Tn est un estimateur convergent. July 26, 2021 52 / 76
  • 53. Estimation statistique Théorème Tout estimateur Tn de θ asymptotiquement sans biais, dont la variance tend vers 0 est convergent. Exercice: Soit (Xi ) un échantillon aléatoire simple, tel que ∀i, E (Xi ) = m +∞. Montrons que X = 1 n Pn i=1 Xi est un estimateur convergent. July 26, 2021 53 / 76
  • 54. Estimation statistique Correction: On commence par calculer le biais associé à notre estimateur: Biais X = E X − m = 1 n n X i=1 E (Xi ) − m = 1 n n X i=1 m − m = 0 Ainsi, X est un estimateur sans biais. Par la suite, on détermine sa variance: Var (x) = 1 n2 n X i=1 Var (Xi ) = σ2 n Par passage à la limite, limn→+∞ Var (x) = limn→+∞ σ2 n = 0. X est un est estimateur sans biais et dont la variance → 0, donc X est un estimateur convergent. July 26, 2021 54 / 76
  • 55. Estimation statistique Definition La précision d’un estimateur Tn de θ se mesure par sa moyenne quadratique: EQ (Tn) = E h (Tn − θ)2 i = Var (Tn) + b2 n(θ) Avec b2 n(θ) = [E (Tn) − θ]2 , le biais. Remarque Parmi les estimateurs sans biais de θ le plus précis (optimal) est celui qui à la plus petite variance. July 26, 2021 55 / 76
  • 56. Estimation statistique Preuve: EQ (Tn) = E h (Tn − θ)2 i = E h (Tn − E(Tn) + E(Tn) − θ)2 i = E h (Tn − E(Tn))2 i + 2E [(Tn − E(Tn)) (E(Tn) − θ)] + E h (E(Tn) − θ)2 i Comme E(Tn) − θ est une constante, on a que E h (Tn − θ)2 i = (E(Tn) − θ) et que E [(Tn − E(Tn))] = 0. Ainsi: E h (Tn − θ)2 i = Var(Tn) + (E(Tn) − θ)2 = Var (Tn) + b2 n(θ) = EQ(Tn) July 26, 2021 56 / 76
  • 57. Estimation statistique Inégalité de Fréchet-Darmois-Cramer-Rao (FDCR) Si la variable aléatoire X prend ses valeurs dans un ensemble qui ne dépend pas de θ, si la densité f (x, θ) est de classe C2 (2 fois continûment dérivable) par rapport à θ, et sous certaines conditions de régularité, tout estimateur Tn sans biais de θ dont la variance existe vérifie l’inégalité FDCR: Var (Tn) ≥ 1 In(θ) où In(θ) la quantité d’information de Fisher définie par: In(θ) = E ∂ ln L ∂θ 2 # = E − ∂2 ln L ∂2θ Avec L la fonction de vraisemblance. July 26, 2021 57 / 76
  • 58. Estimation statistique Definition on appelle vraisemblance (likelihood) de l’échantillon (X1, X2, · · · , Xn) la loi de probabilité de ce n-uplet, notée L(x1, x2, · · · , xn) et définie par: L(x1, x2, · · · , xn; θ) = (Qn i=1 P (Xi = xi |θ) , pourXune v.a discrète Qn i=1 f (xi ; θ) , pourXune v.a continue Les conditions de régularité sont : On suppose que l’ensemble des estimateurs Θ est un ensemble ouvert sur lequel la densité f (x, θ) ne s’annule en aucun point x et est dérivable par rapport à θ. On suppose aussi que l’on peut intervenir dérivation par rapport à θ et intégration, et que la quantité d’information de Fisher est strictement positive. July 26, 2021 58 / 76
  • 59. Estimation statistique Efficacité d’un estimateur La borne inférieure pour la variance des estimateurs sans biais peut être atteinte ou non. Si cette borne est effectivement atteinte par un estimateur, il sera donc le meilleur, selon ce critère parmi l’ensemble des estimateurs sans biais. Definition Un estimateur sans biais Tn est efficace si sa variance est égale à la borne inférieure de FDCR: V (Tn) = 1 In(θ) July 26, 2021 59 / 76
  • 60. Estimation statistique Exemple: Soit X suit la loi exponentielle de paramètre 1/θ, avec θ 0, de densité: f (x, θ) = 1 θ e−x/θ ; x ≥ 0 Par définition, on a: E(X) = θ et Var(X) = θ2 Xn est un estimateur sans biais et convergent. De plus, c’est un estimateur efficace de θ. Dans la suite on montre ce caractère d’efficacité de l’estimateur Xn. July 26, 2021 60 / 76
  • 61. Estimation statistique Soient X1, X2, · · · , Xn, n variables exponentielles indépendantes, déterminons la fonction de vraisemblance: L(x1, x2, · · · , xn; θ) = n Y i=1 f (xi ; θ) = n Y i=1 1 θ e−xi /θ = 1 θn e− 1 θ Pn i=1 xi En introduisant la fonction ln on obtient: ln L(x1, x2, · · · , xn; θ) = −n ln(θ) − 1 θ n X i=1 xi ⇒ ∂ ln L(x1, x2, · · · , xn; θ) ∂θ = − n θ + 1 θ2 n X i=1 xi July 26, 2021 61 / 76
  • 62. Estimation statistique On dérive une seconde fois par rapport à θ et on calcule l’espérance de cette quantité: E ∂2 ln L(x1, x2, · · · , xn; θ) ∂2θ = E − n θ2 + 2 θ3 n X i=1 xi ! = − n θ2 + 2 θ3 n X i=1 E(xi ) = − n θ2 + 2 θ3 × nθ = − n θ2 + 2n θ2 July 26, 2021 62 / 76
  • 63. Estimation statistique Ainsi, on peut déterminer la quantité d’information de Fisher : In(θ) = E ∂2 ln L(x1, x2, · · · , xn; θ) ∂2θ = − n θ2 + 2n θ2 In(θ) = n θ2 Or: Var(Xn) = 1 n2 n X i=1 Var(xi ) = 1 n2 × nθ2 Var(Xn) = θ2 n On remarque que: In(θ) = 1 θ2 n = 1 Var(Xn) Donc, Xn est un estimateur efficace. July 26, 2021 63 / 76
  • 64. Estimation statistique Soit un n-échantillon d’une variable aléatoire X. Soit Tn une statistique fonction de X1, X2, · · · , Xn de loi g(t, θ) (densité dans le cas continue et P(T = t) dans le cas discret). Definition T sera site exhaustive si l’on a L(x; θ) = g(t, θ)h(x) (principe de factorisation), en d’autres termes si la densité conditionnelle de l’échantillon est indépendante du paramètre. Ceci signifie qu’une fois T est connu, aucune valeur de l’échantillon ni aucune autre statistique n’apportera d’informations supplémentaires sur le paramètre inconnu θ. July 26, 2021 64 / 76
  • 65. Estimation statistique Théorème Théorème de Neyman et Fisher (théorème de factorisation Une statistique Tn est exhaustive s’il existe deux applications mesurables positives g et h telles que la densité L de l’échantillon puisse se factoriser sous la forme: L(x1, x2, · · · , xn; θ) = g(t; θ)h(x1, x2, · · · , xn) Exemple: Soit un n-échantillon suivant une loi de poisson de paramètre λ inconnu. On a: L(x1, x2, · · · , xn; λ) = n Y i=1 λxi xi ! e−λ = e−nλ λ Pn i=1 xi Qn i=1 xi ! July 26, 2021 65 / 76
  • 66. Estimation statistique Exemple (suite): T = Pn i=1 Xi est une statistique exhaustive,on sait que T suit une loi de poisson de paramètre nλ et la densité peut se factoriser de la façon suivante: L(x1, x2, · · · , xn; λ) = g(t; λ) × h(x) Avec: g(t; λ) = e−nλ (nλ)t t! et h(x) = t! nt Qn i=1 xi ! July 26, 2021 66 / 76
  • 67. Méthodes d’estimation statistique Quand il n’y a pas d’estimateurs ponctuels évidents tels que la moyenne empirique et la variance empirique, on les construit par deux méthodes : méthode du maximum de vraisemblance et méthode des moments. Méthode d’estimation du maximum de vraisemblance (EMV) Soient x1, x2, · · · , xn des réalisations des variables aléatoires indépendantes X1, X2, · · · , Xn de lois de probabilité inconnues mais identiques. Nous cherchons à estimer cette loi P inconnue à partir des observations x1, x2, · · · , xn. La méthode de maximum de vraisemblance (EMV) est basée sur la vraisemblance, qui est la probabilité conjointe de la série x1, x2, · · · , xn: L(x1, x2, · · · , xn; θ) = n Y i=1 P(Xi = xi ) July 26, 2021 67 / 76
  • 68. Méthodes d’estimation statistique Une fois qu’on a obtenu la vraisemblance L(x1, x2, · · · , xn; θ), on cherche à la maximiser. La maximisation de L est identique à la maximisation de son logarithme ln L. L’estimateur qui maximise la vraisemblance est celui qui satisfait les conditions suivantes: (∂ ln L(x1,x2,··· ,xn;θ) ∂θ = 0 ∂2 ln L(x1,x2,··· ,xn;θ) ∂2θ 0 On prend comme estimateur de θ la solution de l’équation ∂ ln L(x1,x2,··· ,xn;θ) ∂θ = 0 et qui vérifie ∂2 ln L(x1,x2,··· ,xn;θ) ∂2θ 0. July 26, 2021 68 / 76
  • 69. Méthodes d’estimation statistique Definition On appelle l’estimateur du maximum de vraisemblance EMV toute fonction b θn de x1, x2, · · · , xn qui vérifie : L(x1, x2, · · · ,n ; b θn) = max θ∈Θ L(x1, x2, · · · , xn; θ) Propriété S’il existe une statistique exhaustive T, alors l’estimateur du maximum de vraisemblance en dépend. July 26, 2021 69 / 76
  • 70. Méthodes d’estimation statistique Puisque pour une statistique exhaustive: L(x1, x2, · · · ,n ; θ) = g(t; θ) × h(x) Ainsi, résoudre l’équation ∂ ln L(x1,x2,··· ,xn;θ) ∂θ = 0 revient à résoudre ∂ ln g(t1,t2,··· ,tn;θ) ∂θ = 0, donc l’estimateur de θ est b θ. Propriété Si b θ est un estimateur de maximum de vraisemblance de θ, alors f (b θ) est l’estimateur de maximum de vraisemblance de f (θ) July 26, 2021 70 / 76
  • 71. Méthodes d’estimation statistique Exemple: Estimation par la méthode EMV de la moyenne m de la loi normale Soient X1, X2, · · · , Xn, n variables aléatoires de lois normales et indépendantes. On suppose que la variance σ2 est connue: Xi ,→ N(m, σ) La fonction de densité de probabilité est : f (xi = 1 σ √ 2π e− 1 2σ2 (xi −m)2 Ainsi, la vraisemblance de la loi normale est : L(x1, x2, · · · , xn; m) = n Y i=1 f (xi ) = n Y i=1 1 σ √ 2π e− 1 2σ2 (xi −m)2 = 1 σ √ 2π 2 e− 1 2σ2 Pn i=1(xi −m)2 July 26, 2021 71 / 76
  • 72. Méthodes d’estimation statistique Une fois qu’on a obtenu la vraisemblance L(x1, x2, · · · , xn; m), on cherche à la maximiser. La maximisation de L est identique à la maximisation de son logarithme ln L: ln L(x1, x2, · · · , xn; m) = −n ln σ √ 2π − 1 2σ2 n X i=1 (xi − m)2 ⇒ ∂ ln L ∂m = 1 σ2 n X i=1 (xi − m) Ainsi : ∂ ln L ∂m = 0 ⇔ 1 σ2 n X i=1 (xi − m) = 0 ⇔ n X i=1 xi − nm = 0 La solution de cette équation est b m = 1 n Pn i=1 xi . b m est un maximum car : ∂2 ln L ∂2m = −n σ2 0 July 26, 2021 72 / 76
  • 73. Méthodes d’estimation statistique Estimation par la méthode des moments La méthode des moments consiste à estimer les paramètres inconnus en utilisant les moments d’ordre 1 et 1 : E(X) et E(X2). Il s’agit de résoudre le système en égalant les moments théoriques aux moments empiriques en fonctions des paramètres inconnues. La solution des équations si elle existe et est unique, sera appelée estimateur obtenu par la méthode des moments. July 26, 2021 73 / 76
  • 74. Méthodes d’estimation statistique Exemple: Soit la fonction de répartition suivante: fθ(x) = ( 1 θ e− 1 θ (x−γ) , si x γ, θ 0 0, sinon Posons alors Y = X − γ, d’où: fθ(y) = ( 1 θ e− 1 θ y , si y 0, θ 0 0, sinon Ainsi, Y suit une loi exponentielle de paramètre 1 θ . Donc, E(Y ) = θ et Var(Y ) = θ2. Par la suite, on doit calculer E(Y ) et E(Y 2). July 26, 2021 74 / 76
  • 75. Méthodes d’estimation statistique Exemple (suite): On a: ( E(Y ) = θ Var(Y ) = θ2 ⇔ ( E(X − γ) = θ Var(X − γ) = θ2 ⇔ ( E(X) = θ + γ Var(X) = θ2 ⇔ ( E(X) = θ + γ E(X2) − E(X)2 = θ2 ⇔ ( E(X) = θ + γ E(X2) = (θ + γ)2 + θ2 En égalant les moments théoriques aux moments empiriques en fonctions des paramètres inconnues θ et γ: ( E(X) = 1 n Pn i=1 xi E(X2) = 1 n Pn i=1 x2 i July 26, 2021 75 / 76
  • 76. Méthodes d’estimation statistique Ainsi, on trouve : ( b θ + b γ = x (b θ + b γ)2 + b θ2 = 1 n Pn i=1 x2 i ⇔ ( b θ = x − b γ x2 + b θ2 = 1 n Pn i=1 x2 i ⇔ ( b θ = x − b γ b θ2 = 1 n Pn i=1 x2 i − x2 ⇔ ( b γ = x − b θ b θ2 = s2 ⇔ ( b γ = x − s b θ = s July 26, 2021 76 / 76