slides statistique mathématique.pdf

Statistique mathématique
Master Analyse Economique et Modélisation
FSJES-Souissi
Version en cours de finalisation, à ne pas diffuser!
July 26, 2021
July 26, 2021 1 / 76

Introduction
L’objectif de ce module est double, la première partie porte sur des rappels
et compléments sur les techniques probabilistes qui seront utilisées. La
deuxième partie portera sur des méthodes statistiques concernant entre
autres les modèles statistiques, les méthodes d’échantillonnage et
d’estimation puis une introduction à la statistique non-paramétrique.
Le module a pour objectif de mettre en évidence les principes généraux
aidant à la prise de décision et la résolution des problèmes statistiques, en
accordant une attention particulière aux applications en sciences
économiques et sociales (y compris la finance, la gestion, · · · ).
July 26, 2021 2 / 76

Rappel de probabilité
Exercice
Soient A et B deux événements tel que:
P(A) = 0.8 P(B) = 0.7
1 Est-il possible d’avoir P(A ∩ B) = 0.1?
3 Quelle est la valeur maximale de P(A ∩ B)?
4 Quelle est la valeur minimale de P(A ∩ B)?
July 26, 2021 3 / 76

Correction
Par défintion, on a :
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
= 0.7 + 0.8 − 0.1 = 1.4
P(A ∪ B) > 1, ce qui est impossible.
On sait que :
A ∩ B ⊂ B =⇒ P(A ∩ B) ≤ P(B)
=⇒ 0.77 ≤ 0.7
Cette inégalité est absurde, il est donc impossible d’avoir P(A ∩ B) = 0.77.
July 26, 2021 4 / 76

Correction
3 Quelle est la valeur maximale de P(A ∩ B)?
On sait que ∀(A, B) ∈ Ω:
P(A ∩ B) ≤ min P(A), P(B)
D’où:
P(A ∩ B) ≤ 0.7 =⇒ max P(A ∩ B) ≤ 0.7
Donc, la valeur maximale de P(A ∩ B) est de 0.7.
July 26, 2021 5 / 76

Correction
4 Quelle est la valeur minimale de P(A ∩ B)?
On distingue 2 cas :
Si A et B sont indépendants, on a:
P(A ∩ B) = P(A) × P(B) = 0.7 × 0.8 = 0.56
Si A et B sont dépendants, on a:
P(A ∩ B) = P(A) + P(B) − P(A ∪ B) = 1.5 − P(A ∪ B)
Ainsi, si P(A ∪ B) = 0 alors P(A ∩ B) = 1.5 ce qui est impossible car c’est
une valeur supérieur à 1. Or, on sait que P(A ∪ B) ∈ [0, 1]. D’où, si
P(A ∪ B) = 1, alors la valeur minimale de P(A ∩ B) est 0.5.
July 26, 2021 6 / 76

Les variables aléatoire
Definition
Une variable aléatoire X est une fonction de l’ensemble fondamental Ω à
valeurs dans R:
X : Ω −→ R
Lorsque la variable X ne prend que des valeurs discrètes, on parle de
variable aléatoire discrète.
July 26, 2021 7 / 76

Les variables aléatoire
Exemples
On jette deux dés distincts et on s’intéresse à la somme des points. On
note X cette variable aléatoire, elle est définie par:
X :Ω → R avec Ω = {(1, 1), (1, 2), · · · , (6, 5), (6, 6)}
(ω1, ω2) → ω1 + ω2
L’ensemble des valeurs possibles de X est {2, 3, · · · , 12}.
On lance toujours deux dés, mais cette fois on s’intéresse au plus grand
chiffre Y obtenu. On a alors:
Y :Ω → R avec Ω = {(1, 1), (1, 2), · · · , (6, 5), (6, 6)}
(ω1, ω2) → max(ω1, ω2)
La variable Y est à valeurs dans {1,2,· · · ,6}.
July 26, 2021 8 / 76

Fonction de répartition
La loi de probabilité d’une variable aléatoire permet de connaı̂tre les
chances d’apparition des différentes valeurs de cette variable.
Definition
Soit X une variable aléatoire. La loi de probabilité de X est définie par la
fonction FX , appelée fonction de répartition de la variable X, définie par:
FX :R → [0, 1]
x → P(X ≤ x)
On dit que deux variables aléatoires X et Y ont la même loi si elles ont la
même fonction de répartition FX = FY .
July 26, 2021 9 / 76

Lois discrètes usuelles
Loi binomiale
La loi Binomiale est utilisée pour modéliser un sondage avec remise.
C’est la loi du nombre de succès lorsqu’on renouvelle n fois de manière
indépendante une épreuve de Bernoulli de paramètre p. On note X le
nombre de succès obtenus à l’issue des n épreuves. Sa loi s’appelle loi
Binomiale de paramètres n et p, X ∼ B(n, p).
P(X = k) = n
p

pk
(1 − p)1−k
July 26, 2021 10 / 76

Le figure ci-dessous donne une représentation d’une distribution binomiale
pour un échantillon de taille n = 50 et pour différente valeur de p.
July 26, 2021 11 / 76

Loi Hypergéométrique
La loi hypergéométrique est utilisée pour modéliser un sondage sans
remise. C’est le cas de pratiquement tous les sondages (notamment
lorsqu’on veut étudier la conformité d’un lot de médicaments, étudier le
nombre de cellules atteintes par un virus, . . .), X ∼ H(N, m, n).
P(X = k) =
(m
k )

N−m
n−k

(N
n )
si k ∈ {0, ..., min(m, n)}
July 26, 2021 12 / 76

Dans la figure ci-dessous on représente le tirage sans remise de 20 boules
blanches dans une urnes contenant d’abords 70 boules blanches et 30
boules noires. Par la suite, on effectue une deuxième expérience dans une
urne contenant 20 boules blanches et 30 boules noires.
July 26, 2021 13 / 76

Loi de Poisson
La loi de Poisson est utilisée pour modéliser le comptage d’événements
rares, c’est à dire des événements ayant une faible probabilité de
réalisation : maladies rares, accidents mortels rares, le titrage d’une
solution virale, pannes, radioactivité ..., X ∼ P(λ)
P(X = k) =
λk
k!
e−λ
July 26, 2021 14 / 76

On donne une distribution de poisson représentant le nombre d’accident
dans une usine pour différente valeur de λ.
July 26, 2021 15 / 76

Exercice
On jette 10 fois une pièce de monnaie bien équilibrée en notant chaque
fois le résultat.
On note X la variable aléatoire qui a chaque partie associe le nombre de
”face” obtenue.
1 Justifier que la loi de probabilité suivie par la variable X est une loi
binomiale.
2 Calculer la probabilité d’événement E:”le nombre de face” est compris
entre 3 et 6.
July 26, 2021 16 / 76

Exercice
1 Justifier que la loi de probabilité suivie par la variable X est une loi
binomiale.
On répète 10 fois une expérience équiprobable, avec :
Ω = {P, F} et P(X = 0) = C0
10p0
(1 − p)10
P(X = 1) = C1
10p1
(1 − p)10−1
.
.
.
P(X = 10) = C10
10 p10
(1 − p)10−10
On a ∀k ∈ {0, 1, , 10} : P(X = k) = Ck
10pk(1 − p)10−k. Donc,
X ∼ B(10, 0.5).
July 26, 2021 17 / 76

Exercice
2 Calculer la probabilité d’événement E:”le nombre de face” est compris
entre 3 et 6.
P(E) = P(X = 3) + P(X = 4) + P(X = 5) + P(X = 6)
= C3
10p3
(1 − p)7
+ C4
10p4
(1 − p)6
+ C5
10p5
(1 − p)5
+ C6
10p6
(1 − p)4
P(E) = 0.53
July 26, 2021 18 / 76

Variable aléatoire continue
Definition
Une variable aléatoire X est continue, s’il existe une fonction f définie sur
R telle que la fonction de répartition de X s’écrit:
∀x ∈ R FX (x) =
Z x
−∞
f (t)dt
où f est une fonction intégrable sur R satisfaisant les conditions suivantes
:
1 ∀t ∈ R, f (t) ≥ 0.
2
R +∞
−∞ f (t)dt = 1
Une fonction qui vérifie les conditions 1. et 2. est appelée densité de
probabilité.
July 26, 2021 19 / 76

Exercice
Le temps requis pour qu’un étudiant complète un examen d’une heure est
une variable aléatoire ayant une densité de probabilité:
f (y) =
(
cy2 + y si 0 ≤ y ≤ 1
0 sinon
1 Déterminer la constante c.
2 Déterminer la fonction de répartition F.
July 26, 2021 20 / 76

Correction
1 Déterminer la constante c.
Puisque f est une densité de probabilité, on a:
Z 1
0
f (y)dy = 1
=⇒

c
3
y3
+
y2
2
1
0
= 1
=⇒
c
3
+
1
2
= 1
=⇒ c =
3
2
July 26, 2021 21 / 76

Correction
2 Déterminer la fonction de répartition F.
Par définition, on a:
F(t) =
Z t
−∞
f (y)dy
=
Z t
0
3
2
y2
+ ydy
=

1
3
y3
+
y2
2
t
0
=
t3
2
+
t2
2
=
t2(t + 1)
2
July 26, 2021 22 / 76

Correction
Ainsi, on a:
F(t) =





0, si t 0
t2(t+1)
2 , si 0 ≤ t 1
1, si t ≥ 1
July 26, 2021 23 / 76

Lois continues usuelles
Loi uniforme
Elle permet de modéliser le tirage d’un nombre aléatoire dans l’intervalle
[a, b], X ∼ U ([a, b]).
La fonction de densité est donnée par :
f (x) =
(
1
b−a , si x ∈ [a, b]
0, sinon
La fonction de répartition est donnée par :
F(x) =





0, si x a
x−a
b−a , si x ∈ [a, b]
1, si x b
July 26, 2021 24 / 76

La figure ci-dessous représente la fonction de densité de la loi uniforme sur
différent intervalle [a, b].
July 26, 2021 25 / 76

Loi exponentielle
Elle permet en général de modéliser des durées de vie ou des temps
d’attente, X ∼ E(λ).
f (x) =
(
λe−λx , si x ≥ 0
0, si x 0
La fonction de répartition est donnée par :
F(x) =
(
0, si x 0
e−λx , , si x ≥ 0
July 26, 2021 26 / 76

La figure ci-dessous représente la fonction de densité de la loi exponentielle
pour différente valeur de λ.
July 26, 2021 27 / 76

Loi normale
La loi Normale est une loi centrale dans la théorie des probabilités. Elle est
notamment très utilisée en statistique. Une grandeur influencée par un
grand nombre de paramètres indépendants est souvent modélisée par une
loi normale, X ∼ N(m, σ2).
f (x) =
1
σ
√
2π
e−
(x−m)2
2σ2
July 26, 2021 28 / 76

La figure ci-dessous représente la fonction de densité de la loi normale
pour différente valeur des paramètres (m, σ).
July 26, 2021 29 / 76

Espérance d’une variable aléatoire
Definition
L’espérance d’une variable aléatoire X est notée E(X). Elle représente la
valeur moyenne prise par la variable X.
1 Si X est une variable discrète à valeurs dans {x1, · · · , x2} , son
espérance est:
E(X) = x1P(X = x1) + · · · + xnP(X = xn) =
n
X
i=1
xi P(X = xi )
2 Si X est une variable continue à densité f , son espérance est:
E(X) =
Z +∞
−∞
xf (x)dx
Lorsqu’une variable X vérifie E(X) = 0, on dit que la variable est
centrée.
July 26, 2021 30 / 76

Espérance d’une variable aléatoire
Propriété
1 L’espérance est linéaire :
Soient a et b ∈ R deux variables aléatoires X et Y d’espérance finie
alors
E(aX + bY ) = aE(X) + bE(Y )
2 Si X ≥ 0, alors E(X) ≥ 0.
3 Si X ≤ Y , alors E(X) ≤ E(Y ).
July 26, 2021 31 / 76

Variance d’une variable aléatoire
L’écart type représente l’écart moyen (la distance moyenne) entre la
variable et sa moyenne. Elle mesure la dispersion d’une variable, plus
l’écart-type est grand plus la variable prend des valeurs qui peuvent être
éloignées les unes des autres, plus l’écart-type est petit plus la variable
prend des valeurs proches de sa moyenne.
Definition
La variance d’une variable aléatoire X, notée Var(X), est définie par:
Var(X) = E

(X − E(X))2

L’écart type est la racine carrée de la variance :
σ(X) =
p
Var(X)
Lorsqu’une variable X vérifie Var(X) = 1, on dit que la variable est
réduite.
July 26, 2021 32 / 76

Variance d’une variable aléatoire
Remarque
La variance s’écrit aussi Var(X) = E(X2) − E(X)2
Propriété
1 Var(X) = 0 ssi X est constante.
2 Soient a et b ∈ R, alors Var(aX + b) = a2Var(X).
July 26, 2021 33 / 76

Inégalité de Markov
Soit X une variable aléatoire telle que m = E (X) +∞, alors:
∀λ 0, P (X λ) ≤
E (X)
λ
Inégalité de Bienaymé-Tchebychev
Soit X une variable aléatoire telle que V (X) = σ2 +∞, alors:
∀ 0, P (|X − E (X)| ≥ ) ≤
V (X)
σ2
July 26, 2021 34 / 76

Convergence en probabilité
Definition
Soit (Xn)n≥0 une suite de variable aléatoire quelconque (discrète,
continue), on dit que (Xn) converge en probabilité vers X ssi:
∀ 0, P (|Xn − X| ≥ ) −
−
−
−
→
n→+∞
0 ⇔ lim
n→+∞
P (|Xn − X| ≥ ) = 0
Remarque
On note: Xn
P
−
→ X
July 26, 2021 35 / 76

Propriété
Soit (Xn) une suite de variable aléatoire et f : R → R une fonction réelle,
alors:
Si Xn
P
−
→ X alors f (Xn)
P
−
→ f (X)
Exemple d’application
Soient (Xn) et (Yn) deux suites de variables aléatoires tel que :
Xn
P
−
→ X et Yn
P
−
→ Y
Si f : R2 → R est uniformément continue alors :
f (Xn, Yn)
P
−
→ f (X, Y )
July 26, 2021 36 / 76

Loi des grands nombres
Definition
Soit (Xn) une suite de variable aléatoire indépendante telle que ∀n ∈ N
E (Xn) = m et Var (Xn) = σ2, alors on a:
X =
1
n
n
X
i=1
Xi
P
−
→ E (Xn) = m
July 26, 2021 37 / 76

Convergence en loi
Definition
Soit (Xn) une suite de variable aléatoire. On dit que Xn converge en loi
vers X, et on note Xn
`
−
→ X, si et seulement si :
lim
n→+∞
F (Xn) = F (X) où lim
n→+∞
FXn (x) = FX (x)
Avec Fz la fonction de répartition de z.
Théorème
Si Xn
P
−
→ X alors on a que Xn
`
−
→ X.
La réciproque est fausse.
July 26, 2021 38 / 76

Propriété
Soient (Xn) et (Yn) deux suites de variable aléatoire et λ ∈ R, si Xn
`
−
→ X
et Yn
`
−
→ λ alors:
1 Xn + Yn
`
−
→ X + λ
2 Xn × Yn
`
−
→ λX
3 Xn
Yn
`
−
→ X
λ (si λ 6= 0)
Théorème
Si Xn
`
−
→ X alors f (Xn)
`
−
→ f (X).
Avec f une fonction réel continue.
July 26, 2021 39 / 76

Théorème centrale limite (TCL)
Le Théorème Central Limite (TCL) est un pilier des statistiques et des
probabilités. Le théorème exprime que lorsque la taille de l’échantillon est
grande, la distribution de la moyenne entre plusieurs échantillons
approchera une distribution gaussienne.
Théorème
Soit (Xn) une suite de variable aléatoire indépendante et identiquement
distribué, telle que E (Xn) = m et Var (Xn) = σ2. Alors on a:
√
n

X − m
σ

`
−
→ N(0, 1)
July 26, 2021 40 / 76

Théorème centrale limite
Exercice:
Des tubes fluorescents fabriqués par une entreprise ont une durée de vie
moyenne de 800 heures. L’écart-type de la durée de vie est évalué à 60.
On prélève un échantillon aléatoire simple de 50 tubes dans la production
d’une journée et on mesure la durée de vie des tubes.
Quelle est la probabilité d’obtenir une durée de vie moyenne comprise
entre 790 et 810 heures ?
July 26, 2021 41 / 76

Correction:
On note Xn la durée de vie moyenne des tubes fluorescents.
Notre échantillon à une taille de 50, supérieur à 30. Donc, notre
échantillon suit une loi normale N(µ, σ2), avec µ = 800 et σ = 60.
On cherche à déterminer la probabilité d’obtenir une durée de vie moyenne
comprise entre 790 et 810 heurs, c’est à dire P

790 ≤ Xn ≤ 810

.
Or, d’après le théorème central limite Zn =
√
n
σ Xn − µ
`
−
→ N(0, 1).
P

790 ≤ Xn ≤ 810

⇒ P

790 − 800 ≤ Xn − 800 ≤ 810 − 800

⇒ P

60
√
50
(790 − 800) ≤
√
50
60
Xn − 800

≤
√
50
60
(810 − 800)
#
⇒ P [−1.17 ≤ Zn ≤ 1.17]
July 26, 2021 42 / 76

Correction:
Par conséquent, on a:
P [−1.17 ≤ Zn ≤ 1.17] = F(1.17) − F(−1.17)
= F(1.17) − (1 − F(1.17))
= F(1.17) − 1 + F(1.17)
= 2 × F(1.17) − 1
= 2 × 0.8790 − 1
P [−1.17 ≤ Zn ≤ 1.17] = 0.758
Donc, la probabilité d’obtenir une durée de vie moyenne comprise entre
790 et 810 heures est de 75.8%.
July 26, 2021 43 / 76

Exercice:
Soient X1, X2, · · · , Xn des variables aléatoires i.i.d de densité
f (x) = exp

−(x − θ)e−(x−θ)

, où θ ∈ R+.
Étudier la convergence en loi de Tn tel que:
Tn =
1
n
n
X
i=1
e−(xi −θ)
July 26, 2021 44 / 76

Correction:
D’abord, on détermine la densité de Yi , tel que Tn = 1
n
Pn
i=1 yi . Notons
Hy la fonction de répartition de Y , on a par définition:
Hy = P (y t) = P

e−(xi −θ)
t

= P (−xi + θ ln(θ))
= P (xi ≥ − ln(t) + θ)
= P

xi ≥ ln

1
t

+ θ

= P xi ≥ t0

= 1 − P xi ≤ t0

Hy = 1 − Fxi (t0
) avecy 0
Fxi est la fonction de répartition de Xi .
July 26, 2021 45 / 76

Correction:
D’où:
hy =

1 − Fxi

ln

1
t

+ θ
0
=
1/y2
1/y
× f (xi ) = −
1
y
× f

ln

1
t

+ θ

= −
1
y
eln(y)−e− ln(y)
= −
1
y
ye−y
hy = e−y
On’en déduit que yi ,→ Exp(1) Or X ,→ Exp(λ) =⇒ E(X) = 1
λ et
V (X) = 1
λ2 . On’en déduit que Tn est la moyenne de n variable yi , qui sont
i.i.d d’espérance µ = 1 et σ2 = 1, donc par le TCL:
√
n
(Tn − 1)
1
`
−
→ N(0, 1)
July 26, 2021 46 / 76

Chapitre 2 : Estimation statistique
July 26, 2021 47 / 76

Estimation statistique
Dans la pratique on rencontre plusieurs problèmes où l’on cherche à
évaluer la valeur approchée d’un paramètre associé à une population d’une
taille assez grande en se basant sur un échantillon vérifiant l’hypothèse
d’échantillonage aléatoire simple de n observation issue de cette
population.
Ces paramètres d’intérêt peuvent être l’espérance, la variance, la moyenne,
· · · d’une variable aléatoire qui suit une loi `. Cela fait l’objet d’estimation
statistique (inférence statistique). Autrement dit, dans un échantillon
aléatoire de taille n, on suppose qu’une série statistique x1, x2, · · · , xn
correspond à des réalisations de n variables aléatoires X1, X2, · · · , Xn. Il
s’agit de trouver une estimation d’un paramètre inconnue de la population
à partir de ces n réalisations.
July 26, 2021 48 / 76

Soit X une variable aléatoire dont la loi dépend d’un paramètre θ, élément
d’un sous-ensemble donné Θ de R, appelée espace des paramètres. On
cherche à estimer θ à partir d’un échantillon (X1, X2, · · · , Xn) de variable
aléatoire i.i.d. Avec, (x1, x2, · · · , xn) la série de réalisation de cet
échantillon.
Definition
Un estimateur Tn de θ est une variable aléatoire qui dépend de X tel que:
Tn = Tn (X1, X2, · · · , Xn)
Et chaque réalisation Tn (x1, x2, · · · , xn) est un estimateur de θ.
July 26, 2021 49 / 76

Exemples:
L’estimateur classique de la moyenne théorique µ est la moyenne empirique
X = 1
n
Pn
i=1 Xi . Déterminons l’espérance et la variance de cet estimateur:
1 E Xn

= 1
n
Pn
i=1 E (Xi ) = 1
n
Pn
i=1 µ = 1
n × nµ = µ.
2 V Xn

= 1
n2
Pn
i=1 V (Xi ) = 1
n2 × nσ2 = σ2/n
July 26, 2021 50 / 76

Definition
On dit qu’un estimateur Tn de θ est sans biais si et seulement si
E (Tn) = θ.
Definition
On dit qu’un estimateur Tn de θ est asymptotiquement sans biais si et
seulement si limn→+∞ E (Tn) = θ.
Théorème
Tout estimateur Tn de θ sans biais dont la variance tend vers 0 est
convergent.
July 26, 2021 51 / 76

Preuve théorème:
D’après l’inégalité de Bienaymé-Tchebychev on a:
P (|Tn − θ| )
V (Tn)
2
, ∀ 0
Pour 0 fixé et en faisant tendre n vers +∞, on aura donc:
P (|Tn − θ| )
P
−
−
−
−
→
n→+∞
0
Cela signifie que Tn
P
−
−
−
−
→
n→+∞
θ. D’où Tn est un estimateur convergent.
July 26, 2021 52 / 76

Théorème
Tout estimateur Tn de θ asymptotiquement sans biais, dont la variance
tend vers 0 est convergent.
Exercice: Soit (Xi ) un échantillon aléatoire simple, tel que
∀i, E (Xi ) = m +∞. Montrons que X = 1
n
Pn
i=1 Xi est un estimateur
convergent.
July 26, 2021 53 / 76

Correction:
On commence par calculer le biais associé à notre estimateur:
Biais X

= E X

− m =
1
n
n
X
i=1
E (Xi ) − m =
1
n
n
X
i=1
m − m = 0
Ainsi, X est un estimateur sans biais. Par la suite, on détermine sa
variance:
Var (x) =
1
n2
n
X
i=1
Var (Xi ) =
σ2
n
Par passage à la limite, limn→+∞ Var (x) = limn→+∞
σ2
n = 0.
X est un est estimateur sans biais et dont la variance → 0, donc X est
un estimateur convergent.
July 26, 2021 54 / 76

Definition
La précision d’un estimateur Tn de θ se mesure par sa moyenne
quadratique:
EQ (Tn) = E
h
(Tn − θ)2
i
= Var (Tn) + b2
n(θ)
Avec b2
n(θ) = [E (Tn) − θ]2
, le biais.
Remarque
Parmi les estimateurs sans biais de θ le plus précis (optimal) est celui qui à
la plus petite variance.
July 26, 2021 55 / 76

Preuve:
EQ (Tn) = E
h
(Tn − θ)2
i
= E
h
(Tn − E(Tn) + E(Tn) − θ)2
i
= E
h
(Tn − E(Tn))2
i
+ 2E [(Tn − E(Tn)) (E(Tn) − θ)]
+ E
h
(E(Tn) − θ)2
i
Comme E(Tn) − θ est une constante, on a que
E
h
(Tn − θ)2
i
= (E(Tn) − θ) et que E [(Tn − E(Tn))] = 0. Ainsi:
E
h
(Tn − θ)2
i
= Var(Tn) + (E(Tn) − θ)2
= Var (Tn) + b2
n(θ)
= EQ(Tn)
July 26, 2021 56 / 76

Inégalité de Fréchet-Darmois-Cramer-Rao (FDCR)
Si la variable aléatoire X prend ses valeurs dans un ensemble qui ne
dépend pas de θ, si la densité f (x, θ) est de classe C2 (2 fois continûment
dérivable) par rapport à θ, et sous certaines conditions de régularité, tout
estimateur Tn sans biais de θ dont la variance existe vérifie l’inégalité
FDCR:
Var (Tn) ≥
1
In(θ)
où In(θ) la quantité d’information de Fisher définie par:
In(θ) = E

∂ ln L
∂θ
2
#
= E

−
∂2 ln L
∂2θ

Avec L la fonction de vraisemblance.
July 26, 2021 57 / 76

Definition
on appelle vraisemblance (likelihood) de l’échantillon (X1, X2, · · · , Xn) la
loi de probabilité de ce n-uplet, notée L(x1, x2, · · · , xn) et définie par:
L(x1, x2, · · · , xn; θ) =
(Qn
i=1 P (Xi = xi |θ) , pourXune v.a discrète
Qn
i=1 f (xi ; θ) , pourXune v.a continue
Les conditions de régularité sont :
On suppose que l’ensemble des estimateurs Θ est un ensemble ouvert
sur lequel la densité f (x, θ) ne s’annule en aucun point x et est
dérivable par rapport à θ.
On suppose aussi que l’on peut intervenir dérivation par rapport à θ
et intégration, et que la quantité d’information de Fisher est
strictement positive.
July 26, 2021 58 / 76

Efficacité d’un estimateur
La borne inférieure pour la variance des estimateurs sans biais peut être
atteinte ou non. Si cette borne est effectivement atteinte par un
estimateur, il sera donc le meilleur, selon ce critère parmi l’ensemble des
estimateurs sans biais.
Definition
Un estimateur sans biais Tn est efficace si sa variance est égale à la borne
inférieure de FDCR:
V (Tn) =
1
In(θ)
July 26, 2021 59 / 76

Exemple:
Soit X suit la loi exponentielle de paramètre 1/θ, avec θ 0, de densité:
f (x, θ) =
1
θ
e−x/θ
; x ≥ 0
Par définition, on a:
E(X) = θ et Var(X) = θ2
Xn est un estimateur sans biais et convergent. De plus, c’est un
estimateur efficace de θ. Dans la suite on montre ce caractère d’efficacité
de l’estimateur Xn.
July 26, 2021 60 / 76

Soient X1, X2, · · · , Xn, n variables exponentielles indépendantes,
déterminons la fonction de vraisemblance:
L(x1, x2, · · · , xn; θ) =
n
Y
i=1
f (xi ; θ)
=
n
Y
i=1
1
θ
e−xi /θ
=
1
θn
e− 1
θ
Pn
i=1 xi
En introduisant la fonction ln on obtient:
ln L(x1, x2, · · · , xn; θ) = −n ln(θ) −
1
θ
n
X
i=1
xi
⇒
∂ ln L(x1, x2, · · · , xn; θ)
∂θ
= −
n
θ
+
1
θ2
n
X
i=1
xi
July 26, 2021 61 / 76

On dérive une seconde fois par rapport à θ et on calcule l’espérance de
cette quantité:
E

∂2 ln L(x1, x2, · · · , xn; θ)
∂2θ

= E −
n
θ2
+
2
θ3
n
X
i=1
xi
!
= −
n
θ2
+
2
θ3
n
X
i=1
E(xi ) = −
n
θ2
+
2
θ3
× nθ
= −
n
θ2
+
2n
θ2
July 26, 2021 62 / 76

Ainsi, on peut déterminer la quantité d’information de Fisher :
In(θ) = E

∂2 ln L(x1, x2, · · · , xn; θ)
∂2θ

= −
n
θ2
+
2n
θ2
In(θ) =
n
θ2
Or:
Var(Xn) =
1
n2
n
X
i=1
Var(xi ) =
1
n2
× nθ2
Var(Xn) =
θ2
n
On remarque que:
In(θ) =
1
θ2
n
=
1
Var(Xn)
Donc, Xn est un estimateur efficace.
July 26, 2021 63 / 76

Soit un n-échantillon d’une variable aléatoire X. Soit Tn une statistique
fonction de X1, X2, · · · , Xn de loi g(t, θ) (densité dans le cas continue et
P(T = t) dans le cas discret).
Definition
T sera site exhaustive si l’on a L(x; θ) = g(t, θ)h(x) (principe de
factorisation), en d’autres termes si la densité conditionnelle de
l’échantillon est indépendante du paramètre.
Ceci signifie qu’une fois T est connu, aucune valeur de l’échantillon ni
aucune autre statistique n’apportera d’informations supplémentaires
sur le paramètre inconnu θ.
July 26, 2021 64 / 76

Théorème
Théorème de Neyman et Fisher (théorème de factorisation
Une statistique Tn est exhaustive s’il existe deux applications mesurables
positives g et h telles que la densité L de l’échantillon puisse se factoriser
sous la forme:
L(x1, x2, · · · , xn; θ) = g(t; θ)h(x1, x2, · · · , xn)
Exemple: Soit un n-échantillon suivant une loi de poisson de paramètre λ
inconnu. On a:
L(x1, x2, · · · , xn; λ) =
n
Y
i=1
λxi
xi !
e−λ
= e−nλ λ
Pn
i=1 xi
Qn
i=1 xi !
July 26, 2021 65 / 76

Exemple (suite):
T =
Pn
i=1 Xi est une statistique exhaustive,on sait que T suit une loi de
poisson de paramètre nλ et la densité peut se factoriser de la façon
suivante:
L(x1, x2, · · · , xn; λ) = g(t; λ) × h(x)
Avec: g(t; λ) = e−nλ (nλ)t
t! et h(x) = t!
nt
Qn
i=1 xi !
July 26, 2021 66 / 76

Méthodes d’estimation statistique
Quand il n’y a pas d’estimateurs ponctuels évidents tels que la moyenne
empirique et la variance empirique, on les construit par deux méthodes :
méthode du maximum de vraisemblance et méthode des moments.
Méthode d’estimation du maximum de vraisemblance (EMV)
Soient x1, x2, · · · , xn des réalisations des variables aléatoires indépendantes
X1, X2, · · · , Xn de lois de probabilité inconnues mais identiques. Nous
cherchons à estimer cette loi P inconnue à partir des observations
x1, x2, · · · , xn.
La méthode de maximum de vraisemblance (EMV) est basée sur la
vraisemblance, qui est la probabilité conjointe de la série x1, x2, · · · , xn:
L(x1, x2, · · · , xn; θ) =
n
Y
i=1
P(Xi = xi )
July 26, 2021 67 / 76

Une fois qu’on a obtenu la vraisemblance L(x1, x2, · · · , xn; θ), on cherche à
la maximiser. La maximisation de L est identique à la maximisation de son
logarithme ln L. L’estimateur qui maximise la vraisemblance est celui qui
satisfait les conditions suivantes:
(∂ ln L(x1,x2,··· ,xn;θ)
∂θ = 0
∂2 ln L(x1,x2,··· ,xn;θ)
∂2θ
0
On prend comme estimateur de θ la solution de l’équation
∂ ln L(x1,x2,··· ,xn;θ)
∂θ = 0 et qui vérifie ∂2 ln L(x1,x2,··· ,xn;θ)
∂2θ
0.
July 26, 2021 68 / 76

Definition
On appelle l’estimateur du maximum de vraisemblance EMV toute
fonction b
θn de x1, x2, · · · , xn qui vérifie :
L(x1, x2, · · · ,n ; b
θn) = max
θ∈Θ
L(x1, x2, · · · , xn; θ)
Propriété
S’il existe une statistique exhaustive T, alors l’estimateur du maximum de
vraisemblance en dépend.
July 26, 2021 69 / 76

Puisque pour une statistique exhaustive:
L(x1, x2, · · · ,n ; θ) = g(t; θ) × h(x)
Ainsi, résoudre l’équation ∂ ln L(x1,x2,··· ,xn;θ)
∂θ = 0 revient à résoudre
∂ ln g(t1,t2,··· ,tn;θ)
∂θ = 0, donc l’estimateur de θ est b
θ.
Propriété
Si b
θ est un estimateur de maximum de vraisemblance de θ, alors f (b
θ) est
l’estimateur de maximum de vraisemblance de f (θ)
July 26, 2021 70 / 76

Exemple: Estimation par la méthode EMV de la moyenne m de la
loi normale
Soient X1, X2, · · · , Xn, n variables aléatoires de lois normales et
indépendantes. On suppose que la variance σ2 est connue:
Xi ,→ N(m, σ)
La fonction de densité de probabilité est :
f (xi =
1
σ
√
2π
e− 1
2σ2 (xi −m)2
Ainsi, la vraisemblance de la loi normale est :
L(x1, x2, · · · , xn; m) =
n
Y
i=1
f (xi ) =
n
Y
i=1
1
σ
√
2π
e− 1
2σ2 (xi −m)2
=

1
σ
√
2π
2
e− 1
2σ2
Pn
i=1(xi −m)2
July 26, 2021 71 / 76

Une fois qu’on a obtenu la vraisemblance L(x1, x2, · · · , xn; m), on cherche
à la maximiser. La maximisation de L est identique à la maximisation de
son logarithme ln L:
ln L(x1, x2, · · · , xn; m) = −n ln

σ
√
2π

−
1
2σ2
n
X
i=1
(xi − m)2
⇒
∂ ln L
∂m
=
1
σ2
n
X
i=1
(xi − m)
Ainsi :
∂ ln L
∂m
= 0 ⇔
1
σ2
n
X
i=1
(xi − m) = 0 ⇔
n
X
i=1
xi − nm = 0
La solution de cette équation est b
m = 1
n
Pn
i=1 xi . b
m est un maximum car :
∂2 ln L
∂2m
=
−n
σ2
0
July 26, 2021 72 / 76

Estimation par la méthode des moments
La méthode des moments consiste à estimer les paramètres inconnus en
utilisant les moments d’ordre 1 et 1 : E(X) et E(X2). Il s’agit de résoudre
le système en égalant les moments théoriques aux moments empiriques en
fonctions des paramètres inconnues. La solution des équations si elle existe
et est unique, sera appelée estimateur obtenu par la méthode des
moments.
July 26, 2021 73 / 76

Exemple: Soit la fonction de répartition suivante:
fθ(x) =
(
1
θ e− 1
θ
(x−γ)
, si x γ, θ 0
0, sinon
Posons alors Y = X − γ, d’où:
fθ(y) =
(
1
θ e− 1
θ
y
, si y 0, θ 0
0, sinon
Ainsi, Y suit une loi exponentielle de paramètre 1
θ . Donc, E(Y ) = θ et
Var(Y ) = θ2. Par la suite, on doit calculer E(Y ) et E(Y 2).
July 26, 2021 74 / 76

Exemple (suite): On a:
(
E(Y ) = θ
Var(Y ) = θ2
⇔
(
E(X − γ) = θ
Var(X − γ) = θ2
⇔
(
E(X) = θ + γ
Var(X) = θ2
⇔
(
E(X) = θ + γ
E(X2) − E(X)2 = θ2
⇔
(
E(X) = θ + γ
E(X2) = (θ + γ)2 + θ2
En égalant les moments théoriques aux moments empiriques en fonctions
des paramètres inconnues θ et γ:
(
E(X) = 1
n
Pn
i=1 xi
E(X2) = 1
n
Pn
i=1 x2
i
July 26, 2021 75 / 76

Ainsi, on trouve :
(
b
θ + b
γ = x
(b
θ + b
γ)2 + b
θ2 = 1
n
Pn
i=1 x2
i
⇔
(
b
θ = x − b
γ
x2 + b
θ2 = 1
n
Pn
i=1 x2
i
⇔
(
b
θ = x − b
γ
b
θ2 = 1
n
Pn
i=1 x2
i − x2
⇔
(
b
γ = x − b
θ
b
θ2 = s2
⇔
(
b
γ = x − s
b
θ = s
July 26, 2021 76 / 76

slides statistique mathématique.pdf

Recommandé

Recommandé

Contenu connexe

Similaire à slides statistique mathématique.pdf

Similaire à slides statistique mathématique.pdf (20)

slides statistique mathématique.pdf