Le principe d'entropie maximale vise à définir une contrainte pour chaque information observée et choisir la distribution qui maximise l'entropie tout en restant consistante vis-à-vis de l'ensemble de ces contraintes (Jaynes, 1957). Dans ce cadre d'optimisation sous contraintes, il est mathématiquement prouvé qu'une solution unique existe et un algorithme itératif garantit la convergence vers cette dernière (Ratnaparkhi, 1996).
Pour tout commentaire, correction, amélioration : prénom.nom /arb/ irit.fr (Jean-Philippe Fauconnier)
Probabilités et statistiques 1ère partie Hassan Chebki
Plan
1. Chapitre I : Analyse Combinatoire. Dénombrement
1. Chapitre II : Calcul des probabilités
2. Chapitre III : Variables Aléatoires
3. Chapitre IV : Lois usuelles de Probabilités
Otheman Nouisser ENCG-Kénitra
L'essentiel du programme de l'agrégation de mathématiquesCharvetXavier
Pages de remplacement que j'ai envoyées aux éditions Ellipses début avril mais qui n'ont malheureusement pas pu être substituées avant publication pour des raisons logistiques.
Le principe d'entropie maximale vise à définir une contrainte pour chaque information observée et choisir la distribution qui maximise l'entropie tout en restant consistante vis-à-vis de l'ensemble de ces contraintes (Jaynes, 1957). Dans ce cadre d'optimisation sous contraintes, il est mathématiquement prouvé qu'une solution unique existe et un algorithme itératif garantit la convergence vers cette dernière (Ratnaparkhi, 1996).
Pour tout commentaire, correction, amélioration : prénom.nom /arb/ irit.fr (Jean-Philippe Fauconnier)
Probabilités et statistiques 1ère partie Hassan Chebki
Plan
1. Chapitre I : Analyse Combinatoire. Dénombrement
1. Chapitre II : Calcul des probabilités
2. Chapitre III : Variables Aléatoires
3. Chapitre IV : Lois usuelles de Probabilités
Otheman Nouisser ENCG-Kénitra
L'essentiel du programme de l'agrégation de mathématiquesCharvetXavier
Pages de remplacement que j'ai envoyées aux éditions Ellipses début avril mais qui n'ont malheureusement pas pu être substituées avant publication pour des raisons logistiques.
Ce cours introduit l'interpolation polynomiale de Lagrange. Il fait partie du module d'analyse numérique donné en Parcours MIP à la FST de Settat, Université Hassan 1er.
Bonjour
Analyse Convexe : Théorèmes de Carathéodory
Cours d'analyse convexe dans le cadre du master : Mathématiques et Applications de la FST de Settat - Université Hassan 1er.
Vidéo :
https://youtu.be/vqfy2MNuQbk
Cordialement
Pr JAOUAD DABOUNOU
FST DE SETTAT
UNIVERSITE HASSAN 1er
For a radix of 10, I will show that there is no number with a multiplicative persistence ≥ 12 . Résumé: Je démontre qu’en base 10, il n'existe aucun nombre dont la persistance multiplicative est supérieure ou égale à 12.
1. Chapitre 9
Estimateurs au maximum de
vraisemblance
Avec ce chapitre nous commen¸cons l’´etude de quelques outils centraux de la statistique.
9.1 Estimateur
D´efinition : Soit n > 0 un entier. Nous appellerons n-´echantillon d’une loi L toute suite X1, . . ., Xn
de v.a. ind´ependantes de loi L.
La statistique-pratique est un ensemble de techniques de traitement de donn´ees qui, face `a la donn´ee
de n nombres (ou plus g´en´eralement vecteurs) x1, . . ., xn produits par “´echantillonage” - c’est-`a-dire selon
un protocole exp´erimental propre au domaine consid´er´e (sociologie, contrˆole de qualit´e, etc.) - choisit un
n-´echantillon au sens de la d´efinition ci-dessus pour mod`ele math´ematique sugg´erant un traitement de
ces donn´ees.
Prenons l’exemple d’un r´ef´erendum (ou d’un pl´ebicite) o`u les ´electeurs ne peuvent que r´epondre par
“oui” ou “non” (les abstentions ´etant sans influence sur le r´esultat, ce qui exclut les cas o`u il y a un
quorum `a atteindre). Choisissons n = 1000, et posons xi = 1 si la i-`eme personne interrog´ee d´eclare
savoir ce qu’elle ira voter et vouloir voter “oui” (si elle d´eclare ne pas savoir ou ne pas envisager de voter,
on ´ecarte cette r´eponse de la pr´esente analyse) et xi = 0 si elle d´eclare vouloir voter “non”.
Cette situation simple est g´en´eralement mod´elis´ee par un 1000-´echantillon X1, . . ., X1000 d’une loi de
Bernoulli B(1, p), et on consid`ere que l’opinion est en faveur du “oui” si et seulement si p 0.5.
On est alors confront´e au probl`eme “d’estimer” la valeur de p. Dans le mod`ele condisid´er´e ici (Bernouilli)
la loi des grands nombres vient `a notre secours : elle assure que limn!+1(X1+. . .+Xn)/n = E(X1) = p ;
on dit dans ce cas que ˆp := (X1 +. . .+Xn)/n est un estimateur du param`etre p ; en pratique, on choisit
alors p = p := (x1 + . . . + x1000)/1000.
Nous nous int´eresserons ici `a la statistique param´etrique, o`u la loi L = L() retenue peut ˆetre car-act
´eris´e par un param`etre , qui est un nombre ou un vecteur. Ainsi, par exemple, si Xi ; B(1, p), alors
= p est un nombre, mais si Xi ; N(μ, ), alors = (μ, ) est un vecteur, tout comme dans le cas d’un
d´e pip´e o`u l’on peut choisir = (p1, . . . ,p5) (et p6 = 1− (p1 + . . . + p5)) et pk := P({Xi = k}).
D´efinition : On dit que ˆ : (x1, . . . ,xn)7! ˆn := ˆ(x1, . . . ,xn) est un estimateur convergeant vers si
et seulement si , en loi, on a = limn!+1 ˆ(X1, . . . ,Xn) pour toute suite de v.a. Xi ind´ependantes, de
loi L().
9.2 Vraisemblance
9.2.1 Heuristique et d´efinition
Nous avons vu que la loi des grands nombres fournit “spontan´ement” un estimateur de l’esp´erance
d’une loi, mais si l’on recherche une m´ethode un peu g´en´erale pour deviner un estimateur, la m´ethode du
maximum de vraissemblance est une strat´egie souvent efficace. En voici le principe :
Si un ´echantillonage a produit la suite finie x1
, ..., x
n de nombres et qu’on a choisit de mod´eliser
cette situation par un n-´echantillon X1, .. ., Xn de v.a. ind´ependantes de loi L(), et si le choix de la
43
2. 1
44 CHAPITRE 9. ESTIMATEURS AU MAXIMUM DE VRAISEMBLANCE
valeur du param`etre est le probl`eme auquel on est confront´e, on peut consid´erer l’´ev`enement E =
{X1 = x, . . . ,Xn = xn},
et plus g´en´eralement
E(x1, . . . ,xn) = {X1 = x1, . . . ,Xn = xn} = {X1 = x1} . . . {Xn = xn}
1
et sa probabilit´e
L(x1, . . . ,xn ; ) :=P(E(x1, . . . ,xn)) = P({X1 = x1}. . .{Xn = xn}) = P({X1 = x1})·. . .·P({Xn = xn}),
cette derni`ere ´egalit´e r´esultant de l’hypoth`ese d’ind´ependance des v.a. Xi. L’id´ee tr`es heuristique est alors
que le choix qu’il convient d’effecteur pour , est celui pour lequel cette probabilit´e est maximale pour
les valeurs x, . . ., x
n obtenues, et donc de poser
= Argmax {L(x1
, . . . ,x
n ; )},
c’est-`a-dire la valeur (si elle existe et est unique) de pour laquelle la fonction 7! L(x1
, . . . ,x
n ; ) est
maximale. Souvent, ceci peut se ramener `a r´esoudre en l’´equation @L
@ (x1
, . . . ,x
n ; ) = 0.
D´efinition : La fonction Ln : (x1, . . . ,xn ; )7! Ln(x1, . . . ,xn ; ) = Qn i=1 P({Xi = xi}) pour des
Xi ; L() s’appelle la vraisemblance de la loi L.
La v.a. obtenue en appliquant la fonction (x1, . . . ,xn)7! Argmax {L(x1, . . . ,xn ; )} appliqu´ee au
n-´echantillon (X1, . . . ,Xn) s’appelle l’estimateur au maximum de vraisemblance du param`etre de la loi
discr`ete L().
9.2.2 Exemples
Referendum
Reprenons l’exemple o`u les Xi suivent une loi de Bernoulli B(1, p), et donc = p. Introduisons
la notation s := x1 + . . . + x1000 pour la somme des valeurs observ´ees sur l’´echantillon x1, ..., x1000,
c’est-`a-dire le nombre de personnes interrog´ees qui ont d´eclar´e qu’elles voterons “oui”. Nous avons donc
Ln(x1, . . . ,xn ; ) = Qn i=1 P({Xi = xi}) = s(1 − )n−s, pour = p, n = 1000, et s = x1 + . . . + xn,
puisque = p = P({Xi = 1}) et 1 − = 1− p = P({Xi = 0}).
Les extr´emit´es de l’intervalle [0, 1] auquel appartient ne peuvent ˆetre des extrema (sauf si s =
sn
0 ou s = n) et le maximum de la fonction concave s(1 − )n−s est donc un z´ero de la d´eriv´ee
@
@Ln(x1, . . . ,xn ; ) = s−1(1−)n−s−1(s−n), d’o`u = = x1+...+xn
n . En d’autres termes, l’estimateur
au maximum de vraisemblance ˆp de p est donc ˆ := X1+...+Xn
n , c’est `a dire le mˆeme estimateur que
l’estimateur de l’esp´erance E(X1) trouv´e en appliquant la loi des grands nombres, ce qui convient, puisque
p = E(Xi).
Variables poissoniennes
Supposons que le tirage d’un n-´echantillon X1, . . . ,Xn de v.a. suivant une loi de Poisson P(),
0 inconnu, ait produit l’´echantillon x1, . . . ,xn. Ici = , et P({Xi = xi}) = e− xi
xi ! ; la vraisem-blance
de l’´echantillon x1, . . . ,xn est donc ici Ln(x1, . . . ,xn; ) = Qn i=1 e− xi
xi Qn
xi ! = e−n
Pn
i=1
, et donc
xi ! i=1 Ln(x1, . . . ,xn; ) = e−n s Qn
i=1 xi ! , o`u l’on a une nouvelle fois pos´e s := x1 + . . . + xn. Il est un peu plus
commode de calculer avec le logarithme de cette expression est comme ln est une fonction croissante, il
nous suffit de rechercher le maximum de
ln(x1, . . . ,xn; ) = ln(Ln(x1, . . . ,xn; )) = −n + s ln() −
Xn
i=1
ln(xi !).
Cette fonction est concave et son extremum est donc le z´ero de la d´eriv´ee @
@ ln(x1, . . . ,xn; ) = −n+s
,
c’est `a dire = sn
.
Nous trouvons donc une nouvelle fois ˆ := X1+...+Xn
n comme estimateur de , ce qui convient, puisque
= E(Xi) pour toute v.a. Xi ; P().
3. 9.3. CAS D’UNE LOI CONTINUE 45
9.3 Cas d’une loi continue
9.3.1 Heuristique et d´efinition
Si la loi L() suivie par les Xi est une loi continue, comme U[a,b] ou N(μ, ), on a P({Xi = xi}) = 0,
et la vraisemblance que nous avons consid´er´ee jusqu’ici est tout bonnement (ou plutˆot “mauvaisement”)
nulle, et tous les sont des extrema, ce qui ne nous avance gu`ere. L’id´ee est alors de remplacer P({Xi =
xi}) par P({|Xi − xi| Q }) pour une 0 suffisamment petit, puis de rechercher maximisant n i=1 P({|Xi −xi| }). On peut se d´ebarasser du qui est arbitraire par la remarque suivante dans le
cas o`u la densit´e x7! f(x) caract´erisant la loi L() est une fonction continue au point xi : dans ce cas
le th´eor`eme de la moyenne assure l’existence de fonctions 7! i,() telles que P({|Xi − xi| }) =
2(f(xi) + i,()), avec lim!0 i,() = 0 ; le (ou les) rendant maximal Qn i=1 P({|Xi − xi| })
sont les mˆeme que ceux maximisant
Yn
i=1
1
2P({|Xi − xi| }) =
Yn
i=1
(f(xi) + i,()) ;
en faisant tendre vers 0, cette expression devient
Ln(x1, . . . ,xn; ) :=
Yn
i=1
f(xi) (9.1)
que nous adoptons comme vraisemblance dans ce cas :
D´efinition : Si la loi L() des Xi est une loi continue de densit´e f, on appelle vraisemblance de
l’´echantillon (x1, . . . ,xn) pour la loi continue L() la fonction Ln(x1, . . . ,xn; ) :=Qn i=1 f(xi) .
9.3.2 Exemples
Distribution uniforme
On suppose que l’´echantillon x1, ..., xn est tir´e de mani`ere uniforme entre 0 et a, mais a et b
sont inconnus. On mod´elise donc le probl`eme par une loi uniforme U[a, b] dont la densit´e est f(a,b) :=
1
b−a I[a,b] et on va chercher un estimateur de = (a, b) par la m´ethode du maximum de vraisemblance. La
vraisemblance de l’´echantillon x1, . . ., xn est donc Ln(x1, . . . ,xn; ) := Qn i=1 f(xi) = Qn i=1
1
b−a I[a,b](xi) =
1
(b−a)n si tous les xi 2 [a, b] et vaut 0 si un des xi /2 [a, b]. On voit donc que Ln(x1, . . . ,xn; ) est maximal
si = = (a, b) = (Min {x1, . . . ,xn}, Max{x1, . . . ,xn}), puisque ceci nous donne la plus petite valeur
de b − a sans annuler la vraisemblance. Ceci nous conduit `a consid´erer l’estimateur
ˆ = (ˆa,ˆb) = (Min {X1, . . . ,Xn}, Max{X1, . . . ,Xn}) .
Il reste a `montrer que si X1, . . ., Xn est un n-´echantillon de loi U[a, b], alors Min {X1, . . . ,Xn} converge
bien, en probabilit´e, vers a et que Max{X1, . . . ,Xn} converge en probabilit´e vers b. Consid´erons par
exemple le cas de Min {X1, . . . ,Xn}. On a {a+ Min {X1, . . . ,Xn}} = {a+ X1, . . . ,a + Xn},
d’o`u, comme les Xi sont ind´ependants, P({a+ Min
{X1, . . . ,Xn}}) = P({a+ X1}. . .{a+
Xn}) = P({a + X1}) · . . . · P({a + Xn}) =
b−a−
b−a
n
, qui tend bien vers 0 lorsque n tend vers
+1. On montrerais de mˆeme que Max{X1, . . . ,Xn} converge en probabilit´e vers b.
Variables normales
On suppose `a pr´esent que l’´echantillon x1, . . ., xn est tir´e de mani`ere normale avec une esp´erance μ et
un ´ecart-type , mais μ et sont inconnus. On mod´elise donc le probl`eme par une loi normale N(μ, )
dont la densit´e est f(μ,)(x) := p1
2 e−(x−μ)2
22 et on va chercher un estimateur de = (μ, ) par la m´ethode
du maximum de vraisemblance. La vraisemblance de l’´echantillon x1, . . ., xn est donc
Ln(x1, . . . ,xn; ) : =
Yn
i=1
f(xi) =
Yn
i=1
1
p
2
e−(xi−μ)2
22
=
1
p
2
n
e−
Pn
(xi−μ)2
22 .
i=1
4. 46 CHAPITRE 9. ESTIMATEURS AU MAXIMUM DE VRAISEMBLANCE
Ici, il est une nouvelle fois plus agr´eable de consid´erer la log-vraisemblance
ln(x1, . . . ,xn; ) := ln(Ln(x1, . . . ,xn; )) = −n(ln() + ln(
p
2)) − 1
22
Xn
i=1
(xi − μ)2.
Pour que = (μ, ) soit un extremum sur R × R+
il faut que les deux d´eriv´ees @
@μln(x1, . . . ,xn; ) =
1
2
Pn i=1(xi−μ) = 1
2 (s−nμ) o`u s =
Pn i=1 xi, et @
@ ln(x1, . . . ,xn; ) = −n
+ 1
3
Pn i=1(xi−μ)2 s’annulent
pour = , ce qui implique que μ = sn
= 1n
Pn i=1 xi, et 2 = 1n
Pn i=1(xi − μ)2. Ceci nous conduit donc
`a envisager l’estimateur
ˆ = (ˆμ, ˆ) =
1n
Pn i=1 Xi,
1n
Pn i=1(xi − μ)212
.
En ce qui concerne la premi`ere composante ˆμ, nous retrouvons une nouvelle fois la moyenne comme
estimateur de l’esp´erance μ = E(Xi), quant-`a la seconde composante, nous trouvons
c2 = 1n
Pn i=1(xi − μ)2)
dont nous verrons qu’il s’agit bien, pour toute loi, d’un estimateur de la variance 2.