Introduction ` la statistique              a        inf´rentielle           e           Didier Concordet           Unit´ d...
Sommaire1 Statistiques descriptives                                                                   7  1.1 Description n...
2.4   Lois ` deux dimensions . . . . . . . . . . . . . . . . . . . . . . 36              a         2.4.1 G´n´ralit´s . . ....
5.3.1 Comparaison d’une proportion ` une valeur donn´e                                            a                   e   ...
Chapitre 1Statistiques descriptivesL’objet de ce chapitre est de pr´senter bri`vement la premi`re ´tape de                ...
1.1.1    Param`tres de position              eLes param`tres de position, aussi appel´s valeurs centrales, servent ` car- ...
Dans notre exemple,¯h = 666.05                   xOn peut remarquer que                                          n        ...
En effet, pour des distributions non sym´triques ou multimodales,                                              e      il es...
est d´finie comme la diff´rence entre q3 et q1 , soit:763 − 615 = 148     e                 e• le coefficient de variationest ...
1.2      Description graphiqueLes graphiques pr´sent´s dans ce paragraphe d´crivent d’une part la densit´                 ...
Stem and leaf  4       3  4       4445  4       666677  4       88888999999  5 H 0000000000111111111  5       22223  5    ...
1.0                                 0.9              Fraction of Data   0.8                                 0.7           ...
normale N (m, σ 2 ) (cf paragraphe refgauss0 pour plus de d´tails). On pense                                              ...
Chapitre 2Le zoo des lois de probabilit´                             eUne des notions fondamentales des statistiques est c...
5) la temp´rature d’un chien;           e6) les concentrations en fer et en cuivre dans le sang d’un animal sain.    Les t...
alors la fonction de r´partition est donn´e par                      e                  e  n     0    1    2    3    4    ...
op´rateur plac´ devant une variable al´atoire, fournit la moyenne de cette  e             e                        evariab...
2.1.1     Loi de BernoulliC’est la loi de probabilit´ la plus simple: l’individu ω peut se trouver dans                   ...
Le nombre moyen de CN porteur de la dysplasie que l’on peut trouver aucours d’une ann´e ` l’´cole v´to est donn´ par IE(X)...
0.45                 0.4                0.35                                                             p=0.1            ...
kCN1 est le nombre de fa¸ons de tirer k vaches ` mammites parmi les N1                         c                     a    ...
La moyenne d’une va qui suit une loi de poisson est ´gale ` IE(X) = λ, sa                                                 ...
de sujets atteints trouv´s dans l’´chantillon (not´ X). En d’autres termes,                        e         e            ...
0.4               0.35                0.3                                                  p=0.1                          ...
avant d’en trouver un atteint, alors si on pose q = 1 − p, on a:P (X = 1) = p, P (X = 2) = pq..., P (X = k) = pq k−1 .Le n...
repr´sente en quelque sorte le pourcentage d’individus qui mesure x)     e- la surface totale sous cette courbe est ´gale ...
On reconnaˆ ici l’analogue continu de la d´finition donn´e dans le paragraphe           ıt                              e  ...
Le graphique 2.6 montre comment varie la densit´ d’une loi normale ( `                                               e    ...
Loi I                                                                 Loi II                                              ...
F(x)=P(X@ x)                              xFigure 2.7: Une probabilit´ s’interpr`te comme la surface sous la courbe       ...
X1 , X2 , . . . , Xn n va ind´pendantes de mˆme loi N(0,1), et soit                             e              e          ...
2.3      Quelques remarques sur l’op´rateur IE                                    eL’op´rateur IE est un op´rateur lin´air...
est en g´n´ral faux sauf dans le cas o` les va X et Y sont normalement         e e                          udistribu´es. ...
F(x,y)=P((X@ x) et (Y@ y))                                     y                                                          ...
argument :                   F (x, +∞) = F1 (x), F (+∞, y) = F2 (y),o` F1 (x), F2 (y) sont respectivement les fonctions de...
P((X , Y )∈ R∆ ) = F(x + ∆x, y + ∆y)-F(x + ∆ x, y)                                                -F(x, y + ∆ y) + F(x, y)...
2.4.2    Loi normale a deux dimensionsDans la suite, nous supposons que le couple (X, Y ) suit une loi normale` deux dimen...
Figure 2.10: Densit´ de la loi normale ` 2 dimensions                              e                   aCeci est l’´quatio...
o` α est un nombre fix´. Quand la loi du couple (X, Y ) est gaussienne, le u                      eplus simple est de reche...
Chapitre 3EstimationL’objet de ce chapitre n’est pas de donner une m´thode g´n´rale d’estimation,                         ...
´chantillon va nous donner des informations sur les vraies valeurs (celles de laepopulation) de m et σ 2 . Supposons que l...
les principaux types de convergence et ` les illustrer ` l’aide des deux exem-                                            ...
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Introduction au statistiques inférentielle
Prochain SlideShare
Chargement dans…5
×

Introduction au statistiques inférentielle

2 390 vues

Publié le

0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
2 390
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1
Actions
Partages
0
Téléchargements
109
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Introduction au statistiques inférentielle

  1. 1. Introduction ` la statistique a inf´rentielle e Didier Concordet Unit´ de Biom´trie e e Ecole V´t´rinaire de Toulouse ee
  2. 2. Sommaire1 Statistiques descriptives 7 1.1 Description num´rique . . . . . . . e . . . . . . . . . . . . . . . 7 1.1.1 Param`tres de position . . . e . . . . . . . . . . . . . . . 8 1.1.2 Param`tres de dispersion . . e . . . . . . . . . . . . . . . 10 1.1.3 Param`tres de forme . . . . e . . . . . . . . . . . . . . . 11 1.2 Description graphique . . . . . . . . . . . . . . . . . . . . . . 12 1.2.1 Description de la densit´ . . e . . . . . . . . . . . . . . . 12 1.2.2 Description de la fonction de r´partition e . . . . . . . . 132 Le zoo des lois de probabilit´ e 17 2.1 Lois de probabilit´ discr`tes . . . . . . . . . . . . e e . . . . . . . 18 2.1.1 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . 21 2.1.2 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . 21 2.1.3 Loi hyperg´om´trique . . . . . . . . . . . . e e . . . . . . . 23 2.1.4 Loi de Poisson ou loi des ´v´nements rares e e . . . . . . . 24 2.1.5 Loi binomiale n´gative . . . . . . . . . . . e . . . . . . . 26 2.1.6 Loi de Pascal . . . . . . . . . . . . . . . . . . . . . . . 27 2.2 Quelques lois de probabilit´ continues . . . . . . . e . . . . . . . 28 2.2.1 Quelques d´finitions pr´liminaires . . . . . e e . . . . . . . 28 2.2.2 Loi normale ou de Laplace Gauss . . . . . . . . . . . . 30 2.2.3 Loi du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2.4 Loi de Student . . . . . . . . . . . . . . . . . . . . . . 34 2.2.5 Loi de Fisher . . . . . . . . . . . . . . . . . . . . . . . 34 2.3 Quelques remarques sur l’op´rateur IE . . . . . . e . . . . . . . 35 1
  3. 3. 2.4 Lois ` deux dimensions . . . . . . . . . . . . . . . . . . . . . . 36 a 2.4.1 G´n´ralit´s . . . . . . . . . . . . . . . . . . . . . . . . 36 e e e 2.4.2 Loi normale a deux dimensions . . . . . . . . . . . . . 403 Estimation 43 3.1 G´n´ralit´s . . . . . . . . . . . . . . . . . e e e . . . . . . . . . . . 43 3.2 Estimateur convergent . . . . . . . . . . . . . . . . . . . . . . 44 3.3 Estimateur sans biais . . . . . . . . . . . . . . . . . . . . . . . 46 3.4 Estimateur de variance minimum . . . . . . . . . . . . . . . . 48 3.5 Une m´thode g´n´rale d’estimation : e e e le maximum de vraisemblance . . . . . . . . . . . . . . . . . . 50 3.6 Une bricole sur le th´or`me central limit . e e . . . . . . . . . . . 52 3.7 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.7.1 Estimation des param`tres d’une loi e normale . . . . . . 53 3.7.2 Estimation d’un pourcentage . . . . . . . . . . . . . . . 574 Tests d’hypotheses 61 4.1 G´n´ralit´s . . . . . . . . . . . . . . . . . e e e . . . . . . . . . . . 61 4.2 Hypoth`se . . . . . . . . . . . . . . . . . . e . . . . . . . . . . . 63 4.3 D´finition des risques . . . . . . . . . . . . e . . . . . . . . . . . 64 4.4 Ce qu’il ne faudrait pas croire . . . . . . . . . . . . . . . . . . 67 4.5 Tests param´triques et non param´triques e e . . . . . . . . . . . 68 4.6 Quelques remarques . . . . . . . . . . . . . . . . . . . . . . . . 685 Tests classiques 71 5.1 Comparaisons portant sur les variances . . . . . . . . . . . . . 71 5.1.1 Comparaison d’une variance ` une valeur d´terministe a e 71 5.1.2 Comparaison de deux variances . . . . . . . . . . . . . 72 5.1.3 Comparaison de plusieurs variances . . . . . . . . . . . 72 5.2 Comparaisons portant sur les moyennes . . . . . . . . . . . . . 74 5.2.1 Comparaison d’une moyenne ` une valeur donn´e m0 . a e 75 5.2.2 Comparaison de deux moyennes . . . . . . . . . . . . . 76 5.3 Comparaisons portant sur les proportions . . . . . . . . . . . . 79 2
  4. 4. 5.3.1 Comparaison d’une proportion ` une valeur donn´e a e . . 795.4 Comparaison de deux proportions . . . . . . . . . . . . . . . . 805.5 Test de conformit´ a une loi de proba . . . . . . . . . . . . e . . 83 5.5.1 Test de Kolmogorov-Smirnov (KS) . . . . . . . . . . . 83 5.5.2 Test du χ2 pour une loi normale . . . . . . . . . . . . . 845.6 Comparaisons multiples . . . . . . . . . . . . . . . . . . . . . 85 5.6.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.6.2 Analyse de la variance . . . . . . . . . . . . . . . . . . 87 5.6.3 Estimation des param`tres . . . . . . . . . . . . . . e . . 885.7 Tests d’hypoth`ses (param´triques) . . . . . . . . . . . . . e e . . 91 5.7.1 M´thode des contrastes . . . . . . . . . . . . . . . . e . . 92 5.7.2 Orthogonalit´ et ind´pendance . . . . . . . . . . . . e e . . 93 5.7.3 Plus petite diff´rence significative (PPDS) . . . . . e . . 94 5.7.4 M´thode de Bonferroni . . . . . . . . . . . . . . . . e . . 96 5.7.5 M´thode de Newman-Keuls . . . . . . . . . . . . . e . . 97 5.7.6 M´thode de Duncan . . . . . . . . . . . . . . . . . e . . 99 5.7.7 M´thode de Tuckey . . . . . . . . . . . . . . . . . . e . . 99 5.7.8 M´thode de Dunnett . . . . . . . . . . . . . . . . . e . . 995.8 Quelques tests non parametriques . . . . . . . . . . . . . . . . 100 5.8.1 Tests sur ´chantillons appari´s . . . . . . . . . . . . e e . . 101 5.8.2 Tests sur ´chantillons ind´pendants . . . . . . . . . e e . . 102 3
  5. 5. Chapitre 1Statistiques descriptivesL’objet de ce chapitre est de pr´senter bri`vement la premi`re ´tape de e e e el’analyse des donn´es : la description. L’objectif poursuivi dans une telle eanalyse est de 3 ordres :tout d’abord, obtenir un contrˆle des donn´es et ´liminer les donn´es aber- o e e erantes ensuite, r´sumer les donn´es (op´ration de r´duction) sous forme e e e egraphique ou num´rique, enfin, ´tudier les particularit´s de ces donn´es e e e ece qui permettra ´ventuellement de choisir des m´thodes plus complexes. e eLes m´thodes descriptives se classent en deux cat´gories qui souvent sont e ecompl´mentaires : la description num´rique et la description graphique. e e1.1 Description num´rique eAvant de donner des d´finitions formelles de tous les indices, nous les cal- eculerons sur la s´rie de donn´es suivante (GMQ de porcs exprim´s en g): e e e x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 737 630 573 615 718 620 820 763 786 529Nous noterons n la taille de la s´rie de donn´es, ici n = 10 e e 4
  6. 6. 1.1.1 Param`tres de position eLes param`tres de position, aussi appel´s valeurs centrales, servent ` car- e e aact´riser l’ordre de grandeur des donn´es. e e• moyenne arithm´tique : eElle est plus souvent appel´e moyenne, et est en g´n´ral not´e x, elle est e e e e ¯calcul´e en utilisant la formule: e n 1 x= ¯ xi n i=1Dans notre exemple,¯ = 679. x• moyenne g´om´trique e eLa moyenne g´om´trique (¯g ) est toujours inf´rieure (ou ´gale) ` la moyenne e e x e e aarithm´tique. Elle est donn´e par: e e n 1/n xg = ¯ xi i=1Dans notre exemple, xg = 672.6 ¯On peut remarquer que n 1 log(¯g ) = x log(xi ) n i=1en d’autres termes, le log de la moyenne g´om´trique est la moyenne arithm´tique e e edu log des donn´es. Elle est tr`s souvent utilis´e pour les donn´es distribu´es e e e e esuivant une loi log normale (par exemple les comptages cellulaires du lait).• moyenne harmoniqueLa moyenne harmonique (¯h ) est toujours inf´rieure (ou ´gale) ` la moyenne x e e ag´om´trique, elle est en g´n´ral utilis´e pour calculer des moyennes sur des e e e e eintervalles de temps qui s´parent des ´v´nements. Elle est donn´e par: e e e e n xh = ¯ n 1 i=1 xi 5
  7. 7. Dans notre exemple,¯h = 666.05 xOn peut remarquer que n 1 1 1 = . xh ¯ n i=1 xi• m´diane eLa m´diane x est la valeur telle que la moiti´ des observations lui sont e ˜ esup´rieures (ou ´gales) et la moiti´ inf´rieures (ou ´gales). Il est clair que e e e e ela m´diane existe pour toutes les distributions (ce qui n’est pas le cas de la emoyenne) de plus, elle est peu sensible aux valeurs extrˆmes. eLorsque le nombre d’observations est pair, la m´diane n’est pas d´finie de e efa¸on unique. La valeur usuellement retenue est la moyenne des observations cde rang n et de rang n + 1 Dans notre exemple x = 674. 2 2 ˜• les quartilesLes quartiles sont au nombre de trois. La m´diane est le deuxi`me. e eLe premier quartile q1 est la valeur telle que 75% des observations lui sontsup´rieures (ou ´gales) et 25% inf´rieures (ou ´gales). e e e eLorsqu’il n’est pas d´fini de fa¸on unique, on utilise g´n´ralement la moyenne e c e edes observations qui l’encadrent pour le calculer. Dans notre exemple, q1 =615.Le troisi`me quartile q3 est la valeur telle que 25% des observations lui sont esup´rieures (ou ´gales) et 75% inf´rieures (ou ´gales). e e e eLorsqu’il n’est pas d´fini de fa¸on unique, on utilise la moyenne des observa- e ctions qui l’encadrent pour le calculer. Dans notre exemple, q3 = 763.• le modeest la (ou les) valeur(s) pour laquelle les effectifs sont maximums, il est eng´n´ral assez difficile de l’´valuer (quand il existe) sur des ´chantillons de e e e epetite taille.• les extrˆmes eCe sont les minimum et maximum de l’´chantillon qui ici valent respective- ement 529 et 820. La moyenne n’est pas toujours le meilleur indice pour d’´crire la e position des donn´es, tout d´pend de la forme de la distribution. e e 6
  8. 8. En effet, pour des distributions non sym´triques ou multimodales, e il est souvent pr´f´rables de donner les percentiles qui sont plus ee facile ` interpr´ter. a e1.1.2 Param`tres de dispersion eCes param`tres (comme leur nom l’indique) mesurent la dispersion des donn´es. e e• la varianceElle est d´finie comme la moyenne des carr´s des ´carts ` la moyenne, soit: e e e a n 1 ˆ2 σn = (xi − x)2 ¯ n i=1Il est aussi possible d’en donner la d´finition suivante: e n n 1 ˆ2 σn = (xi − xj )2 2n2 i=1 j=1On voit donc, que la variance est proportionnelle ` la somme des carr´s de a etoutes les diff´rences possibles entre les observations. eCette d´finition de la variance n’est pas utilis´e en pratique pour une raison e eque nous verrons au chapitre suivant. En fait, on utilise la d´finition suivante e n 1 ˆ2 σn−1 =S = 2 (xi − x)2 ¯ n−1 i=1La variance s’exprime dans l’unit´ au carr´ des donn´es ; dans notre exemple, e e e 2 2la variance vaut :ˆn−1 = 9664.989g σ• l’´cart type eest la racine carr´e de la variance. il vaut ici:ˆn−1 = 93.26g Utilisez le ` bon e σ aescient (cf TD)• l’´tendue ou amplitude eest d´finie comme la diff´rence entre la maximum et le minimum, soit ici e e:820 − 529 = 291g• la distance inter-quartile 7
  9. 9. est d´finie comme la diff´rence entre q3 et q1 , soit:763 − 615 = 148 e e• le coefficient de variationest d´finie comme le rapport entre l’´cart type et la moyenne. e e S2 CV = x ¯1.1.3 Param`tres de forme eLes logiciels de statistiques fournissent g´n´ralement les param`tres Skewness e e eet Kurtosis construits ` partir des moments centr´s d’ordre 2,3 et 4 qui a emesurent respectivement la sym´trie et l’aplatissement de la distribution dont el’´chantillon est issu. ePour une loi normale centr´e r´duite, ces coefficients sont nuls. e eLes moments centr´s d’ordre 3 et 4 sont d´finis par: e e n 1 m3 = (xi − x)3 ¯ n i=1 n 1 m4 = (xi − x)4 ¯ n i=1A partir de ces d´finitions, les param`tres Skewness et Kurtosis sont respec- e etivement d´finis par: e m3 γ1 = 3 s m4 γ2 = 4 − 3 sDans notre exemple,γ1 = −0.037 et γ2 = −1.339Le param`tre γ1 est nul pour une distribution sym´trique. Le graphique e esuivant montre un exemple de distribution avec un γ1 positif et n´gatif. Le eparam`tre γ2 est nul pour une loi normale. Le graphique suivant montre un eexemple de distribution avec un γ1 positif et n´gatif. e 8
  10. 10. 1.2 Description graphiqueLes graphiques pr´sent´s dans ce paragraphe d´crivent d’une part la densit´ e e e ede la distribution et d’autre part la fonction de r´partition de la distribution. e1.2.1 Description de la densit´ eHistogramme (cf fig 1.1) 30 0.2 Proportion per Bar 20 Count 0.1 10 0 0.0 4 5 6 7 8 Variable à étudierFigure 1.1: Histogramme d’une variable quantitative. La variable quan-titative est d´coup´e en classes repr´sent´es en abscisse. Le pourcentage e e e e(et/ou le nombre) de donn´es de l’´chantillon appartenant ` chaque classe e e aest repr´sent´ en ordonn´e. L’inconv´nient majeur de cette repr´sentation e e e e egraphique est l’arbitraire dans le choix des classes. 9
  11. 11. Stem and leaf 4 3 4 4445 4 666677 4 88888999999 5 H 0000000000111111111 5 22223 5 4444445555555 5 66666677777777 5 M 8888888999 6 000000111111 6 2222333333333 6 H 444444455555 6 6677777777 6 8889999 7 01 7 2223 7 4 7 67777 7 9C’est un de mes graphiques pr´f´r´s. Il s’agit d’un histogramme fait avec eeedes chiffres. Les donn´es sont class´es par ordre croissant. Le minimum de e el’´chantillon est 4.3 (premi`re ligne du stem). La deuxi`me ligne nous indique e e eque l’´chantillon contient 3 valeurs qui apr`s arrondi valent 4.4 et une valeur e e´gale (apr`s arrondi) ` 4.5. Le maximum vaut 7.9. Les H nous indiquente e ales classes qui contiennent respectivement les premier et troisi`me quartiles etandis que le M nous donne la classe qui contient la m´diane. On en d´duit e eque 25% des donn´es sont inf´rieures ` 5.0 ou 5.1, 50 % sont inf´rieures ` 5.8 e e a e aou 5.9 et 25% sont sup´rieures ` 6.4 ou 6.5. e a1.2.2 Description de la fonction de r´partition eQplot (Quantile plot) ou encore fonction de r´partition empirique (cf fig 1.2) e 10
  12. 12. 1.0 0.9 Fraction of Data 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 4 5 6 7 8 Variable étudiéeFigure 1.2: Ce graphique est homog`ne au graphique des fr´quences cu- e emul´es pour une variable qualitative. La variable ´tudi´e est repr´sent´e sur e e e e el’axe des abscisses. L’axe des ordonn´es donne le pourcentage de donn´es de e el’´chantillon inf´rieures ou ´gales ` l’abscisse. e e e aPplot (Probability plot) aussi appel´ dans le cas de la loi normale droite de eHenry. (cf fig 1.3). Toutes les fonctions de r´partition se ressemble, ce sont edes courbes croissantes en g´n´ral sigmo¨ e e ıdale. En bref, elles ne permettentpas facilement d’identifier une loi. L’id´e des Pplot est de d´former l’axe e edes ordonn´es de telle fa¸on que si la loi empirique est proche de la loi que e cl’on cherche ` identifier alors les points sont ` peu pr´s align´s. Le Pplot a a e ele plus courant est la droite de Henry qui permet de reconnaˆ la loi nor- ıtremale. Formellement voil` comment cela marche. Notons F a ˆ (x) la fonctionde r´partition empirique construite avec notre ´chantillon. On pense que e ecette fonction de r´partition est proche de la fonction de r´partition de la loi e e 11
  13. 13. normale N (m, σ 2 ) (cf paragraphe refgauss0 pour plus de d´tails). On pense e ˆ (x)donc que F Φ σ x−m o` Φ est la fonction de r´partition de la la loi u e ˆnormale N (0, 1). Si F (x) Φ x−m alors Φ−1 F (x) ˆ x−m . En d’autres σ σ ˆtermes, si F (x) est proche de la fonction de r´partition de la loi normale ealors le graphique de Φ −1 ˆ (x) contre x devrait nous donner une droite Fd’´quation x−m . Les points devraient donc se situer autour de cette droite si e σla distribution est gaussienne (aux effets de bords pr´s). e 3 Expected Value for Normal Distribution 2 1 0 -1 -2 -3 4 5 6 7 8 Variable étudiéeFigure 1.3: Ce graphique nous montre clairement que cette distribution nepeut pas ˆtre consid´r´e comme gaussienne, il y a trop de courbure. e ee 12
  14. 14. Chapitre 2Le zoo des lois de probabilit´ eUne des notions fondamentales des statistiques est celle de variable al´atoire. eOn consid`re un ensemble d’individus qui sera appel´ Ω. Un individu de cet e eensemble sera not´ ω. On note X(ω) une caract´ristique de l’individu ω. Par e eexemple, Ω est l’ensemble des bact´ries que l’on trouve dans du lait de mam- emites, ω est une bact´rie particuli`re et X(ω) est type de la bact´rie ω. La e e equantit´ X(.) est appel´e variable al´atoire (en g´n´ral on note v.a.). Les e e e e evaleurs possibles que peut prendre X(ω) quand ω ∈ Ω d´termine la nature e 1de la variable al´atoire. Ainsi, si X(ω) prend ses valeurs dans IR, on parlera ede variable al´atoire continue, si X(.) prend ses valeurs dans un ensemble efini ou d´nombrable, X(.) sera alors appel´e v.a. discr`te. e e eEn r´sum´, e e X : Ω −→ E ω −→ X(ω)Quelques exemples de variables al´atoires : e1) le nombre d’´tudiants pr´sents au cours de stat ; e e2) le nombre de vaches qui ont une mammite dans un ´levage ; e3) le pourcentage de r´ussite aux examens ; e4) le temps pendant lequel un animal est porteur d’une maladie ; 1 Pour simplifier les notations, on note g´n´ralement X au lieu de X(ω). Par la suite, e ecet abus de notation sera abondamment utilis´e 13
  15. 15. 5) la temp´rature d’un chien; e6) les concentrations en fer et en cuivre dans le sang d’un animal sain. Les trois premi`res v.a. sont discr`tes, et ne peuvent prendre que des e evaleurs qu’il est possible d’´num´rer d’avance. En revanche, les v.a. 4), e e5), 6) sont continues. La variable al´atoire 6) est une va ` deux dimen- e asions. Nous adopterons dor´navant la convention suivante : les lettres ma- ejuscules d´signeront les variables al´atoires, les lettres minuscules d´signeront e e eles valeurs que peuvent prendre les variables al´atoires. eL’´tude des lois de probabilit´ usuelles est en fait l’´tude de la distribution e e edes valeurs que peut prendre une variable al´atoire. e2.1 Lois de probabilit´ discr`tes e ePour compl`tement d´finir une loi de probabilit´ d’une va discr`te X, il suffit e e e ede d´finir la probabilit´ d’occurrence de chaque valeur k que peut prendre e ecette va. En d’autres termes, la donn´e des quantit´s P (X = k) et ceci pour e etoutes les valeurs k possibles d´terminent une loi de proba particuli`re. De e efa¸on ´quivalente, pour compl`tement caract´riser une loi de proba, il suffit c e e ede d´finir sa fonction de r´partition , d´finie par : e e e F (n) = P (X ≤ k). k≤nCette fonction s’interpr`te comme la probabilit´ que la va X soit au plus e e´gale ` n. C’est ´videmment une fonction positive et croissante (on ajoutee a edes probabilit´s qui sont des quantit´s positives ou nulles). Pour illustrer ce e equ’elle repr´sente, prenons un petit exemple. Supposons que X est le nombre ede clients d’un v´t´rinaire le mardi matin. La va X est discr`te et ne peut ee eprendre que les valeurs k = 0, 1, . . . , 10. Supposons de plus que la distributionde X est donn´e par e k 0 1 2 3 4 5 6 7 8 9 10 P (X = k) 0.01 0.03 0.09 0.14 0.17 0.17 0.15 0.11 0.07 0.04 0.02 14
  16. 16. alors la fonction de r´partition est donn´e par e e n 0 1 2 3 4 5 6 7 8 9 10 F (n) 0.01 0.04 0.13 0.27 0.45 0.62 0.77 0.88 0.94 0.98 1.00 Fonction de Répartition 1 0.9 0.8 0.7 0.6 F(n) 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 4 5 6 7 8 9 10 nFigure 2.1: Fonction de r´partition du nombre de clients d’un v´t´rinaire le e eemardi matinIl est bien ´vident que si le nombre de valeurs que peut prendre la vari- eable al´atoire est tr`s ´lev´, il peut ˆtre tr`s fastidieux (voire impossible) e e e e e ede donner toutes ces probabilit´s. Or, comme nous allons le voir, les lois ede proba usuelles sont en fait d´finies par un petit nombre de param`tres e e: les moments de la loi de proba. Pour d´finir les moments, nous avons ebesoin d’un op´rateur appel´ esp´rance math´matique qui est not´ IE. Cet e e e e e 15
  17. 17. op´rateur plac´ devant une variable al´atoire, fournit la moyenne de cette e e evariable, ainsi la quantit´ IE(X) est d´finie par e e IE(X) = kP (X = k) kDans notre exemple, le nombre de clients moyen du v´t´rinaire le mardi eematin est donn´ par eIE(X) = 0 × 0.01 + 1 × 0.03 + 2 × 0.09 + 3 × 0.14 + 4 × 0.17 + 5 × 0.17 + 6 × 0.15 + 7 × 0.11 + 8 × 0.07 + 9 × 0.04 + 10 × 0.02 = 4.95Plus g´n´ralement, on peut d´finir l’esp´rance math´matique de n’importe e e e e equelle fonction Φ (ayant de bonnes propri´t´s) de la va X ainsi, ee IE(Φ(X)) = Φ(k)P (X = k) kOn peut maintenant d´finir le moment d’ordre p par : e IE(X p ) = k p P (X = k). kLe moment centr´ d’ordre p est d´fini par e e mp = IE((X − IE(X))p ) = (k − IE(X))p P (X = k). kVous connaissez d´j` le moment centr´ d’ordre 2 qui est aussi appel´ vari- ea e eance. Nous reviendrons un peu plus loin sur l’interpr´tation pratique de cet eindice ainsi que sur celle des moments centr´s d’ordre 3 et 4. Dans l’exemple epr´c´dent, la variance du nombre de clients du mardi matin est donn´e par e e eIE((X − IE(X))2 ) = (0 − 4.95)2 × 0.01 + (1 − 4.95)2 × 0.03 + (2 − 4.95)2 × 0.09 + (3 − 4.95)2 × 0.14 + (4 − 4.95)2 × 0.17 + (5 − 4.95)2 × 0.17 + (6 − 4.95)2 × 0.15 + (7 − 4.95)2 × 0.11 + (8 − 4.95)2 × 0.07 + (9 − 4.95)2 × 0.04 + (10 − 4.95)2 × 0.02 = 4.6275Nous pouvons maintenant passer ` l’inventaire des lois de probabilit´s les a eplus courantes. 16
  18. 18. 2.1.1 Loi de BernoulliC’est la loi de probabilit´ la plus simple: l’individu ω peut se trouver dans edeux ´tats (en g´n´ral not´s 0 et 1). e e e eExemple : Ω est l’ensemble des bact´ries dans du lait de mammite, ω est une ebact´rie particuli`re, X(ω) = 0 si la bact´rie ω est gram (-) et, X(ω) = 1 e e esi la bact´rie ω est gram (+). La loi de probabilit´ de X est enti`rement e e ed´termin´e par la seule donn´e du nombre P (X(ω) = 0) = p qui permet e e ede d´duire que P (X(w) = 1) = 1 − p. On dit alors que la v.a. X suit eune loi de BERNOULLI de param`tre p. On peut interpr´ter p dans notre e eexemple comme la probabilit´ qu’une bact´rie donn´e soit gram (-). La loi e e ede BERNOULLI nous sera essentiellement utile pour d´finir d’autres lois de eprobabilit´. e2.1.2 Loi binomialeUne v.a. qui suit une loi binomiale ne peut prendre qu’un nombre fini devaleurs que nous noterons N . Pour illustrer l’utilisation de la loi binomiale,prenons l’ exemple suivant : supposons que la pr´valence de la dysplasie de ela hanche chez le CN est de p (la proportion de CN non porteur de cetteanomalie est donc de 1 − p). A l’´cole v´t´rinaire, il passe par an N CN, e eeon note X le nombre de CN porteurs de la dysplasie de la hanche parmi lesN trait´s ` l’´cole. On suppose que l’´cole a une chance ´gale d’ˆtre choisie e a e e e ecomme centre de traitement par les propri´taires de CN ` dysplasie de la e ahanche. Alors, P (X = k) = CN pk (1 − p)N −k et ceci pour k = 0, 1...N. k k N!CN = est le nombre de “paquets de k que l’on peut faire parmi k!(N − k)!N ”. kUne propri´t´ ´l´mentaire de CN est e eee CN = CN −k . k N 17
  19. 19. Le nombre moyen de CN porteur de la dysplasie que l’on peut trouver aucours d’une ann´e ` l’´cole v´to est donn´ par IE(X) = N p. En d’autres e a e e etermes si la pr´valence de la dysplasie de la hanche est de p = 0.1, et s’il passe edans les cliniques de l’´cole N = 500 CN par an, on trouvera en moyenne eN p = 500 0.1 = 50 CN porteurs de cette anomalie. Il est bien ´vident que ele nombre de CN porteurs trouv´s sur les 500 examin´s par an ne sera pas e etoujours ´gal ` 50. Il y a donc des variations de CN porteurs qui seront e aobserv´s ` l’´cole. Un indice mesure ces variations c’est la variance. La e a evariance d’une loi binomiale est donn´e par e V ar(X) = N p(1 − p).Tr`s souvent la quantit´ 1−p est not´e q ; ceci explique le fait que V ar(X) = e e eN pq.Quand X suit une loi binomiale de param`tre N et p on note e X ∼ B(N, p).Le graphique 2.2 montre les formes caract´ristiques d’une loi binomiale en efonction des valeurs du param`tre p. eRemarque Il existe une autre fa¸on de construire la loi binomiale. Voyons csur l’exemple des bact´ries comment proc´der. e eOn consid`re N bact´ries. Chaque bact´rie a une probabilit´ p d’ˆtre gram (- e e e e e), ` chaque bact´rie on fait correspondre une v.a. de Bernoulli de param`tre a e ep qui prend la valeur 0 si elle est gram (-) et 1 si elle est gram (+). Onappelle Xi la variable al´atoire attach´e ` la ii`me bact´rie. En supposant e e a e eque les bact´ries sont ind´pendantes on a: e e n X= Xi ∼ B(n, p). i=1X repr´sente ici le nombre total de bact´ries gram (+) parmi les N con- e esid´r´es. ee 18
  20. 20. 0.45 0.4 0.35 p=0.1 0.3 p=0.2 p=0.3 0.25 p=0.4 P(X=k) p=0.5 0.2 0.15 0.1 0.05 0 0 1 2 3 4 5 6 7 8 9 10 kFigure 2.2: Forme de la loi binomiale pour diff´rentes valeurs du param`tre e ep.2.1.3 Loi hyperg´om´trique e ePour bien faire comprendre la loi hyperg´om´trique prenons un petit exemple. e eSupposons que vous ayez ` ´valuer la pr´valence des mammites de la vache ae een Midi-Pyr´n´es. On sait que dans cette r´gion il y a N vaches. Parmi ces e e evaches N1 sont atteintes et N2 sont saines (on a ´videmment N1 + N2 = N.) eVous ne pouvez pas contrˆler toutes les vaches de Midi-Pyr´n´es, vous ˆtes o e e edonc oblig´ de prendre un ´chantillon de taille n < N. On appelle X le nom- e ebre de vaches ` mammite que vous avez trouv´ dans votre ´chantillon. X 2 a e eest une quantit´ al´atoire, en effet, si vous faites plusieurs fois des ´chantillons e e ede taille n, vous ne retrouvez pas ` chaque fois le mˆme nombre de vaches a eatteintes. On s’interesse aux probabilit´s suivantes P (X = k) k varie entre e n0 et N1 ∧ n. Il y a CN fa¸ons de tirer un ´chantillon de taille n parmi les N c evaches de M.P. 2 X est ici mis pour X(ω). ω repr´sente un tirage de n vaches e 19
  21. 21. kCN1 est le nombre de fa¸ons de tirer k vaches ` mammites parmi les N1 c a n−kpr´sentes en M.P. et enfin CN2 est le nombre de fa¸ons de tirer n − k vaches e csaines parmi N2 pr´sentes en M.P. eOn en d´duit que e cas probables k n−k CN CN P (X = k) = = 1 n CN 2 si k ≤ N1 et n − k ≤ N2 cas possibles = 0 sinonLa variable al´atoire X suit une loi hyperg´om´trique. Quand X suit une loi e e ehyperg´om´trique de param`tres N, n, N1 on note, e e e N1 X ∼ H(N, n, ). NSa moyenne est donn´e par e N1 IE(X) = n Net sa variance par N1 N2 N − n V ar(X) = n N N N −1On peut noter que lorsque N −→ ∞, si N1 −→ p (p est le pourcentage vache Natteintes pr´sentes parmi les N ` contrˆler) alors e a o N1 H(N, n, ) −→ B(n, p). NEn d’autres termes, si le nombre total de vaches en MP est tr`s ´lev´, on peut e e eutiliser la loi binomiale (plus simple) ` la place de la loi hyperg´om´trique. a e e2.1.4 Loi de Poisson ou loi des ´v´nements rares e eUne va qui suit une loi de poisson peut prendre une infinit´ de valeurs. eOn dit que la va X suit une loi de poisson de param`tre λ, et on note eX ∼ P(λ), si λk P (X = k) = e−λ , k = 0, 1, ... k! 20
  22. 22. La moyenne d’une va qui suit une loi de poisson est ´gale ` IE(X) = λ, sa e avariance est V ar(X) = λ.Le graphique ci-dessous montre les diff´rentes formes de distribution d’une eloi de poisson en fonction de la valeur du param`tre e 0.4 0.35 0.3 ¤¢  £ ¡ ¦¢  ¥ ¡ 0.25 ¨¢  § ¡ P(X=k) 0.2 ¢¢  © ¡ ¦¢  ¡ 0.15 0.1 0.05 0 0 2 4 6 8 10 12 14 k Figure 2.3: Loi de poisson pour diff´rentes valeurs de λ eLa loi de poisson est souvent utilis´e pour approximer certaines lois discr`tes. e eOn l’appelle aussi loi des ´v´nements rares. En effet, si X est le nombre de fois e eo` apparaˆ un ´v´nement de probabilit´ tr`s petite (p), alors la loi de X peut u ıt e e e eˆtre approxim´e par une loi de poisson. Prenons un exemple pour illustrer cee eph´nom`ne. Soit une maladie dont la pr´valence est tr`s petite (p = 0.01) On e e e etire un ´chantillon de taille 100 et on s’interesse ` la distribution du nombre e a 21
  23. 23. de sujets atteints trouv´s dans l’´chantillon (not´ X). En d’autres termes, e e eon veut calculer(Bi) P (X = k) = C100 (0.01)k (1 − 0.01)100−k . kIl est bien ´vident que le calcul d’une telle probabilit´ n’est pas si facile ` e e a kcause du terme C100 (pour vous en convaincre essayez de calculer avec votre 50calculette C100 ). L’id´e est alors d’approximer la quantit´ (Bi) par une e equantit´ plus facilement calculable: e (100 × 0.01)k P (X = k) = C100 (0.01)k (1 − 0.01)100−k k e−100×0.01 k!Plus g´n´ralement, si X ∼ B(N, p), si N est grand, si p est petit et si N p e eest raisonnable on peut approximer la loi B(N, P ) par une loi de poisson deparam`tre λ = N p. Ces conditions sont ´videmment tr`s vagues. Les condi- e e etions usuelles sous lesquelles on consid`re que la qualit´ de l’approximation e eest “raisonnable” sont les suivantes : N 30, et N p 5. D’autres valeursde ces param`tres peuvent ˆtre tout ` fait acceptables pour peu que vous ne e e asoyez pas trop regardant sur la qualit´ d’approximation de certaines proba- ebilit´s. eLa loi de poisson est souvent utilis´e pour mod´liser des quantit´s dont la e e evariance est ` peu pr´s ´gale ` la moyenne. Lorsque la variance est sup´rieure a e e a e` la moyenne, on utilise dans certains cas la loi Binomiale n´gative.a e2.1.5 Loi binomiale n´gative eUne va qui suit une loi binomiale n´gative peut prendre un nombre infini de evaleurs. On dit que la va X suit une loi binomiale n´gative de param`tre N e eet p si k pk P (X = k) = CN +k−1 , k = 0.. (1 + p)n+kSa moyenne est ´gale ` IE(X) = N p et sa variance V ar(X) = N p(1 + p). On e apeut remarquer que ces distributions sont d’autant plus surdispers´es que ep est grand. Le graphique suivant montre comment varie les distributionsbinomiales n´gatives quand p varie. e 22
  24. 24. 0.4 0.35 0.3 p=0.1 p=0.2 0.25 p=0.3 p=0.4 P(X=k) 0.2 p=0.5 0.15 0.1 0.05 0 0 2 4 6 8 10 12 14 kFigure 2.4: Loi binomiale n´gative pour diff´rentes valeurs de p. Plus p e eaugmente plus la loi est surdispers´e e2.1.6 Loi de PascalUne va qui suit une loi de pascal peut prendre une infinit´ de valeurs. On edit que la va X suit une loi de Pascal de param`tre p si e P (X = k) = p (1 − p)k−1 , k = 1, 2, ...Pour illustrer son utilisation, reprenons l’exemple de la dysplasie de la hanchechez le CN. Supposons que l’´cole a une chance ´gale d’ˆtre choisie comme e e ecentre de traitement par les propri´taires de CN ` dysplasie de la hanche. e aNotons p la pr´valence de cette anomalie et X le nombre de CN ` examiner e a 23
  25. 25. avant d’en trouver un atteint, alors si on pose q = 1 − p, on a:P (X = 1) = p, P (X = 2) = pq..., P (X = k) = pq k−1 .Le nombre moyen de CN ` examiner avant d’en trouver un atteint est a 1 IE(X) = , pla variance de ce nombre est q V ar(X) = . p22.2 Quelques lois de probabilit´ continues e2.2.1 Quelques d´finitions pr´liminaires e eDans l’´tude des lois de proba continues, il apparaˆ une nouvelle quantit´ : e ıt ela densit´ de probabilit´. e ePour bien comprendre ce dont il s’agit, imaginons que l’on s’interesse ` l’´tude a ede la distribution de la taille des Fran¸ais. Pour ´tudier cette distribution, on c efait des classes de tailles, et on compte le pourcentage d’individus qui apparti-ennent ` cette classe. Une repr´sentation graphique de cette distribution est a edonn´e par l’histogramme qui sera revu au chapitre suivant.Supposons main- etenant que le nombre d’individus de la population d’int´rˆt (ici les Fran¸ais) ee cest infini. Un histogramme avec un nombre fini de classes nous donne unepi`tre information sur la distribution de la taille. Pour ˆtre plus pr´cis on e e eaugmente le nombre de classes et on diminue la taille de chaque classe. Onobtient ainsi un histogramme plus pr´cis. Que se passe t-il quand le nom- ebre de classes tend vers l’infini et que la taille de chaque classe tend vers z´ro ? eOn obtient une courbe limite, cette courbe limite est en fait une repr´sentation egraphique d’une fonction (not´e f ) que nous appellerons densit´ de proba- e ebilit´. eIl est clair que par construction, cette fonction poss`de un certain nombre de epropri´t´s: ee- elle est positive ou nulle (en effet la valeur de cette fonction en un point x 24
  26. 26. repr´sente en quelque sorte le pourcentage d’individus qui mesure x) e- la surface totale sous cette courbe est ´gale ` 1 ; la surface sous la courbe e arepr´sente le pourcentage cumul´ de tous les individus (par d´finition il vaut e e e1).La fonction de r´partition F est d´finie ` partir de la densit´ de proba de la e e a efa¸on suivante : c x F (x) = f (t)dt −∞La quantit´ F (x) repr´sente donc le cumul des pourcentages d’individus dont e ela taille est inf´rieure ` x. Ce constat nous permet de d´finir la fonction de e a er´partition par e F (x) = P (X ≤ x).Par d´finition F (x) est donc toujours un nombre compris entre z´ro et un, e eet la fonction x −→ F (x) est une fonction croissante (c’est un cumul depourcentages). De plus on a F (+∞) = 1 (on l’a d´j` dit) et F (−∞) = 0. eaSoit ∆x un accroissement infinit´simal de la taille, alors la quantit´ e e F (x + ∆x) − F (x) ∆xrepr´sente en quelque sorte le pourcentage d’individus dont la taille est com- eprise entre x et x + ∆x, et en faisant tendre ∆x −→ 0 on obtient F (x + ∆x) − F (x) lim = f (x). ∆x→0 ∆xEn d’autres termes, la d´riv´e de la fonction de r´partition est la densit´ e e e ede probabilit´.Tout comme dans le cas discret, il est possible de d´finir les e emoments d’une loi de probabilit´. Ce sont en g´n´ral ces quantit´s dont nous e e e enous servirons en statistique pour travailler. Le moment d’ordre 1 d’une loide probabilit´ est d´fini quand il existe 3 par e e IE(X) = xf (x)dx IR 3 Il existe certaines lois de proba dont les moments sont infinis par exemple la loi deCauchy 25
  27. 27. On reconnaˆ ici l’analogue continu de la d´finition donn´e dans le paragraphe ıt e epr´c´dent. Il suffit en effet de changer le signe par le signe e e pour retrouverla mˆme formule. De mˆme, le moment centr´ d’ordre p est d´fini par e e e e mp = IE((X − IE(X))p ) = (x − IE(X))p f (x)dx IRLe moment centr´ d’ordre 2 est aussi appel´ variance, les moments centr´s e e ed’ordre 3 et 4 sont respectivement appel´s kurtosis et skewness. e2.2.2 Loi normale ou de Laplace GaussLa loi normale joue un rˆle particuli`rement important dans la th´orie des o e eprobabilit´s et dans les applications pratiques. La particularit´ fondamen- e etale de la loi normale la distinguant des autres lois est que c’est une loilimite vers laquelle tendent les autres lois pour des conditions se rencontrantfr´quemment en pratique.On peut montrer que la somme d’un nombre suff- eisamment grand de va ind´pendantes (ou faiblement li´es) suivant des lois e equelconques (ou presque), tend vers une loi normale et ceci avec d’autantplus de pr´cision que le nombre de termes de cette somme est important. eLa majorit´ des va que l’on rencontre en pratique, comme par exemple des eerreurs de mesures, peuvent souvent ˆtre consid´r´es comme des sommes e eed’un nombre important de termes, erreurs ´l´mentaires, dues chacune ` une ee acause diff´rente ind´pendante des autres. Quelque soit la loi des erreurs e e´l´mentaires, les particularit´s de ces r´partitions n’apparaissent pas dans laee e esomme d’un grand nombre de celles-ci, la somme suivant une loi voisine dela loi normale.La loi normale est caract´ris´e par sa densit´ de probabilit´. Pour une loi e e e e 2normale de moyenne m et de variance σ , elle est donn´e par e 1 (x−m)2 f (x) = √ e− 2σ2 . 2πσLa courbe repr´sentative de la densit´ a la forme d’une courbe en cloche e esym´trique. Le graphique 2.5 montre comment varie la densit´ d’une loi nor- e emale, quand la variance est fix´e, en fonction de sa moyenne (ici m1 m2 .) e 26
  28. 28. Le graphique 2.6 montre comment varie la densit´ d’une loi normale ( ` e amoyenne fix´e) quand la variance augmente : Les variances des lois I, II, eIII sont de plus en plus ´lev´es. e e m1 m2Figure 2.5: Un exemple de deux lois normales. Les deux lois ont la mˆme evariance. La moyenne m1 de la premi`re loi est inf´rieure ` celle m2 de la e e asecondeLa fonction de r´partition de la loi normale est d´finie ` partir de la densit´ e e a epar : x 1 (t−m)2 F (x) = √ e− 2σ2 dt = P (X x) = P (X ≤ x). −∞ 2πσ 27
  29. 29. Loi I Loi II Loi IIIFigure 2.6: Les trois lois ont la mˆme moyenne. Les variances des lois I, II, eIII sont de plus en plus ´lev´es. e eCette derni`re propri´t´ traduit g´om´triquement le fait qu’une probabilit´ e ee e e epeut s’interpr´ter comme la surface sous la courbe densit´ comme l’indique e ele graphique 2.7:Il n’existe pas d’expression alg´brique donnant l’aire sous la courbe en fonc- etion de x. Il faut donc utiliser des valeurs tabul´es. Comme il est impossible ed’avoir autant de tables que de valeurs possibles de m et de σ 2 , on a recoursa l’astuce suivante :supposons que X est une va suivant une loi normale de moyenne m et de X −mvariance σ 2 (on note X ∼ N (m, σ 2 ), alors la quantit´ e suit une loi σN (0, 1). On en d´duit que si F repr´sente la fonction de r´partition de la e e e 28
  30. 30. F(x)=P(X@ x) xFigure 2.7: Une probabilit´ s’interpr`te comme la surface sous la courbe e erepr´sentant la densit´ e eN (m, σ 2 ) et Φ la fonction de r´partition de la N (0, 1) alors : e P (a X b) = F (b) − F (a) = P (a − m X − m b − m) = P ( a−m σ X−m σ b−m σ ) = Φ( b−m ) − Φ( a−m ). σ σremarque : Par d´finition Φ est une fonction croissante et on a Φ(+∞) = 1 eet Φ(−∞) = 0.2.2.3 Loi du χ2Cette loi nous sera tr`s utile pour ´tudier la distribution des variances. e eElle est construite ` partir de la loi normale de la fa¸on suivante : Soient a c 29
  31. 31. X1 , X2 , . . . , Xn n va ind´pendantes de mˆme loi N(0,1), et soit e e n 2 2 2 K= X1 + X2 + ... + Xn = Xi2 i=1alors, K suit une loi du Khi 2 ` n degr´s de libert´ (K ∼ χ2 ). On peut a e e n 2remarquer qu’une va qui suit une loi du χ est par construction toujourspositive ou nulle (c’est une somme de carr´s). La densit´ de probabilit´ e e e 2d’une loi du χ est asym´trique (reportez vous aux tables que je vous ai edonn´es pour en avoir une id´e). e e2.2.4 Loi de StudentLa loi de Student est construite ` partir de la loi normale et de la loi du Khi a2. Nous l’utiliserons intensivement pour faire des tests d’hypoth`ses. e 2Soient X une va de loi N(0,1), et K une va qui suit une loi du χn (Khi 2 ` nadegr´s de libert´). On suppose de plus que K et X sont ind´pendantes. Soit e e e X Tn = , K nalors Tn suit une loi de student ` n degr´s de libert´. a e e2.2.5 Loi de FisherTout comme la loi de student, la loi de Fisher sera tr`s utilis´e par la suite. e eVoyons en rapidement sa construction.Soient K1 et K2 deux variables al´atoires ind´pendantes de loi respectives e e 2 2χn et χp , alors la quantit´ e K1 /n Fn,p = K2 /psuit une loi de Fisher ` n et p degr´s de libert´. Il faut faire tr`s attention ` a e e e al’ordre des degr´s de libert´. Le premier degr´ de libert´ (ici n) est le degr´ e e e e ede libert´ du num´rateur, alors que le second (p) est celui du d´nominateur. e e e 30
  32. 32. 2.3 Quelques remarques sur l’op´rateur IE eL’op´rateur IE est un op´rateur lin´aire en d’autres termes, si X et Y sont e e edes va avec de ”bonnes propri´t´s”, et si α, β et γ sont des r´els, alors ee e IE(αX + βY + γ) = αIE(X) + βIE(Y ) + γet ceci que les variables al´atoires X et Y soient ind´pendantes ou pas. En e erevanche, l’op´rateur variance (not´ Var) construit avec l’op´rateur IE de la e e efa¸on suivante c V ar(X) = IE((X − IE(X))2 )n’est pas un op´rateur lin´aire. On peut constater que par d´finition, c’est e e eun op´rateur positif. La condition n´cessaire et suffisante pour que V ar(X) e esoit nulle, est que X soit d´terministe c’est ` dire non al´atoire. On a de e a eplus des propri´t´s suivantes: si α ∈ IR, alors ee V ar(αX) = α2 V ar(X)Si X et Y sont deux variables al´atoires ind´pendantes, alors e e V ar(X + Y ) = V ar(X) + V ar(Y )et par cons´quent e V ar(αX + βY + γ) = α2 V ar(X) + β 2 V ar(Y ) + V ar(γ) = α2 V ar(X) + β 2 V ar(Y ) + 0. Si les variables al´atoires X et Y ne sont pas ind´pendantes, alors e e V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y )o` Cov(X, Y ) = IE((X − IE(X))(Y − IE(Y ))) est la covariance entre X et Y . uOn voit donc que lorsque les variables al´atoires ne sont pas ind´pendantes, il e eapparaˆ un terme suppl´mentaire dans le calcul de la variance. On pourrait ıt eˆtre tent´ de prendre la covariance comme une mesure d’ind´pendance. Cecie e e 31
  33. 33. est en g´n´ral faux sauf dans le cas o` les va X et Y sont normalement e e udistribu´es. En r´sum´ : e e esi X et Y sont ind´pendantes alors Cov(X, Y ) = 0, esi Cov(X, Y ) = 0 et si X et Y sont des va gaussiennes alors X et Y sontind´pendantes. e La quantit´ e Cov(X, Y ) ρ(X, Y ) = V ar(X) V ar(Y ) est un nombre sans dimension appel´ coefficient de corr´lation e e lin´aire de Pearson. Nous voyons que si X et Y sont gaussi- e ennes et si ρ(X, Y ) = 0, alors les variables al´atoires X et Y e sont ind´pendantes. Nous l’utiliserons dans le paragraphe suiv- e ant consacr´ ` la loi normale ` 2 dimensions. ea a2.4 Lois ` deux dimensions a2.4.1 G´n´ralit´s e e eTout comme dans le cas unidimensionnel, les lois ` plusieurs dimensions sont acaract´ris´es par leur e e- fonction de r´partition, e- densit´, e- moments.On appelle fonction de r´partition du couple de va (X, Y ) la probabilit´ e ede v´rification simultan´e des deux in´galit´s (X x) et (Y y): e e e e F (x, y) = P ((X x)(Y y)).En interpr´tant le couple (X, Y ) comme un point al´atoire dans le plan, on e evoit que la fonction de r´partition F (x, y) n’est rien d’autre que la probabilit´ e epour que le point al´atoire (X, Y ) appartienne au quadrant de sommet le epoint (x, y), situ´ ` gauche et en bas de celui-ci (cf fig 2.8). ea 32
  34. 34. F(x,y)=P((X@ x) et (Y@ y)) y xFigure 2.8: La probabilit´ F (x, y) s’interpr`te comme la probabilit´ pour que e e ele point al´atoire (X, Y ) appartienne au quadrant de sommet le point (x, y), esitu´ ` gauche et en bas de celui-ci ea1) Cette interpr´tation g´om´trique, permet de voir que si x augmente, ou si e e ey augmente, la fonction F (x, y) augmente aussi.2) Partout en −∞ la fonction de r´partition est ´gale ` z´ro : e e a e F (x, −∞) = F (−∞, y) = F (−∞, −∞) = 0.Pour avoir cette propri´t´, il suffit de d´placer ind´finiment la limite sup´rieure ee e e e(ou la limite droite ) du quadrant de la figure pr´c´dente vers −∞; la prob- e eabilit´ de tomber dans ce quadrant tend alors vers 0. e3) Lorsque un des arguments vaut +∞, la fonction de r´partition du cou- eple de va devient alors une fonction de r´partition correspondant ` l’autre e a 33
  35. 35. argument : F (x, +∞) = F1 (x), F (+∞, y) = F2 (y),o` F1 (x), F2 (y) sont respectivement les fonctions de r´partition des vari- u eables al´atoires X et Y . On peut facilement s’en rendre compte en faisant ex −→ +∞, ou y −→ +∞ ; ` la limite le quadrant devient un demi-plan, ala probabilit´ de tomber dans ce demi-plan est donn´e par la fonction de e er´partition de la variable respective. e4) Si les deux arguments sont ´gaux ` +∞, la fonction de r´partition du e a ecouple de va est ´gale ` 1 : e a F (+∞, +∞) = 1.En effet, on obtient alors le plan tout entier et le point (X, Y ) s’y trouvecertainement. De fa¸on analogue, le point (X, Y ) peut se trouver dans un cdomaine quelconque D dans le plan. La probabilit´ P ((X, Y ) ∈ D) ne es’exprime alors pas simplement ` partir de la fonction de r´partition F sauf a edans quelques cas tr`s particuliers sur lesquels nous reviendrons.Densit´ de e eprobabilit´eSoit un couple de va continues (X, Y ) interpr´t´ comme un point al´atoire ee ede ce plan. Consid´rons dans ce plan un petit rectangle R∆ dont les cot´s e esont ∆x et ∆y avec un sommet au point x, y.La proba de tomber dans ce rectangle est P ((X, Y ) ∈ R∆ ) = F (x + ∆x, y + ∆y) − F (x + ∆x, y) − F (x, y + ∆y) + F (x, y)En divisant la proba de tomber dans le rectangle R∆ par l’aire de ce rectangle,on obtient P ((X, Y ) ∈ R∆ ) lim ∆x− ∆y− →0 →0 ∆x∆y 34
  36. 36. P((X , Y )∈ R∆ ) = F(x + ∆x, y + ∆y)-F(x + ∆ x, y) -F(x, y + ∆ y) + F(x, y) y+ y R   y x x+ xFigure 2.9: La densit´ s’obtient en faisant des accroissements infinit´simaux e ede la fonction de r´partition e F (x + ∆x, y + ∆y) − F (x + ∆x, y) − F (x, y + ∆y) + F (x, y) = lim ∆x− ∆y− →0 →0 ∆x∆ySi on suppose que la fonction F est d´rivable, le second membre de la epr´c´dente in´galit´ est alors la d´riv´e partielle seconde mixte de F . D´signons e e e e e e ecette d´riv´e par f (x, y): e e ∂ 2 F (x, y) f (x, y) = = Fxy (x, y) ∂x∂yLa fonction f est la densit´ de proba du couple (X, Y ), en d’autres termes, e P ((X, Y ) ∈ D) = f (x, y)dxdy (x,y)∈DDe toutes les distributions de couple de va, la plus fr´quemment utilis´e est e ela loi normale aussi nous contenterons nous d’´tudier la loi normale. e 35
  37. 37. 2.4.2 Loi normale a deux dimensionsDans la suite, nous supposons que le couple (X, Y ) suit une loi normale` deux dimensions. La loi normale ` deux dimensions est d´finies par 5a a eparam`tres : esa moyenne (mx , my ) et sa matrice de variance-covariance : 2 σx Cov(X, Y ) V = 2 Cov(X, Y ) σy 2 2avec mx = IE(X), my = IE(Y ) et σx = V ar(X), σy = V ar(Y ).On voit donc que si les va X et Y sont ind´pendantes, la matrice de variance- ecovariance est diagonale.Si on note ρ le coefficient de correlation entre X et Y , la densit´ de la loi enormale ` deux dimensions s’exprime par la formule : a 1 √ f (x, y) = 2πσx σy 1−ρ2 (x−mx )2 (y−my )2 1 exp − 2(1−ρ2 ) 2 σx − 2ρ (x−mσx σy y ) + x )(y−m 2 σyLe graphe de cette fonction est repr´sent´ ` la figure 2.10. e eaEn coupant la surface de r´partition par un plan parall`le au plan xOy, on e eobtient une courbe sur laquelle la densit´ est constante en chaque point. En ereprenant l’´quation de la densit´, on voit que la densit´ est constante si et e e eseulement si : (x − mx )2 (x − mx )(y − my ) (y − my )2 2 − 2ρ + 2 = C2 σx σx σy σyo` C est une constante. Vous reconnaissez l’´quation d’une ellipse de centre u e(mx , my ). Si les va sont ind´pendantes (donc si ρ = 0), l’´quation de l’ellipse e e devient (x − mx )2 (y − my )2 2 + 2 = C2 σx σy 36
  38. 38. Figure 2.10: Densit´ de la loi normale ` 2 dimensions e aCeci est l’´quation d’une ellipse dont les axes sont parall`les aux axes (x, y). e e 2 2Si de plus σx = σy on obtient alors l’´quation d’un cercle de centre (mx , my ) e 2et de rayon Cσx .Dans le cas g´n´ral o` ρ = 0, les axes de sym´trie de l’ellipse forme un angle e e u eθ avec l’axe Ox donn´ par e 2ρσx σy tg(2θ) = 2 2 . σx − σyEn statistique, on s’interesse tr`s souvent ` des domaines dans lesquels on e aa un certain nombre de chances de trouver un point al´atoire donn´. On e erecherche par exemple des domaines D v´rifiant e P ((X, Y ) ∈ D) = 1 − α 37
  39. 39. o` α est un nombre fix´. Quand la loi du couple (X, Y ) est gaussienne, le u eplus simple est de rechercher le domaine D sous la forme d’une ellipse. Onrecherche donc D tel que P ((X, Y ) ∈ D) =1−α= (x,y)∈D f (x, y)dxdy 1 √ = (x,y)∈D 2πσx σy 1−ρ2 2 (y−my )2 exp(− 2(1−ρ2 ) [ (x−mx ) − 2ρ (x−mσx σy y ) + 1 σ2 x )(y−m 2 σy ])dxdy xLa recherche d’un tel domaine dans ce syst`me de coordonn´es est difficile e eaussi allons nous faire une rotation d’angle 1 2ρσx σy θ = Arctg( 2 2 ) 2 σx − σyon obtient 1 1 (x − mx )2 (y − my )2 P ((X, Y ) ∈ D) = exp(− [ + ])dxdy D 2π˜x σy σ ˜ 2 ˜2 σx ˜2 σyavec σx = σx cos2 θ + ρσx σy sin2θ + σy sin2 θ ˜ 2 σy = σx sin2 θ − ρσx σy sin2θ + σy cos2 θ ˜ 2apr`s un changement de variables trivial, en passant en coordonn´es polaires, e eon en d´duit que : e +π r0 1 −r 2 P ((X, Y ) ∈ D) = e 2 rdrdθ 2π −π 0 2 √En conclusion il faut que α = e−r0 /2 soit r0 = −2 ln α.L’ellipse ainsi obtenue est de centre (mx , my ) et fait un angle θ avec Ox etla longueur des demi-axes est donn´e par r0 σx et r0 σy . e ˜ ˜ 38
  40. 40. Chapitre 3EstimationL’objet de ce chapitre n’est pas de donner une m´thode g´n´rale d’estimation, e e emais plutˆt d’exposer quelques propri´t´s et d´finitions qui seront reprises o ee epar la suite.3.1 G´n´ralit´s e e eL’estimation consiste ` rechercher la valeur num´rique d’un ou plusieurs a eparam`tres inconnus d’une loi de probabilit´ ` partir d’observations (valeurs e eaprises par la v.a. qui suit cette loi de probabilit´). On utilise pour cela un eestimateur fonction de la v.a. ´tudi´e: quand la v.a. prend comme valeur e el’observation, la valeur de l’estimateur est appel´e estimation. L’exemple esuivant illustre ces d´finitions. On s’interesse au GMQ des porcs . Sup- eposons que ce GMQ que nous noterons X est distribu´ normalement, en e 2d’autres termes que X suit une loi N(m, σ ), o` m repr´sente le GMQ moyen u e 2de toute la population de porcs et σ la variance de la distribution des GMQ.Les param`tres m et σ 2 sont inconnus, l’objet de l’estimation est de trouver eune valeur “raisonnable” pour ces param`tres. Deux possibilit´s s’offrent ` e e anous:- soit on peut mesurer le GMQ de tous les porcs de la population et,dans ce cas, les param`tres m et σ 2 seront parfaitement connus,- soit la pop- eulation est trop grande, et, on est oblig´ de travailler sur un ´chantillon.Cet e e 39
  41. 41. ´chantillon va nous donner des informations sur les vraies valeurs (celles de laepopulation) de m et σ 2 . Supposons que l’on ait ´tudi´ le GMQ (en grammes) e esur un ´chantillon de taille n=10. Notons X1 , X2 ...X10 , le GMQ des porcs eN ◦ 1, N ◦ 2...N ◦ 10 de cet ´chantillon. e e ¯La moyenne de l’´chantillon (not´e X) est une “approximation” de la moyenne e ¯m de la population. X = n n Xi est un estimateur de m. 1 i=1 Num porc 1 2 3 4 5 6 7 8 9 10 GMQ (g) 500 530 560 510 620 560 540 610 600 580Table 3.1: Table des Gains Moyens Quotidiens observ´s sur un ´chantillon e ede 10 porcsLe mot estimateur se r´f`re au proc´d´ de calcul utilis´ pour approximer ee e e e 1 10m.¯ = 10 i=1 xi = 561 est une estimation de m. xLe mot estimation se r´f`re ` la valeur num´rique utilis´e pour approximer. ee a e e En g´n´ral un estimateur est une variable al´atoire, en d’autres termes e e el’estimation du param`tre d´pend des individus pr´sents dans l’´chantillon. e e e eSi un autre ´chantillon avait ´t´ consid´r´, une autre estimation du param`tre e ee ee eaurait ´t´ obtenue. Le choix de l’estimateur se fait selon des crit`res qui ee emesurent sa proximit´ au param`tre inconnu. Nous allons dans ce qui suit e epr´senter la liste des crit`res les plus souvent utilis´s pour d´finir les “qualit´s e e e e e” d’un estimateur.3.2 Estimateur convergentUne des propri´t´s ´l´mentaires que doit remplir un estimateur est d’ˆtre e e ee econvergent. En d’autres termes, lorsque la taille de l’´chantillon tend vers el’infini, il faut que l’estimateur se “rapproche” du param`tre qu’il estime. eIl existe plusieurs fa¸ons de mesurer cette proximit´ qui donnent lieu ` la c e ad´finition de plusieurs types de convergence. Notre objectif n’´tant pas ici e ede faire un cours de statistiques fondamentales, nous nous bornerons ` citer a 40
  42. 42. les principaux types de convergence et ` les illustrer ` l’aide des deux exem- a aples suivants :exemple 1 :Soient X1 , . . . , Xn , n variables al´atoires de mˆme loi N (m, σ 2 ). On s’interesse e e` la convergence de la moyenne empirique Xa ¯ n = 1 n Xi vers m. n i=1exemple 2 :Soit X une variable al´atoire distribu´e selon une loi B(n, p). On s’interesse e e` la convergence de pn = X/n vers p.a ˆDans un cadre plus g´n´ral, nous noterons Tn un estimateur du param`tre θ e e eobtenu ` partir d’un ´chantillon de taille n qui v´rifie pour tout n, IE(Tn ) = θ a e e(cf paragraphe suivant).D´finition :L’estimateur Tn est convergent en moyenne quadratique si : e V ar(Tn ) −→ 0quand n −→ ∞.Rappelons que la variance d’une variable al´atoire est d´finie par V ar(Tn ) = e e 2 2IE(Tn −IE(Tn )) = IE(Tn −θ) . Dire que Tn converge en moyenne quadratiquesignifie en fait que lorsque n tend vers l’infini la distance moyenne qui s´pare eTn de θ tend vers 0. ¯ 2Il est facile d’´tablir que V ar(Xn ) = σ . Par cons´quent lorsque n −→ ∞, e e n ¯V ar(Xn ) −→ 0.De mˆme V ar(ˆn ) = p(1−p) tend vers 0 quand n tend vers ∞. e p nD´finition :L’estimateur Tn est convergent en probabilit´ si : pour tout e eε 0 fix´ la quantit´ e e P ( Tn − θ ε)tend vers 0 quand n tend vers ∞Ce type de convergence peut s’interpr´ter de la fa¸on suivante : Supposons e cque l’on se fixe un intervalle de largeur 2ε centr´ sur θ. Supposons de plus eque nous disposons d’un grand nombre de r´alisations de Tn (obtenu avec eun grand nombre d’´chantillons de taille n). On s’interesse au pourcentage ede ces r´alisations qui “tombent” dans en dehors de cet intervalle. Alors, el’estimateur Tn converge en probabilit´ vers θ si ce pourcentage tend vers 0 e 41

×