Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Introduction au statistiques inférentielle

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Introduction ` la statistique
              a
        inf´rentielle
           e

           Didier Concordet
           U...
Sommaire

1 Statistiques descriptives                                                                   7
  1.1 Descriptio...
2.4   Lois ` deux dimensions . . . . . . . . . . . . . . . . . . . . . . 36
              a
         2.4.1 G´n´ralit´s . ....
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Prochain SlideShare
Maths
Maths
Chargement dans…3
×

Consultez-les par la suite

1 sur 99 Publicité

Plus De Contenu Connexe

Les utilisateurs ont également aimé (20)

Publicité

Similaire à Introduction au statistiques inférentielle (20)

Publicité

Introduction au statistiques inférentielle

  1. 1. Introduction ` la statistique a inf´rentielle e Didier Concordet Unit´ de Biom´trie e e Ecole V´t´rinaire de Toulouse ee
  2. 2. Sommaire 1 Statistiques descriptives 7 1.1 Description num´rique . . . . . . . e . . . . . . . . . . . . . . . 7 1.1.1 Param`tres de position . . . e . . . . . . . . . . . . . . . 8 1.1.2 Param`tres de dispersion . . e . . . . . . . . . . . . . . . 10 1.1.3 Param`tres de forme . . . . e . . . . . . . . . . . . . . . 11 1.2 Description graphique . . . . . . . . . . . . . . . . . . . . . . 12 1.2.1 Description de la densit´ . . e . . . . . . . . . . . . . . . 12 1.2.2 Description de la fonction de r´partition e . . . . . . . . 13 2 Le zoo des lois de probabilit´ e 17 2.1 Lois de probabilit´ discr`tes . . . . . . . . . . . . e e . . . . . . . 18 2.1.1 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . 21 2.1.2 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . 21 2.1.3 Loi hyperg´om´trique . . . . . . . . . . . . e e . . . . . . . 23 2.1.4 Loi de Poisson ou loi des ´v´nements rares e e . . . . . . . 24 2.1.5 Loi binomiale n´gative . . . . . . . . . . . e . . . . . . . 26 2.1.6 Loi de Pascal . . . . . . . . . . . . . . . . . . . . . . . 27 2.2 Quelques lois de probabilit´ continues . . . . . . . e . . . . . . . 28 2.2.1 Quelques d´finitions pr´liminaires . . . . . e e . . . . . . . 28 2.2.2 Loi normale ou de Laplace Gauss . . . . . . . . . . . . 30 2.2.3 Loi du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2.4 Loi de Student . . . . . . . . . . . . . . . . . . . . . . 34 2.2.5 Loi de Fisher . . . . . . . . . . . . . . . . . . . . . . . 34 2.3 Quelques remarques sur l’op´rateur IE . . . . . . e . . . . . . . 35 1
  3. 3. 2.4 Lois ` deux dimensions . . . . . . . . . . . . . . . . . . . . . . 36 a 2.4.1 G´n´ralit´s . . . . . . . . . . . . . . . . . . . . . . . . 36 e e e 2.4.2 Loi normale a deux dimensions . . . . . . . . . . . . . 40 3 Estimation 43 3.1 G´n´ralit´s . . . . . . . . . . . . . . . . . e e e . . . . . . . . . . . 43 3.2 Estimateur convergent . . . . . . . . . . . . . . . . . . . . . . 44 3.3 Estimateur sans biais . . . . . . . . . . . . . . . . . . . . . . . 46 3.4 Estimateur de variance minimum . . . . . . . . . . . . . . . . 48 3.5 Une m´thode g´n´rale d’estimation : e e e le maximum de vraisemblance . . . . . . . . . . . . . . . . . . 50 3.6 Une bricole sur le th´or`me central limit . e e . . . . . . . . . . . 52 3.7 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.7.1 Estimation des param`tres d’une loi e normale . . . . . . 53 3.7.2 Estimation d’un pourcentage . . . . . . . . . . . . . . . 57 4 Tests d’hypotheses 61 4.1 G´n´ralit´s . . . . . . . . . . . . . . . . . e e e . . . . . . . . . . . 61 4.2 Hypoth`se . . . . . . . . . . . . . . . . . . e . . . . . . . . . . . 63 4.3 D´finition des risques . . . . . . . . . . . . e . . . . . . . . . . . 64 4.4 Ce qu’il ne faudrait pas croire . . . . . . . . . . . . . . . . . . 67 4.5 Tests param´triques et non param´triques e e . . . . . . . . . . . 68 4.6 Quelques remarques . . . . . . . . . . . . . . . . . . . . . . . . 68 5 Tests classiques 71 5.1 Comparaisons portant sur les variances . . . . . . . . . . . . . 71 5.1.1 Comparaison d’une variance ` une valeur d´terministe a e 71 5.1.2 Comparaison de deux variances . . . . . . . . . . . . . 72 5.1.3 Comparaison de plusieurs variances . . . . . . . . . . . 72 5.2 Comparaisons portant sur les moyennes . . . . . . . . . . . . . 74 5.2.1 Comparaison d’une moyenne ` une valeur donn´e m0 . a e 75 5.2.2 Comparaison de deux moyennes . . . . . . . . . . . . . 76 5.3 Comparaisons portant sur les proportions . . . . . . . . . . . . 79 2
  4. 4. 5.3.1 Comparaison d’une proportion ` une valeur donn´e a e . . 79 5.4 Comparaison de deux proportions . . . . . . . . . . . . . . . . 80 5.5 Test de conformit´ a une loi de proba . . . . . . . . . . . . e . . 83 5.5.1 Test de Kolmogorov-Smirnov (KS) . . . . . . . . . . . 83 5.5.2 Test du χ2 pour une loi normale . . . . . . . . . . . . . 84 5.6 Comparaisons multiples . . . . . . . . . . . . . . . . . . . . . 85 5.6.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.6.2 Analyse de la variance . . . . . . . . . . . . . . . . . . 87 5.6.3 Estimation des param`tres . . . . . . . . . . . . . . e . . 88 5.7 Tests d’hypoth`ses (param´triques) . . . . . . . . . . . . . e e . . 91 5.7.1 M´thode des contrastes . . . . . . . . . . . . . . . . e . . 92 5.7.2 Orthogonalit´ et ind´pendance . . . . . . . . . . . . e e . . 93 5.7.3 Plus petite diff´rence significative (PPDS) . . . . . e . . 94 5.7.4 M´thode de Bonferroni . . . . . . . . . . . . . . . . e . . 96 5.7.5 M´thode de Newman-Keuls . . . . . . . . . . . . . e . . 97 5.7.6 M´thode de Duncan . . . . . . . . . . . . . . . . . e . . 99 5.7.7 M´thode de Tuckey . . . . . . . . . . . . . . . . . . e . . 99 5.7.8 M´thode de Dunnett . . . . . . . . . . . . . . . . . e . . 99 5.8 Quelques tests non parametriques . . . . . . . . . . . . . . . . 100 5.8.1 Tests sur ´chantillons appari´s . . . . . . . . . . . . e e . . 101 5.8.2 Tests sur ´chantillons ind´pendants . . . . . . . . . e e . . 102 3
  5. 5. Chapitre 1 Statistiques descriptives L’objet de ce chapitre est de pr´senter bri`vement la premi`re ´tape de e e e e l’analyse des donn´es : la description. L’objectif poursuivi dans une telle e analyse est de 3 ordres : tout d’abord, obtenir un contrˆle des donn´es et ´liminer les donn´es aber- o e e e rantes ensuite, r´sumer les donn´es (op´ration de r´duction) sous forme e e e e graphique ou num´rique, enfin, ´tudier les particularit´s de ces donn´es e e e e ce qui permettra ´ventuellement de choisir des m´thodes plus complexes. e e Les m´thodes descriptives se classent en deux cat´gories qui souvent sont e e compl´mentaires : la description num´rique et la description graphique. e e 1.1 Description num´rique e Avant de donner des d´finitions formelles de tous les indices, nous les cal- e culerons sur la s´rie de donn´es suivante (GMQ de porcs exprim´s en g): e e e x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 737 630 573 615 718 620 820 763 786 529 Nous noterons n la taille de la s´rie de donn´es, ici n = 10 e e 4
  6. 6. 1.1.1 Param`tres de position e Les param`tres de position, aussi appel´s valeurs centrales, servent ` car- e e a act´riser l’ordre de grandeur des donn´es. e e • moyenne arithm´tique : e Elle est plus souvent appel´e moyenne, et est en g´n´ral not´e x, elle est e e e e ¯ calcul´e en utilisant la formule: e n 1 x= ¯ xi n i=1 Dans notre exemple,¯ = 679. x • moyenne g´om´trique e e La moyenne g´om´trique (¯g ) est toujours inf´rieure (ou ´gale) ` la moyenne e e x e e a arithm´tique. Elle est donn´e par: e e n 1/n xg = ¯ xi i=1 Dans notre exemple, xg = 672.6 ¯ On peut remarquer que n 1 log(¯g ) = x log(xi ) n i=1 en d’autres termes, le log de la moyenne g´om´trique est la moyenne arithm´tique e e e du log des donn´es. Elle est tr`s souvent utilis´e pour les donn´es distribu´es e e e e e suivant une loi log normale (par exemple les comptages cellulaires du lait). • moyenne harmonique La moyenne harmonique (¯h ) est toujours inf´rieure (ou ´gale) ` la moyenne x e e a g´om´trique, elle est en g´n´ral utilis´e pour calculer des moyennes sur des e e e e e intervalles de temps qui s´parent des ´v´nements. Elle est donn´e par: e e e e n xh = ¯ n 1 i=1 xi 5
  7. 7. Dans notre exemple,¯h = 666.05 x On peut remarquer que n 1 1 1 = . xh ¯ n i=1 xi • m´diane e La m´diane x est la valeur telle que la moiti´ des observations lui sont e ˜ e sup´rieures (ou ´gales) et la moiti´ inf´rieures (ou ´gales). Il est clair que e e e e e la m´diane existe pour toutes les distributions (ce qui n’est pas le cas de la e moyenne) de plus, elle est peu sensible aux valeurs extrˆmes. e Lorsque le nombre d’observations est pair, la m´diane n’est pas d´finie de e e fa¸on unique. La valeur usuellement retenue est la moyenne des observations c de rang n et de rang n + 1 Dans notre exemple x = 674. 2 2 ˜ • les quartiles Les quartiles sont au nombre de trois. La m´diane est le deuxi`me. e e Le premier quartile q1 est la valeur telle que 75% des observations lui sont sup´rieures (ou ´gales) et 25% inf´rieures (ou ´gales). e e e e Lorsqu’il n’est pas d´fini de fa¸on unique, on utilise g´n´ralement la moyenne e c e e des observations qui l’encadrent pour le calculer. Dans notre exemple, q1 = 615. Le troisi`me quartile q3 est la valeur telle que 25% des observations lui sont e sup´rieures (ou ´gales) et 75% inf´rieures (ou ´gales). e e e e Lorsqu’il n’est pas d´fini de fa¸on unique, on utilise la moyenne des observa- e c tions qui l’encadrent pour le calculer. Dans notre exemple, q3 = 763. • le mode est la (ou les) valeur(s) pour laquelle les effectifs sont maximums, il est en g´n´ral assez difficile de l’´valuer (quand il existe) sur des ´chantillons de e e e e petite taille. • les extrˆmes e Ce sont les minimum et maximum de l’´chantillon qui ici valent respective- e ment 529 et 820. La moyenne n’est pas toujours le meilleur indice pour d’´crire la e position des donn´es, tout d´pend de la forme de la distribution. e e 6
  8. 8. En effet, pour des distributions non sym´triques ou multimodales, e il est souvent pr´f´rables de donner les percentiles qui sont plus ee facile ` interpr´ter. a e 1.1.2 Param`tres de dispersion e Ces param`tres (comme leur nom l’indique) mesurent la dispersion des donn´es. e e • la variance Elle est d´finie comme la moyenne des carr´s des ´carts ` la moyenne, soit: e e e a n 1 ˆ2 σn = (xi − x)2 ¯ n i=1 Il est aussi possible d’en donner la d´finition suivante: e n n 1 ˆ2 σn = (xi − xj )2 2n2 i=1 j=1 On voit donc, que la variance est proportionnelle ` la somme des carr´s de a e toutes les diff´rences possibles entre les observations. e Cette d´finition de la variance n’est pas utilis´e en pratique pour une raison e e que nous verrons au chapitre suivant. En fait, on utilise la d´finition suivante e n 1 ˆ2 σn−1 =S = 2 (xi − x)2 ¯ n−1 i=1 La variance s’exprime dans l’unit´ au carr´ des donn´es ; dans notre exemple, e e e 2 2 la variance vaut :ˆn−1 = 9664.989g σ • l’´cart type e est la racine carr´e de la variance. il vaut ici:ˆn−1 = 93.26g Utilisez le ` bon e σ a escient (cf TD) • l’´tendue ou amplitude e est d´finie comme la diff´rence entre la maximum et le minimum, soit ici e e :820 − 529 = 291g • la distance inter-quartile 7
  9. 9. est d´finie comme la diff´rence entre q3 et q1 , soit:763 − 615 = 148 e e • le coefficient de variation est d´finie comme le rapport entre l’´cart type et la moyenne. e e S2 CV = x ¯ 1.1.3 Param`tres de forme e Les logiciels de statistiques fournissent g´n´ralement les param`tres Skewness e e e et Kurtosis construits ` partir des moments centr´s d’ordre 2,3 et 4 qui a e mesurent respectivement la sym´trie et l’aplatissement de la distribution dont e l’´chantillon est issu. e Pour une loi normale centr´e r´duite, ces coefficients sont nuls. e e Les moments centr´s d’ordre 3 et 4 sont d´finis par: e e n 1 m3 = (xi − x)3 ¯ n i=1 n 1 m4 = (xi − x)4 ¯ n i=1 A partir de ces d´finitions, les param`tres Skewness et Kurtosis sont respec- e e tivement d´finis par: e m3 γ1 = 3 s m4 γ2 = 4 − 3 s Dans notre exemple,γ1 = −0.037 et γ2 = −1.339 Le param`tre γ1 est nul pour une distribution sym´trique. Le graphique e e suivant montre un exemple de distribution avec un γ1 positif et n´gatif. Le e param`tre γ2 est nul pour une loi normale. Le graphique suivant montre un e exemple de distribution avec un γ1 positif et n´gatif. e 8
  10. 10. 1.2 Description graphique Les graphiques pr´sent´s dans ce paragraphe d´crivent d’une part la densit´ e e e e de la distribution et d’autre part la fonction de r´partition de la distribution. e 1.2.1 Description de la densit´ e Histogramme (cf fig 1.1) 30 0.2 Proportion per Bar 20 Count 0.1 10 0 0.0 4 5 6 7 8 Variable à étudier Figure 1.1: Histogramme d’une variable quantitative. La variable quan- titative est d´coup´e en classes repr´sent´es en abscisse. Le pourcentage e e e e (et/ou le nombre) de donn´es de l’´chantillon appartenant ` chaque classe e e a est repr´sent´ en ordonn´e. L’inconv´nient majeur de cette repr´sentation e e e e e graphique est l’arbitraire dans le choix des classes. 9
  11. 11. Stem and leaf 4 3 4 4445 4 666677 4 88888999999 5 H 0000000000111111111 5 22223 5 4444445555555 5 66666677777777 5 M 8888888999 6 000000111111 6 2222333333333 6 H 444444455555 6 6677777777 6 8889999 7 01 7 2223 7 4 7 67777 7 9 C’est un de mes graphiques pr´f´r´s. Il s’agit d’un histogramme fait avec eee des chiffres. Les donn´es sont class´es par ordre croissant. Le minimum de e e l’´chantillon est 4.3 (premi`re ligne du stem). La deuxi`me ligne nous indique e e e que l’´chantillon contient 3 valeurs qui apr`s arrondi valent 4.4 et une valeur e e ´gale (apr`s arrondi) ` 4.5. Le maximum vaut 7.9. Les H nous indiquent e e a les classes qui contiennent respectivement les premier et troisi`me quartiles e tandis que le M nous donne la classe qui contient la m´diane. On en d´duit e e que 25% des donn´es sont inf´rieures ` 5.0 ou 5.1, 50 % sont inf´rieures ` 5.8 e e a e a ou 5.9 et 25% sont sup´rieures ` 6.4 ou 6.5. e a 1.2.2 Description de la fonction de r´partition e Qplot (Quantile plot) ou encore fonction de r´partition empirique (cf fig 1.2) e 10
  12. 12. 1.0 0.9 Fraction of Data 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 4 5 6 7 8 Variable étudiée Figure 1.2: Ce graphique est homog`ne au graphique des fr´quences cu- e e mul´es pour une variable qualitative. La variable ´tudi´e est repr´sent´e sur e e e e e l’axe des abscisses. L’axe des ordonn´es donne le pourcentage de donn´es de e e l’´chantillon inf´rieures ou ´gales ` l’abscisse. e e e a Pplot (Probability plot) aussi appel´ dans le cas de la loi normale droite de e Henry. (cf fig 1.3). Toutes les fonctions de r´partition se ressemble, ce sont e des courbes croissantes en g´n´ral sigmo¨ e e ıdale. En bref, elles ne permettent pas facilement d’identifier une loi. L’id´e des Pplot est de d´former l’axe e e des ordonn´es de telle fa¸on que si la loi empirique est proche de la loi que e c l’on cherche ` identifier alors les points sont ` peu pr´s align´s. Le Pplot a a e e le plus courant est la droite de Henry qui permet de reconnaˆ la loi nor- ıtre male. Formellement voil` comment cela marche. Notons F a ˆ (x) la fonction de r´partition empirique construite avec notre ´chantillon. On pense que e e cette fonction de r´partition est proche de la fonction de r´partition de la loi e e 11
  13. 13. normale N (m, σ 2 ) (cf paragraphe refgauss0 pour plus de d´tails). On pense e ˆ (x) donc que F Φ σ x−m o` Φ est la fonction de r´partition de la la loi u e ˆ normale N (0, 1). Si F (x) Φ x−m alors Φ−1 F (x) ˆ x−m . En d’autres σ σ ˆ termes, si F (x) est proche de la fonction de r´partition de la loi normale e alors le graphique de Φ −1 ˆ (x) contre x devrait nous donner une droite F d’´quation x−m . Les points devraient donc se situer autour de cette droite si e σ la distribution est gaussienne (aux effets de bords pr´s). e 3 Expected Value for Normal Distribution 2 1 0 -1 -2 -3 4 5 6 7 8 Variable étudiée Figure 1.3: Ce graphique nous montre clairement que cette distribution ne peut pas ˆtre consid´r´e comme gaussienne, il y a trop de courbure. e ee 12
  14. 14. Chapitre 2 Le zoo des lois de probabilit´ e Une des notions fondamentales des statistiques est celle de variable al´atoire. e On consid`re un ensemble d’individus qui sera appel´ Ω. Un individu de cet e e ensemble sera not´ ω. On note X(ω) une caract´ristique de l’individu ω. Par e e exemple, Ω est l’ensemble des bact´ries que l’on trouve dans du lait de mam- e mites, ω est une bact´rie particuli`re et X(ω) est type de la bact´rie ω. La e e e quantit´ X(.) est appel´e variable al´atoire (en g´n´ral on note v.a.). Les e e e e e valeurs possibles que peut prendre X(ω) quand ω ∈ Ω d´termine la nature e 1 de la variable al´atoire. Ainsi, si X(ω) prend ses valeurs dans IR, on parlera e de variable al´atoire continue, si X(.) prend ses valeurs dans un ensemble e fini ou d´nombrable, X(.) sera alors appel´e v.a. discr`te. e e e En r´sum´, e e X : Ω −→ E ω −→ X(ω) Quelques exemples de variables al´atoires : e 1) le nombre d’´tudiants pr´sents au cours de stat ; e e 2) le nombre de vaches qui ont une mammite dans un ´levage ; e 3) le pourcentage de r´ussite aux examens ; e 4) le temps pendant lequel un animal est porteur d’une maladie ; 1 Pour simplifier les notations, on note g´n´ralement X au lieu de X(ω). Par la suite, e e cet abus de notation sera abondamment utilis´e 13
  15. 15. 5) la temp´rature d’un chien; e 6) les concentrations en fer et en cuivre dans le sang d’un animal sain. Les trois premi`res v.a. sont discr`tes, et ne peuvent prendre que des e e valeurs qu’il est possible d’´num´rer d’avance. En revanche, les v.a. 4), e e 5), 6) sont continues. La variable al´atoire 6) est une va ` deux dimen- e a sions. Nous adopterons dor´navant la convention suivante : les lettres ma- e juscules d´signeront les variables al´atoires, les lettres minuscules d´signeront e e e les valeurs que peuvent prendre les variables al´atoires. e L’´tude des lois de probabilit´ usuelles est en fait l’´tude de la distribution e e e des valeurs que peut prendre une variable al´atoire. e 2.1 Lois de probabilit´ discr`tes e e Pour compl`tement d´finir une loi de probabilit´ d’une va discr`te X, il suffit e e e e de d´finir la probabilit´ d’occurrence de chaque valeur k que peut prendre e e cette va. En d’autres termes, la donn´e des quantit´s P (X = k) et ceci pour e e toutes les valeurs k possibles d´terminent une loi de proba particuli`re. De e e fa¸on ´quivalente, pour compl`tement caract´riser une loi de proba, il suffit c e e e de d´finir sa fonction de r´partition , d´finie par : e e e F (n) = P (X ≤ k). k≤n Cette fonction s’interpr`te comme la probabilit´ que la va X soit au plus e e ´gale ` n. C’est ´videmment une fonction positive et croissante (on ajoute e a e des probabilit´s qui sont des quantit´s positives ou nulles). Pour illustrer ce e e qu’elle repr´sente, prenons un petit exemple. Supposons que X est le nombre e de clients d’un v´t´rinaire le mardi matin. La va X est discr`te et ne peut ee e prendre que les valeurs k = 0, 1, . . . , 10. Supposons de plus que la distribution de X est donn´e par e k 0 1 2 3 4 5 6 7 8 9 10 P (X = k) 0.01 0.03 0.09 0.14 0.17 0.17 0.15 0.11 0.07 0.04 0.02 14
  16. 16. alors la fonction de r´partition est donn´e par e e n 0 1 2 3 4 5 6 7 8 9 10 F (n) 0.01 0.04 0.13 0.27 0.45 0.62 0.77 0.88 0.94 0.98 1.00 Fonction de Répartition 1 0.9 0.8 0.7 0.6 F(n) 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 4 5 6 7 8 9 10 n Figure 2.1: Fonction de r´partition du nombre de clients d’un v´t´rinaire le e ee mardi matin Il est bien ´vident que si le nombre de valeurs que peut prendre la vari- e able al´atoire est tr`s ´lev´, il peut ˆtre tr`s fastidieux (voire impossible) e e e e e e de donner toutes ces probabilit´s. Or, comme nous allons le voir, les lois e de proba usuelles sont en fait d´finies par un petit nombre de param`tres e e : les moments de la loi de proba. Pour d´finir les moments, nous avons e besoin d’un op´rateur appel´ esp´rance math´matique qui est not´ IE. Cet e e e e e 15
  17. 17. op´rateur plac´ devant une variable al´atoire, fournit la moyenne de cette e e e variable, ainsi la quantit´ IE(X) est d´finie par e e IE(X) = kP (X = k) k Dans notre exemple, le nombre de clients moyen du v´t´rinaire le mardi ee matin est donn´ par e IE(X) = 0 × 0.01 + 1 × 0.03 + 2 × 0.09 + 3 × 0.14 + 4 × 0.17 + 5 × 0.17 + 6 × 0.15 + 7 × 0.11 + 8 × 0.07 + 9 × 0.04 + 10 × 0.02 = 4.95 Plus g´n´ralement, on peut d´finir l’esp´rance math´matique de n’importe e e e e e quelle fonction Φ (ayant de bonnes propri´t´s) de la va X ainsi, ee IE(Φ(X)) = Φ(k)P (X = k) k On peut maintenant d´finir le moment d’ordre p par : e IE(X p ) = k p P (X = k). k Le moment centr´ d’ordre p est d´fini par e e mp = IE((X − IE(X))p ) = (k − IE(X))p P (X = k). k Vous connaissez d´j` le moment centr´ d’ordre 2 qui est aussi appel´ vari- ea e e ance. Nous reviendrons un peu plus loin sur l’interpr´tation pratique de cet e indice ainsi que sur celle des moments centr´s d’ordre 3 et 4. Dans l’exemple e pr´c´dent, la variance du nombre de clients du mardi matin est donn´e par e e e IE((X − IE(X))2 ) = (0 − 4.95)2 × 0.01 + (1 − 4.95)2 × 0.03 + (2 − 4.95)2 × 0.09 + (3 − 4.95)2 × 0.14 + (4 − 4.95)2 × 0.17 + (5 − 4.95)2 × 0.17 + (6 − 4.95)2 × 0.15 + (7 − 4.95)2 × 0.11 + (8 − 4.95)2 × 0.07 + (9 − 4.95)2 × 0.04 + (10 − 4.95)2 × 0.02 = 4.6275 Nous pouvons maintenant passer ` l’inventaire des lois de probabilit´s les a e plus courantes. 16
  18. 18. 2.1.1 Loi de Bernoulli C’est la loi de probabilit´ la plus simple: l’individu ω peut se trouver dans e deux ´tats (en g´n´ral not´s 0 et 1). e e e e Exemple : Ω est l’ensemble des bact´ries dans du lait de mammite, ω est une e bact´rie particuli`re, X(ω) = 0 si la bact´rie ω est gram (-) et, X(ω) = 1 e e e si la bact´rie ω est gram (+). La loi de probabilit´ de X est enti`rement e e e d´termin´e par la seule donn´e du nombre P (X(ω) = 0) = p qui permet e e e de d´duire que P (X(w) = 1) = 1 − p. On dit alors que la v.a. X suit e une loi de BERNOULLI de param`tre p. On peut interpr´ter p dans notre e e exemple comme la probabilit´ qu’une bact´rie donn´e soit gram (-). La loi e e e de BERNOULLI nous sera essentiellement utile pour d´finir d’autres lois de e probabilit´. e 2.1.2 Loi binomiale Une v.a. qui suit une loi binomiale ne peut prendre qu’un nombre fini de valeurs que nous noterons N . Pour illustrer l’utilisation de la loi binomiale, prenons l’ exemple suivant : supposons que la pr´valence de la dysplasie de e la hanche chez le CN est de p (la proportion de CN non porteur de cette anomalie est donc de 1 − p). A l’´cole v´t´rinaire, il passe par an N CN, e ee on note X le nombre de CN porteurs de la dysplasie de la hanche parmi les N trait´s ` l’´cole. On suppose que l’´cole a une chance ´gale d’ˆtre choisie e a e e e e comme centre de traitement par les propri´taires de CN ` dysplasie de la e a hanche. Alors, P (X = k) = CN pk (1 − p)N −k et ceci pour k = 0, 1...N. k k N! CN = est le nombre de “paquets de k que l’on peut faire parmi k!(N − k)! N ”. k Une propri´t´ ´l´mentaire de CN est e eee CN = CN −k . k N 17
  19. 19. Le nombre moyen de CN porteur de la dysplasie que l’on peut trouver au cours d’une ann´e ` l’´cole v´to est donn´ par IE(X) = N p. En d’autres e a e e e termes si la pr´valence de la dysplasie de la hanche est de p = 0.1, et s’il passe e dans les cliniques de l’´cole N = 500 CN par an, on trouvera en moyenne e N p = 500 0.1 = 50 CN porteurs de cette anomalie. Il est bien ´vident que e le nombre de CN porteurs trouv´s sur les 500 examin´s par an ne sera pas e e toujours ´gal ` 50. Il y a donc des variations de CN porteurs qui seront e a observ´s ` l’´cole. Un indice mesure ces variations c’est la variance. La e a e variance d’une loi binomiale est donn´e par e V ar(X) = N p(1 − p). Tr`s souvent la quantit´ 1−p est not´e q ; ceci explique le fait que V ar(X) = e e e N pq.Quand X suit une loi binomiale de param`tre N et p on note e X ∼ B(N, p). Le graphique 2.2 montre les formes caract´ristiques d’une loi binomiale en e fonction des valeurs du param`tre p. e Remarque Il existe une autre fa¸on de construire la loi binomiale. Voyons c sur l’exemple des bact´ries comment proc´der. e e On consid`re N bact´ries. Chaque bact´rie a une probabilit´ p d’ˆtre gram (- e e e e e ), ` chaque bact´rie on fait correspondre une v.a. de Bernoulli de param`tre a e e p qui prend la valeur 0 si elle est gram (-) et 1 si elle est gram (+). On appelle Xi la variable al´atoire attach´e ` la ii`me bact´rie. En supposant e e a e e que les bact´ries sont ind´pendantes on a: e e n X= Xi ∼ B(n, p). i=1 X repr´sente ici le nombre total de bact´ries gram (+) parmi les N con- e e sid´r´es. ee 18
  20. 20. 0.45 0.4 0.35 p=0.1 0.3 p=0.2 p=0.3 0.25 p=0.4 P(X=k) p=0.5 0.2 0.15 0.1 0.05 0 0 1 2 3 4 5 6 7 8 9 10 k Figure 2.2: Forme de la loi binomiale pour diff´rentes valeurs du param`tre e e p. 2.1.3 Loi hyperg´om´trique e e Pour bien faire comprendre la loi hyperg´om´trique prenons un petit exemple. e e Supposons que vous ayez ` ´valuer la pr´valence des mammites de la vache ae e en Midi-Pyr´n´es. On sait que dans cette r´gion il y a N vaches. Parmi ces e e e vaches N1 sont atteintes et N2 sont saines (on a ´videmment N1 + N2 = N.) e Vous ne pouvez pas contrˆler toutes les vaches de Midi-Pyr´n´es, vous ˆtes o e e e donc oblig´ de prendre un ´chantillon de taille n < N. On appelle X le nom- e e bre de vaches ` mammite que vous avez trouv´ dans votre ´chantillon. X 2 a e e est une quantit´ al´atoire, en effet, si vous faites plusieurs fois des ´chantillons e e e de taille n, vous ne retrouvez pas ` chaque fois le mˆme nombre de vaches a e atteintes. On s’interesse aux probabilit´s suivantes P (X = k) k varie entre e n 0 et N1 ∧ n. Il y a CN fa¸ons de tirer un ´chantillon de taille n parmi les N c e vaches de M.P. 2 X est ici mis pour X(ω). ω repr´sente un tirage de n vaches e 19
  21. 21. k CN1 est le nombre de fa¸ons de tirer k vaches ` mammites parmi les N1 c a n−k pr´sentes en M.P. et enfin CN2 est le nombre de fa¸ons de tirer n − k vaches e c saines parmi N2 pr´sentes en M.P. e On en d´duit que e cas probables k n−k CN CN P (X = k) = = 1 n CN 2 si k ≤ N1 et n − k ≤ N2 cas possibles = 0 sinon La variable al´atoire X suit une loi hyperg´om´trique. Quand X suit une loi e e e hyperg´om´trique de param`tres N, n, N1 on note, e e e N1 X ∼ H(N, n, ). N Sa moyenne est donn´e par e N1 IE(X) = n N et sa variance par N1 N2 N − n V ar(X) = n N N N −1 On peut noter que lorsque N −→ ∞, si N1 −→ p (p est le pourcentage vache N atteintes pr´sentes parmi les N ` contrˆler) alors e a o N1 H(N, n, ) −→ B(n, p). N En d’autres termes, si le nombre total de vaches en MP est tr`s ´lev´, on peut e e e utiliser la loi binomiale (plus simple) ` la place de la loi hyperg´om´trique. a e e 2.1.4 Loi de Poisson ou loi des ´v´nements rares e e Une va qui suit une loi de poisson peut prendre une infinit´ de valeurs. e On dit que la va X suit une loi de poisson de param`tre λ, et on note e X ∼ P(λ), si λk P (X = k) = e−λ , k = 0, 1, ... k! 20
  22. 22. La moyenne d’une va qui suit une loi de poisson est ´gale ` IE(X) = λ, sa e a variance est V ar(X) = λ. Le graphique ci-dessous montre les diff´rentes formes de distribution d’une e loi de poisson en fonction de la valeur du param`tre e 0.4 0.35 0.3 ¤¢  £ ¡ ¦¢  ¥ ¡ 0.25 ¨¢  § ¡ P(X=k) 0.2 ¢¢  © ¡ ¦¢  ¡ 0.15 0.1 0.05 0 0 2 4 6 8 10 12 14 k Figure 2.3: Loi de poisson pour diff´rentes valeurs de λ e La loi de poisson est souvent utilis´e pour approximer certaines lois discr`tes. e e On l’appelle aussi loi des ´v´nements rares. En effet, si X est le nombre de fois e e o` apparaˆ un ´v´nement de probabilit´ tr`s petite (p), alors la loi de X peut u ıt e e e e ˆtre approxim´e par une loi de poisson. Prenons un exemple pour illustrer ce e e ph´nom`ne. Soit une maladie dont la pr´valence est tr`s petite (p = 0.01) On e e e e tire un ´chantillon de taille 100 et on s’interesse ` la distribution du nombre e a 21
  23. 23. de sujets atteints trouv´s dans l’´chantillon (not´ X). En d’autres termes, e e e on veut calculer (Bi) P (X = k) = C100 (0.01)k (1 − 0.01)100−k . k Il est bien ´vident que le calcul d’une telle probabilit´ n’est pas si facile ` e e a k cause du terme C100 (pour vous en convaincre essayez de calculer avec votre 50 calculette C100 ). L’id´e est alors d’approximer la quantit´ (Bi) par une e e quantit´ plus facilement calculable: e (100 × 0.01)k P (X = k) = C100 (0.01)k (1 − 0.01)100−k k e−100×0.01 k! Plus g´n´ralement, si X ∼ B(N, p), si N est grand, si p est petit et si N p e e est raisonnable on peut approximer la loi B(N, P ) par une loi de poisson de param`tre λ = N p. Ces conditions sont ´videmment tr`s vagues. Les condi- e e e tions usuelles sous lesquelles on consid`re que la qualit´ de l’approximation e e est “raisonnable” sont les suivantes : N 30, et N p 5. D’autres valeurs de ces param`tres peuvent ˆtre tout ` fait acceptables pour peu que vous ne e e a soyez pas trop regardant sur la qualit´ d’approximation de certaines proba- e bilit´s. e La loi de poisson est souvent utilis´e pour mod´liser des quantit´s dont la e e e variance est ` peu pr´s ´gale ` la moyenne. Lorsque la variance est sup´rieure a e e a e ` la moyenne, on utilise dans certains cas la loi Binomiale n´gative. a e 2.1.5 Loi binomiale n´gative e Une va qui suit une loi binomiale n´gative peut prendre un nombre infini de e valeurs. On dit que la va X suit une loi binomiale n´gative de param`tre N e e et p si k pk P (X = k) = CN +k−1 , k = 0.. (1 + p)n+k Sa moyenne est ´gale ` IE(X) = N p et sa variance V ar(X) = N p(1 + p). On e a peut remarquer que ces distributions sont d’autant plus surdispers´es que e p est grand. Le graphique suivant montre comment varie les distributions binomiales n´gatives quand p varie. e 22
  24. 24. 0.4 0.35 0.3 p=0.1 p=0.2 0.25 p=0.3 p=0.4 P(X=k) 0.2 p=0.5 0.15 0.1 0.05 0 0 2 4 6 8 10 12 14 k Figure 2.4: Loi binomiale n´gative pour diff´rentes valeurs de p. Plus p e e augmente plus la loi est surdispers´e e 2.1.6 Loi de Pascal Une va qui suit une loi de pascal peut prendre une infinit´ de valeurs. On e dit que la va X suit une loi de Pascal de param`tre p si e P (X = k) = p (1 − p)k−1 , k = 1, 2, ... Pour illustrer son utilisation, reprenons l’exemple de la dysplasie de la hanche chez le CN. Supposons que l’´cole a une chance ´gale d’ˆtre choisie comme e e e centre de traitement par les propri´taires de CN ` dysplasie de la hanche. e a Notons p la pr´valence de cette anomalie et X le nombre de CN ` examiner e a 23
  25. 25. avant d’en trouver un atteint, alors si on pose q = 1 − p, on a: P (X = 1) = p, P (X = 2) = pq..., P (X = k) = pq k−1 . Le nombre moyen de CN ` examiner avant d’en trouver un atteint est a 1 IE(X) = , p la variance de ce nombre est q V ar(X) = . p2 2.2 Quelques lois de probabilit´ continues e 2.2.1 Quelques d´finitions pr´liminaires e e Dans l’´tude des lois de proba continues, il apparaˆ une nouvelle quantit´ : e ıt e la densit´ de probabilit´. e e Pour bien comprendre ce dont il s’agit, imaginons que l’on s’interesse ` l’´tude a e de la distribution de la taille des Fran¸ais. Pour ´tudier cette distribution, on c e fait des classes de tailles, et on compte le pourcentage d’individus qui apparti- ennent ` cette classe. Une repr´sentation graphique de cette distribution est a e donn´e par l’histogramme qui sera revu au chapitre suivant.Supposons main- e tenant que le nombre d’individus de la population d’int´rˆt (ici les Fran¸ais) ee c est infini. Un histogramme avec un nombre fini de classes nous donne une pi`tre information sur la distribution de la taille. Pour ˆtre plus pr´cis on e e e augmente le nombre de classes et on diminue la taille de chaque classe. On obtient ainsi un histogramme plus pr´cis. Que se passe t-il quand le nom- e bre de classes tend vers l’infini et que la taille de chaque classe tend vers z´ro ? e On obtient une courbe limite, cette courbe limite est en fait une repr´sentation e graphique d’une fonction (not´e f ) que nous appellerons densit´ de proba- e e bilit´. e Il est clair que par construction, cette fonction poss`de un certain nombre de e propri´t´s: ee - elle est positive ou nulle (en effet la valeur de cette fonction en un point x 24
  26. 26. repr´sente en quelque sorte le pourcentage d’individus qui mesure x) e - la surface totale sous cette courbe est ´gale ` 1 ; la surface sous la courbe e a repr´sente le pourcentage cumul´ de tous les individus (par d´finition il vaut e e e 1). La fonction de r´partition F est d´finie ` partir de la densit´ de proba de la e e a e fa¸on suivante : c x F (x) = f (t)dt −∞ La quantit´ F (x) repr´sente donc le cumul des pourcentages d’individus dont e e la taille est inf´rieure ` x. Ce constat nous permet de d´finir la fonction de e a e r´partition par e F (x) = P (X ≤ x). Par d´finition F (x) est donc toujours un nombre compris entre z´ro et un, e e et la fonction x −→ F (x) est une fonction croissante (c’est un cumul de pourcentages). De plus on a F (+∞) = 1 (on l’a d´j` dit) et F (−∞) = 0. ea Soit ∆x un accroissement infinit´simal de la taille, alors la quantit´ e e F (x + ∆x) − F (x) ∆x repr´sente en quelque sorte le pourcentage d’individus dont la taille est com- e prise entre x et x + ∆x, et en faisant tendre ∆x −→ 0 on obtient F (x + ∆x) − F (x) lim = f (x). ∆x→0 ∆x En d’autres termes, la d´riv´e de la fonction de r´partition est la densit´ e e e e de probabilit´.Tout comme dans le cas discret, il est possible de d´finir les e e moments d’une loi de probabilit´. Ce sont en g´n´ral ces quantit´s dont nous e e e e nous servirons en statistique pour travailler. Le moment d’ordre 1 d’une loi de probabilit´ est d´fini quand il existe 3 par e e IE(X) = xf (x)dx IR 3 Il existe certaines lois de proba dont les moments sont infinis par exemple la loi de Cauchy 25
  27. 27. On reconnaˆ ici l’analogue continu de la d´finition donn´e dans le paragraphe ıt e e pr´c´dent. Il suffit en effet de changer le signe par le signe e e pour retrouver la mˆme formule. De mˆme, le moment centr´ d’ordre p est d´fini par e e e e mp = IE((X − IE(X))p ) = (x − IE(X))p f (x)dx IR Le moment centr´ d’ordre 2 est aussi appel´ variance, les moments centr´s e e e d’ordre 3 et 4 sont respectivement appel´s kurtosis et skewness. e 2.2.2 Loi normale ou de Laplace Gauss La loi normale joue un rˆle particuli`rement important dans la th´orie des o e e probabilit´s et dans les applications pratiques. La particularit´ fondamen- e e tale de la loi normale la distinguant des autres lois est que c’est une loi limite vers laquelle tendent les autres lois pour des conditions se rencontrant fr´quemment en pratique.On peut montrer que la somme d’un nombre suff- e isamment grand de va ind´pendantes (ou faiblement li´es) suivant des lois e e quelconques (ou presque), tend vers une loi normale et ceci avec d’autant plus de pr´cision que le nombre de termes de cette somme est important. e La majorit´ des va que l’on rencontre en pratique, comme par exemple des e erreurs de mesures, peuvent souvent ˆtre consid´r´es comme des sommes e ee d’un nombre important de termes, erreurs ´l´mentaires, dues chacune ` une ee a cause diff´rente ind´pendante des autres. Quelque soit la loi des erreurs e e ´l´mentaires, les particularit´s de ces r´partitions n’apparaissent pas dans la ee e e somme d’un grand nombre de celles-ci, la somme suivant une loi voisine de la loi normale. La loi normale est caract´ris´e par sa densit´ de probabilit´. Pour une loi e e e e 2 normale de moyenne m et de variance σ , elle est donn´e par e 1 (x−m)2 f (x) = √ e− 2σ2 . 2πσ La courbe repr´sentative de la densit´ a la forme d’une courbe en cloche e e sym´trique. Le graphique 2.5 montre comment varie la densit´ d’une loi nor- e e male, quand la variance est fix´e, en fonction de sa moyenne (ici m1 m2 .) e 26
  28. 28. Le graphique 2.6 montre comment varie la densit´ d’une loi normale ( ` e a moyenne fix´e) quand la variance augmente : Les variances des lois I, II, e III sont de plus en plus ´lev´es. e e m1 m2 Figure 2.5: Un exemple de deux lois normales. Les deux lois ont la mˆme e variance. La moyenne m1 de la premi`re loi est inf´rieure ` celle m2 de la e e a seconde La fonction de r´partition de la loi normale est d´finie ` partir de la densit´ e e a e par : x 1 (t−m)2 F (x) = √ e− 2σ2 dt = P (X x) = P (X ≤ x). −∞ 2πσ 27
  29. 29. Loi I Loi II Loi III Figure 2.6: Les trois lois ont la mˆme moyenne. Les variances des lois I, II, e III sont de plus en plus ´lev´es. e e Cette derni`re propri´t´ traduit g´om´triquement le fait qu’une probabilit´ e ee e e e peut s’interpr´ter comme la surface sous la courbe densit´ comme l’indique e e le graphique 2.7: Il n’existe pas d’expression alg´brique donnant l’aire sous la courbe en fonc- e tion de x. Il faut donc utiliser des valeurs tabul´es. Comme il est impossible e d’avoir autant de tables que de valeurs possibles de m et de σ 2 , on a recours a l’astuce suivante : supposons que X est une va suivant une loi normale de moyenne m et de X −m variance σ 2 (on note X ∼ N (m, σ 2 ), alors la quantit´ e suit une loi σ N (0, 1). On en d´duit que si F repr´sente la fonction de r´partition de la e e e 28
  30. 30. F(x)=P(X@ x) x Figure 2.7: Une probabilit´ s’interpr`te comme la surface sous la courbe e e repr´sentant la densit´ e e N (m, σ 2 ) et Φ la fonction de r´partition de la N (0, 1) alors : e P (a X b) = F (b) − F (a) = P (a − m X − m b − m) = P ( a−m σ X−m σ b−m σ ) = Φ( b−m ) − Φ( a−m ). σ σ remarque : Par d´finition Φ est une fonction croissante et on a Φ(+∞) = 1 e et Φ(−∞) = 0. 2.2.3 Loi du χ2 Cette loi nous sera tr`s utile pour ´tudier la distribution des variances. e e Elle est construite ` partir de la loi normale de la fa¸on suivante : Soient a c 29
  31. 31. X1 , X2 , . . . , Xn n va ind´pendantes de mˆme loi N(0,1), et soit e e n 2 2 2 K= X1 + X2 + ... + Xn = Xi2 i=1 alors, K suit une loi du Khi 2 ` n degr´s de libert´ (K ∼ χ2 ). On peut a e e n 2 remarquer qu’une va qui suit une loi du χ est par construction toujours positive ou nulle (c’est une somme de carr´s). La densit´ de probabilit´ e e e 2 d’une loi du χ est asym´trique (reportez vous aux tables que je vous ai e donn´es pour en avoir une id´e). e e 2.2.4 Loi de Student La loi de Student est construite ` partir de la loi normale et de la loi du Khi a 2. Nous l’utiliserons intensivement pour faire des tests d’hypoth`ses. e 2 Soient X une va de loi N(0,1), et K une va qui suit une loi du χn (Khi 2 ` na degr´s de libert´). On suppose de plus que K et X sont ind´pendantes. Soit e e e X Tn = , K n alors Tn suit une loi de student ` n degr´s de libert´. a e e 2.2.5 Loi de Fisher Tout comme la loi de student, la loi de Fisher sera tr`s utilis´e par la suite. e e Voyons en rapidement sa construction. Soient K1 et K2 deux variables al´atoires ind´pendantes de loi respectives e e 2 2 χn et χp , alors la quantit´ e K1 /n Fn,p = K2 /p suit une loi de Fisher ` n et p degr´s de libert´. Il faut faire tr`s attention ` a e e e a l’ordre des degr´s de libert´. Le premier degr´ de libert´ (ici n) est le degr´ e e e e e de libert´ du num´rateur, alors que le second (p) est celui du d´nominateur. e e e 30
  32. 32. 2.3 Quelques remarques sur l’op´rateur IE e L’op´rateur IE est un op´rateur lin´aire en d’autres termes, si X et Y sont e e e des va avec de ”bonnes propri´t´s”, et si α, β et γ sont des r´els, alors ee e IE(αX + βY + γ) = αIE(X) + βIE(Y ) + γ et ceci que les variables al´atoires X et Y soient ind´pendantes ou pas. En e e revanche, l’op´rateur variance (not´ Var) construit avec l’op´rateur IE de la e e e fa¸on suivante c V ar(X) = IE((X − IE(X))2 ) n’est pas un op´rateur lin´aire. On peut constater que par d´finition, c’est e e e un op´rateur positif. La condition n´cessaire et suffisante pour que V ar(X) e e soit nulle, est que X soit d´terministe c’est ` dire non al´atoire. On a de e a e plus des propri´t´s suivantes: si α ∈ IR, alors ee V ar(αX) = α2 V ar(X) Si X et Y sont deux variables al´atoires ind´pendantes, alors e e V ar(X + Y ) = V ar(X) + V ar(Y ) et par cons´quent e V ar(αX + βY + γ) = α2 V ar(X) + β 2 V ar(Y ) + V ar(γ) = α2 V ar(X) + β 2 V ar(Y ) + 0. Si les variables al´atoires X et Y ne sont pas ind´pendantes, alors e e V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ) o` Cov(X, Y ) = IE((X − IE(X))(Y − IE(Y ))) est la covariance entre X et Y . u On voit donc que lorsque les variables al´atoires ne sont pas ind´pendantes, il e e apparaˆ un terme suppl´mentaire dans le calcul de la variance. On pourrait ıt e ˆtre tent´ de prendre la covariance comme une mesure d’ind´pendance. Ceci e e e 31
  33. 33. est en g´n´ral faux sauf dans le cas o` les va X et Y sont normalement e e u distribu´es. En r´sum´ : e e e si X et Y sont ind´pendantes alors Cov(X, Y ) = 0, e si Cov(X, Y ) = 0 et si X et Y sont des va gaussiennes alors X et Y sont ind´pendantes. e La quantit´ e Cov(X, Y ) ρ(X, Y ) = V ar(X) V ar(Y ) est un nombre sans dimension appel´ coefficient de corr´lation e e lin´aire de Pearson. Nous voyons que si X et Y sont gaussi- e ennes et si ρ(X, Y ) = 0, alors les variables al´atoires X et Y e sont ind´pendantes. Nous l’utiliserons dans le paragraphe suiv- e ant consacr´ ` la loi normale ` 2 dimensions. ea a 2.4 Lois ` deux dimensions a 2.4.1 G´n´ralit´s e e e Tout comme dans le cas unidimensionnel, les lois ` plusieurs dimensions sont a caract´ris´es par leur e e - fonction de r´partition, e - densit´, e - moments. On appelle fonction de r´partition du couple de va (X, Y ) la probabilit´ e e de v´rification simultan´e des deux in´galit´s (X x) et (Y y): e e e e F (x, y) = P ((X x)(Y y)). En interpr´tant le couple (X, Y ) comme un point al´atoire dans le plan, on e e voit que la fonction de r´partition F (x, y) n’est rien d’autre que la probabilit´ e e pour que le point al´atoire (X, Y ) appartienne au quadrant de sommet le e point (x, y), situ´ ` gauche et en bas de celui-ci (cf fig 2.8). ea 32
  34. 34. F(x,y)=P((X@ x) et (Y@ y)) y x Figure 2.8: La probabilit´ F (x, y) s’interpr`te comme la probabilit´ pour que e e e le point al´atoire (X, Y ) appartienne au quadrant de sommet le point (x, y), e situ´ ` gauche et en bas de celui-ci ea 1) Cette interpr´tation g´om´trique, permet de voir que si x augmente, ou si e e e y augmente, la fonction F (x, y) augmente aussi. 2) Partout en −∞ la fonction de r´partition est ´gale ` z´ro : e e a e F (x, −∞) = F (−∞, y) = F (−∞, −∞) = 0. Pour avoir cette propri´t´, il suffit de d´placer ind´finiment la limite sup´rieure ee e e e (ou la limite droite ) du quadrant de la figure pr´c´dente vers −∞; la prob- e e abilit´ de tomber dans ce quadrant tend alors vers 0. e 3) Lorsque un des arguments vaut +∞, la fonction de r´partition du cou- e ple de va devient alors une fonction de r´partition correspondant ` l’autre e a 33
  35. 35. argument : F (x, +∞) = F1 (x), F (+∞, y) = F2 (y), o` F1 (x), F2 (y) sont respectivement les fonctions de r´partition des vari- u e ables al´atoires X et Y . On peut facilement s’en rendre compte en faisant e x −→ +∞, ou y −→ +∞ ; ` la limite le quadrant devient un demi-plan, a la probabilit´ de tomber dans ce demi-plan est donn´e par la fonction de e e r´partition de la variable respective. e 4) Si les deux arguments sont ´gaux ` +∞, la fonction de r´partition du e a e couple de va est ´gale ` 1 : e a F (+∞, +∞) = 1. En effet, on obtient alors le plan tout entier et le point (X, Y ) s’y trouve certainement. De fa¸on analogue, le point (X, Y ) peut se trouver dans un c domaine quelconque D dans le plan. La probabilit´ P ((X, Y ) ∈ D) ne e s’exprime alors pas simplement ` partir de la fonction de r´partition F sauf a e dans quelques cas tr`s particuliers sur lesquels nous reviendrons.Densit´ de e e probabilit´e Soit un couple de va continues (X, Y ) interpr´t´ comme un point al´atoire ee e de ce plan. Consid´rons dans ce plan un petit rectangle R∆ dont les cot´s e e sont ∆x et ∆y avec un sommet au point x, y. La proba de tomber dans ce rectangle est P ((X, Y ) ∈ R∆ ) = F (x + ∆x, y + ∆y) − F (x + ∆x, y) − F (x, y + ∆y) + F (x, y) En divisant la proba de tomber dans le rectangle R∆ par l’aire de ce rectangle, on obtient P ((X, Y ) ∈ R∆ ) lim ∆x− ∆y− →0 →0 ∆x∆y 34
  36. 36. P((X , Y )∈ R∆ ) = F(x + ∆x, y + ∆y)-F(x + ∆ x, y) -F(x, y + ∆ y) + F(x, y) y+ y R   y x x+ x Figure 2.9: La densit´ s’obtient en faisant des accroissements infinit´simaux e e de la fonction de r´partition e F (x + ∆x, y + ∆y) − F (x + ∆x, y) − F (x, y + ∆y) + F (x, y) = lim ∆x− ∆y− →0 →0 ∆x∆y Si on suppose que la fonction F est d´rivable, le second membre de la e pr´c´dente in´galit´ est alors la d´riv´e partielle seconde mixte de F . D´signons e e e e e e e cette d´riv´e par f (x, y): e e ∂ 2 F (x, y) f (x, y) = = Fxy (x, y) ∂x∂y La fonction f est la densit´ de proba du couple (X, Y ), en d’autres termes, e P ((X, Y ) ∈ D) = f (x, y)dxdy (x,y)∈D De toutes les distributions de couple de va, la plus fr´quemment utilis´e est e e la loi normale aussi nous contenterons nous d’´tudier la loi normale. e 35
  37. 37. 2.4.2 Loi normale a deux dimensions Dans la suite, nous supposons que le couple (X, Y ) suit une loi normale ` deux dimensions. La loi normale ` deux dimensions est d´finies par 5 a a e param`tres : e sa moyenne (mx , my ) et sa matrice de variance-covariance : 2 σx Cov(X, Y ) V = 2 Cov(X, Y ) σy 2 2 avec mx = IE(X), my = IE(Y ) et σx = V ar(X), σy = V ar(Y ). On voit donc que si les va X et Y sont ind´pendantes, la matrice de variance- e covariance est diagonale. Si on note ρ le coefficient de correlation entre X et Y , la densit´ de la loi e normale ` deux dimensions s’exprime par la formule : a 1 √ f (x, y) = 2πσx σy 1−ρ2 (x−mx )2 (y−my )2 1 exp − 2(1−ρ2 ) 2 σx − 2ρ (x−mσx σy y ) + x )(y−m 2 σy Le graphe de cette fonction est repr´sent´ ` la figure 2.10. e ea En coupant la surface de r´partition par un plan parall`le au plan xOy, on e e obtient une courbe sur laquelle la densit´ est constante en chaque point. En e reprenant l’´quation de la densit´, on voit que la densit´ est constante si et e e e seulement si : (x − mx )2 (x − mx )(y − my ) (y − my )2 2 − 2ρ + 2 = C2 σx σx σy σy o` C est une constante. Vous reconnaissez l’´quation d’une ellipse de centre u e (mx , my ). Si les va sont ind´pendantes (donc si ρ = 0), l’´quation de l’ellipse e e devient (x − mx )2 (y − my )2 2 + 2 = C2 σx σy 36
  38. 38. Figure 2.10: Densit´ de la loi normale ` 2 dimensions e a Ceci est l’´quation d’une ellipse dont les axes sont parall`les aux axes (x, y). e e 2 2 Si de plus σx = σy on obtient alors l’´quation d’un cercle de centre (mx , my ) e 2 et de rayon Cσx . Dans le cas g´n´ral o` ρ = 0, les axes de sym´trie de l’ellipse forme un angle e e u e θ avec l’axe Ox donn´ par e 2ρσx σy tg(2θ) = 2 2 . σx − σy En statistique, on s’interesse tr`s souvent ` des domaines dans lesquels on e a a un certain nombre de chances de trouver un point al´atoire donn´. On e e recherche par exemple des domaines D v´rifiant e P ((X, Y ) ∈ D) = 1 − α 37
  39. 39. o` α est un nombre fix´. Quand la loi du couple (X, Y ) est gaussienne, le u e plus simple est de rechercher le domaine D sous la forme d’une ellipse. On recherche donc D tel que P ((X, Y ) ∈ D) =1−α= (x,y)∈D f (x, y)dxdy 1 √ = (x,y)∈D 2πσx σy 1−ρ2 2 (y−my )2 exp(− 2(1−ρ2 ) [ (x−mx ) − 2ρ (x−mσx σy y ) + 1 σ2 x )(y−m 2 σy ])dxdy x La recherche d’un tel domaine dans ce syst`me de coordonn´es est difficile e e aussi allons nous faire une rotation d’angle 1 2ρσx σy θ = Arctg( 2 2 ) 2 σx − σy on obtient 1 1 (x − mx )2 (y − my )2 P ((X, Y ) ∈ D) = exp(− [ + ])dxdy D 2π˜x σy σ ˜ 2 ˜2 σx ˜2 σy avec σx = σx cos2 θ + ρσx σy sin2θ + σy sin2 θ ˜ 2 σy = σx sin2 θ − ρσx σy sin2θ + σy cos2 θ ˜ 2 apr`s un changement de variables trivial, en passant en coordonn´es polaires, e e on en d´duit que : e +π r0 1 −r 2 P ((X, Y ) ∈ D) = e 2 rdrdθ 2π −π 0 2 √ En conclusion il faut que α = e−r0 /2 soit r0 = −2 ln α. L’ellipse ainsi obtenue est de centre (mx , my ) et fait un angle θ avec Ox et la longueur des demi-axes est donn´e par r0 σx et r0 σy . e ˜ ˜ 38
  40. 40. Chapitre 3 Estimation L’objet de ce chapitre n’est pas de donner une m´thode g´n´rale d’estimation, e e e mais plutˆt d’exposer quelques propri´t´s et d´finitions qui seront reprises o ee e par la suite. 3.1 G´n´ralit´s e e e L’estimation consiste ` rechercher la valeur num´rique d’un ou plusieurs a e param`tres inconnus d’une loi de probabilit´ ` partir d’observations (valeurs e ea prises par la v.a. qui suit cette loi de probabilit´). On utilise pour cela un e estimateur fonction de la v.a. ´tudi´e: quand la v.a. prend comme valeur e e l’observation, la valeur de l’estimateur est appel´e estimation. L’exemple e suivant illustre ces d´finitions. On s’interesse au GMQ des porcs . Sup- e posons que ce GMQ que nous noterons X est distribu´ normalement, en e 2 d’autres termes que X suit une loi N(m, σ ), o` m repr´sente le GMQ moyen u e 2 de toute la population de porcs et σ la variance de la distribution des GMQ. Les param`tres m et σ 2 sont inconnus, l’objet de l’estimation est de trouver e une valeur “raisonnable” pour ces param`tres. Deux possibilit´s s’offrent ` e e a nous:- soit on peut mesurer le GMQ de tous les porcs de la population et, dans ce cas, les param`tres m et σ 2 seront parfaitement connus,- soit la pop- e ulation est trop grande, et, on est oblig´ de travailler sur un ´chantillon.Cet e e 39
  41. 41. ´chantillon va nous donner des informations sur les vraies valeurs (celles de la e population) de m et σ 2 . Supposons que l’on ait ´tudi´ le GMQ (en grammes) e e sur un ´chantillon de taille n=10. Notons X1 , X2 ...X10 , le GMQ des porcs e N ◦ 1, N ◦ 2...N ◦ 10 de cet ´chantillon. e e ¯ La moyenne de l’´chantillon (not´e X) est une “approximation” de la moyenne e ¯ m de la population. X = n n Xi est un estimateur de m. 1 i=1 Num porc 1 2 3 4 5 6 7 8 9 10 GMQ (g) 500 530 560 510 620 560 540 610 600 580 Table 3.1: Table des Gains Moyens Quotidiens observ´s sur un ´chantillon e e de 10 porcs Le mot estimateur se r´f`re au proc´d´ de calcul utilis´ pour approximer ee e e e 1 10 m.¯ = 10 i=1 xi = 561 est une estimation de m. x Le mot estimation se r´f`re ` la valeur num´rique utilis´e pour approximer. ee a e e En g´n´ral un estimateur est une variable al´atoire, en d’autres termes e e e l’estimation du param`tre d´pend des individus pr´sents dans l’´chantillon. e e e e Si un autre ´chantillon avait ´t´ consid´r´, une autre estimation du param`tre e ee ee e aurait ´t´ obtenue. Le choix de l’estimateur se fait selon des crit`res qui ee e mesurent sa proximit´ au param`tre inconnu. Nous allons dans ce qui suit e e pr´senter la liste des crit`res les plus souvent utilis´s pour d´finir les “qualit´s e e e e e ” d’un estimateur. 3.2 Estimateur convergent Une des propri´t´s ´l´mentaires que doit remplir un estimateur est d’ˆtre e e ee e convergent. En d’autres termes, lorsque la taille de l’´chantillon tend vers e l’infini, il faut que l’estimateur se “rapproche” du param`tre qu’il estime. e Il existe plusieurs fa¸ons de mesurer cette proximit´ qui donnent lieu ` la c e a d´finition de plusieurs types de convergence. Notre objectif n’´tant pas ici e e de faire un cours de statistiques fondamentales, nous nous bornerons ` citer a 40
  42. 42. les principaux types de convergence et ` les illustrer ` l’aide des deux exem- a a ples suivants : exemple 1 : Soient X1 , . . . , Xn , n variables al´atoires de mˆme loi N (m, σ 2 ). On s’interesse e e ` la convergence de la moyenne empirique X a ¯ n = 1 n Xi vers m. n i=1 exemple 2 : Soit X une variable al´atoire distribu´e selon une loi B(n, p). On s’interesse e e ` la convergence de pn = X/n vers p. a ˆ Dans un cadre plus g´n´ral, nous noterons Tn un estimateur du param`tre θ e e e obtenu ` partir d’un ´chantillon de taille n qui v´rifie pour tout n, IE(Tn ) = θ a e e (cf paragraphe suivant). D´finition :L’estimateur Tn est convergent en moyenne quadratique si : e V ar(Tn ) −→ 0 quand n −→ ∞. Rappelons que la variance d’une variable al´atoire est d´finie par V ar(Tn ) = e e 2 2 IE(Tn −IE(Tn )) = IE(Tn −θ) . Dire que Tn converge en moyenne quadratique signifie en fait que lorsque n tend vers l’infini la distance moyenne qui s´pare e Tn de θ tend vers 0. ¯ 2 Il est facile d’´tablir que V ar(Xn ) = σ . Par cons´quent lorsque n −→ ∞, e e n ¯ V ar(Xn ) −→ 0. De mˆme V ar(ˆn ) = p(1−p) tend vers 0 quand n tend vers ∞. e p n D´finition :L’estimateur Tn est convergent en probabilit´ si : pour tout e e ε 0 fix´ la quantit´ e e P ( Tn − θ ε) tend vers 0 quand n tend vers ∞ Ce type de convergence peut s’interpr´ter de la fa¸on suivante : Supposons e c que l’on se fixe un intervalle de largeur 2ε centr´ sur θ. Supposons de plus e que nous disposons d’un grand nombre de r´alisations de Tn (obtenu avec e un grand nombre d’´chantillons de taille n). On s’interesse au pourcentage e de ces r´alisations qui “tombent” dans en dehors de cet intervalle. Alors, e l’estimateur Tn converge en probabilit´ vers θ si ce pourcentage tend vers 0 e 41

×