éChantillonnage estimation

7 830 vues

Publié le

2 commentaires
10 j’aime
Statistiques
Remarques
Aucun téléchargement
Vues
Nombre de vues
7 830
Sur SlideShare
0
Issues des intégrations
0
Intégrations
14
Actions
Partages
0
Téléchargements
503
Commentaires
2
J’aime
10
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

éChantillonnage estimation

  1. 1. ÉCHANTILLONNAGE - ESTIMATION - Partie A - Échantillonnage -Lobjectif de cette partie est de répondre à la problématique suivante : comment, à partir dinformations (couplemoyenne-écart-type ou proportion) connues sur une population, peut-on prévoir celles dun échantillon ?Nous distinguerons deux cas : celui où lon étudie une moyenne dans un échantillon et celui où lon étudie uneproportion dans un échantillon.A.1. Étude de la moyenne dun échantillonOn dispose dune population sur laquelle est définie une variable aléatoire X dont on connaît lespérance (ou lamoyenne) m et lécart-type s. Population Moyenne m connue. Ecart-type s connu. m Echantillons de taille n { m1 m2 m3 m4 m5 ... miOn sintéresse aux échantillons de taille n. Auront-ils tous la même moyenne ? Non, certains peuvent êtreconstitués déléments atypiques et avoir une moyenne très différente de celle de la population (surtout siléchantillon est de petite taille).Notons X la variable aléatoire qui, à chaque échantillon de taille n, associe sa moyenne ( X sappelle encore ladistribution des moyennes des échantillons). Que peut-on dire de cette variable aléatoire X ? Théorème Central Limite - Version 1 - (Version faible)Contexte : variable aléatoire X qui suit une loi normale sur la population X Ê N(m ; s)On prélève, au hasard, un échantillon (tirages avec remise(1) ou assimilés) de taille n de moyenne X .Alors la variable aléatoire X suit également une loi normale : æ s ö X Ê Nçm ; ÷ è nø Atténuation de la dispersion par le processus déchantillonnage.(1) Un tirage avec remise est encore appelé "tirage non exhaustif". Si on fait un tirage sans remise (tirage exhaustif), on modifie la taille de lapopulation au fur et à mesure des tirages, ce qui compliquerait les calculs (intervention dun facteur dexhaustivité). Ceci dit, pour des grandespopulations le tirage sans remise sassimile à un tirage avec remise.Statistiques inférentielles - BTS 2ème année - Page 1 G. COSTANTINI http://bacamaths.net/
  2. 2. Démonstration :Notons E = {x1 ; x2 ; ... ; xn} un échantillon de n éléments prélevés au hasard dans la population.Pour tout i compris entre 1 et n, notons Xi la variable aléatoire correspondant à la valeur du i-ème élément xi deléchantillon. Nous savons, par hypothèse, que : E(Xi ) = m et s(Xi ) = sLa moyenne X des n valeurs de léchantillon est : X 1 + X 2 + ... + X n X= nDaprès les propriétés de la loi normale, nous savons quune combinaison linéraire de variables aléatoire quisuivent la loi normale est encore une variable aléatoire qui suit la loi normale. Comme chaque variablealéatoire Xi suit ici la loi normale N(m, s), la variable aléatoire moyenne X suit donc également une loinormale. Calculons ses paramètres.Daprès la propriété de linéarité de lespérance : E ( X 1 ) + E ( X 2 ) + ... + E ( X n ) nm E(X )= = =m n nDaprès les propriétés de la variance : V ( X 1 ) + V ( X 2 ) + ... + V ( X n ) ns 2 s 2 V( X ) = = 2 = n2 n n sDoù : s(X ) = n Théorème Central Limite - Version 2 - (Version forte)Contexte : variable aléatoire X qui suit une loi quelconque sur la population avec E(X) = m et s(X) = s.On prélève, au hasard, un échantillon (tirages avec remise ou assimilés) de taille n, avec n  30, de moyenne X .Alors la variable aléatoire X suit approximativement une loi normale : æ s ö X Ê N çm; ÷ è nøCe théorème dû aux mathématiciens De Moivre et Laplace est de démonstration très difficile. Il est admis ici. sRemarque : il ne faut pas confondre lécart-type de la variable aléatoire X (qui est définie sur lensemble ndes échantillons possibles de taille n) avec lécart-type dun échantillon prélevé. Lécart-type de léchantillon sprélevé ninterviendra pas dans nos calculs dans cette partie. Pour éviter cette confusion, la quantité sera nparfois appelée "erreur type".Exemple :Les statistiques des notes obtenues en mathématiques au BAC STI en France pour lannée 2006 sont : Moyenne nationale : m =10,44 Écart-type : s = 1,46Une classe de BTS comporte 35 élèves en 2006/2007 issus dun BAC STI en 2006.Statistiques inférentielles - BTS 2ème année - Page 2 G. COSTANTINI http://bacamaths.net/
  3. 3. Calculer la probabilité que la moyenne de cette classe soit supérieure à 10.Ici, nous ne connaissons pas la loi sur la population, mais leffectif n de léchantillon est supérieur à 30.Nous allons donc pouvoir utiliser le T.C.L. 2.Notons X la variable aléatoire qui, à tout échantillon de taille n = 35, fait correspondre sa moyenne. æ s ö æ 1, 46 öAlors : X Ê N çm; ÷ = N ç 10, 44; ÷ è nø è 35 ø X - 10, 44Posons T = ainsi T Ê N(0 ; 1). 1, 46 35Nous obtenons alors par centrage et réduction : æ ö Π(-t) ç X - 10, 44 10 - 10, 44 ÷ 1-Π(t) P( X  10) = P ç  ÷ ç 1, 46 1, 46 ÷ -t ç ÷ t è 35 35 ø = P(T  -1,78) Remarque : P(T  t) = P(T  -t) En effet : = P(T  1,78) P(T  t) = 1 - P(T  t) = 1 - Π(t) = Π(-t) = P(T  -t) = Π(1,78)Et par lecture directe de la table de la loi normale centrée-réduite : Π(1,78) = 0,9625Conclusion : il y a environ 96% de chance que, dans cette classe de BTS, la moyenne des notes au baccalauréatde Mathématiques soit supérieure à 10.A.2. Étude dune proportion dans un échantillonCette fois-ci, on dispose dune population sur laquelle on étudie un caractère (ou attribut) A dont on connaît laproportion p dans la population. Population p 1-p Proportion p connue du caractère A A A A Echantillons de taille n { p1 p2 p3 p4 p5 ... piOn sintéresse aux échantillons de taille n. La proportion du caractère A dans les échantillons sera-t-elletoujours la même ? Evidemment non, cette proportion varie en fonction de léchantillon choisi. Notons F lavariable aléatoire qui, à chaque échantillon de taille n, associe sa proportion du caractère A (F sappelledistribution des fréquence des échantillons). Que peut-on dire de cette variable aléatoire F ?Statistiques inférentielles - BTS 2ème année - Page 3 G. COSTANTINI http://bacamaths.net/
  4. 4. ThéorèmeContexte : une population sur laquelle on étudie un caractère A répandu avec une fréquence p.On prélève, au hasard, un échantillon (tirages avec remise ou assimilés) de taille n avec n  30.On note F la fréquence du caractère A dans léchantillon.Alors la variable aléatoire F suit approximativement une loi normale : æ p(1 - p) ö F Ê Nç p; ç ÷ ÷ è n øDémonstration :Nous allons avoir ici un modèle binomial ou apparenté dont on sait quil converge vers la loi normale.Pour tout i compris entre 1 et n, notons Xi la variable aléatoire définie par : ì1 si le i -ème élément de léchantillon possède lattribut A Xi = í î0 sinonLa variable aléatoire Xi suit une loi de Bernoulli de paramètre p.La variable aléatoire X = X1 + X2 + ... + Xn est donc binomiale de paramètres n et p : X Ê B(n, p)En conséquence : E(X) = np et s(X) = np(1 - p) XLa variable aléatoire F = correpond ainsi à la fréquence de lattribut A dans léchantillon. nDaprès les propriétés de lespérance et de lécart-type : E( X ) s( X ) p(1 - p) E(F) = = p et s(F) = = n n nExemple :Une élection a eu lieu et un candidat a eu 40 % des voix.On prélève un échantillon de 100 bulletins de vote.Quelle est la probabilité que, dans léchantillon, le candidat ait entre 35 % et 45 % des voix ?Ici, nous avons n = 100 et p = 0,4. La variable aléatoire F correspondant à la fréquence des votes pour lecandidat dans léchantillon vérifie donc : æ 0, 4 ´ 0, 6 ö æ 0, 24 ö F Ê N ç 0, 4; ç ÷ = N ç 0, 4; ÷ ç ÷ è 100 ø è 10 ÷ ø F - 0, 4Posons T = ainsi T Ê N(0 ; 1). Nous obtenons alors par centrage et réduction : 0, 24 10 P(0,35  F  0,45) = P(-1,02  T  1,02) = 2Π(1,02) - 1Et par lecture directe de la table de la loi normale centrée-réduite Π(1,02) = 0,8461.Doù : P(0,35  F  0,45) = 0,6922Il y a donc environ 69 % de chance que, dans un échantillon de taille n = 100, le candidat ait entre 35 % et45 % des voix.Statistiques inférentielles - BTS 2ème année - Page 4 G. COSTANTINI http://bacamaths.net/
  5. 5. En analysant lexercice ci-dessus, on constate que lon dispose des informations sur la population (ici,lensemble des votes) parce que lélection a déjà eu lieu. On en déduit des informations sur léchantillon. Mais,dans la pratique, cest souvent le phénomène réciproque que nous étudierons : les élections nont pas encore eulieu et on voudrait retrouver les informations sur la population grâce un sondage réalisé sur un échantillon.Doù la deuxième partie de ce document consacrée à lestimation. - Partie B - Estimation -Lobjectif de cette partie est de répondre à la problématique suivante : comment, à partir dinformations (couplemoyenne/écart-type ou proportion) calculées sur un échantillon, retrouver ou plutôt estimer celles dunepopulation entière ? Lestimation est le problème réciproque de léchantillonnage. (Mais nous aurons besoin des résultatsétablis sur la théorie de léchantillonnage pour passer à la phase estimative).Nous distinguerons deux cas : celui où lon cherche à estimer la moyenne m dune variable aléatoire définie surune population et celui où lon cherche à estimer la proportion dindividus p ayant tel caractère dans lapopulation. ESTIMATION dune MOYENNE ESTIMATION dune PROPORTION Population PopulationMoyenne : m inconnue Proportion : p inconnueEcart-type : s connu ou inconnu m e connue pe se connu connue Echantillon de taille n Echantillon de taille nB.1. Estimation dune moyenneB.1.1. Estimation ponctuelleContexte : on considère une variable aléatoire X sur une population de moyenne (ou espérance) m inconnue etdécart-type s inconnu (ou connu). On suppose que lon a prélevé un échantillon de taille n (tirage avec remiseou assimilé) sur lequel on a calculé la moyenne me et lécart-type se.Une estimation ponctuelle « de la moyenne m de la population est : μ « = me μUne estimation ponctuelle « de lécart-type se de la population est : s n «= s se n -1Statistiques inférentielles - BTS 2ème année - Page 5 G. COSTANTINI http://bacamaths.net/
  6. 6. n Le coefficient sappelle correction de biais. Lorsque la taille n de léchantillon est assez grand (en n -1 pratique n  30), ce coefficient est très voisin de 1, si bien que, dans ce cas, on peut estimer «  se. s Exemple : Une université comporte 1500 étudiants. On mesure la taille de 20 dentre eux. La moyenne me et lécart-type se calculés à partir de cet échantillon sont : me = 176 cm et se = 6 cm Nous pouvons donc estimer les paramètres de la population : 20 « = 176 cm et « = μ s ´ 6  6,16 cm 19 Remarque : Nous navons fait quune estimation, il est bien sûr impossible de retrouver les vraies caractéristiques m et s de la population. Lestimation ponctuelle permet surtout de disposer dune valeur de référence pour poursuivre/affiner les calculs. On souhaiterait notamment pouvoir faire une estimation par intervalle, en contrôlant le risque pris. B.1.2. Estimation par intervalle de confiance Le contexte est le même que le précédent, sauf que nous allons raisonner en deux temps, une phase a priori (ou prévisionnelle) dans lequelle on suppose que léchantillon nest pas encore prélevé et une phase a posteriori dans laquelle on suppose connue la moyenne me et lécart-type se de léchantillon et donc la moyenne estimée « μ s et lécart-type estimé « de la population. - PHASE A PRIORI - Mise en place du modèle prévisionnel - Nous avons vu, dans la théorie sur léchantillonnage, que si X est la variable aléatoire correspondant à la moyenne dun échantillon de taille n pris au hasard, alors le Théorème Central Limite permet daffirmer que X suit approximativement une loi normale : æ s ö X Ê Nçm ; ÷ è nø Nous allons chercher un intervalle qui contient m avec une confiance arbitraire de 95% (cela pourrait aussi être 99% ou un autre coefficient de confiance). Nous cherchons donc un rayon r tel que :Probabilité que la moyenne m de lapopulation tombe dans un intervalle P( X - r  m  X + r) = 0,95 du type [ X - r ; X + r] m X X-r X+r Statistiques inférentielles - BTS 2ème année - Page 6 G. COSTANTINI http://bacamaths.net/
  7. 7. Cette disposition des inégalités nest pas pratique mais il y a une correspondance remarquable entre deux événements qui va nous faciliter les calculs : Cette propriété découle de la X-rm X+r symétrie de la valeur absolue : |X - Y|  r Retranchons X et m dans chaque membre : Cela signifie que lécart entre X -m-r-Xr-m et Y est inférieur à r, ce qui sécrit indifféremment : Multiplions par -1 : r+mXm-r -r  X - Y  r Y-rXY+r Remettons les inégalités dans lordre croissant : Ou encore : -r  Y - X  r m-rXr+m X-rYX+r Nous sommes ainsi ramenés à calculer :Probabilité que la moyenne X de Dans la pratique, nous partirons léchantillon tombe dans un P(m - r  X  m + r) = 0,95 de cette écriture pour déterminer intervalle centré en m. un intervalle de confiance. m X m m- r m+r X -m ( X - m) suit la loi normale centrée-réduite N(0 ; 1). n On sait que la variable aléatoire T = = s s n Nous obtenons donc, par centrage et réduction : æ ö ç m -r -m X -m m + r -m ÷ Pç ÷ = 0,95 On constate ici que le fait de ne pas   ç s s s ÷ connaître m nest pas gênant, à ce stade. ç ÷ è n n n ø æ r n r nö ç s  T  s ÷ = 0,95 Pç- ÷ è ø æ r n r nö Rappel : si T Ê N(0 ; 1) alors : ç s   s ÷ = 0,95 Pç- T ÷ è ø P(-a  T  a) = 2Π(a) -1 En effet : ær nö ç s ÷ - 1 = 0,95 2Π ç P(-a  T  a) = Π(a) - Π(-a) ÷ è ø = Π(a) - (1 - Π(a)) ær nö = 2Π(a) -1 ç s ÷ = 0,975 Πç ÷ è ø r n Π(t) = 0,975 où t = s Nous cherchons donc, par lecture inverse de la table de la loi normale centrée réduite une borne t telle que : Π(t) = 0,975 La borne t = 1,96 convient. La borne t dépend du coefficient de confiance choisi. Avec un coefficient de confiance de 99%, nous aurions obtenu : ær nö ç s ÷ - 1 = 0,99 2Π ç ÷ è ø Statistiques inférentielles - BTS 2ème année - Page 7 G. COSTANTINI http://bacamaths.net/
  8. 8. Π(t) = 0,995 t = 2,575Par la suite, nous noterons t le réel tel que 2Π(t) - 1 = C où C est le degré de confiance choisi. r nAinsi, notre réel r recherché est tel que : =t s sLe rayon r de lintervalle cherché est : r =t n - PHASE A POSTERIORI - Utilisation des valeurs estimées ponctuellement -Nous supposons maintenant que léchantillon a été tiré, nous obtenons donc une représentation me de lavariable aléatoire X : m me me - r me + rNous pouvons affirmer que lintervalle obtenu pour cet échantillon é s s ù ême - t ; me + t ú ë n nû fait partie dune famille dans laquelle 95 % contiennent la vraie moyenne m de la population.On lappelle intervalle de confiance à 95 % (ou autre selon le coefficient de confiance décidé préalablement).Pour calculer les bornes de cet intervalle, deux cas de figure se présentent selon que nous connaissons ou paslécart-type s de la population. Sil est connu, il ny a rien à faire : é s s ù IC = ême - t ; me + t ú ë n nû nSi lécart-type s de la population nest pas connu, on le remplace par son estimation ponctuelle « = s se. n -1 n se seDans ce cas, nous obtenons : r= t = t n -1 n n -1Nous pouvons donc estimer avec une confiance de 95 % (ou 99 % selon le cas) que la moyenne m de lapopulation appartient à lintervalle : é se se ù On ne retiendra pas cette formule. IC = ême - t ; me + t ú Dans la pratique, on refait les calculs. ë n -1 n -1 ûRemarques :· Lintervalle de confiance est centré en la valeur me car cest la seule valeur de référence que nous disposons.· Le centre de lintervalle de confiance (à savoir me) dépend de léchantillon choisi (puisque me en dépend). Son rayon en dépend aussi lorsquon ne connaît pas lécart-type de la population.· La vraie valeur m de la moyenne de la population peut ne pas appartenir à lintervalle de confiance. s· Le rayon de lintervalle de confiance (à savoir la quantité r = t ) dépend du degré de confiance C choisi. n Plus le degré de confiance C est proche de 100%, et plus la borne t sera élevée et donc le rayon grand.Statistiques inférentielles - BTS 2ème année - Page 8 G. COSTANTINI http://bacamaths.net/
  9. 9. Illustration : m Population X Un intervalle de confiance ne contient pas forcément la « = me μ moyenne m de la Echantillon 1 population. 99% Un intervalle de « = me μ confiance à 95 % est plus petit quun Echantillon 2 intervalle de confiance 99% à 99%. Il risque moins de contenir la valeur « = me μ moyenne m. Echantillon 3 95%Exemple :Une université comporte 1500 étudiants. On mesure la taille de 20 dentre eux. La moyenne me et lécart-type secalculés à partir de cet échantillon sont : me = 176 cm et se = 6 cmNous avons déjà estimé ponctuellement les paramètres de la population : 20 « = 176 cm et « = μ s ´ 6  6,16 cm 19Déterminons maintenant une estimation de m par intervalle de confiance à 95% (ou au risque de 5 %).Notons X la variable aléatoire correspondant à la moyenne dun échantillon de taille 20 pris au hasard. æ s ö æ s öNous savons que : X Ê Nçm ; ÷ = Nçm ; ÷ è nø è 20 øOn calcule un rayon r tel que : P(m - r  X  m + r) = 0,95 X -rOn pose T = , ainsi T suit la loi normale centrée-réduite N(0 ; 1). s 20 æ r 20 r 20 öNous avons donc : Pç- ç T  ÷ = 0,95 è s s ÷ ø æ r 20 ö ç s ÷ - 1 = 0,95 2Π ç ÷ è ø æ r 20 ö ç s ÷ = 0,975 Πç ÷ è ø r 20 Π(t) = 0,975 où t = sNous cherchons donc, par lecture inverse de la table de la loi normale centrée réduite une borne t telle que : Π(t) = 0,975La borne t = 1,96 convient. r 20Ainsi, notre réel r recherché est tel que : = 1,96 sStatistiques inférentielles - BTS 2ème année - Page 9 G. COSTANTINI http://bacamaths.net/
  10. 10. 1, 96 ´ s r= 20 sMais une fois léchantillon tiré, nous avons obtenu un écart-type estimé «  6,16 cm.Doù : r  2,7La réalisation de lintervalle de confiance à 95% sur cet échantillon est : IC = [176 - 2,7 ; 176 + 2,7] IC = [173,3 ; 178,7]Nous pouvons donc estimer, avec une confiance de 95 % que la taille moyenne de la population est compriseentre 173,3 cm et 178,7 cm.B.2. Estimation dune proportionB.2.1. Estimation ponctuelleContexte : on considère un caractère (ou attribut) A sur une population dont la proportion p est inconnue. Onsuppose que lon a prélevé un échantillon de taille n (tirage avec remise ou assimilé) sur lequel on a calculé laproportion pe dindividus ayant le caractère A.Notons F la variable aléatoire correspondant à la proportion du caractère A dans un échantillon de taille n prisau hasard. On rappelle qualors F suit approximativement une loi normale : p(1 - p) ( F Ê N p ;sp ) où sp = nUne estimation ponctuelle « de la proportion p de lattribut A dans la population est : p « = pe pUne estimation ponctuelle « de lécart-type sp est selon le cas : sp n pe (1 - pe ) pe (1 - pe ) = si n  30 Correction de biais. n -1 n n -1 Ces estimations ponctuelles de pe (1 - pe ) lécart-type ne sont pas utiles dans si n > 30 n limmédiat. Elle serviront pour la détermination dun intervalle de 1 si statisticien pessimiste confiance de la proportion. 4nExemple :À quelques jours dune élection, un candidat fait effectuer un sondage. Sur les 150 personnes interrogées, 45 sedisent prêtes à voter pour lui aux prochaines élections. 45La proportion dindividus prête à voter pour ce candidat dans léchantillon est ici de pe = = 0,3. 150On estime donc quil en est de même dans la population (comment pourrait-on faire autrement ?) : « = pe = 0,3 pQuand à lindication sp, on peut ici lestimer par : pe (1 - pe ) 0,3 ´ 0, 7 «= sp =  0,037 n 150Statistiques inférentielles - BTS 2ème année - Page 10 G. COSTANTINI http://bacamaths.net/
  11. 11. On voudrait aller plus loin et, au lieu dune simple proportion, calculer un intervalle contenant, avec uneconfiance arbitraire fixée au départ, la proportion p dindividus prêts à voter pour ce candidat.B.2.2. Estimation par intervalle de confianceLe contexte est le même que le précédent. Nous avons vu, dans la théorie sur léchantillonnage, que si F est lavariable aléatoire correspondant à la proportion dun caractère dans un échantillon de taille n pris au hasard,alors F suit approximativement une loi normale : p(1 - p) ( F Ê N p ;sp ) où sp = nNous avons déjà remarqué que le fait que p soit inconnu nest pas gênant dans les calculs a priori. Le problème p(1 - p)ici, cest que nous ne connaissons pas lécart-type . Nous le remplaçerons, dans la phase a posteriori, n pe (1 - pe ) pe (1 - pe )par son estimation ponctuelle (qui est en général ou si la correction de biais nest n -1 n 1pas proposée ou encore si nous voulons une hypothèse pessimiste). 4nCherchons un intervalle qui contient p avec une confiance arbitraire de 90 % (cela pourrait être un autre coefficient deconfiance). Nous cherchons donc un rayon r tel que : P(F - r  p  F + r) = 0,90Nous avons déjà vu que cette probabilité pouvait sécrire de manière plus pratique : P(p - r  F  p + r) = 0,90 F-pOn sait que la variable aléatoire T = suit la loi normale centrée réduite N(0 ; 1). spNous obtenons donc, par centrage et réduction : æ p-r - p F - p p+r - pö Pç   ÷ = 0,90 ç sp sp sp ÷ è ø æ -r r ö Pç T  ÷ = 0,90 ç sp sp ÷ è ø æ r ö 2Π ç ÷ - 1 = 0,90 ç sp ÷ è ø æ r ö Πç ÷ = 0,95 ç sp ÷ è ø rOn cherche une borne t telle que : Π(t) = 0,95 avec t = spPar lecture inverse de la table de la loi normale centrée réduite N(0 ; 1) : t = 1,645Ce qui nous permet de calculer r : r = t spSupposons maintenant léchantillon prélevé. Nous avons donc une estimation pontuelle de p et sp.Ainsi, la réalisation de lintervalle de confiance dans léchantillon est :Statistiques inférentielles - BTS 2ème année - Page 11 G. COSTANTINI http://bacamaths.net/
  12. 12. é p (1 - pe ) p (1 - pe ) ù IC = ê pe - t e ; pe + t e ú On ne retiendra pas cette formule. ê ë n -1 n -1 ú û Dans la pratique, on refait les calculs.Remarques :· Si on neffectue pas la correction de biais, lintervalle de confiance est : é p (1 - pe ) p (1 - pe ) ù IC = ê pe - t e ; pe + t e ú ê ë n n ú û· On peut également se placer dans une hypothèse pessimiste en choisissant un écart-type maximal. Nous 1 1 savons que la parabole déquation y = x(1 - x) admet un maximum égal à en . 4 2 1 Ainsi lécart-type maximal est . Il a, de plus, lavantage dêtre indépendant de p. 4n Dans ce cas, la réalisation de lintervalle de confiance dans léchantillon est : é 1 1 ù IC = ê pe - t ; pe + t ú ë 4n 4n ûExemple :A quelques jours dune élection, un candidat fait faire un sondage. Sur les 150 personnes interrogées, 45 sedisent prêtes à voter pour lui aux prochaines élections. 45La proportion dindividus prête à voter pour ce candidat dans léchantillon est ici de pe = = 0,3. 150On a déjà estimé ponctuellement : « = pe = 0,3 et «  0,037 p spDéterminons maintenant une estimation de p par intervalle de confiance à 80%.Notons F la variable aléatoire correspondant à la proportion dindividus prêts à voter pour ce candidat dans unéchantillon de taille 150 pris au hasard.Nous avons vu quapproximativement : p(1 - p) ( F Ê N p ;sp ) où sp = nOn cherche un rayon r tel que : P(p - r  F  p + r) = 0,8 æ r ö 2Π ç ÷ - 1 = 0,8 ç sp ÷ è ø æ r ö Πç ÷ = 0,9 ç sp ÷ è øPar lecture inverse de la table de la loi normale centrée-réduite, on cherche une borne t telle que : r Π(t) = 0,9 avec t = spLa valeur t  1,28 convient donc : r = 1,28 spSupposons maintenant léchantillon prélevé. Une estimation ponctuelle de sp est «  0,037. spDoù : r  0,047Statistiques inférentielles - BTS 2ème année - Page 12 G. COSTANTINI http://bacamaths.net/
  13. 13. La réalisation de lintervalle de confiance dans cet échantillon est alors IC = [0,3 - 0,047 ; 0,3 + 0,047] IC = [0,253 ; 0,347] IC% = [25,3 ; 34,7]Nous pouvons estimer, avec une confiance de 80 %, que la proportion dindividus dans la population prêts àvoter pour le candidat en question est comprise entre 25,3 % et 34,7 %.Exercice :Une usine fabrique des câbles. Un câble est considéré comme conforme si sa résistance à la rupture X estsupérieure à 3 tonnes. Lingénieur responsable de la production voudrait connaître, en moyenne, la résistance àla rupture des câbles fabriqués.Il nest, bien sûr, pas question de faire le test sur toute la production (lusine perdrait toute sa production !).Un technicien prélève donc un échantillon de 100 câbles dans la production. Notons X la variable aléatoirecorrespondant à la force à exercer sur le câble pour le rompre. Le technicien obtient les résultats suivants : E( X ) = 3,5 tonnes s( X ) = 0,4 tonne Proportion de câbles dont la résistance est supérieure à 3 tonnes : pe = 0,851. a. Donner une estimation ponctuelle de la moyenne m et de lécart-type s de la variable aléatoire X dans la production. b. Déterminer une estimation par intervalle de confiance à 95 % de la moyenne m de X.2. a. Donner une estimation ponctuelle de la proportion p de câbles conformes dans la production. b. Déterminer une estimation par intervalle de confiance à 90 % de cette proportion.Statistiques inférentielles - BTS 2ème année - Page 13 G. COSTANTINI http://bacamaths.net/
  14. 14. - RÉSUMÉ - - Echantillonnage - MOYENNE PROPORTION Echantillons de taille n de moyenne X Echantillons de taille n avec une fréquence F æ s ö æ p(1 - p) ö X Ê Nçm ; ÷ F Ê Nç p; ç ÷ ÷ è nø è n ø où m et s sont la moyenne et lécart-type où p est la proportion dans la population. dans la population. - Estimation - MOYENNE PROPORTION Population de moyenne m inconnue et décart-type s. Proportion inconnue p dans une population.Echantillon de taille n connu de moyenne me et décart-type se. Echantillon de taille n connu avec une proportion pe.F Une estimation ponctuelle de m est me. F Une estimation ponctuelle de p est pe. n pe (1 - pe )F Une estimation ponctuelle de s est se si n  30 ou F Une estimation ponctuelle de sp est si n -1 n -1 pe (1 - pe ) tout simplement se sinon (n > 30). n  30 ou sinon (n > 30). nF Pour estimer m par intervalle avec une confiance C (par F Pour estimer p par intervalle avec une confiance C ex 95%), on cherche un rayon r tel que : (par ex 95%), on cherche un rayon r tel que : P(m - r  X  m + r) = C P(p - r  F  p + r) = C æ s ö p(1 - p) où X Ê N ç m ; è ÷ nø où F Ê N p ; s p( ) avec sp = nOn exprime r en fonction de s et on remplace s par sa valeur On exprime r en fonction de sp et on remplace sp parconnue ou son estimation ponctuelle. son estimation ponctuelle. IC = [me - r ; me + r] IC = [pe - r ; pe + r] Coefficient de confiance 80 % 90 % 95 % 99 % Valeur de P(t) 0,9 0,95 0,975 0,995 Borne t 1,28 1,645 1,96 2,575 Statistiques inférentielles - BTS 2ème année - Page 14 G. COSTANTINI http://bacamaths.net/

×