Publicité
Publicité

Contenu connexe

Publicité

Les relations statistiques échantillon-population.pdf

  1. Les relations statistiques échantillon-population Jérôme CAREL Mai 2022
  2. Plan de la séquence Variables quantitatives Variables qualitatives Vérifier la conformité d’un échantillon avec une population connue ① ④ Estimer une moyenne / une fréquence d’une population à partir d’un échantillon ② ⑤ Comparer deux populations à partir de deux échantillons ③ ⑥ Jérôme CAREL - Mai 2022 2
  3. Il faut distinguer les variables quantitatives des variables qualitatives Jérôme CAREL - Mai 2022 3
  4. Le cas des variables quantitatives continues Jérôme CAREL - Mai 2022 4
  5. On travaille ici avec une distribution normale (Gauss) Moyenne = Mode = Médiane Jérôme CAREL - Mai 2022 5
  6. Exemple n°1* : la taille des femmes qui ont accouché en 2021 en France • Imaginons qu’on mesure toutes les femmes lorsqu’elles viennent accoucher en 2021 → 742 400 femmes • Supposons que la série de données suive une loi normale, avec µ = 164,88 et σ = 12. • Cela donne donc : Tailles (cm) Nb de femmes Fréquences (%) 107 0 0,0000 108 0 0,0000 109 0 0,0000 110 1 0,0000 111 1 0,0000 112 1 0,0000 113 2 0,0000 114 3 0,0000 Tailles (cm) Nb de femmes Fréquences (%) 160 22722 0,0306 161 23424 0,0316 162 23981 0,0323 163 24380 0,0328 164 24615 0,0332 165 24680 0,0332 166 24574 0,0331 167 24299 0,0327 Tailles (cm) Nb de femmes Fréquences (%) 197 686 0,0009 198 547 0,0007 199 433 0,0006 200 341 0,0005 201 266 0,0004 202 206 0,0003 203 159 0,0002 204 122 0,0002 NB: * Il s’agit ici d’un exemple fictif, avec des données reconstituées pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 6
  7. Les caractéristiques de la loi normale centrée réduite Jérôme CAREL - Mai 2022 7
  8. Exemple n°1 : la taille des femmes qui ont accouché en 2021 en France • On ramène toute la population à 100 individus (on exprime en %). • On calcule les valeurs centrées réduites qui correspondant aux effectifs pour chaque des valeurs de la taille. • On obtient donc des valeurs positives de Z (celles qui sont supérieures à la moyenne µ) et des valeurs de Z négatives (celles qui sont inférieures à la moyenne µ). • Cela donne donc : Z (valeur centrée réduite) Fréquences (%) -4,82333 0,0000 -4,74000 0,0000 -4,65667 0,0000 -4,57333 0,0000 -4,49000 0,0000 -4,40667 0,0000 -4,32333 0,0000 -4,24000 0,0000 Z (valeur centrée réduite) Fréquences (%) -0,40667 0,0306 -0,32333 0,0316 -0,24000 0,0323 -0,15667 0,0328 -0,07333 0,0332 0,01000 0,0332 0,09333 0,0331 0,17667 0,0327 Z (valeur centrée réduite) Fréquences (%) 2,67667 0,0009 2,76000 0,0007 2,84333 0,0006 2,92667 0,0005 3,01000 0,0004 3,09333 0,0003 3,17667 0,0002 3,26000 0,0002 Jérôme CAREL - Mai 2022 8
  9. Les paramètres utilisés • Pour la population • Pour un échantillon Les valeurs centrées réduites Jérôme CAREL - Mai 2022 9
  10. Vérifier la conformité d’un échantillon avec une population connue Jérôme CAREL - Mai 2022 10
  11. POPULATION → ÉCHANTILLON ? On connaît les paramètres d’une population (µ; σ) On souhaite vérifier la probabilité qu’un échantillon donné soit bien issu de cette population Jérôme CAREL - Mai 2022 11
  12. Exemple n°1 : la taille des femmes qui ont accouché en 2021 en France • Pour les besoins d’une étude, on sélectionne au hasard un échantillon de 15806 femmes (donc 15806 tailles) • On souhaite déterminer si cet échantillon (vu sa X et son S) est effectivement issu de notre population initiale, en acceptant un risque d’erreur de 5%. • Cela donne donc : Tailles (cm) Nb de femmes Fréquences (%) 125 0 0,0000% 126 0 0,0000% 127 1 0,0063% 128 1 0,0063% 129 0 0,0000% 130 0 0,0000% 131 1 0,0063% 132 0 0,0000% Tailles (cm) Nb de femmes Fréquences (%) 160 505 3,1950% 161 567 3,5872% 162 603 3,8150% 163 640 4,0491% 164 671 4,2452% 165 663 4,1946% 166 655 4,1440% 167 628 3,9732% Tailles (cm) Nb de femmes Fréquences (%) 197 8 0,0506% 198 5 0,0316% 199 0 0,0000% 200 4 0,0253% 201 2 0,0127% 202 0 0,0000% 203 3 0,0190% 204 1 0,0063% Jérôme CAREL - Mai 2022 12
  13. Exemple n°1 : la taille des femmes qui ont accouché en 2021 en France On peut calculer : • X = 168,648 • S = 10,164 Pour rappel, on sait que : • µ = 164,88 • σ = 12 • A l’évidence, les valeurs ne sont pas identiques. • Peut-on néanmoins affirmer qu’elles sont suffisamment différentes pour considérer que l’échantillon n’est pas représentatif de la population (en supportant un risque d’erreur de 5%) ? Tailles (cm) Nb de femmes Fréquences (%) 125 0 0,0000% 126 0 0,0000% 127 1 0,0063% 128 1 0,0063% 129 0 0,0000% 130 0 0,0000% 131 1 0,0063% 132 0 0,0000% Tailles (cm) Nb de femmes Fréquences (%) 160 505 3,1950% 161 567 3,5872% 162 603 3,8150% 163 640 4,0491% 164 671 4,2452% 165 663 4,1946% 166 655 4,1440% 167 628 3,9732% Tailles (cm) Nb de femmes Fréquences (%) 197 8 0,0506% 198 5 0,0316% 199 0 0,0000% 200 4 0,0253% 201 2 0,0127% 202 0 0,0000% 203 3 0,0190% 204 1 0,0063% Jérôme CAREL - Mai 2022 13
  14. Exemple n°1 : la taille des femmes qui ont accouché en 2021 en France NB: Si on ne connaît que la moyenne de la population (µ) mais pas son écart-type (σ), alors on utilise le test t de Student. Jérôme CAREL - Mai 2022 14
  15. Exemple n°1 : la taille des femmes qui ont accouché en 2021 en France Test z pour un échantillon / Test bilatéral : Intervalle de confiance à 95% autour de la moyenne : [ 168,461; 168,836 ] Différence 3,768 z (Valeur observée) 39,482 |z| (Valeur critique) 1,960 p-value (bilatérale) <0,0001 alpha 0,050 Interprétation du test : H0 : La moyenne est égale à 164,88. Ha : La moyenne est différente de 164,88. Etant donné que la p-value calculée est inférieure au niveau de signification alpha=0,05, on doit rejeter l'hypothèse nulle H0, et retenir l'hypothèse alternative Ha. CONCLUSION : On peut donc conclure que l’échantillon n’est pas représentatif de la population étudiée. Jérôme CAREL - Mai 2022 15
  16. Estimer la moyenne d’une population à partir d’un échantillon Jérôme CAREL - Mai 2022 16
  17. ÉCHANTILLON → POPULATION? On connaît les paramètres d’un échantillon (X; S) On souhaite estimer la moyenne de la population (µ) à partir des paramètres de l’échantillon. Jérôme CAREL - Mai 2022 17
  18. Exemple n°2* : L’apport d’engrais azoté sur un gazon • On estime à environ 20 grammes par m² les besoins annuels en azote pour un gazon récréatif commun (soit en moyenne 2mg par pied). • L’entreprise AMENAVERT a conclu des contrats pour entretenir de vastes étendues de gazon pour un client important. Elle effectue des apports d’engrais contenant de l’azote régulièrement mais n’est pas en mesure d’affirmer que les quantités épandues sont réellement efficaces. • N’ayant pas de moyens technologiques avancés (drones, caméras, images satellites), elle décide d’effectuer des prélèvements de gazon et de vérifier la teneur en azote pied par pied. Jérôme CAREL - Mai 2022 18
  19. Exemple n°2* : L’apport d’engrais azoté sur un gazon • L’entreprise a ainsi collecté au hasard 1398 pieds sur les gazons qu’elle entretient et a obtenu la teneur en azote par pied (en µg). • Elle se pose donc la question suivante : ➢Peut-on dire que l’apport en azote est suffisant ou bien faut-il le modifier ? • Pour résumer, on a donc : ➢ = 1896 µg et S = 173 µg ➢ µ = ? et σ = ? • Et on voudrait vérifier si µ est suffisamment proche de 2000 µg • Pour cela, il faut donc ESTIMER µ. Jérôme CAREL - Mai 2022 19
  20. Exemple n°2* : L’apport d’engrais azoté sur un gazon • A l’aide des paramètres de l’échantillon, on va donc construire un intervalle de confiance tel qu’on aura statistiquement 95% de chance d’y trouver µ. Autrement dit, on accepte un risque d’erreur de 5% (α=5%). Jérôme CAREL - Mai 2022 20
  21. Exemple n°2* : L’apport d’engrais azoté sur un gazon Cette valeur correspond à la valeur t2,5% qu’on trouve dans la table de Student en sélectionnant un degré de liberté de 1397 (n-1 = 1398-1 = 1397) Moyenne de l’échantillon Ecart-type de l’échantillon Effectif de l’échantillon Jérôme CAREL - Mai 2022 21
  22. Exemple n°2* : L’apport d’engrais azoté sur un gazon Extrait de la table de Student Degrés de liberté Risques α/2 Jérôme CAREL - Mai 2022 22
  23. Exemple n°2* : L’apport d’engrais azoté sur un gazon • On obtient donc : 1896 – 1,96 × (173 / √1398) ≤ µ ≤ 1896 + 1,96 × (173 / √1398) 1886,93 ≤ µ ≤ 1905,07 On constate alors que 2000 (la valeur moyenne « visée » pour la teneur en azote par pied, en µg) ne fait pas partie de l’intervalle de confiance. En l’occurrence, l’intervalle de confiance est plus faible. On peut donc en conclure avec un risque d’erreur de 5% que l’apport moyen en azote par pied demeure insuffisant par rapport à l’objectif visé de 2 mg/pied. Jérôme CAREL - Mai 2022 23
  24. Comparer deux populations à partir de deux échantillons indépendants Jérôme CAREL - Mai 2022 24
  25. POPULATION? = POPULATION? On connaît les paramètres de deux échantillons : (X1; S1) et (X2; S2) On souhaite comparer les moyennes de deux populations estimées à partir des paramètres de deux échantillons respectifs. ? Jérôme CAREL - Mai 2022 25
  26. Exemple n°2* : L’apport d’engrais azoté sur un gazon • Imaginons maintenant qu’on arrive à identifier 2 sous-catégories dans notre échantillon de 1398 données : elles reflètent le fait que les échantillons ont été prélevés sur 2 parcelles distinctes. • On obtient alors : ➢ 1 = 1891,55 et S1 = 173,87 ➢ 2 = 1900,99 et S2 = 172,58 La question posée est alors : Est-ce que la moyenne estimée de la population 1 (µ 1) est significativement différente de la moyenne estimée de la population 2 (µ 2) ? Jérôme CAREL - Mai 2022 26
  27. Exemple n°2* : L’apport d’engrais azoté sur un gazon • Pour répondre à cette question, on formule 2 hypothèses et on fait un test t de Student pour échantillons indépendants. • H0 : Les moyennes d’azote dans les deux parcelles ne sont pas significativement différentes • H1 : Les moyennes d’azote dans les deux parcelles sont significativement différentes Jérôme CAREL - Mai 2022 27
  28. Exemple n°2* : L’apport d’engrais azoté sur un gazon • Pour répondre à cette question, on fait un test t de Student pour échantillons indépendants. Ce test consiste à comparer les moyennes des échantillons. avec • Si ‫׀‬tSTAT ‫>׀‬ ‫׀‬tcritique‫׀‬ , alors on peut rejeter l’hypothèse H0 et conclure à une différence significative entre les deux moyennes. Jérôme CAREL - Mai 2022 28
  29. Exemple n°2* : L’apport d’engrais azoté sur un gazon • Ce test suppose l’égalité des variances des deux échantillons. On peut tester cette égalité de variances à l’aide du test de Fisher : Jérôme CAREL - Mai 2022 29
  30. Exemple n°2* : L’apport d’engrais azoté sur un gazon • Ici, on constate que l’égalité des variances est vérifiée. • Dans le cas contraire, on pourrait tout de même continuer avec le test t de Student car l’échantillon est suffisamment grand. Test F de Fisher / Test bilatéral : Intervalle de confiance à 95% autour du rapport des variances : [ 0,875; 1,178 ] Rapport 1,015 F (Valeur observée)1,015 F (Valeur critique) 1,160 DDL1 698 DDL2 698 p-value (bilatérale) 0,844 alpha 0,050 Interprétation du test : H0 : Le rapport entre les variances est égal à 1. Ha : Le rapport entre les variances est différent de 1. Etant donné que la p-value calculée est supérieure au niveau de signification seuil alpha=0,05, on ne peut pas rejeter l'hypothèse nulle H0. Jérôme CAREL - Mai 2022 30
  31. Exemple n°2* : L’apport d’engrais azoté sur un gazon • Le test t de Student donne une p-value > α • On ne peut donc pas exclure H0. On ne peut donc pas affirmer que les moyennes des populations sont significativement différentes. Jérôme CAREL - Mai 2022 31 Test t pour deux échantillons indépendants / Test bilatéral : Intervalle de confiance à 95% autour de la différence des moyennes : [ -27,618; 8,736 ] Différence -9,441 t (Valeur observée)-1,019 |t| (Valeur critique)1,962 DDL 1396 p-value (bilatérale) 0,308 alpha 0,050 Interprétation du test : H0 : La différence entre les moyennes est égale à 0. Ha : La différence entre les moyennes est différente de 0. Etant donné que la p-value calculée est supérieure au niveau de signification seuil alpha=0,05, on ne peut pas rejeter l'hypothèse nulle H0.
  32. Exemple n°2* : L’apport d’engrais azoté sur un gazon • Le test t de Student donne une p-value > α Jérôme CAREL - Mai 2022 32
  33. Exemple n°2* : L’apport d’engrais azoté sur un gazon Au final, on peut donc dire que le gazon manque d’azote, que ce soit sur la parcelle 1 ou la parcelle 2, sans qu’il y ait de différence notable entre les deux parcelles. Jérôme CAREL - Mai 2022 33
  34. Le cas des variables qualitatives Jérôme CAREL - Mai 2022 34
  35. Les caractéristiques des données qualitatives Données nominales. Ici, la variable « sexe » admet 2 modalités : ➢ Homme ➢ Femme Bien que ce ne soit pas le cas ici, un chiffre peut aussi être une donnée qualitative s’il s’agit d’un numéro d’ordre (dans un classement). Par ex: Ce pourrait être ici l’ordre du répondant parmi tous les enfants mis au monde par sa mère. Données quantitatives Effectifs par modalité. (=fréquences absolues) Fréquences relatives = Effectif de la modalité / Effectif total Jérôme CAREL - Mai 2022 35
  36. Convertir des données quantitatives en données qualitatives Il est possible de convertir des données quantitatives en données qualitatives mais cela implique une certaine « perte d’information » dans les données car on attribue de façon arbitraire un qualitatif (donc un sens sémantique) à une donnée chiffrée. Par exemple, la taille d’un individu peut être qualifiée de « grande », « moyenne » ou « petite ». On peut ainsi attribuer des intervalles de grandeur à chacun de ces qualificatifs de sorte qu’ils soient mutuellement exclusifs. Taille en cm Taille en valeur nominale 186 184 184 183 180 178 178 175 174 170 170 170 166 166 163 162 162 161 159 158 156 155 155 Petit Moyen Grand Jérôme CAREL - Mai 2022 36
  37. Etudier une modalité d’intérêt On peut ainsi calculer la fréquence relative des « petits » : p = X/n avec X = effectif de la modalité étudiée; n = effectif total de l’échantillon On trouve ainsi p = 6/23 ≈ 26,09% La proportion de cette même modalité d’intérêt dans la population est donnée par π. Taille en cm Taille en valeur nominale 186 184 184 183 180 178 178 175 174 170 170 170 166 166 163 162 162 161 159 158 156 155 155 Petit Moyen Grand Jérôme CAREL - Mai 2022 37
  38. Les paramètres utilisés • Pour la population • Pour un échantillon La valeur centrée réduite π • Pour l’ensemble des échantillons possibles (d’une certaine taille) parmi une population : Erreur standard de la proportion Jérôme CAREL - Mai 2022 38
  39. Vérifier la conformité d’un échantillon avec une population connue Jérôme CAREL - Mai 2022 39
  40. POPULATION → ÉCHANTILLON? On connaît la proportion d’intérêt (π) dans une population. On souhaite vérifier si la proportion (p) associée à une modalité dans un échantillon est significativement différente de la proportion (π) de la même modalité dans la population de référence. Autrement dit, on vérifie si la différence entre p et π peut s’expliquer simplement par l’erreur d’échantillonnage ou pas. Jérôme CAREL - Mai 2022 40
  41. Exemple n°3* : Navigateur internet • Afin de limiter les problèmes d’incompatibilité technique, on souhaite étudier les comportements et usages des navigateurs internet dans une entreprise multinationale rassemblant plusieurs milliers de salariés. Malheureusement, il est impossible de rassembler les données techniques de toutes les antennes à travers le monde. Le DSI décide donc de lancer une enquête auprès d’un échantillon de salariés. Le résultat montre que sur 100 salariés, 60 utilisent le navigateur Google Chrome. • Or, une étude statistique extensive menée par Google et reprenant les données télécom de tous les pays dans le monde a montré que 56,43% des internautes utilisent Google Chrome en guise de navigateur internet. NB: * Il s’agit ici d’un exemple fictif, avec des données reconstituées pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 41
  42. Exemple n°3* : Navigateur internet Ici, on connaît donc : • p = 0,60 • π = 0,5643 Peut-on dire que la part d’utilisateurs de Google Chrome dans l’entreprise est semblable à celle qui est observée dans le monde en acceptant un risque d’erreur de 5% dans la réponse qui sera formulée? NB: * Il s’agit ici d’un exemple fictif, avec des données reconstituées pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 42
  43. Exemple n°3* : Navigateur internet Cette valeur correspond à la valeur Z2,5% qu’on trouve dans la table Z (loi normale centrée réduite). Proportion de l’échantillon Variance de l’échantillon Effectif de l’échantillon Jérôme CAREL - Mai 2022 43
  44. Exemple n°3* : Navigateur internet Extrait de la table Z (loi normale centrée réduite) Risque (1-α/2) α est « réparti » sur les 2 queues de distribution. On s’intéresse donc à α/2 puisqu’il s’agit de la probabilité cumulée de -∞ à Z. Jérôme CAREL - Mai 2022 44
  45. Exemple n°3* : Navigateur internet Pour répondre à cette question, on calcule donc : • Dans la table Z, on lit : Zα/2 = Z2,5% = Z0,025 = 1,96 • On connaît déjà p = 0,6 et n = 100. On peut donc calculer l’intervalle d’encadrement de la proportion estimée pour la population : On constate ici que la proportion de référence (56,43% dans le monde) fait bien partie de l’intervalle de confiance. On ne peut pas donc dire que la proportion dans l’entreprise est significativement différente de celle rencontrée dans le monde. NB: * Il s’agit ici d’un exemple fictif, avec des données reconstituées pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 45
  46. Estimer la probabilité d’obtenir une proportion dans une population en connaissant celle d’un échantillon Jérôme CAREL - Mai 2022 46
  47. ÉCHANTILLON → POPULATION? Pour une modalité donnée, on connaît la proportion d’intérêt (p) dans un échantillon. On souhaite calculer les probabilités associées à cette même modalité pour la population dont est tiré l’échantillon. Jérôme CAREL - Mai 2022 47
  48. Exemple n°4* : Résultats d’élections • Un cabinet de sondages est mandaté pour donner des prévisions de résultats lors de la nuit de dépouillement d’une élection politique importante. • Il n’y a que 2 candidat.e.s qui se présentent au scrutin. • Pour être élu.e, la personne doit recevoir au moins la moitié des suffrages plus un. • Cependant, en guise de précaution, l’institut de sondage estime qu’il faut que l’un des candidats ait reçu au moins 55% des votes exprimés pour le déclarer vainqueur (par anticipation) du suffrage. • L’institut de sondage prévoit interroger 100 personnes « à la sortie des urnes » d’un bureau de vote représentatif de la population sur la nature des expressions politiques. NB: * Il s’agit ici d’un exemple fictif, avec des données reconstituées pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 48
  49. Exemple n°4* : Résultats d’élections Quelle est la probabilité pour qu’un candidat soit déclaré vainqueur par anticipation s’il reçoit au final 60% des suffrages exprimés par l’ensemble de la population (une fois le dépouillement terminé) ? • Pour répondre à cette question, on utilise la valeur Z. La probabilité correspond à la probabilité cumulée que Z soit supérieur à cette valeur « plancher ». • On sait que p = 0,55 π = 0,60 n = 100 NB: * Il s’agit ici d’un exemple fictif, avec des données reconstituées pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 49
  50. Exemple n°4* : Résultats d’élections • On sait que p = 0,55 π = 0,60 n = 100 NB: * Il s’agit ici d’un exemple fictif, avec des données reconstituées pour les besoins statistiques de la présentation. Z ≈ -1,0206 Dans la table Z, on trouve p(Z ≤ -1,02) = 15,39% Donc p(Z > -1,02) = 84,61% On a donc près de 85% de chance de proclamer le candidat vainqueur à la sortie des urnes avec un échantillon de 100 personnes si le résultat final lui donne 60% des voix. Jérôme CAREL - Mai 2022 50
  51. Exemple n°4* : Résultats d’élections Quelle est la probabilité pour qu’un candidat soit déclaré vainqueur par anticipation (et par erreur) s’il reçoit au final 49% des suffrages exprimés par l’ensemble de la population ? • Pour répondre à cette question, on utilise la valeur Z. La probabilité correspond à la probabilité cumulée que Z soit supérieur à cette valeur « plancher ». • On sait que p = 0,55 π = 0,49 n = 100 NB: * Il s’agit ici d’un exemple fictif, avec des données reconstituées pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 51
  52. Exemple n°4* : Résultats d’élections • On sait que p = 0,55 π = 0,49 n = 100 NB: * Il s’agit ici d’un exemple fictif, avec des données reconstituées pour les besoins statistiques de la présentation. Z ≈ 1,2002 Dans la table Z, on trouve p(Z ≤ 1,20) = 88,49% Donc p(Z > 1,20) = 11,51% On a donc 11,5% de risque de proclamer un candidat vainqueur de l’élection alors qu’il échoue de peu à l’élection. Jérôme CAREL - Mai 2022 52
  53. Comparer deux populations à partir de deux échantillons distincts Jérôme CAREL - Mai 2022 53
  54. POPULATION? = POPULATION? On connaît la proportion d’une même modalité dans deux échantillons (p1) et (p2). On souhaite comparer les proportions π1 et π2 des deux populations estimées à partir des paramètres de deux échantillons respectifs. ? Jérôme CAREL - Mai 2022 54
  55. Exemple n°4* : Résultats d’élections Un 2ème institut de sondage a été mandaté pour faire le même travail que le premier mais sur un échantillon différent de 120 personnes, lui aussi connu pour être représentatif des comportements de électeurs. Le 1er institut obtient un score d’échantillon de 49% des voix pour le candidat étudié. Le 2ème institut obtient un score d’échantillon de 53% des voix pour ce même candidat. Peut-on affirmer que les scores estimés pour la population dans chacun des cas sont statistiquement semblables en admettant un risque d’erreur de 5% ? Jérôme CAREL - Mai 2022 55
  56. Exemple n°4* : Résultats d’élections Pour résumer, on a : p1 = 0,49 et p2 = 0,53 Le principe ici consiste à analyser la différence de proportion entre les échantillons par rapport à la différence de proportion entre les populations estimées. Si les deux populations estimées sont en réalité une seule et même population, alors on a : π1 = π2; autrement dit π1 - π2 = 0. On fait donc un test d’hypothèses : H0 : Les proportions estimées pour chacune des 2 populations ne sont pas significativement différentes l’une de l’autre H1 : Les proportions estimées pour chacune des 2 populations sont significativement différentes l’une de l’autre. Jérôme CAREL - Mai 2022 56
  57. Exemple n°4* : Résultats d’élections On calcule alors un ZSTAT que l’on compare à une valeur critique Z-2,5%. Si ZSTAT > Z2,5% ou bien si ZSTAT < Z- 2,5% , alors on peut dire qu’on a bien 2 estimations différentes. Jérôme CAREL - Mai 2022 57
  58. Exemple n°4* : Résultats d’élections On calcule donc Avec On obtient Soit Z = -0,59 Jérôme CAREL - Mai 2022 58
  59. Exemple n°4* : Résultats d’élections Dans la table Z de la loi normale centrée réduite, on trouve : Z-2,5% = -1,96 On constate donc que Z-2,5% ≤ ZSTAT ≤ Z+2,5% On ne peut donc pas rejeter H0. On ne peut donc pas affirmer que les résultats obtenus par l’un et l’autre des instituts de sondage sont significativement différents. Conclusion : L’un donnant le candidat gagnant et l’autre perdant, on peut conclure à une impossibilité de donner le nom d’un gagnant. Pour pouvoir espérer affiner les résultats, il faudrait notamment augmenter la taille des échantillons de population. Jérôme CAREL - Mai 2022 59
  60. La clé de la réussite ? L’entraînement et les exercices réguliers Jérôme CAREL - Mai 2022 60
Publicité