Stat5 Student

13 920 vues

Publié le

Comparaison de deux moyennes avec le test de Student sous Excel, à l'aide d'exemples empruntés à la kinesitherapie.

Publié dans : Formation
0 commentaire
3 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
13 920
Sur SlideShare
0
Issues des intégrations
0
Intégrations
628
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
3
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Stat5 Student

  1. 1. 5- Comparaison de 2 moyennes à l’aide du test T de Student Kinésithérapie et Biostatistiques avec Excel ® Jean-Louis Estrade Enseignant IFMK Orléans La Source Enkre
  2. 2. <ul><li>Ces diaporamas ne sauraient remplacer un cours de biostatistiques. </li></ul><ul><li>Ils n’ont pour but que de permettre à des étudiants K1 de faire un premier abord objectif de l’évaluation de la posture et du mouvement, en application des connaissances biostatistiques théoriques acquises lors de l’année universitaire d’orientation. </li></ul><ul><li>Des notions abordées dans l’un des chapitres sont parfois utiles à la compréhension des chapitres suivants. En conséquence, ils sont à consulter dans l’ordre, avec le fichier Excel STAT.XLS joint qui reprend les illustrations du diaporama. </li></ul><ul><li>Il faut avoir à leur lecture la seule attitude compatible avec l’esprit du domaine étudié, à savoir le fait que nous ne pouvons pas rejeter l’hypothèse d’erreurs multiples, diverses et variées dans ces diaporamas. </li></ul><ul><li>Je suis à l’écoute de toutes vos remarques, annotations, critiques. N’hésitez pas à me les faire parvenir. </li></ul>Nécessaires préambules…
  3. 3. William Sealy Gosset <ul><li>William Sealy Gosset (1876-1937), était employé du brasseur Guiness, pour lequel il sélectionnait les meilleurs variétés d’orge. </li></ul><ul><li>Il a utilisé le nom de Student pour publier ses recherches, son employeur s’opposant à des publications pouvant dévoiler des secrets de fabrication. </li></ul><ul><li>Son test de comparaison de moyennes utilisable pour de petits échantillons est depuis connu depuis sous le nom de t-test de Student (pourquoi t ?) </li></ul>
  4. 4. Problème posé <ul><li>En comparant les moyennes d’une variable issue de deux échantillons indépendants , on observe une différence. </li></ul><ul><li>On veut savoir si cette différence observée est imputable aux fluctuations d’échantillonnage ou correspond à une réelle différence entre les valeurs vraies dans les populations dont sont tirés les échantillons. </li></ul><ul><li>Notion d’indépendance </li></ul><ul><li>Deux variables sont dites indépendantes lorsque la valeur de l’une ne peut pas être liée à la valeur de l’autre. </li></ul><ul><li>Par exemple, la taille et le poids d’un même individu ne sont pas des variables indépendantes. </li></ul>
  5. 5. Problème posé <ul><li>Soit la taille des élèves de K1. On désire savoir si la taille des sujets masculins est significativement différente de celle des sujets féminins. </li></ul><ul><li>L’outil « statistiques descriptives » de l’utilitaire d’analyse d’Excel donne les caractéristiques de chaque variable. </li></ul><ul><li>Les histogrammes comparés des tailles indiquent une différence. </li></ul>
  6. 6. Conditions d’utilisation <ul><li>Le test T est un test paramétrique , ce qui sous-entend qu’il ne peut s’utiliser sans respecter certaines conditions. </li></ul><ul><li>1°- La normalité des deux distributions </li></ul><ul><li>Nous avons un échantillon de 15 sujets et un autre de 38. Moyenne, médiane et mode apparaissent proches dans les deux échantillons. Nous pouvons considérer ces deux distributions comme normales. Nous savons par ailleurs que la variable « taille » est normale dans la population. </li></ul><ul><li>2°- L’égalité des variances </li></ul><ul><li>Il faut que les dispersions des valeurs dans les deux échantillons soient proches, voire équivalentes. La recherche de l’égalité des variances s’obtient à l’aide du test de Fisher . </li></ul>
  7. 7. Le test de Fisher <ul><li>Le test d’égalité des variances (F-Test), (utilitaire d’analyse) permet de comparer les variances des 2 plages indiquées. </li></ul><ul><li>Le résultat, sous forme de tableau, indique une valeur du F de 0.6. Cette valeur est le rapport des variances . </li></ul><ul><li>Excel utilise le degré de signification P pour indiquer le non-rejet de l’hypothèse nulle d’égalité entre les deux variances. </li></ul>
  8. 8. Se passer du test de Fisher <ul><li>De façon plus triviale mais admise, on considère que les variances sont égales lorsqu’elles respectent un rapport entre elles d’une valeur allant de 1 à 3. </li></ul><ul><li>Les variances de nos deux échantillons sont 27,42 et 44,16 : elles respectent ce rapport et sont donc considérées comme égales. </li></ul><ul><li>Nous pouvons utiliser le test de Student. </li></ul>
  9. 9. Le T-test proprement dit <ul><li>Il consiste à calculer la valeur t 0 qui est le rapport entre : </li></ul><ul><li>la différence des deux moyennes et </li></ul><ul><li>la racine carrée de la variance pondérée du nombre de sujets des échantillons, qui s’écrit  s² = {(n 1 – 1)s² 1 + (n 2 -1)s² 2 }/ n 1 + n 2 –2. </li></ul><ul><li>Ce rapport devra être comparer à la valeur seuil de la loi de Student à n 1 + n 2 –2 degrés de liberté. </li></ul><ul><li>Cette valeur se retrouve dans la table de la loi de Student. Elle est aussi calculée par Excel. </li></ul>
  10. 10. Table de la loi de Student <ul><li>Dans le cas présent t 0 est égal à 6,15. </li></ul><ul><li>La valeur du t seuil pour un d.d.l. à 51 (38 + 15 – 2) la plus proche figurant dans la table est de 3.46, le p apparaît inférieur à 0.0005. </li></ul>
  11. 11. T-test bilatéral sous Excel <ul><li>Il s’agit de tester l’hypothèse nulle d’égalité des tailles dans ces deux échantillons, pour répondre à la question «  Est-ce que les deux échantillons sont équivalents ? » </li></ul><ul><li>En sélectionnant une case vierge, on utilise  la fonction TEST.STUDENT dans les fonctions d’Excel. Le test est bilatéral (valeur 2 dans le champ Uni/bilatéral) et les variances sont considérées égales (valeur 2 dans le champ Type). </li></ul>
  12. 12. T-test bilatéral sous Excel <ul><li>La valeur de t zéro p eut être retrouvée à l’aide de la fonction « LOI.STUDENT.INVERSE » à partir de la probabilité retrouvée sous la fonction « TEST.STUDENT ». </li></ul><ul><li>Elle donne le même résultat que le t zéro calculé. </li></ul>
  13. 13. T-test bilatéral sous Excel <ul><li>Le résultat indique le p à 1.1775-07 soit 0.0000011775 ( 10 -7 ) </li></ul><ul><li>Interprétation </li></ul><ul><li>Le degré de signification est un indice de vraisemblance : plus il est petit, plus on a confiance dans la conclusion de rejeter H 0 . </li></ul><ul><li>Nous pouvons donc rejeter l’hypothèse nulle d’égalité des tailles , puisque p est franchement inférieur à 0.025 soit le risque  /2. La taille moyenne d’un garçon est d’une valeur différente de celle d’une fille. </li></ul>
  14. 14. T-test unilatéral sous Excel <ul><li>Il s’agit de tester l’hypothèse alternative à l’hypothèse nulle. Le test est unilatéral : on veut connaître la force de probabilité que les garçons soient plus grands que les filles ; il n’y a pas de raison de tester l’inverse. </li></ul><ul><li>Seule va varier la valeur 1 dans le champ Uni/bilatéral. </li></ul>
  15. 15. T-test unilatéral sous Excel <ul><li>La valeur du p est indiquée dans le résultat, soit 5.10 -8 Nous pouvons donc affirmer que la taille des sujets masculins est plus grande que celle des sujets féminins, puisque p est franchement inférieur à 0.05 soit le risque  . Le hasard a donc moins de cinq chances sur 10.000.000 d’être intervenu dans les différences observées. </li></ul>
  16. 16. Test d’égalité des espérances <ul><li>Sous Excel, il est équivalent à la fonction TEST.STUDENT et permet d’obtenir les valeurs en uni et bilatéral, la variance pondérée, le t zéro </li></ul><ul><li>Il existe un test d’égalité des espérances pour deux observations de variances inégales, ainsi que pour deux observations appariées (voire en infra) </li></ul>
  17. 17. T-test pour grands échantillons <ul><li>Comparaison de deux moyennes quand les échantillons sont tous les deux grands </li></ul><ul><li>On peut appliquer le même test que précédemment, mais, en théorie, on doit appliquer le test Z* ,en sachant que le test de Student en est une approximation fiable pour les grands échantillons. </li></ul><ul><li>Conditions d’application </li></ul><ul><li>Il n’y a pas de conditions d’application autres que n 1 et n 2 ³ 30 . </li></ul><ul><li>Dans Excel </li></ul><ul><li>Le « test de la différence significative minimale (z-test) » dans l’Utilitaire d’analyse (menu Outils). </li></ul>* Voir cours STAT4- Principes des tests statistiques
  18. 18. Conditions particulières <ul><li>Lorsque la distribution n’est pas normale </li></ul><ul><li>La normalité est d’importance secondaire, surtout quand les distributions sont à peu près symétriques. L’écart à la normalité qui en résulte affecte peu le résultat. </li></ul><ul><li>C’est une interprétation française. Les anglo-saxons utilisent des tests dit non-paramétriques (Wilcoxon, Mann-Whitney) </li></ul><ul><li>Lorsque les variances ne sont pas égales </li></ul><ul><li>Cette égalité n’est pas fondamentale lorsque les effectifs des échantillons sont égaux. </li></ul><ul><li>Les variances ne doivent pas être trop différentes (ne pas dépasser un rapport de 1 à 3), pour que le test soit considéré comme robuste. </li></ul><ul><li>Excel propose une variante au test TEST.STUDENT : dans le cas de variances inégales, la valeur 3 doit être indiquée dans le champ « Type ». </li></ul>
  19. 19. L’appariement <ul><li>Qu’est-ce que l’appariement ? </li></ul><ul><li>Pour comparer deux moyennes, deux pourcentages, deux variances, il est nécessaire que les deux échantillons soient indépendants . </li></ul><ul><li>Qu’est ce que l’indépendance de 2 échantillons ? </li></ul><ul><li>Deux échantillons sont indépendants lorsque les sujets de l’un ont été choisis indépendamment des sujets de l’autre, dans les populations respectives dont ils sont issus. </li></ul><ul><li>On parle d’échantillons appariés ou de séries appariées lorsque les sujets sont groupés, au moment où se constituent les échantillons , en « paires » composées d’un sujet de chaque échantillon. </li></ul>
  20. 20. L’appariement <ul><li>Exemples d’échantillons non indépendants : </li></ul><ul><li>Deux échantillons de sujets A et B, B étant les mêmes sujets que A, dont on mesure la même variable 6 mois plus tard. </li></ul><ul><li>Deux échantillons composés des même sujets ayant reçu successivement un traitement antalgique A puis un traitement antalgique B, le but étant de comparer les efficacités des traitements antalgiques A et B. Dans ces deux cas, le choix des sujets d’un échantillon est fonction du choix des sujets de l’autre. </li></ul><ul><li>Un échantillon composé de tous les consultants d’un dispensaire pendant une année, l’autre de tous les consultants du même dispensaire l’année suivante. Dans ce cas, des consultants peuvent être identiques d’une année sur l’autre. Ce n’est pas systématique, mais possible. </li></ul>
  21. 21. Pourquoi utiliser l’appariement ? <ul><li>Pour répondre à des questions spécifiques </li></ul><ul><li>Comparer la force des quadriceps avant et après traitement kinésithérapique chez un même sujet. On pourrait prendre une population de sujets non traités et une population de sujets traités et ne comparer  que la force des quadriceps  « traités »  à la force des quadriceps « non traités ». Les variations individuelles de cette force font qu’il est préférable de la mesurer avant et après traitement chez de mêmes sujets. </li></ul><ul><li>Comparer les mesures de longueur des membres inférieurs réalisés par deux praticiens sur un même échantillon de sujets. On ne peut pas demander à un praticien de mesurer un échantillon A et à l’autre de mesurer un échantillon B. </li></ul>
  22. 22. Pourquoi utiliser l’appariement ? <ul><li>Pour améliorer les propriétés de certains tests de comparaison </li></ul><ul><li>La puissance d’un test de comparaison peut être plus grande avec des échantillons appariés qu’avec des échantillons indépendants, puisque « toutes choses sont égales par ailleurs ». </li></ul><ul><li>Cela permet de tenir compte du rôle de facteurs tiers dans la modification d’une variable. </li></ul><ul><li>Si on apparie les sujets par âge, comparant en intra-classes d’âge, la fréquence de survenue d’une pathologie lors de l’exposition à un facteur donné ne sera pas modifié par le facteur âge. </li></ul>
  23. 23. Pourquoi utiliser l’appariement ? <ul><li>Pourquoi ne pas toujours utiliser l’appariement ? </li></ul><ul><li>Si par construction, les deux échantillons ont le même âge, ont ne peut pas déterminer si l’âge est un facteur influençant la survenue d’une pathologie. </li></ul><ul><li>On ne trouve pas toujours un autre sujet pour compléter la paire, surtout s’il existe plusieurs variables d’appariement. </li></ul>
  24. 24. T-Test & appariement <ul><li>Principe du test </li></ul><ul><li>On transforme une comparaison de deux moyennes en la comparaison de la moyenne de leur différence à la  valeur théorique 0. </li></ul><ul><li>Tout se passe comme s’il n’y a avait qu’un seul échantillon de n sujets sur lesquels les valeurs observées sont les différences de moyennes. </li></ul><ul><li>La valeur du t 0 obtenue sera comme toujours comparée à une valeur seuil. </li></ul><ul><li>Conditions d’application du test </li></ul><ul><li>Comme la variable mesurée est la différence entre deux variables chez un même sujet, il faut que cette différence obéisse à une loi normale. </li></ul><ul><li>Réalisation sous Excel </li></ul><ul><li>Excel propose une variante au test TEST.STUDENT : dans le cas de sujets appariés, la valeur 1 doit être indiquée dans le champ « Type ». </li></ul>
  25. 25. T-Test & appariement <ul><li>Exemple : </li></ul><ul><li>On veut savoir si la mesure centimétrique de l’inclinaison D chez le sujet debout est égale à la mesure en inclinaison G. Ces comparaisons doivent se faire à l’évidence sur un même sujet. </li></ul><ul><li>On dispose de 52 sujets. </li></ul><ul><li>Excel nous donne la valeur du p = 0.38, soit très supérieure à la valeur seuil de 0.025 pour un test bilatéral. </li></ul><ul><li>Nous ne pouvons pas rejeter l’hypothèse nulle. </li></ul><ul><li>Il y a égalité entre l’inclinaison D et l’inclinaison G chez un même sujet. </li></ul>
  26. 26. T-Test & appariement <ul><li>Exemple : </li></ul><ul><li>L’outil « Test d’égalité des espérances : observations pairées» est une alternative plus rapide et plus complète à la fonction « TEST.STUDENT » </li></ul>
  27. 27. Comparaison à une moyenne théorique <ul><li>Problème posé : </li></ul><ul><li>Nous disposons de la moyenne de la taille de la française moyenne, qui peut être considérée comme une moyenne théorique , puisque représentant la donnée la plus précise sur la question. </li></ul><ul><li>Nous disposons de la moyenne de la taille de l’étudiante de K1 et de sa variance. </li></ul>
  28. 28. Comparaison à une moyenne théorique <ul><li>Problème posé : </li></ul><ul><li>La question est : « est-ce que la taille de cette étudiante correspond à la taille de la française moyenne ? », ce qui peut se traduire par : « Peut-on émettre l’hypothèse d’une différence nulle entre la taille de l’étudiante et la taille de la française moyenne ? » </li></ul><ul><li>Comme toujours, soit la différence est nulle, soit elle ne l’est pas. </li></ul><ul><li>Dans ce dernier cas, l’hypothèse alternative consiste à dire : </li></ul><ul><li>La moyenne de la taille de l’étudiante est différente de la moyenne théorique ; on parle d’hypothèse bilatérale. </li></ul><ul><li>L’une est plus grande que l’autre ; on parle d’hypothèse unilatérale. </li></ul>
  29. 29. Comparaison à une moyenne théorique <ul><li>Conditions d’application : </li></ul><ul><li>Si la distribution n’est pas normale, il n’y a pas moyen de comparer deux moyennes qui conviennent à toutes les situations. </li></ul><ul><li>Cependant, si l’échantillon est grand (en pratique n > 30), on sait que la distribution de m est approximativement normale et s² (variance dans l’échantillon) est une bonne approximation de  ² (variance dans la population). </li></ul><ul><li>Principe du test </li></ul><ul><li>Le test consiste à calculer la valeur absolue de la quantité t 0 = observée sur l’échantillon et à la comparer à une valeur seuil donnée par une table au risque  de la loi de Student à (n-1) degrés de liberté. </li></ul>
  30. 30. Comparaison à une moyenne théorique <ul><li>Conditions d’application : </li></ul><ul><li>Si la distribution n’est pas normale, il n’y a pas moyen de comparer deux moyennes qui conviennent à toutes les situations. </li></ul><ul><li>Cependant, si l’échantillon est grand (en pratique n > 30), on sait que la distribution de m est approximativement normale et s² (variance dans l’échantillon) est une bonne approximation de  ² (variance dans la population). </li></ul>
  31. 31. En pratique <ul><li>Sous Excel </li></ul><ul><li>Il suffit de comparer la valeur de taille de chaque étudiante avec la valeur de taille de la française et de faire un test de Student sur sujets appariés. </li></ul><ul><li>L’utilisation de la fonction TEST.STUDENT ou de l’outil « test d’égalité des espérances : observations pairées » ramène les m êmes résultats : l’étudiante a une taille supérieure à la moyenne de la taille des françaises. </li></ul>
  32. 32. Bibliographie <ul><li>Livres : </li></ul><ul><li>Bouyer J. Méthodes statistiques. Médecine – Biologie. Estem. Editions Inserm. 2004 </li></ul><ul><li>Georgin JP. Gouet M. Statistiques avec Excel. Presses Universitaires de Rennes. 2005 </li></ul><ul><li>Huguier M. Flahault A. Biostatistiques au quotidien. Elsevier. 2003 </li></ul><ul><li>Sites : </li></ul><ul><li>Cours de Denis Poinsot, maître de conférence à la Faculté de Rennes : http://perso.univ-rennes1.fr/denis.poinsot/Statistiques%20pour%20statophobes/ </li></ul><ul><li>Biostatistique clinique - épidemiologie et essais cliniques de la Faculté de Médecine Necker-Enfants Malades (Dr Landais & Jais) : http://www.educ.necker.fr/cours/poly/biostatistique/biostat.htm# </li></ul><ul><li>Cours : </li></ul><ul><li>Méthodologie de Base en Statistique et Epidémiologie. École d’été de santé publique et d’épidémiologie. Faculté de Médecine Paris-Sud, 63 rue Gabriel Péri, 94276 Le Kremlin Bicêtre. http://u569.kb.inserm.fr/ecolete/index.htm </li></ul><ul><li>Centre d’Enseignement de la Statistique Appliquée à la Médecine et à la Biologie Médicale (CESAM) http://cesam.vjf.inserm.fr/ </li></ul>

×