Tout sur les p values

5 631 vues

Publié le

Exposé sur la bonne utilisation des p-values en statistique appliquée. Sont détaillés notamment les pièges d'interprétation d'une p-value significative.

Publié dans : Données & analyses
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
5 631
Sur SlideShare
0
Issues des intégrations
0
Intégrations
609
Actions
Partages
0
Téléchargements
55
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Tout sur les p values

  1. 1. Présentation Ifsttar 04012011 TOUT Ce que vous avez toujours voulu savoir SUR les “P-VALUES” Sans jamais oser le demander Guillaume SAINT PIERRE 13/03/2014 Séminaire LEPSIS Marnes 13 mars 2014
  2. 2. Présentation Ifsttar 04012011 Contexte • Le papier de Johnson n’est qu’une critique supplémentaire d’un « rituel » des utilisateurs de la statistique : – Le test de signification de l’hypothèse nulle • La controverse dure depuis une centaine d’année, et confronte différentes philosophies de la construction du savoir • En effet, la Statistique (et la théorie des tests) n’est qu’un outil pour « construire » une connaissance • Il s’agit donc d’un problème de méthode scientifique
  3. 3. Présentation Ifsttar 04012011 Contexte • Aristote est le premier à réfléchir à l’élaboration d’une « méthode » • Privilégie l'idée d'une science déductive, mais reconnaît une place à l'induction • « Ce qui ne veut pas dire que par l'observation répétée de cet événement, nous ne puissions, en poursuivant l'universel, arriver à une démonstration, car c'est d'une pluralité de cas particuliers que se dégage l'universel. » (Seconds Analytiques I, 31, 88a, 4) • Descartes « Discours de la méthode » (1637) • Structure des révolutions scientifiques de Thomas Kuhn : Lorsque plusieurs chercheurs ont répété des expériences sur un même phénomène avec diverses variations (de conditions expérimentales, d'instruments de mesures, de types de preuves…) ces constats élémentaires se confirment mutuellement sans qu'il n'y ait de limite précise ni de moment particulier qui les valident, c'est l'appréciation de plusieurs chercheurs qui conduit à un consensus progressif. Les expériences et constats élémentaires forment alors un corps confirmé de preuves de l'existence du phénomène.
  4. 4. Présentation Ifsttar 04012011 Tester la signification de l’hypothèse nulle • Une fois le phénomène « découvert », les chercheurs tentent de l’expliquer en faisant des hypothèses • Une hypothèse, pour être scientifiquement admissible, doit être réfutable, c'est-à-dire doit permettre des expérimentations qui la corroborent (la confirment) ou la réfutent (l'infirment). • La version statistique consiste à – Définir une hypothèse « nulle » (H0) – Mettre en place une expérience pour la réfuter – Confronter cette hypothèse aux données : • Cad : Supposer H0 vraie et calculer la probabilité d’observer les données obtenues (ou au moins aussi extrêmes)
  5. 5. Présentation Ifsttar 04012011 Tester H0 : exemple • Par exemple, ayant observé un certain nombre de tirages « pile ou face » produit par une pièce, on peut se demander si celle-ci est biaisée (c'est-à-dire possède une probabilité différente de 1/2 de tomber sur une face donnée). – H0 : P=1/2 • Dans cette situation, l'approche par test d'hypothèse consiste à supposer que la pièce est non biaisée (hypothèse nulle), et à calculer la probabilité d'observer des tirages au moins aussi extrêmes que celui effectivement observé (grâce à une loi binomiale). • Si cette probabilité est faible (en pratique, inférieure à un seuil fixé, en général de 5%), on rejette l'hypothèse nulle de l'équiprobabilité des faces de la pièce, et on décide qu'elle est biaisée.
  6. 6. Présentation Ifsttar 04012011 Quel est le problème ? • Cette approche ne nous dit pas ce que nous voulons savoir • Mais nous voulons tellement le savoir, que nous croyons tout de même avoir la réponse • Alors, que voulons nous savoir ? – Ayant observé ces données, quelle est la probabilité que H0 soit vraie ? – P(H0/D) • Mais en fait, tester H0 donne la réponse à la question suivante : – Ayant supposé H0 vraie, quelle est la probabilité d’avoir observé ces données ? – P(D/H0)
  7. 7. Présentation Ifsttar 04012011 La grande illusion (Gigerenzer, 1993) • La croyance commune (quasi unanimement partagée par la plupart des utilisateurs de la Statistique) consiste à considérer que : – Le niveau de signification pour lequel on rejette H0 (en général 0.05) – Est la probabilité que celle çi soit vraie – Sous entendu que a contrario, H1 est vraie avec une probabilité de 0.95 • C’est FAUX !
  8. 8. Présentation Ifsttar 04012011 Pourquoi est ce faux ? (Jacob Cohen, "The Earth is round (p < .05)", American Psychologist 49 (12), 1994) • C’est une contraposition – puisque la cause d'une implication engendre la conséquence, alors l'absence de la conséquence implique automatiquement l'absence de la cause – AB est équivalent à Non BNon A • Raisonnement correct, à ne pas confondre avec la négation de l’antécédent – Non ANon B • Le test d’hypothèse rend le raisonnement probabiliste, ce qui est faux If the null hypothesis is correct, then this datum (D) can not occur. • It has, however, occurred. • Therefore, the null hypothesis is false. If the null hypothesis is correct, then these data are highly unlikely. • These data have occurred. • Therefore, the null hypothesis is highly unlikely.
  9. 9. Présentation Ifsttar 04012011 Pourquoi est ce faux ? (2) • Raisonnement juste mais prémisse fausse • Donc conclusion fausse If a person is a Martian, then he is not a member of Congress. •This person is a member of Congress. •Therefore, he is not a Martian. If a person is an American, then he is not a member of Congress. (WRONG!) •This person is a member of Congress. •Therefore, he is not an American. • Raisonnement juste (contraposition)
  10. 10. Présentation Ifsttar 04012011 Pourquoi est ce faux ? (3) • Si la prémisse est rendue « aléatoire » : • Alors le raisonnement n’est plus formellement juste, et la conclusion est improbable • C’est la même chose que de dire : If a person is an American, then he is probably not a member of Congress. (TRUE, RIGHT?) •This person is a member of Congress. •Therefore, he is probably not an American. (Pollard & Richardson. 1987) If Ho is true, then this result (statistical significance) would probably not occur. •This result has occurred. •Then Ho is probably not true and therefore formally invalid
  11. 11. Présentation Ifsttar 04012011 Pourquoi P(D/H0) ≠ P(H0/D) ? • Pour connaître P(H0/D), il faudrait connaître P(H0) et appliquer le théorème de Bayes (on y revient + tard) • Hélas on ne connait jamais P(H0) • Un exemple pour évaluer l’ampleur du problème : – La Schizophrénie touche 2% de la population – On dispose d’un test très fiable : • Sensibilité = P(Schizo/H1)=0.95 • Spécificité = P(normal/H0)=0.97 – Avec : • H0 : le cas est « normal » • H1 : le cas est « schizophrène » – Soit donc D le résultat positif d’un test pour une personne donnée (D=schizo) • Etant donné la sensibilité, peut on dire que le sujet testé est « normal » avec une probabilité < 5% ?
  12. 12. Présentation Ifsttar 04012011 P(H0/D) ≈ 0.6 ! • La théorie Bayesienne permet de calculer P(H0/D)
  13. 13. Présentation Ifsttar 04012011 C’est grave docteur ? • http://www.stat.duke.edu/~berger/applet2/pvalue.html • Cas du test z : test de la moyenne µ pour un échantillon N(µ,σ2) de variance connue. • H0 : µ=0 • L’applet ci-dessous génère des échantillons soit sous H0, soit sous H1 (à spécifier), calcule une p-value, stocke les résultats des p- values significatives (rejet de H0), et indique quelle était la réalité des échantillons.
  14. 14. Présentation Ifsttar 04012011 De l’intérêt d’un « a priori » R. NUZZO; SOURCE: T. SELLKE ET AL. AM. STAT. 55, 62–71 (2001)
  15. 15. Présentation Ifsttar 04012011 Et si vous étiez un Bayesien qui s’ignore ? • Selon Aristote, une proposition est soit vraie, soit fausse • La théorie de Bayes s'intéresse aux cas où une proposition pourrait être vraie ou fausse, selon des observations où subsiste une incertitude. • On attribue à toute proposition une valeur entre 0 (faux à coup sûr) et 1 (vrai à coup sûr) • L'inférence bayesienne révise la probabilité des propositions au fur et à mesure des observations, incluant la première opinion (a priori) sur la probabilité des prémisses. Pasteur Thomas Bayes, 1702-1761 Théorème de Bayes
  16. 16. Présentation Ifsttar 04012011 L’approche Bayesienne • Seule la théorie de Bayes permet d’accéder à P(H0/D) • Moyennant la connaissance de P(H0) … dont on ne dispose pas … • Les Bayesiens utilisent donc la notion d’ « a priori » : – Fixer une probabilité à H0 selon une connaissance « a priori » – Ou fixer une probabilité « vague », cad la plus diffuse possible, pour représenter l’absence de connaissance a priori. • La difficulté de cette approche est dans le choix de l’a priori • Mais : – L’effet de l’a priori s’estompe – Les a priori existent aussi en stat classique mais sont souvent cachés (choix d’un critère à maximiser etc …) – Notre cerveau lui-même fonctionne selon un modèle Bayesien (Stanislas Dehaene : Le cerveau Bayesien, collège de France)
  17. 17. Présentation Ifsttar 04012011 Jeffrey : tests bayesiens • Expérience : • On teste H0 : θ=θ0 contre H1 : θ=θ1 • On définit le « Bayes factor » (rapport de vraisemblance) : • Rejeter H0 si • Donner la probabilité a posteriori :  xfX  1)( xB    1 0 )(   xf xf xB       xB xB xH   1 Pr 0    xB xH   1 1 Pr 1
  18. 18. Présentation Ifsttar 04012011 Quid de la théorie des tests « classique » ? • En fait il y en a 2 … • Là aussi, les approches sont différentes et conduisent à des confusions Ronald Fisher Jerzy Neyman
  19. 19. Présentation Ifsttar 04012011 FISHER : test de signification • Expérience : • On teste H0 : θ=θ0 • Choisir une statistique de test T=t(x) telle que des grandes valeurs de T représentent une « évidence » contre H0 • Calculer la p-value pour les données observées • Rejeter H0 si p est petite • Justification : p peut être vue comme un index de la « force de l’évidence » contre H0  xfX      0HxtXtPp 
  20. 20. Présentation Ifsttar 04012011 Illustration • Dans le cas d’un t-test, la statistique de test suit une loi de student (n-1). • Si p-value très petite : « soit qque chose de très rare s’est passé, soit H0 est fausse » T-observée P-value=Prob(T≥Tobs|H0) Loi de Student « théorique » Cad, si H0 vraie
  21. 21. Présentation Ifsttar 04012011 Neyman-Pearson : test d’hypothèses • On teste H0 : θ=θ0 contre H1 : θ=θ1 • On rejette H0 si T>c • avec c lié à une valeur critique (seuil) préalablement choisie • On calcule ensuite les erreurs de type I et type II : • Justification par le principe fréquentiel : Si on répète la même procédure, l’erreur moyenne ne devrait pas dépasser l’erreur calculée pour celle çi  00 HrejetHP  10 HacceptHP
  22. 22. Présentation Ifsttar 04012011 Illustration • H0 : µ=µ0 VS H1: µ=µ1 µ0 µ1 Puissance (1-β) α (alpha) β (beta) Seuil de décision
  23. 23. Présentation Ifsttar 04012011 Remarques (1) • α est lié à la probabilité d’observer l’effet de H0 sachant les données • α est choisi « a priori », souvent 5% • Le seuil de décision Tcut est choisi de façon à ce que : • Si T (stat de test) > Tcut, on dit que H0 est rejetée au niveau 1-  (95%) • Une des difficultés consiste à «bien» choisir H1, ce qui est souvent difficile. Prob(T≥Tcut)=
  24. 24. Présentation Ifsttar 04012011 Remarques (2) • α et β antagonistes : abaisser l'une augmente immédiatement l'autre, et la décision que doit prendre le chercheur est un compromis adapté à la situation. – erreur de type I (α) = condamner un innocent ; – erreur de type II (β) = laisser un coupable en liberté. • Plus la différence entre H1 et H0 est grande, plus les conclusions qu'on peut tirer d'un test sont fiables, puisqu'à la fois les erreurs de type I et II diminuent. • On ne maîtrise pas ce paramètre, puisqu'il dépend des données que l'on examine. – On peut estimer la fiabilité d'un test avant de commencer une expérience, et le cas échéant, on peut décider de ne pas l'entreprendre si le test résultant s'annonce comme peu fiable. – Par ex, une puissance inférieure à 80% est trop faible – On peut ainsi décider d'une taille d'échantillon plus grande
  25. 25. Présentation Ifsttar 04012011 Différences entre Fisher et NP • Hypothèses : – Fisher ne fait qu’une seule hypothèse (H0) – NP a besoin de 2 hypothèses (bien spécifier H1) • Rejet de H0 : – Fisher : p-value de 10-30 rejette plus fortement que 10-2 – NP : la p-value importe peu, il faut seulement que p<alpha. Seul le niveau de rejet de H0 est donné (95%) • La théorie de Fisher est faite pour rejeter H0. – Elle « exagère » l’effet en calculant une p-value dépendant de l’ensemble des données qu’on aurait du observer sous H0
  26. 26. Présentation Ifsttar 04012011 Les 3 options dans la pratique • Revenons au z-test, cad H0: µ=0 contre H1 : µ≠0 dans le cas gaussien • Soit (ou z=2.9) – Fisher dit : • rejet de H0 avec p=0.021 (ou p=0.0037) – Jeffrey (Bayes) dit : • P(H0/D)=0.3 (ou P(H0/D) =0.1) • (en utilisant un a priori cauchy(0,σ)) – Neyman dit : • rejet de H0 au seuil α=0.05 (pré-spécifié) • Dans les deux cas 3.2 n x z 
  27. 27. Présentation Ifsttar 04012011 L’erreur à ne pas commettre • Utiliser l’approche « classique » de Neyman et l’interpréter selon Fisher. • Cad, ne pas confondre p-value et alpha (P(rejeter H0/H0 vraie)) • Les p-values ne peuvent pas être interprétées comme une probabilité ! • Rassurez vous, l’erreur est commune, y compris chez les statisticiens
  28. 28. Présentation Ifsttar 04012011 Et Johnson alors ? • Fait partie de l’école Bayesienne • A mis au point des tests bayesiens aux propriétés comparables aux tests « classiques » (validés car publiés) • Compare le « bayes factor » et les p-values pour 765 t- tests (Wetzel et al. 2011) • En gros, il montre que des p-values très petites ne sont pas forcément associées à des facteur de Bayes très grands. • Ce qui implique que nombre de conclusions ne sont pas si solides que ça …
  29. 29. Présentation Ifsttar 04012011 Argument visuel : • Cela ressemble à un mélange de deux lois : les p-values vraiment associées à un effet, plus un bruit uniforme
  30. 30. Présentation Ifsttar 04012011 Il n’est pas seul • En effet, le papier de Johnson est le dernier d’une très longue série • A mon sens, le fait que p<0.05 est insuffisant est bien établi • Dans tous les cas, j’espère vous avoir convaincu de ne pas (trop) regarder p<0.1, et à éviter de parler de « tendance » • Ses conseils : – Signification pour p<0.005 – Grande signification pour p<0.001 – Donner le Bayes factor quand cela est possible
  31. 31. Présentation Ifsttar 04012011 Quelques conseils aux auteurs • Utiliser le cadre de Neyman-Pearson, et ne pas interpréter les p-values • Décider d’une règle pour terminer la collecte de données AVANT de la commencer, et l’écrire dans l’article • Au moins 20 observations par cellule, sinon produire une justification sérieuse • Lister l’ensemble des variables de l’étude • Décrire toutes les conditions expérimentales testées, incluant les non- significatives • Si des observations sont enlevées, donner quand même les résultats avec • Si l’analyse inclut une covariable, il faut aussi donner les résultats sans celle çi • Source : False-positive psychology undisclosed flexibility in data collection and analysis allows presenting anything as significant, JP Simmons, LD Nelson, U Simonsohn - Psychological science, 2011
  32. 32. Présentation Ifsttar 04012011 Quelques conseils (2) • Ne pas attendre une méthode « magique » de la part des statisticiens – La controverse dure depuis longtemps et il s’agit + de philosophie que de maths ! • Modifier la façon de construire H0 – Remplacer H0 : μ =0 par H0 : |μ|<ε • Ne pas éliminer les p-values, mais donner AUSSI les intervalles de confiance – En effet, un intervalle de confiance fournit toutes les informations nécessaires • Essayer de présenter les résultats graphiquement (boxplots etc.) • Mettre en évidence un effet = mener une enquête et déterminer le coupable ! – Un indice seul ne suffit pas – Un faisceau d’indices peut constituer une preuve – Mais généralement, un jury doit délibérer …
  33. 33. Présentation Ifsttar 04012011 Attention cependant • D’autres problèmes et pièges existent : • Eviter les modèles trop complexes par rapport aux données – Ex : interaction triple pour un échantillon de taille 30 – C’est le principe de parcimonie • Pb des tests multiples – Tests de comparaisons multiples suivant une anova par ex – Pour 100 tests effectués, 5 résultats sont faux, mais on ne sait pas lesquels … • Etc …
  34. 34. Présentation Ifsttar 04012011 N’oubliez pas : • Les données finissent toujours par parler sous la torture • Mais ce qu’elles disent n’a alors plus beaucoup de valeur.
  35. 35. Présentation Ifsttar 04012011 Merci pour votre attention Guillaume SAINT PIERRE Guillaume.saintpierre@ifsttar.fr http://perso.lcpc.fr/guillaume.saint-pierre/ Tél. +33 (0)1 40 43 29 33 LIVIC - Laboratoire sur les Interactions Véhicules-Infrastructure-Conducteurs 14 , route de la Minière - Bâtiment 824 - Satory 78000 Versailles http://www.inrets.fr/linstitut/unites-de-recherche-unites-de-service/livic/ Tél. +33 (0)1 40 43 29 01

×