La Statistique            oucomment tenter de s’affranchir            de       la Variabilité          Dr Frédérick Gay   ...
“ Le Jeu de la Science et du Hasard "                      Pr Daniel Schwartz          Dans le domaine du vivant le hasard...
La statistique basée sur des hypothèses de distribution1.   Variabilité2.   Incertitude et Probabilité3.   Description ver...
La Statistique parce que la Variabilité• Les statistiques sont des dénombrements de sujets, d’objets,  d’évènements, dans ...
• Bien que la variabilité dans le domaine du vivant  soit, aux yeux de tous, une évidence,                         la forc...
• La variabilité peut être réduite par des procédés  expérimentaux,                                          mais non supp...
• La variabilité (qui comporte l’éventuelle erreur de mesure),               traduit la fluctuation biologique.
Histoire personnelle du Pr Daniel Schwartz :Mes rhododendrons fleurissent mal, j’avais fait venir un spécialiste :" Vos rh...
• Certains caractères varient d’un moment à l’autre chez le  même individu,                              à la variabilité ...
Une science du particulier ?  L’individu diffère des autres individus,  il diffère de lui-même d’un moment à l’autre.  Ain...
La statistique basée sur des hypothèses de distribution1.   Variabilité2.   Incertitude et Probabilité3.   Description ver...
La science de l’incertain• Du fait de la variabilité, on est dans le domaine de l’incertain.• Adapter une science au parti...
La probabilité• L’incertitude n’est pas en tout ou rien, elle présente des degrés.• On qualifie un événement incertain de ...
Notre niveau d’ignorance• La probabilité qu’un événement se produise n’a pas  toujours une estimation figée une fois pour ...
• " Lois du hasard " :      2 mots apparemment incompatibles                 ne sont pas des lois de certitudes           ...
XVII siècle - cercles de jeu – Pascal• Le chevalier de Méré, cherchait à gagner sur ses  adversaires dans des paris où la ...
XVII siècle - Cercles de jeu – Pascal• Le chevalier Méré posa un jour un problème à Pascal :  deux joueurs font une partie...
La statistique basée sur des hypothèses de distribution1.   Variabilité2.   Incertitude et Probabilité3.   Description ver...
Description et Recherche• Pour exposer la démarche statistique, il est utile de classer  les problèmes en deux catégories ...
Description et Recherche• Il est pratique de considérer que :   – la description porte sur 1 caractère     (la survenue d’...
Description• Les mauvaises langues prétendent qu’un statisticien se  noya dans un cours d’eau dont la profondeur moyenne é...
Description• L’idée, aujourd’hui presque évidente, de décrire une population, par des  pourcentages ou des moyennes, a pou...
Description• Les "rapport numériques« (les taux) étaient bannis, il fallait se contenter  de dire "souvent, rarement, dans...
Effacement des individualités• Puisque la probabilité est fonction des informations  disponibles,• les sujets deviennent t...
La statistique basée sur des hypothèses de distribution1.   Variabilité2.   Incertitude et Probabilité3.   Description ver...
On ne dispose que d’échantillons• Comme les fluctuations d’échantillonnage sont imprévisibles,• car le hasard peut tout fa...
Risque d’erreur consenti• Certitude impossible.• Seule réplique valable :                  la fixation d’un intervalle    ...
Comment fixer le risque ?• Dans certains problèmes, on peut chiffrer le coût de l’erreur  et l’intérêt apporté par la dime...
Un peu d’histoire• L’intervalle de confiance d’un pourcentage a été imaginé  par Laplace dès 1789,• puis utilisé par ses d...
Calcul de la “fourchette”1 – La dimension de la fourchette diminue quand le nombre de sujet n de l’échantillon   augmente,...
Les pièges de la fourchette•   Le sens de la fourchette est souvent mal compris.•   Il est faux de s’imaginer que la vraie...
Les pièges de la fourchette•   Cependant, un doute le saisit :    Comment se fait-il que 100 patients seulement sur les 1 ...
La statistique basée sur des hypothèses de distribution1.   Variabilité2.   Incertitude et Probabilité3.   Description ver...
La représentativité• Si l’échantillon diffère systématiquement de la population pour un  caractère au moins,• et comme un ...
Représentatif• On croit souvent qu’un échantillon n’est représentatif que s’il est  suffisamment grand.• C’est faux !• Un ...
Le tirage au sort• Pour éviter ce biais, il faut donc que l’inclusion d’un sujet dans  l’échantillon soit faite indépendam...
La courte paille•   Le recours au hasard est une pratique ancienne.•   L’objectif est de désigner les sujets indépendammen...
La statistique basée sur des hypothèses de distribution1.   Variabilité2.   Incertitude et Probabilité3.   Description ver...
Le jeune accoucheur•   Un jeune accoucheur entreprit, pour sa thèse, une enquête réunissant 1000 cas.    Accouchements    ...
Désillusion• C’est ici le moment d’avouer que les résultats  n’étaient pas ceux annoncés dans le tableau.• En réalité la d...
Explication• On faisait surtout appel à l’accoucheur  quand la situation se présentait mal.• Les deux groupes avec et sans...
Un nouveau mode de pensée• Les véritables fondateurs de la théorie des tests d’hypothèse sont Jerzy  Neyman et Egon Pearso...
Justice et Statistique• En 1830, la proportion était portée à 8 voix contre 4, mais même avec cette  modification le risqu...
La statistique basée sur des hypothèses de distribution1.   Variabilité2.   Incertitude et Probabilité3.   Description ver...
Définition de la cause dans le domaine de l’incertain• Dans le domaine de l’incertain, un facteur est causal              ...
De la définition à la preuve• Comment prouver qu’un facteur provoque une augmentation de probabilité  d’un évènement ?• Le...
La tare foncière de l’enquête d’évaluation• La faille est que le chercheur n’a pas décidé quels sujets fumeraient ou ne  f...
• L’imputation causale à la suite d’une simple  enquête d’observation est une erreur grave  et courante commise presque pa...
Cause ou Conséquence ?• En suivant une cohorte de sujets, on a observé un risque plus élevé de cancer  chez ceux qui avaie...
L’effet pris pour la cause• De même, dans des enquêtes en médecine du travail, on a  souvent observé que le personnel affe...
L’effet pris pour la cause• « 70 % des gens meurent au lit »                         « Moralité : ne vous couchez pas ! »L...
La solution : le tirage au sort• Si l’on veut constituer des groupes comparables, il faut que  l’inclusion de chaque sujet...
Eviter les biais• Deux groupes constitués par tirage au sort ne sont pas  certes identiques mais ils ne présentent pas de ...
Imputation causale avec risque d’erreur consenti• Le tirage au sort apporte surtout une garantie fondamentale  en matière ...
Attention au piège !• Sur un échantillon tiré au sort dans la population des  femmes venues accoucher dans une maternité, ...
Aïe Aïe Aïe !!!• Faux !• Pour qu’on puisse démontrer la causalité, il aurait fallu constituer deux groupes  de femmes comp...
Tirage au sort à 2 niveaux• Un tirage au sort à l’intérieur de l’échantillon, assure la  comparabilité des deux groupes, i...
La statistique basée sur des hypothèses de distribution1.   Variabilité2.   Incertitude et Probabilité3.   Description ver...
Déduction / Induction• Alors que dans le calcul des probabilités, une  démarche déductive permet au sein d’une  population...
Autre question• Des résultats obtenus pour un groupe sont il applicables à                                          -  un ...
Critères de présomption causale de Bradford Hill   1 – Force de l’association   2 – Relation dose e                   - ff...
ExempleLe tabac, sûrement coupable de causer le cancer bronchique,ne vérifie le critère de spécificité dans aucun des deux...
Le lever du soleil• La cause est e comme le proclame Chantecler dans la             - lle,  pièce d’Edmond Rostand, le cha...
Le lever du soleilCependant, dans la pièce d’Edmond Rostand, la faisanedorée, amoureuse de Chantecler et jalouse de l’auro...
“Le renard et les raisins” (La Fontaine)•   Devant la difficulté de l’imputation causale, il faut parfois savoir délaisser...
•   1ère Partie      La statistique basée sur des hypothèses de distribution•   2ème Partie      Choix d’un test statistiq...
Choix d’un test statistique pour mesures quantitatives             provenant d’une distribution gaussienne                ...
Choix d’un test statistique pour mesures quantitatives provenant d’une population non gaussienne, pour rangs ou pour score...
Choix d’un test statistique pour variables binomiales                   Objectif                                 Calcul ou...
Choix d’un test statistique pour temps de survie                 Objectifs                           Calcul ou Test  •   D...
•   1ère Partie      La statistique basée sur des hypothèses de distribution•   2ème Partie      Choix d’un test statistiq...
•   Mesure quantitative                                             •   Intervalles entre les valeursPerte d’information  ...
Echantillons indépendants          Echantillons appariés      Facteurs contrôlés           Non prise en compte des        ...
Grille de choix d’un test statistique pour petits échantillons                                                         Ech...
Grille de choix d’un test statistique pour petits échantillons                                                        Eche...
5 LFK HVVH G ಬ LQI R U P DW LR Q        ( [ LJ HQFH G HV W HVW V5 LVT XH G H  ªU H HVS ªFH LQFK DQJ «5 LVT XH G H  ªP H HV...
•   1ère Partie      La statistique basée sur des hypothèses de distribution•   2ème Partie      Choix d’un test statistiq...
Un mode de pensée souvent paradoxal• La méthode statistique est une succession de démarches le plus souvent  contraires à ...
Le Hasard au service de la Science• Cette méthode n’est possible que si l’échantillon est représentatif et comment  obteni...
La Statistique ou comment tenter de s'affranchir de la variabilité
La Statistique ou comment tenter de s'affranchir de la variabilité
La Statistique ou comment tenter de s'affranchir de la variabilité
La Statistique ou comment tenter de s'affranchir de la variabilité
La Statistique ou comment tenter de s'affranchir de la variabilité
La Statistique ou comment tenter de s'affranchir de la variabilité
La Statistique ou comment tenter de s'affranchir de la variabilité
La Statistique ou comment tenter de s'affranchir de la variabilité
Prochain SlideShare
Chargement dans…5
×

La Statistique ou comment tenter de s'affranchir de la variabilité

943 vues

Publié le

La Statistique ou comment tenter de s'affranchir de la variabilité - Conférence du 3e édition du Cours international « Atelier Paludisme » - GAY Frédérick - Hospitalier CHU Pitie-Salpetriere - Assistance Publique-Hopitaux de Paris Université Paris 6 - fredogay@yahoo.fr

Publié dans : Santé & Médecine
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
943
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
36
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

La Statistique ou comment tenter de s'affranchir de la variabilité

  1. 1. La Statistique oucomment tenter de s’affranchir de la Variabilité Dr Frédérick Gay CHU Pitié –Salpêtrière, Paris
  2. 2. “ Le Jeu de la Science et du Hasard " Pr Daniel Schwartz Dans le domaine du vivant le hasard est roi. duel serré entre :Sciences de la vie ? Hasard
  3. 3. La statistique basée sur des hypothèses de distribution1. Variabilité2. Incertitude et Probabilité3. Description versus Recherche4. Échantillon et Intervalle de confiance5. Représentativité et Tirage au sort6. Comparabilité7. Causalité8. Questions « existentielles »
  4. 4. La Statistique parce que la Variabilité• Les statistiques sont des dénombrements de sujets, d’objets, d’évènements, dans des populations ou des sous-populations.• La statistique est un mode de pensée permettant de recueillir, de traiter et d’interpréter les données qu’on rencontre dans divers domaines, et tout particulièrement dans les sciences de la vie, du fait que ces données présentent une caractéristique essentielle : la variabilité.
  5. 5. • Bien que la variabilité dans le domaine du vivant soit, aux yeux de tous, une évidence, la force de cette évidence n’a d’égale que la faculté de l’oublier à chaque instant.
  6. 6. • La variabilité peut être réduite par des procédés expérimentaux, mais non supprimée.
  7. 7. • La variabilité (qui comporte l’éventuelle erreur de mesure), traduit la fluctuation biologique.
  8. 8. Histoire personnelle du Pr Daniel Schwartz :Mes rhododendrons fleurissent mal, j’avais fait venir un spécialiste :" Vos rhododendrons manquent de terre de bruyère " fut son verdict.Je rétorquais : " Vous m’étonnez, regardez ce Roseum elegans, c’est celui qui fleuritle mieux, et je ne lui ai pas mis de terre de bruyère du tout. "Regard désolé de l’agronome : " Voyons Monsieur Schwartz, vous qui êtesstatisticien, vous raisonnez sur un cas ? "Tout en rougissant d’être tombé dans le piège contre lequel j’ai mis en garde desmilliers d’élèves, je notais que le spécialiste griffonnait quelques remarques sur sestablettes : " Qu’écrivez-vous là ? "" Mais que le Roseum elegans se passe de terre de bruyère "" Eh là ! Vous raisonnez sur un cas ! "En cinq minutes, il avait oublié la variabilité….
  9. 9. • Certains caractères varient d’un moment à l’autre chez le même individu, à la variabilité inter i dividuelle - n se superpose ainsi une variabilité intra i dividuelle - n (encore plus souvent oubliée que la première).
  10. 10. Une science du particulier ? L’individu diffère des autres individus, il diffère de lui-même d’un moment à l’autre. Ainsi, le domaine du vivant est fait de cas particuliers. Mais il n’y a de science que du général. Alors comment peut-il y avoir une science du vivant ?Il faut adapter la science au domaine du particulier.
  11. 11. La statistique basée sur des hypothèses de distribution1. Variabilité2. Incertitude et Probabilité3. Description versus Recherche4. Échantillon et Intervalle de confiance5. Représentativité et Tirage au sort6. Comparabilité7. Causalité8. Questions « existentielles »
  12. 12. La science de l’incertain• Du fait de la variabilité, on est dans le domaine de l’incertain.• Adapter une science au particulier, c’est inventer une science de l’incertain.• Mais l’incertain n’échappe-t-il pas par force à toute loi ?• Science du particulier, science de l’incertain, l’association de ces mots est-elle possible à réaliser ? C’est le défi qu’a relevé la statistique, en s’appuyant sur le concept de probabilité.
  13. 13. La probabilité• L’incertitude n’est pas en tout ou rien, elle présente des degrés.• On qualifie un événement incertain de plus ou moins probable.• Mesure de l’incertain : le rapport entre le nombre des cas où un événement se produit et le nombre des cas possibles (supposés également probables) = définition élémentaire de la probabilité, comprise entre 0 (0 %) et 1 (100 %).• Exemple : La probabilité de tirer un as dans un jeu de 52 cartes est le quotient de 4 (nombre de cas favorables) par 52 (nombres des cas possibles), soit environ 8%. Que je tire une carte rouge a une probabilité de 26/52 soit 50 %, c’est encore incertain, mais c’est plus probable.
  14. 14. Notre niveau d’ignorance• La probabilité qu’un événement se produise n’a pas toujours une estimation figée une fois pour toutes.• L’estimation de la probabilité dépend des informations disponibles.• Une fois prises en compte toutes les informations disponibles, les cas identiques pour ces informations ont tous une même probabilité du fait de notre ignorance. Ils forment un groupe homogène dans l’état de nos connaissances.
  15. 15. • " Lois du hasard " : 2 mots apparemment incompatibles ne sont pas des lois de certitudes mais des lois d’incertitude.
  16. 16. XVII siècle - cercles de jeu – Pascal• Le chevalier de Méré, cherchait à gagner sur ses adversaires dans des paris où la chance de gain, légèrement supérieure à 50 %, donnait l’apparence d’un jeu équitable, mais lui assurait le succès sur une longue série.• Un de ses paris était de sortir au moins un 6 en lançant quatre dés (probabilité de gain 51,77 %)• Un autre était de lancer deux dés 24 fois en pariant sur l’apparition de deux 5 au moins une fois ; en fait, la probabilité de gain n’est ici que 49.14 % ; il aurait fallu pour gagner lancer les dés 25 fois et non 24.
  17. 17. XVII siècle - Cercles de jeu – Pascal• Le chevalier Méré posa un jour un problème à Pascal : deux joueurs font une partie de pile ou face, le gagnant est celui qui obtient le premier 3 résultats conformes à sa prédiction, la partie comporte plusieurs manches.• Mais les joueurs sont obligés de l’interrompre prématurément à la fin de la première manche.• Comment leur rendre les mises de façon équitable, en tenant compte du fait que l’un des joueurs avait gagné la première manche ?• Pascal trouva la solution et voulut aussitôt l’exposer à Fermat : il le fit par une lettre dont la date, le 29 juillet 1654, est généralement considérée comme établissant les fondements du calcul des probabilités.
  18. 18. La statistique basée sur des hypothèses de distribution1. Variabilité2. Incertitude et Probabilité3. Description versus Recherche4. Échantillon et Intervalle de confiance5. Représentativité et Tirage au sort6. Comparabilité7. Causalité8. Questions « existentielles »
  19. 19. Description et Recherche• Pour exposer la démarche statistique, il est utile de classer les problèmes en deux catégories : - les problèmes de description et - les problèmes de recherche.
  20. 20. Description et Recherche• Il est pratique de considérer que : – la description porte sur 1 caractère (la survenue d’un cancer, la cholestérolémie) – la recherche sur au moins 2 caractères (survenue d’un cancer et tabagisme, cholestérolémie et régime) La recherche commence quand on met à l’épreuve la liaison entre les deux caractères.
  21. 21. Description• Les mauvaises langues prétendent qu’un statisticien se noya dans un cours d’eau dont la profondeur moyenne était de 20 cm.• C’est qu’à l’endroit où il souhaitait patauger elle atteignait 2 mètres !• Comment avait il peu oublier la variabilité, raison d’être de - la statistique ?
  22. 22. Description• L’idée, aujourd’hui presque évidente, de décrire une population, par des pourcentages ou des moyennes, a pourtant rencontré de fortes résistances.• L’utilisation de pourcentages a été proposée par Pierre Louis, dans les années 1830, et violemment combattue aux Académies de médecine et des sciences.• Dire qu’un caractère se présente 10 fois sur 100, prétendaient certains, c’est « mettre dans le même sac » 100 sujets qui ne sont pas comparables en raison de l’individualité humaine. Le Dr Double (son principal adversaire) estimait que chaque cas est nouveau et distinct, une maladie n’est pas une entité fixe et uniforme mais une série de situations variées.
  23. 23. Description• Les "rapport numériques« (les taux) étaient bannis, il fallait se contenter de dire "souvent, rarement, dans le plus grand nombre des cas".• Double concluait : "les calculs numériques et statistiques ne sont d’aucune manière applicables à la thérapeutique".• Ainsi, la statistique présentée comme remède à la variabilité était condamnée au nom même de cette variabilité.• Quand à l’usage des moyennes, il a été violemment combattu par Claude Bernard (adversaire résolu de la statistique) : il le ridiculisait par l’image du physiologiste qui, pour étudier l’urine moyenne européenne, puiserait dans l’urinoir d’une grande gare !
  24. 24. Effacement des individualités• Puisque la probabilité est fonction des informations disponibles,• les sujets deviennent tous pareils dans notre état d’ignorance, ils constituent un groupe homogène.
  25. 25. La statistique basée sur des hypothèses de distribution1. Variabilité2. Incertitude et Probabilité3. Description versus Recherche4. Échantillon et Intervalle de confiance5. Représentativité et Tirage au sort6. Comparabilité7. Causalité8. Questions « existentielles »
  26. 26. On ne dispose que d’échantillons• Comme les fluctuations d’échantillonnage sont imprévisibles,• car le hasard peut tout faire,• que peut o dire du taux dans la population totale ? - n• La méthode statistique nous apporte la solution, sous la forme d’un : intervalle de confiance (fourchette)
  27. 27. Risque d’erreur consenti• Certitude impossible.• Seule réplique valable : la fixation d’un intervalle avec risque d’erreur consenti
  28. 28. Comment fixer le risque ?• Dans certains problèmes, on peut chiffrer le coût de l’erreur et l’intérêt apporté par la dimension de la fourchette.• En l’absence de telles informations, l’habitude est de choisir le risque de 5% considéré comme un moyen terme raisonnable.• Pourquoi ? – il est petit – il conduit dans le calcul à une formule simple – c’est un chiffre rond – on a longtemps exprimé l’erreur en terme de paris, et admettre le risque 5 % revient à parier 20 contre 1.
  29. 29. Un peu d’histoire• L’intervalle de confiance d’un pourcentage a été imaginé par Laplace dès 1789,• puis utilisé par ses disciples, tout particulièrement par Poisson qui, dans les années 1830, le popularisa largement• suivi dans le domaine médical par son élève Gavarret.• Poisson choisissait pour la fourchette le pari à 212 contre 1 ; plus prudent que nous, Poisson choisissait au lieu de 5 chances sur 100, le risque d’erreur de 5 pour 1000, soit 1 pour 200, mais avec 212 au lieu de 200 la formule donnant la fourchette est plus simple.
  30. 30. Calcul de la “fourchette”1 – La dimension de la fourchette diminue quand le nombre de sujet n de l’échantillon augmente, mais on n’est "récompensé "que proportionnellement à n (avec 4 fois plus de sujets, la fourchette n’est que 2 fois plus petite).2 – Par contre, la dimension de la fourchette ne dépend pas de la taille de la population.3 – Ceci est vrai que lorsque la taille de l’échantillon est petite par rapport à celle de la population, mais c’est un cas très général. Il ne faut pas d’avantage de sujets pour un sondage dans la population chinoise que dans celle de Mayotte. La dimension de la fourchette dépend du seul effectif de l’échantillon.
  31. 31. Les pièges de la fourchette• Le sens de la fourchette est souvent mal compris.• Il est faux de s’imaginer que la vraie valeur est sûrement dans la fourchette• Il n’y a pas une seule fourchette, mais une infinité, correspondant à tous les risques possibles.• Un autre faux pas, plus sournois et plus dangereux : Un chirurgien, auteur d’une nouvelle technique opératoire, veut s’assurer de son bien- fondé. Il écrit aux 1000 premiers patients qui en ont bénéficié et reçoit 100 réponses : 75 sont très satisfaits, 25 non. Le succès évalué sur cet échantillon, est donc de 75 %. Le chirurgien ne se contente pas de ce résultat, il sait ce qu’est un intervalle de confiance et le calcule : [66% - 84 %].
  32. 32. Les pièges de la fourchette• Cependant, un doute le saisit : Comment se fait-il que 100 patients seulement sur les 1 000 se soient manifestés ?• Réponse : les 900 autres sont morts des suites de l’opération… Le taux de succès est donc de 75 sur 1000 et non 75 sur 100, et la donnée d’une fourchette savamment calculée autour d’un pourcentage aussi faux serait une absurdité. une fourchette n’a de sens que si elle est estimée à partir d’un échantillon représentatif. Mais qu’est-ce que la représentativité ?
  33. 33. La statistique basée sur des hypothèses de distribution1. Variabilité2. Incertitude et Probabilité3. Description versus Recherche4. Échantillon et Intervalle de confiance5. Représentativité et Tirage au sort6. Comparabilité7. Causalité8. Questions « existentielles »
  34. 34. La représentativité• Si l’échantillon diffère systématiquement de la population pour un caractère au moins,• et comme un caractère est toujours lié à un écheveau de beaucoup d’autres,• l’échantillon risque de différer de la population pour de nombreux caractères, peut-être précisément pour ceux qu’on étudie.• Un tel échantillon n’est pas représentatif, on dit qu’il est biaisé.
  35. 35. Représentatif• On croit souvent qu’un échantillon n’est représentatif que s’il est suffisamment grand.• C’est faux !• Un échantillon, si petit soit-il, est représentatif dès lors qu’il résulte d’un tirage au sort.La taille de l’échantillon intervient sur la dimension de la fourchette.
  36. 36. Le tirage au sort• Pour éviter ce biais, il faut donc que l’inclusion d’un sujet dans l’échantillon soit faite indépendamment de toutes les caractéristiques de ce sujet.• La seule façon d’y parvenir est de recourir au hasard• N’est-ce pas là, la définition du hasard ? : la rencontre de deux chaînes d’évènements indépendantes.• La solution est donc le tirage au sort. Aussi appelle-t-on échantillon représentatif, un échantillon tiré au sort dans la population.
  37. 37. La courte paille• Le recours au hasard est une pratique ancienne.• L’objectif est de désigner les sujets indépendamment de toutes leur caractéristiques.• C’est bien ce qu’on vise aussi en statistique dans la recherche de la représentativité.• Le recours au tirage au sort pour obtenir la représentativité avait été évoquée par Laplace en 1783.• Mais il ne fut proposé comme méthode d’échantillonnage qu’au début du XXème siècle. En 1925, une résolution de l’Institut International de Statistiques envisageait encore deux procédés : choix judicieux et méthode aléatoire.• Des progrès, considérables dans le choix des échantillons devaient résulter des sondages d’opinion, pratiqués de plus en plus aux Etats-Unis, notamment pour les élections présidentielles.• Une date cruciale est le 3 novembre 1936 où F.D. Roosevelt fut élu, alors que son concurrent Landon était donné gagnant par un sondage de plus de 2 millions de personnes. Mais les sujets interrogés étaient les abonnés au téléphone, le grand nombre étant censé (quelle erreur !) tenir lieu de représentativité.
  38. 38. La statistique basée sur des hypothèses de distribution1. Variabilité2. Incertitude et Probabilité3. Description versus Recherche4. Échantillon et Intervalle de confiance5. Représentativité et Tirage au sort6. Comparabilité7. Causalité8. Questions « existentielles »
  39. 39. Le jeune accoucheur• Un jeune accoucheur entreprit, pour sa thèse, une enquête réunissant 1000 cas. Accouchements Avec accoucheur Sans accoucheur Nb de cas 500 500 Nb de complications 20 60 soit en % 4% 12 %• Les taux de complications observés sont différents dans les deux séries.• Mais les taux vrais ne sont pas nécessairement 4 % et 12 %, ils sont dans une fourchette autour de ces valeurs.• Peut-être que le taux vrai est le même dans les deux séries ?• Pour le savoir, il faut effectuer un « test statistique », ce que fit L’accoucheur.• La réponse est très claire : si le taux vrai de complications était le même avec et sans accoucheur, on aurait eu moins de 1 chances sur 100 000 d’obtenir une différence aussi grande que celle observée.• Cette hypothèse est donc invraisemblable : la différence observée est probante. Peut-on pour autant en conclure qu’on doit faire appel à l’accoucheur ?
  40. 40. Désillusion• C’est ici le moment d’avouer que les résultats n’étaient pas ceux annoncés dans le tableau.• En réalité la différence était dans le sens inverse : le taux de complications était plus élevé en faisant appel à l’accoucheur !• Résultat plutôt embarrassant pour l’auteur de l’enquête !
  41. 41. Explication• On faisait surtout appel à l’accoucheur quand la situation se présentait mal.• Les deux groupes avec et sans accoucheur n’étaient pas comparables.
  42. 42. Un nouveau mode de pensée• Les véritables fondateurs de la théorie des tests d’hypothèse sont Jerzy Neyman et Egon Pearson (Pearson II, fils de Karl) au cours d’une collaboration qui fut si étroite , entre 1926 et 1933, qu’on citait toujours le duo Neyman - Pearson, alors que le premier était en Pologne et le second en Grande Bretagne.• Analogie de pensée entre le test statistique et le jugement d’un inculpé : série de débats passionnés entre mathématiciens, philosophes et hommes politiques sur les fondements de la justice.• Condorcet le premier proposait en 1785 une formule permettant, sous certaines hypothèses de calculer la probabilité de condamner un innocent.• Laplace en 1830, précisant la formule, l’appliquait aux jugements en Cours d’Assise où les jurys comprenaient 12 jurés, la condamnation étant prononcée à la majorité (7 voix contre 5).• Laplace montrait que le risque d’erreur était alors de ¼, valeur manifestement intolérable !
  43. 43. Justice et Statistique• En 1830, la proportion était portée à 8 voix contre 4, mais même avec cette modification le risque d’erreur restait encore très élevé.• Arago exposait à la Chambre des Députés que « sur 8 hommes qui montent à l’échafaud, il y en a 1 d’innocent ». Et de proposer de baisser le risque à 1/16.• Condorcet : « Il est de notre nature de ne pouvoir juger que sur des probabilités. Il n’est donc pas injuste de condamner un innocent pourvu que l’on soit assuré qu’il y a une grande probabilité que la décision rendue soit exacte ».• C’était bien proposer la politique du risque consenti, avec intervention du calcul des probabilités.• Si l’on considérait comme obligatoire d’envoyer un innocent à l’échafaud (le plus rarement possible), c’est bien qu’on prenait en compte, l’autre risque, celui de relaxer un coupable.
  44. 44. La statistique basée sur des hypothèses de distribution1. Variabilité2. Incertitude et Probabilité3. Description versus Recherche4. Échantillon et Intervalle de confiance5. Représentativité et Tirage au sort6. Comparabilité7. Causalité8. Questions « existentielles »
  45. 45. Définition de la cause dans le domaine de l’incertain• Dans le domaine de l’incertain, un facteur est causal s’il provoque une augmentation de probabilité de l’évènement.
  46. 46. De la définition à la preuve• Comment prouver qu’un facteur provoque une augmentation de probabilité d’un évènement ?• Le test statistique permet de conclure qu’une augmentation est réelle et non le fruit du hasard, mais peut-il aller plus loin ?• Les déboires du jeune accoucheur nous mettent sur la voie : si l’on ne pouvait conclure de ses données que le recours à l’accoucheur favorise les complications, c’est parce que les deux groupes comparés n’étaient pas comparables.• Mais comment assurer la comparabilité ?• Qu’est-ce la comparabilité ?• Est-ce une condition suffisante pour permettre l’imputation causale ?
  47. 47. La tare foncière de l’enquête d’évaluation• La faille est que le chercheur n’a pas décidé quels sujets fumeraient ou ne fumeraient pas.• Les groupes « fumeurs » et « non- fumeurs » se sont constitués d’eux- mêmes.• On s’est contenté d’observer.• C’est une règle générale dans une enquête d’observation, les groupes s’étant constitués spontanément à partir d’un facteur (le sujet fume ou non), plausiblement lié à beaucoup d’autre, on ne sait plus lequel incriminer. La non comparabilité des groupes rend l’imputation causale impossible.
  48. 48. • L’imputation causale à la suite d’une simple enquête d’observation est une erreur grave et courante commise presque par réflexe comme l’oubli de la variabilité.
  49. 49. Cause ou Conséquence ?• En suivant une cohorte de sujets, on a observé un risque plus élevé de cancer chez ceux qui avaient une cholestérolémie basse.• Pensez à l’écoeurement de ceux qui s’étaient longtemps privés de foie gras ou de crème au chocolat pour éviter l’infarctus.• Heureusement, les médias ignorèrent ce résultat : on aurait crié haro sur les épidémiologistes !• En fait, les sujets atteints de cancer non encore diagnostiqué présentaient déjà la cachexie des cancéreux. La baisse de cholestérol était la conséquence et non la cause du cancer !
  50. 50. L’effet pris pour la cause• De même, dans des enquêtes en médecine du travail, on a souvent observé que le personnel affecté à des postes pénibles avait une mortalité plus faible que le personnel travaillant à des postes de tout repos.• Une explication est bien sûr l’auto s - élection ou la sélection par la médecine du travail, qui ne retient pour les postes pénibles que les sujets en très bonne santé.Une enquête d’observation peut aboutir à l’erreur extrême, où l’effet est pris pour la cause.
  51. 51. L’effet pris pour la cause• « 70 % des gens meurent au lit » « Moralité : ne vous couchez pas ! »L’enquête d’observation ne peut établir que des corrélations.
  52. 52. La solution : le tirage au sort• Si l’on veut constituer des groupes comparables, il faut que l’inclusion de chaque sujet dans le groupe A ou B soit indépendante de toutes les caractéristiques du sujet.• La solution est, comme dans le problème de représentativité, le tirage au sort.• L’opération qui affecte un sujet dans le groupe A ou B par tirage au sort est appelé randomisation (random =hasard)
  53. 53. Eviter les biais• Deux groupes constitués par tirage au sort ne sont pas certes identiques mais ils ne présentent pas de différence systématique.• Ils se ressemblent « en moyenne »• Pour chaque caractéristique, connue ou inconnue, des sujets, la valeur moyenne tend à être la même dans les deux groupes.
  54. 54. Imputation causale avec risque d’erreur consenti• Le tirage au sort apporte surtout une garantie fondamentale en matière d’imputation causale.• Fisher : « Si l’on a constitué les groupes par tirage au sort, on peut conclure à la causalité avec le risque d’erreur et le degré de signification du test statistique utilisé. »• Dans la comparaison de deux traitements attribués par tirage au sort, si l’on adopte le seuil 5 %, une différence significative est attribuable aux traitements avec le risque d’erreur 5 %.• Si les groupes A et B n’ont pas été constitués par tirage au sort, on peut seulement conclure que les chances de guérisons sont inégales, mais ce résultats ne peut pas être attribué aux traitements.
  55. 55. Attention au piège !• Sur un échantillon tiré au sort dans la population des femmes venues accoucher dans une maternité, on observe un taux plus élevé de prématurés chez celles qui ont effectué des travaux pénibles.• Le travail pénible est-il cause de la plus fréquente prématurité ?• « Cette imputation causale est possible puisqu’il y a eu tirage au sort » ???
  56. 56. Aïe Aïe Aïe !!!• Faux !• Pour qu’on puisse démontrer la causalité, il aurait fallu constituer deux groupes de femmes comparables : – les unes soumises à un travail pénible – les autres non – par tirage au sort à l’intérieur de l’échantillon.• Que l’échantillon ait été tiré au sort dans une population initiale permet seulement d’extrapoler à cette population la conclusion observée sur l’échantillon, mais qui est le constat d’une relation dont la nature causale n’est en rien démontrée.
  57. 57. Tirage au sort à 2 niveaux• Un tirage au sort à l’intérieur de l’échantillon, assure la comparabilité des deux groupes, il est indispensable pour l’imputation causale.• En amont, un tirage au sort de l’échantillon dans une population- mre permet, grâce à sa représentativité, è l’extrapolation à la population des conclusions observées sur l’échantillon.• Ce tirage au sort dans une population mère, le plus souvent, n’a pas lieu.
  58. 58. La statistique basée sur des hypothèses de distribution1. Variabilité2. Incertitude et Probabilité3. Description versus Recherche4. Échantillon et Intervalle de confiance5. Représentativité et Tirage au sort6. Comparabilité7. Causalité8. Questions « existentielles »
  59. 59. Déduction / Induction• Alors que dans le calcul des probabilités, une démarche déductive permet au sein d’une population, des prédictions pour les échantillons qui en sont tirés au sort,• la méthode statistique vise à induire, à partir d’un échantillon, des propriétés d’une population, parfois bien déterminée, mais souvent abstraite, forgée à l’image de l’échantillon.
  60. 60. Autre question• Des résultats obtenus pour un groupe sont il applicables à - un individu particulier ?• Réponse = oui, dans le cadre des groupes homogènes tenant compte des facteurs (de guérison dans notre exemple) connus à l’époque, puisqu’alors tous les sujets du groupe sont pareils.
  61. 61. Critères de présomption causale de Bradford Hill 1 – Force de l’association 2 – Relation dose e - ffet 3 – Pas d’ambiguïté sur la chronologie 4 – Constance des résultats dans diverses études 5 – Plausibilité de l’hypothèse 6 – Cohérence des résultats 7 – Spécificité de l’association
  62. 62. ExempleLe tabac, sûrement coupable de causer le cancer bronchique,ne vérifie le critère de spécificité dans aucun des deux sens : - il n’est pas la seule cause - il occasionne d’autres pathologies.
  63. 63. Le lever du soleil• La cause est e comme le proclame Chantecler dans la - lle, pièce d’Edmond Rostand, le chant du coq ?• La relation vérifie de multiples critères de la liste de Bradford Hill : – force de l’association ? ((le coq s’époumone) – loi dose- effet ? (le soleil est-il éclatant) – l’ordre chronologique, si important ? (témoignage coléreux du Grand duc : il chante quand la nuit est encore bonne et fraîche) – le dernier critère de la liste est le plus frappant : le coq chante-t-il au lever de la lune ? les canards chantent-ils au lever du soleil ? Il y a donc spécificité à double sens.
  64. 64. Le lever du soleilCependant, dans la pièce d’Edmond Rostand, la faisanedorée, amoureuse de Chantecler et jalouse de l’aurore,l’emmène une nuit au concert du rossignol.Chantecler fasciné en oublie de chanter.Et le soleil se lève quand même.Ainsi, tous les arguments accumulés par la seuleobservation étaient ils balayés par la voie royale de -l’expérimentation.
  65. 65. “Le renard et les raisins” (La Fontaine)• Devant la difficulté de l’imputation causale, il faut parfois savoir délaisser (provisoirement) la recherche des causes.• Il et souvent possible de guider l’action à partir de facteurs de risque d’une maladie, sans se préoccuper aucunement de savoir s’ils jouent un rôle causal.• En périnatologie : – La démarche statistique permet de ne retenir qu’un tout petit nombre des nombreux facteurs qui, chez la femme enceinte, font présager une mauvaise issue de la grossesse. – Judicieusement combinés, ils désignent les grossesses à risque. – Pour ces cas sera adoptée une conduite ne visant pas à peser sur les facteurs de risque, dont le rôle causal est ignoré : on recommandera seulement aux femmes des visites plus fréquentes. – Cette démarche méthodologique ne nous éclaire pas sur le déterminisme du mal à combattre, mais elle guide l’action. Il n’est pas toujours nécessaire de comprendre pour agir.
  66. 66. • 1ère Partie La statistique basée sur des hypothèses de distribution• 2ème Partie Choix d’un test statistique• 3ème Partie Traitement statistique de petits échantillons et tests exacts• 4ème Partie Analyses factorielles multidimensionnelles
  67. 67. Choix d’un test statistique pour mesures quantitatives provenant d’une distribution gaussienne Objectif Calcul ou Test• Décrire un groupe • Moyenne, DS• Comparer 1 groupe à une valeur • Test t pour un échantillon hypothétique• Comparer deux groupes • Test t non pairé non appariés• Comparer deux groupes appariés • Test t pairé• Comparer 3 groupes indépendants • ANOVA à une voie (ou davantage)• Comparer 3 groupes appariés • ANOVA pour mesures répétées (ou davantage)• Quantifier une association entre deux • Corrélation de Pearson variables• Prédire une valeur à partir d’une autre • Régression linéaire simple ou variable mesurée régression non linéaire• Prédire une valeur à partir de plusieurs • Régression linéaire multiple ou variables mesurées ou binomiales régression non linéaire multiple
  68. 68. Choix d’un test statistique pour mesures quantitatives provenant d’une population non gaussienne, pour rangs ou pour scores Objectif Calcul ou Test• Décrire un groupe • Médiane, écart interquartile• Comparer 1 groupe à une valeur • Test de Wilcoxon hypothétique• Comparer deux groupes • Test de Mann-Withney non appariés• Comparer deux groupes appariés • Test de Wilcoxon• Comparer 3 groupes indépendants • Test de Kruskal-Wallis (ou davantage)• Comparer 3 groupes appariés • Test de Friedman (ou davantage)• Quantifier une association entre deux • Corrélation de Spearman variables• Prédire une valeur à partir d’une autre • Régression non paramétrique variable mesurée• Prédire une valeur à partir de plusieurs variables mesurées ou binomiales
  69. 69. Choix d’un test statistique pour variables binomiales Objectif Calcul ou Test• Décrire un groupe • Proportion• Comparer 1 groupe à une valeur • Test du chi-carré ou test hypothétique binomial• Comparer deux groupes non • Test exact de Fisher (test du chi- appareillés carré pour les grands échantillons)• Comparer deux groupes appareillés • Test de Mc Nemar• Comparer 3 groupes indépendant ou • Test du chi-carré davantage• Comparer 3 groupes appareillés ou • Q de Cochran davantage• Quantifier une association entre deux • Coefficients de contingence variables• Prédire une valeur à partir d’une autre • Regression logistique simple variable mesurée• Prédire une valeur à partir de plusieurs • Régression logistique multiple variables mesurées ou binomiales
  70. 70. Choix d’un test statistique pour temps de survie Objectifs Calcul ou Test • Décrire un groupe • Courbe de Kaplan-Meier • Comparer deux groupes • Test de log rank non appariés ou Test de Mantel-Haenszel • Comparer 2 ou plus de 2 groupes • Régression conditionnelle des risques instantanés • Comparer 3 groupes indépendants ou davantage • Prédire une valeur à partir d’une • Régression des risques autre variable mesurée instantanés proportionnels de • Prédire une valeur à partir de Cox plusieurs variables mesurées ou binomiales
  71. 71. • 1ère Partie La statistique basée sur des hypothèses de distribution• 2ème Partie Choix d’un test statistique• 3ème Partie Traitement statistique de petits échantillons et tests exacts• 4ème Partie Analyses factorielles multidimensionnelles
  72. 72. • Mesure quantitative • Intervalles entre les valeursPerte d’information Echelle d’intervalle sont connues • Opération arithmétiques possibles • Catégories ordonnées Echelle ordinale • Valeur des différences entre 2 catégories non connues • Opérations impossibles Echelle nominale • Catégories sans ordre Echelle binomiale • Echelle nominale à 2 catégories (binominales
  73. 73. Echantillons indépendants Echantillons appariés Facteurs contrôlés Non prise en compte des facteurs entraînant des + facteurs aléatoires différences à chaque mesurePrise en compte de la variation Seul compte le changement intra é - chantillon entre les 2 (ou n) mesures Les tests statistiques ne sont pas les mêmes
  74. 74. Grille de choix d’un test statistique pour petits échantillons Echelles de mesure Echantillons Choix Catégories Catégories Echelle Binomial nominales ordinales d’intervalle Un seul échantillon Test binomial Chi2 de bonne adéquation Test de redistribution Deux échantillons Test de Test du signe Test de appariés McNemar permutations pour mesures pairées Test de Wilcoxon Deux échantillons Test exact de Test Chi2 de Test de indépendants Fisher Pearson permutations pour mesures indépendantes Test de Mann et Whitney Plus de 2 échantillons Test de Cochran Test de Friedman appariés Test de Page (colonnes ordonnées)
  75. 75. Grille de choix d’un test statistique pour petits échantillons Echelles de mesure Echantillons Choix Catégories Catégories Echelle Binomial nominales ordinales d’intervalle Plus de 2 échantillons Test du Chi2 de Pearson Analyse de variance indépendants par permutation des scores Test de Kruskal et Wallis Test de Jonckheere- Terpstra (colonnes ordonnées) Mesure de Coefficient de contingence Coefficience de corrélation par l’association entre Kappa de Cohen rang de Spearmann Variables Coefficient de concordance de Kendall
  76. 76. 5 LFK HVVH G ಬ LQI R U P DW LR Q ( [ LJ HQFH G HV W HVW V5 LVT XH G H ªU H HVS ªFH LQFK DQJ «5 LVT XH G H ªP H HVS ªFH DXJ P HQW « 3XLVVDQFH
  77. 77. • 1ère Partie La statistique basée sur des hypothèses de distribution• 2ème Partie Choix d’un test statistique• 3ème Partie Traitement statistique de petits échantillons et tests exacts• 4ème Partie Analyses factorielles multidimensionnelles
  78. 78. Un mode de pensée souvent paradoxal• La méthode statistique est une succession de démarches le plus souvent contraires à notre mode de pensée. Le calcul des probabilités vise à établir la rigueur dans l’incertain, à assigner des lois au hasard.• Pascal parlait de « la géométrie du hasard ».• La statistique nous propose d’abord la politique du risque d’erreur consenti, certes la plus intelligente dans le domaine de l’obligatoire incertitude, mais qui implique que, dans un pourcentage accepté de cas, le résultat obtenu à la suite d’opérations mathématiques plus ou moins sophistiquées sera faux.• L’estimation par intervalle de confiance présente comme un triomphe un résultat doublement incertain : non pas la valeur exacte, mais une fourchette qui l’entoure, et il n’est pas certain que la valeur exacte soit dans la fourchette.
  79. 79. Le Hasard au service de la Science• Cette méthode n’est possible que si l’échantillon est représentatif et comment obtenir cette représentativité ? Par choix raisonné ?• Pas du tout, en recourant au hasard, absence de raison par excellence.• En matière de recherche, le test statistique n’évalue pas la vraisemblance de l’hypothèse en fonction des données, mais la vraisemblance des données en fonction de l’hypothèse.• L’hypothèse qu’on teste, quand on veut éprouver l’efficacité d’un traitement, c’est l’hypothèse de son inefficacité, la fameuse hypothèse nulle.• Devant une différence significative, pour prouver la causalité, il faut comparer deux groupes comparables.• On ne recherchera pas cette comparabilité par un choix raisonné, on demandera au hasard de faire mieux que nous ! Pour finir, on aura quand même fait de la science !

×