1-  Indices de position et de dispersion d’une variable Kinésithérapie et Biostatistiques avec Excel ® Jean-Louis Estrade ...
<ul><li>Ces diaporamas ne sauraient remplacer un cours de biostatistiques. </li></ul><ul><li>Ils n’ont pour but que de per...
A quoi sert ce cours ?
Introduction    Se familiariser avec l’outil statistique    L’utiliser concrètement sous Excel    Réaliser une première...
Plan des cours <ul><li>Savoir ce qui caractérise une variable, déterminer la normalité d’une distribution </li></ul><ul><l...
A quoi servent les statistiques ?
Introduction  <ul><li>Elles permettent de : </li></ul><ul><li>Dépasser le désordre apparent observé sur l’individu,  </li>...
Introduction  <ul><li>Si elles permettent de dégager ces lois générales, c’est qu’elles s’adressent à des groupes  homogèn...
Introduction <ul><li>« La variabilité biologique n’est pas l’exception mais la règle » </li></ul><ul><li>La valeur d’une c...
Introduction <ul><li>Lors de la réalisation des études, on parle de  variabilité biologique  (inter et intra-individuelle)...
Caractéristiques d’une variable <ul><li>Une variable est caractérisée par : </li></ul><ul><li>Son  type ,  </li></ul><ul><...
Les variables quantitatives <ul><li>Caractéristiques  </li></ul><ul><li>Ce sont des variables naturellement associées à un...
Les variables quantitatives <ul><li>Les variables quantitatives sont de 2 types : </li></ul><ul><li>Les variables « quanti...
Les variables qualitatives <ul><li>Caractéristiques  </li></ul><ul><li>Non associées « naturellement » à une valeur numéri...
Exemples de variables <ul><li>Nous avons mesuré la taille des élèves de K1 : Quel est le type de la variable « taille » ? ...
Exemples de variables <ul><li>Quel est le type de la variable « sexe » ?   </li></ul><ul><li>Variable qualitative nominale...
1.1 Les indices de position <ul><li>La moyenne </li></ul><ul><li>La médiane  </li></ul><ul><li>Le mode </li></ul>
La moyenne <ul><li>Définition  </li></ul><ul><li>C’est la somme des valeurs divisée par le nombre de valeurs. </li></ul><u...
La moyenne <ul><li>Exemple   </li></ul><ul><li>La moyenne m de la taille des élèves de sexe masculin de l’échantillon mesu...
L’échantillon <ul><li>Définitions  </li></ul><ul><li>Un échantillon est une partie de la population. Il est dit représenta...
La moyenne <ul><li>Cas particulier des variables dichotomiques </li></ul><ul><li>Une variable dichotomique a une moyenne p...
La moyenne <ul><li>   Détermination d’une proportion dans Excel® </li></ul><ul><li>Pour libeller : </li></ul><ul><li>le n...
La médiane <ul><li>Définition  </li></ul><ul><li>C’est la valeur telle que 50% des sujets ont une valeur de la variable qu...
Le mode <ul><li>Définition  </li></ul><ul><li>C’est la valeur de la variable prise par le plus grand nombre de sujets.  </...
Pourquoi trois indices ? Se prête mal aux calculs Varie beaucoup selon la largeur choisie pour les classes. Pas affecté pa...
Intérêt de connaître les trois indices <ul><li>La distribution des valeurs prises par une variable se répartit de façon ho...
Exemples  <ul><li>Exemple 1 : les tailles des élèves de K1 </li></ul><ul><li>Lors de l’analyse de ces trois paramètres sur...
Exemples   <ul><li>Exemple 2 : l’endurance des triceps suraux </li></ul><ul><li>Soient 4 groupes de 5 sportifs dont on ana...
Exemples  <ul><li>Exemple 3 : les Teletubbies </li></ul><ul><li>Soient les 4 seuls habitants de la planète des Télétubbies...
Quand les indices sont dissemblables  <ul><li>Pourquoi est-ce gênant ? </li></ul><ul><li>La coïncidence des trois indices ...
Quand les indices sont dissemblables  <ul><li>Comparer ce qui est comparable </li></ul><ul><li>Quand les indices ne coïnci...
Quand les indices sont dissemblables  <ul><li>Transformer les données </li></ul><ul><li>Si les valeurs prises par la varia...
Quand les indices sont dissemblables  <ul><li>Utiliser des tests non paramétriques </li></ul><ul><li>Les études anglo-saxo...
1.2 Les indices de dispersion <ul><li>La variance </li></ul><ul><li>L’écart-type  </li></ul><ul><li>L’étendue </li></ul>
La variance <ul><li>La variance d’une population </li></ul><ul><li>C’est la somme des valeurs divisée par le nombre de val...
La variance <ul><li>La variance d’une population </li></ul><ul><li>Plus la variable est dispersée, plus ces écarts sont gr...
La variance <ul><li>Pourquoi mettre au carré ? </li></ul><ul><li>Face à des variables pouvant prendre des valeurs positive...
La variance <ul><li>   Comment calculer les variances sous Excel ? </li></ul><ul><li>La variance de la population, appelé...
La variance <ul><li>Cas particulier des variables dichotomiques : </li></ul><ul><li>La variance est égale au produit des d...
La variance <ul><li>La plupart du temps, la variance vraie, celle de la population, est inconnue. En conséquence, on se se...
La variance <ul><li>Pourquoi n-1 et non n ? </li></ul><ul><li>On peut démontrer mathématiquement qu’en estimant la varianc...
L’écart-type <ul><li>Racine carrée de la variance </li></ul><ul><li>Nommé   . En anglais «  standard deviation  » (s.d.)....
L’écart-type <ul><li>Schématiquement : </li></ul><ul><li>Empiriquement, dans une loi normale centrée réduite, le nombre d’...
L’écart-type <ul><li>Pourquoi utiliser la racine carrée de la variance ? </li></ul><ul><li>Parce que c’est plus compréhens...
Bibliographie  <ul><li>Livres : </li></ul><ul><li>Bouyer J. Méthodes statistiques.  Médecine – Biologie. Estem. Editions I...
Prochain SlideShare
Chargement dans…5
×

Stat1 Les Indices

4 224 vues

Publié le

Les indices de position et dispersion d'une variable sous Excel, à l'aide d'exemples empruntés à la kinesitherapie.

Publié dans : Formation, Technologie
0 commentaire
5 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
4 224
Sur SlideShare
0
Issues des intégrations
0
Intégrations
746
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
5
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Stat1 Les Indices

  1. 1. 1- Indices de position et de dispersion d’une variable Kinésithérapie et Biostatistiques avec Excel ® Jean-Louis Estrade Enseignant IFMK Orléans La Source Enkre
  2. 2. <ul><li>Ces diaporamas ne sauraient remplacer un cours de biostatistiques. </li></ul><ul><li>Ils n’ont pour but que de permettre à des étudiants K1 de faire un premier abord objectif de l’évaluation de la posture et du mouvement, en application des connaissances biostatistiques théoriques acquises lors de l’année universitaire d’orientation. </li></ul><ul><li>Des notions abordées dans l’un des chapitres sont parfois utiles à la compréhension des chapitres suivants. En conséquence, ils sont à consulter dans l’ordre, avec le fichier Excel STAT.XLS joint qui reprend les illustrations du diaporama. </li></ul><ul><li>Il faut avoir à leur lecture la seule attitude compatible avec l’esprit du domaine étudié, à savoir le fait que nous ne pouvons pas rejeter l’hypothèse d’erreurs multiples, diverses et variées dans ces diaporamas. </li></ul><ul><li>Je suis à l’écoute de toutes vos remarques, annotations, critiques. N’hésitez pas à me les faire parvenir. </li></ul>Nécessaires préambules…
  3. 3. A quoi sert ce cours ?
  4. 4. Introduction  Se familiariser avec l’outil statistique  L’utiliser concrètement sous Excel  Réaliser une première approche de l’évaluation et de la recherche en kinésithérapie  Comprendre le vocabulaire utilisé dans les publications
  5. 5. Plan des cours <ul><li>Savoir ce qui caractérise une variable, déterminer la normalité d’une distribution </li></ul><ul><li>Réaliser un histogramme, obtenir les statistiques descriptives d’une variable quantitative </li></ul><ul><li>Déterminer un intervalle de confiance </li></ul><ul><li>Conna ître les principes de base des tests statistiques </li></ul><ul><li>Comparer plusieurs pourcentages à l’aide d’un test de khi-deux (  ²) </li></ul><ul><li>Comparer deux moyennes à l’aide d’un test de Student, une moyenne à une moyenne théorique </li></ul><ul><li>Voir si deux variables quantitatives sont liées </li></ul><ul><li>Comparer plusieurs moyennes à l’aide d’une analyse de variance </li></ul>
  6. 6. A quoi servent les statistiques ?
  7. 7. Introduction <ul><li>Elles permettent de : </li></ul><ul><li>Dépasser le désordre apparent observé sur l’individu, </li></ul><ul><li>Donner des résultats moyens, bornés </li></ul><ul><li>Mettre en évidence des phénomènes réguliers et stables </li></ul><ul><li>Étayer des lois biologiques générales. </li></ul><ul><li>Simplifier la réalité </li></ul><ul><li>Mesurer la part de hasard intervenant dans tout résultat </li></ul>
  8. 8. Introduction <ul><li>Si elles permettent de dégager ces lois générales, c’est qu’elles s’adressent à des groupes homogènes et non à des individus. </li></ul><ul><li>La variabilité dans les sciences de la vie </li></ul><ul><li>Le passage d’un courant électrique dans la résistance d’une ampoule entraîne son incandescence dans 100% des cas. </li></ul><ul><li>Le passage fréquent de la fumée de tabac dans les poumons n’est mortel que souvent . </li></ul>
  9. 9. Introduction <ul><li>« La variabilité biologique n’est pas l’exception mais la règle » </li></ul><ul><li>La valeur d’une caractéristique propre à une population ou échantillon varie d’un individu à l’autre. </li></ul><ul><li>Il y a des variations : </li></ul><ul><li>Liées aux erreurs de mesures (qualité de l’instrument, de l’examinateur) </li></ul><ul><li>Entre les sujets (poids, taille, TA) </li></ul><ul><li>Chez un même sujet (TA à différents moments de la journée) </li></ul><ul><li>Ces sources de variabilité sont regroupées sous le terme de variabilité individuelle . </li></ul>
  10. 10. Introduction <ul><li>Lors de la réalisation des études, on parle de variabilité biologique (inter et intra-individuelle) et de variabilité métrologique (liée à l’expérimentateur et à l’instrument de mesure), la première étant plus importante que la seconde. Ces deux variabilités sont indépendantes. </li></ul><ul><li>Rôle des bio-statistiques </li></ul><ul><li>L’étude de la variabilité est le cœur du problème de la statistique : elle passe son temps à expliquer la variance, à faire la part des choses entre le fait du hasard et la responsabilité intrinsèque du phénomène étudié. </li></ul><ul><li>Les bio-statistiques permettent d’analyser différents types d’informations quantitatives ou qualitatives. </li></ul><ul><li>Ces données sont appelées des « variables ». </li></ul>
  11. 11. Caractéristiques d’une variable <ul><li>Une variable est caractérisée par : </li></ul><ul><li>Son type , </li></ul><ul><li>Ses indices de position </li></ul><ul><li>Ses indices de dispersion . </li></ul><ul><li>Les tests statistiques analysant les comportements des variables sont différents en fonction du type de variable. Il faut donc connaître le type de variable pour savoir quel test utiliser. </li></ul><ul><li>Elles sont regroupées majoritairement en deux types : </li></ul><ul><li>les variables quantitatives, </li></ul><ul><li>les variables qualitatives. </li></ul>
  12. 12. Les variables quantitatives <ul><li>Caractéristiques </li></ul><ul><li>Ce sont des variables naturellement associées à un chiffre, mais pouvant être mesurées. </li></ul><ul><li>L’écart entre deux valeurs quantitatives peut être comparé, mesuré, avec l’écart entre deux autres valeurs (écart entre 145 cm et 147 cm versus écart entre 170 cm et 187 cm). </li></ul><ul><li>Une erreur classique consiste à croire que ce qui contient des chiffres est « quantitatif ». Ce n’est pas vrai lorsque l’écart entre les chiffres n’est pas proportionnel ou lorsqu’il définit des stades ou des groupes. </li></ul><ul><li>Par exemple, le testing musculaire : Pour passer d’une cotation 1 à 2 il ne faut pas la même force que pour passer de la cotation 3 à 4. </li></ul>
  13. 13. Les variables quantitatives <ul><li>Les variables quantitatives sont de 2 types : </li></ul><ul><li>Les variables « quantitatives discrètes ». </li></ul><ul><li>Elles sont mesurées en nombre fini dénombrable, énumérable, de valeurs possibles. </li></ul><ul><li>Il est possible d’avoir 2 ou 3 enfants, jamais 2,7, ou de faire 8 séances de kinésithérapie pas 8,6 </li></ul><ul><li>Les variables « quantitatives continues ». </li></ul><ul><li>Elles sont mesurées en nombre infini non dénombrables de valeurs possibles. </li></ul><ul><li>Il existe toujours une valeur que l’on peut intercaler entre elles (poids, taille, etc). </li></ul>
  14. 14. Les variables qualitatives <ul><li>Caractéristiques </li></ul><ul><li>Non associées « naturellement » à une valeur numérique, elles peuvent être codées à l’aide de chiffres. </li></ul><ul><li>Souvent, leurs écarts ne sont pas constants, ou non mesurables. </li></ul><ul><li>Les variables qualitatives sont de 2 types : </li></ul><ul><li>Les variables « qualitatives nominales » </li></ul><ul><li>Elles sont mesurées par l’utilisation de noms ou d’adjectifs (souple, raide, picotement, etc) ; </li></ul><ul><li>Les variables « qualitatives ordinales » </li></ul><ul><li>Elles sont ordonnées en classant les variables les unes par rapports aux autres (testing musculaire, stade de gravité, etc.). </li></ul>
  15. 15. Exemples de variables <ul><li>Nous avons mesuré la taille des élèves de K1 : Quel est le type de la variable « taille » ? </li></ul><ul><li>qualitative ordinale , si les sujets sont définis en classes ( très grand, grand, moyen, petit, très petit) </li></ul><ul><li>quantitative continue : m ême si je mesure en centimètres ou millimètres, il est en théorie possible, en disposant d’un instrument de mesure de grande précision, d’augmenter le nombre de décimales jusqu’à l’infini. La variable est dite discrétisée ; nous pouvons alors considérer que cette variable « taille » mesurée obéit aux lois de probabilité régissant une variable continue. </li></ul>
  16. 16. Exemples de variables <ul><li>Quel est le type de la variable « sexe » ? </li></ul><ul><li>Variable qualitative nominale particulière, appelée dichotomique puisqu’on peut partager l’ensemble de l’échantillon en deux catégories. Il est possible de la décrire entièrement par un chiffre : le pourcentage de répartition de l’une ou de l’autre. </li></ul><ul><li>15 sujets masculins et 38 sujets féminins sur 53 sujets au total. Le pourcentage p de sujets masculins est donc de 15/53 soit 0.28 (28%). À partir du pourcentage p de sujets masculins on en déduit le pourcentage de sujets féminins, égal à 1-p soit 0.72 (72%). </li></ul><ul><li>Le « p » est la moyenne de la variable « sexe » qui vaudrait 0 pour les sujets féminins et 1 pour les sujets masculins. </li></ul>
  17. 17. 1.1 Les indices de position <ul><li>La moyenne </li></ul><ul><li>La médiane </li></ul><ul><li>Le mode </li></ul>
  18. 18. La moyenne <ul><li>Définition </li></ul><ul><li>C’est la somme des valeurs divisée par le nombre de valeurs. </li></ul><ul><li>µ = (x1 + x2 + …..xn)/ N. </li></ul><ul><li>Minuscule ou majuscule ? </li></ul><ul><li>Par convention, lorsqu’il s’agit d’une valeur retrouvée sur un échantillon, elle est indiquée en minuscule. </li></ul><ul><li>L’emploi de la majuscule ou de la lettre grecque correspondante est réservé à la valeur estimée ou mesurée sur la population. </li></ul>
  19. 19. La moyenne <ul><li>Exemple </li></ul><ul><li>La moyenne m de la taille des élèves de sexe masculin de l’échantillon mesurée dans l’IFMK est de 175,8 cm. La moyenne M ou µ de la taille des élèves de kinésithérapie en France est inconnue. </li></ul><ul><li> Sous Excel, la fonction appelée est libellée « =moyenne » </li></ul>m = 175.8 cm
  20. 20. L’échantillon <ul><li>Définitions </li></ul><ul><li>Un échantillon est une partie de la population. Il est dit représentatif de la population qu’il représente lorsque les caractéristiques de la variable étudiée dans l’échantillon sont similaires à celles retrouvées dans la population. La meilleure façon d’obtenir un échantillon représentatif est de tirer au sort les sujets parmi la population, ce qui revient à « laisser faire le hasard », à randomiser . </li></ul><ul><li>Préalablement à la mesure, nous avions tiré au sort l’élève devant être mesuré. L’échantillon des élèves mesurés étant obtenu au hasard, par « randomisation », nous pourrons nous prononcer ensuite sur la population dont il est tiré. Ici, un élève sur deux a été désigné par le sort, mais le respect d’une proportion n’est nullement nécessaire : la taille de l’échantillon ne dépend pas de la taille de la population. </li></ul>
  21. 21. La moyenne <ul><li>Cas particulier des variables dichotomiques </li></ul><ul><li>Une variable dichotomique a une moyenne p. Dire qu’il y a un pourcentage de 28 % de sujets masculins dans l’échantillon revient à dire que la moyenne des sujets masculins retrouvée dans l’échantillon est de 0.28. Si l’on attribue la valeur 0 pour l’ensemble des variables caractérisant les sujets masculins et 1 pour l’ensemble des variables caractérisant les sujets féminins, pour 100 % de nos sujets, la somme des variables sera de 1. </li></ul><ul><li>La moyenne de x est donc :   </li></ul>
  22. 22. La moyenne <ul><li> Détermination d’une proportion dans Excel® </li></ul><ul><li>Pour libeller : </li></ul><ul><li>le nombre de l’ensemble des valeurs, il faut écrire « = nbval », sans espace ni point </li></ul><ul><li>une recherche conditionnelle, c’est-à-dire le « nombre de valeurs selon un critère particulier », il faut écrire « = nb.si », sans espace avec un point  </li></ul>
  23. 23. La médiane <ul><li>Définition </li></ul><ul><li>C’est la valeur telle que 50% des sujets ont une valeur de la variable qui la dépasse. </li></ul><ul><li>Cet indice ne s’applique qu’aux variables ordonnées (quantitatives ou qualitatives ordinales). </li></ul><ul><li> Sous Excel la fonction médiane est appelée « =mediane », sans accent. </li></ul>50% 50%
  24. 24. Le mode <ul><li>Définition </li></ul><ul><li>C’est la valeur de la variable prise par le plus grand nombre de sujets. </li></ul><ul><li>Le mode ou valeur dominante correspond à la valeur la plus représentée dans l’échantillon </li></ul><ul><li>Il ne s’applique qu’aux variables que l’on a pu regrouper en classes. </li></ul><ul><li>Il peut y avoir plusieurs modes si le nombre maximal de sujets est atteint pour plusieurs classes de la variable ; on parle alors de distribution pluri-modale. Cela indique une relative hétérogénéité des sujets. </li></ul>
  25. 25. Pourquoi trois indices ? Se prête mal aux calculs Varie beaucoup selon la largeur choisie pour les classes. Pas affecté par les valeurs exceptionnelles. Représentation de populations hétérogènes Mode Se prête mal aux calculs. Ne tient pas compte de l’ensemble des données mais de la valeur séparant en 2 l’effectif. Peu influencée par les valeurs exceptionnelles. Bon indicateur pour des variables asymétriques Médiane Très influencée par les valeurs extrêmes Problématique quand la population est hétérogène ou fortement asymétrique Calcul facile Universellement répandue Moyenne Inconvénients Avantages  
  26. 26. Intérêt de connaître les trois indices <ul><li>La distribution des valeurs prises par une variable se répartit de façon homogène et symétrique </li></ul><ul><li>Lorsqu’on dispose d’un grand nombre de valeurs de cette variable (en pratique supérieur à 30) et que celle-ci est mesurée dans un échantillon homogène et représentatif de la population qu’il décrit. </li></ul><ul><li>La coïncidence de ces trois indices est une bonne indication de l’homogénéité de l’échantillon pour la variable mesurée. </li></ul><ul><li>On dit qu’ils se confondent lorsque la distribution de x est unimodale et symétrique . </li></ul><ul><li> lorsqu’Excel ne peut pas calculer le mode, il affiche la valeur #N/A. c’est alors un argument en faveur d’une pluri-modalité. </li></ul>
  27. 27. Exemples <ul><li>Exemple 1 : les tailles des élèves de K1 </li></ul><ul><li>Lors de l’analyse de ces trois paramètres sur Excel, médiane et moyenne apparaissent proches pour la mesure des tailles. Le mode est sensiblement différent. Nous disposons de 53 sujets, donc d’un grand échantillon. Le fait de faire apparaître des sujets de genre différents sur un même échantillon donne souvent un aspect bimodal. </li></ul>
  28. 28. Exemples <ul><li>Exemple 2 : l’endurance des triceps suraux </li></ul><ul><li>Soient 4 groupes de 5 sportifs dont on analyse l’endurance des triceps suraux. Le nombre de répétitions d’élévation sur la pointe d’un pied est mesuré, à raison d’une élévation par seconde, sans se tenir, tout en étant stabilisé par le contact sur les doigts de l’expérimentateur. En moyenne, chaque groupe est à même de faire 35 élévations avant fatigue. Les 4 échantillons ne sont cependant pas identiques pour les autres indicateurs de position. Ces 4 groupes possèdent la même moyenne, mais ne sont pas semblables. </li></ul>
  29. 29. Exemples <ul><li>Exemple 3 : les Teletubbies </li></ul><ul><li>Soient les 4 seuls habitants de la planète des Télétubbies: Po, LaaLaa, Dipsy et TinkyWinky. Ils pèsent respectivement 70, 71, 73 et 78 kgs. Le poids moyen de toute la population, soit la vraie moyenne est de 73 kgs. </li></ul><ul><li>Prenons tous les échantillons possibles, deux par deux, et calculons leur moyenne : </li></ul><ul><li>Les moyennes des échantillons sont toutes différentes de la moyenne vraie. </li></ul><ul><li>Dans la réalité, il est très difficile de connaître  . </li></ul>
  30. 30. Quand les indices sont dissemblables <ul><li>Pourquoi est-ce gênant ? </li></ul><ul><li>La coïncidence des trois indices dans un grand échantillon, est en faveur d’une distribution normale, c’est-à-dire qui obéit à la loi de probabilité d’apparition de Laplace-Gauss ou loi normale . </li></ul><ul><li>Le respect de cette loi, connue intuitivement par sa courbe de répartition en forme de cloche, est une condition nécessaire pour appliquer bon nombre de tests statistiques appelés tests paramétriques. </li></ul><ul><li>Ces tests sont dit paramétriques parce qu’ils nécessitent la présence d’un certain nombre de paramètres, de conditions d’utilisation, comme le fait d’avoir une répartition obéissant à une loi normale, pour être employés. </li></ul>
  31. 31. Quand les indices sont dissemblables <ul><li>Comparer ce qui est comparable </li></ul><ul><li>Quand les indices ne coïncident pas, il faut rechercher une plus grande homogénéité chez les sujets. </li></ul><ul><li>Exemple : la taille des élèves </li></ul><ul><li>La taille des sujets masculins est séparée de celle des sujets féminins, en créant deux catégories. </li></ul><ul><li>Il y a une disparité, plus marquée chez les filles, mais elle est modérée, puisque Excel® peut en calculer le mode. </li></ul>
  32. 32. Quand les indices sont dissemblables <ul><li>Transformer les données </li></ul><ul><li>Si les valeurs prises par la variable ne semblent pas suivre une loi normale, il est possible que leur valeur au carré, au cube, le logarithme népérien de leur valeur suivent cette loi normale. </li></ul><ul><li>En conséquence, il est licite de transformer les valeurs de cette façon, pour s’autoriser à utiliser des tests paramétriques. </li></ul><ul><li> Sous Excel®, élever au carré la valeur inscrite en case C2 s’écrit = puissance(C2 ; 2). </li></ul><ul><li>Prendre le logarithme népérien de sa valeur s’écrit = ln(C2), prendre la racine carrée s’écrit = racine(C2). </li></ul>
  33. 33. Quand les indices sont dissemblables <ul><li>Utiliser des tests non paramétriques </li></ul><ul><li>Les études anglo-saxonnes (donc la littérature…) font souvent appel à des tests non-paramétriques. </li></ul><ul><li>Les statisticiens de l’école française utilisent préférentiellement les tests paramétriques, arguant du fait que : </li></ul><ul><li>Leurs résultats sont plus robustes que ceux des tests non-paramétriques </li></ul><ul><li>Une variable suit la plupart du temps une loi normale dès lors que l’échantillon est grand (n>30), </li></ul><ul><li>On peut habituellement trouver dans la population une normalité de la même variable ( La variable « taille » peut être considérée comme normale dans la population donc dans notre échantillon) </li></ul>
  34. 34. 1.2 Les indices de dispersion <ul><li>La variance </li></ul><ul><li>L’écart-type </li></ul><ul><li>L’étendue </li></ul>
  35. 35. La variance <ul><li>La variance d’une population </li></ul><ul><li>C’est la somme des valeurs divisée par le nombre de valeurs. </li></ul><ul><li>Soit une population de N sujets pour lesquels les valeurs d’une variable X sont x1, …., xn. </li></ul><ul><li>Par définition, la variance de X, variable de moyenne µ est  ²   (sigma carré) </li></ul><ul><li>La variance est donc égale à la moyenne des carrés des écarts entre les valeurs de X et leur moyenne µ  . On peut dire aussi « la moyenne de l’écart à la moyenne au carré ». </li></ul>
  36. 36. La variance <ul><li>La variance d’une population </li></ul><ul><li>Plus la variable est dispersée, plus ces écarts sont grands et plus la variance est grande. </li></ul><ul><li>À l’extrême inverse, dans une population où tous les sujets ont la même valeur, la moyenne est égale à cette valeur commune et la variance (0/N) est nulle. </li></ul>
  37. 37. La variance <ul><li>Pourquoi mettre au carré ? </li></ul><ul><li>Face à des variables pouvant prendre des valeurs positives ou négatives, la sommation de celles-ci entraînerait leur soustraction ce qui ne rendrait pas compte de la dispersion réelle. </li></ul><ul><li>On pourrait utiliser les valeurs absolues, mais celles-ci sont, pour les mathématiciens, d’une utilisation moins aisée. </li></ul>µ
  38. 38. La variance <ul><li> Comment calculer les variances sous Excel ? </li></ul><ul><li>La variance de la population, appelée aussi variance empirique, est obtenue à l’aide de la formule «  var.p  ()». </li></ul><ul><li>La variance de l’échantillon, appelée aussi variance estimée et la seule a être la plupart du temps connue, à l’aide de la formule «  var  ()» </li></ul>
  39. 39. La variance <ul><li>Cas particulier des variables dichotomiques : </li></ul><ul><li>La variance est égale au produit des deux pourcentages d’une variable dichotomique, donc le produit de P et de 1-P </li></ul><ul><li>Exemple : La variance de la variable « sexe masculin » dans l’échantillon des élèves de l’IFMK et donc dans la population qu’ils représentent est donc de 0.28 fois 0.72 soit 0,2016. </li></ul>
  40. 40. La variance <ul><li>La plupart du temps, la variance vraie, celle de la population, est inconnue. En conséquence, on se sert de la variance de l’échantillon. </li></ul><ul><li>La variance d’un échantillon </li></ul><ul><li>Elle diffère de la variance de la population par m au lieu de µ et n-1 au lieu de n. </li></ul>
  41. 41. La variance <ul><li>Pourquoi n-1 et non n ? </li></ul><ul><li>On peut démontrer mathématiquement qu’en estimant la variance par rapport à m et non à  , obligatoirement, la somme des carrés des écarts à la moyenne observée est inférieure à la somme des carrés des écarts à la moyenne vraie. Donc la variance de l’échantillon est une estimation trop faible de la variance de la population. </li></ul><ul><li> La meilleure correction consiste à compenser le numérateur trop petit en diminuant le dénominateur d’une unité. Cela pondère la variance en approchant au plus près la réalité, la majorant pour de petits effectifs tout en étant sans effets sur les grands. </li></ul>
  42. 42. L’écart-type <ul><li>Racine carrée de la variance </li></ul><ul><li>Nommé  . En anglais «  standard deviation  » (s.d.). </li></ul><ul><li>Valeur accompagnant systématiquement la moyenne dans les études : on ne donne pas une indication de position d’une variable sans indication de sa dispersion. </li></ul><ul><li>Exemple : </li></ul><ul><li>La moyenne des élèves de l’IFMK ont une taille de 167,75 ± 7,4 cm. Les valeurs minimales (154 cm) ou maximales (186,5 cm) n’en font pas partie. </li></ul>
  43. 43. L’écart-type <ul><li>Schématiquement : </li></ul><ul><li>Empiriquement, dans une loi normale centrée réduite, le nombre d’écart-types de part et d’autre de la moyenne permet de déterminer la proportion de la variable représentée. </li></ul><ul><li>On peut retrouver raisonnablement 68 % des élèves de l’IFMK mesurant entre 160,35 cm et 175,15 cm. </li></ul><ul><li> Sous Excel, utiliser la formule «  ecartype () » sans accent ni tiret </li></ul>
  44. 44. L’écart-type <ul><li>Pourquoi utiliser la racine carrée de la variance ? </li></ul><ul><li>Parce que c’est plus compréhensible, les unités de l’écart-type étant les mêmes que celle de la variable mesurée. On a vu précédemment que la mise au carré de l’indice de dispersion avait pour but de ne pas soustraire les valeurs positives des négatives. </li></ul><ul><li>Pourquoi une loi normale est dite « centrée réduite » ? </li></ul><ul><li>Si une variable X, de variance  2 et de moyenne µ, suit une loi normale, celle-ci n’est adaptée qu’à la variable X. Pour comparer plusieurs variables, on utilise une même loi normale de moyenne centrée sur 0 et de variance réduite à 1 dont la variable sera Z, telle que : </li></ul>
  45. 45. Bibliographie <ul><li>Livres : </li></ul><ul><li>Bouyer J. Méthodes statistiques. Médecine – Biologie. Estem. Editions Inserm. 2004 </li></ul><ul><li>Georgin JP. Gouet M. Statistiques avec Excel. Presses Universitaires de Rennes. 2005 </li></ul><ul><li>Huguier M. Flahault A. Biostatistiques au quotidien. Elsevier. 2003 </li></ul><ul><li>Sites : </li></ul><ul><li>Cours de Denis Poinsot, maître de conférence à la Faculté de Rennes : http://perso.univ-rennes1.fr/denis.poinsot/Statistiques%20pour%20statophobes/ </li></ul><ul><li>Biostatistique clinique - épidemiologie et essais cliniques de la Faculté de Médecine Necker-Enfants Malades (Dr Landais & Jais) : http://www.educ.necker.fr/cours/poly/biostatistique/biostat.htm# </li></ul><ul><li>Cours : </li></ul><ul><li>Méthodologie de Base en Statistique et Epidémiologie. École d’été de santé publique et d’épidémiologie. Faculté de Médecine Paris-Sud, 63 rue Gabriel Péri, 94276 Le Kremlin Bicêtre. http://u569.kb.inserm.fr/ecolete/index.htm </li></ul><ul><li>Centre d’Enseignement de la Statistique Appliquée à la Médecine et à la Biologie Médicale (CESAM) http://cesam.vjf.inserm.fr/ </li></ul>

×