Stat7 Correlation

5 944 vues

Publié le

Voir des des variables quantitatives sont liées, sous Excel, à l'aide d'exemples empruntés à la kinesitherapie.

Publié dans : Formation
0 commentaire
5 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
5 944
Sur SlideShare
0
Issues des intégrations
0
Intégrations
430
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
5
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Stat7 Correlation

  1. 1. 7- Voir si deux variables quantitatives sont liées Kinésithérapie et Biostatistiques avec Excel ® Jean-Louis Estrade Enseignant IFMK Orléans La Source Enkre
  2. 2. <ul><li>Ces diaporamas ne sauraient remplacer un cours de biostatistiques. </li></ul><ul><li>Ils n’ont pour but que de permettre à des étudiants K1 de faire un premier abord objectif de l’évaluation de la posture et du mouvement, en application des connaissances biostatistiques théoriques acquises lors de l’année universitaire d’orientation. </li></ul><ul><li>Des notions abordées dans l’un des chapitres sont parfois utiles à la compréhension des chapitres suivants. En conséquence, ils sont à consulter dans l’ordre, avec le fichier Excel STAT.XLS joint qui reprend les illustrations du diaporama. </li></ul><ul><li>Il faut avoir à leur lecture la seule attitude compatible avec l’esprit du domaine étudié, à savoir le fait que nous ne pouvons pas rejeter l’hypothèse d’erreurs multiples, diverses et variées dans ces diaporamas. </li></ul><ul><li>Je suis à l’écoute de toutes vos remarques, annotations, critiques. N’hésitez pas à me les faire parvenir. </li></ul>Nécessaires préambules…
  3. 3. Coefficients de corrélation, de détermination, régression linéaire
  4. 4. Illustration <ul><li>Nous avons recueilli poids et tailles d’élèves , illustrés sous Excel, à l’aide du graphique « nuage de points » </li></ul><ul><li>En sélectionnant la courbe, un clic droit permet d’« ajouter une courbe de tendance.. » et d’ajouter l’équation de la courbe et le coefficient de détermination dans le menu « option » </li></ul>
  5. 5. Illustration <ul><li>Si la relation entre taille et poids est proportionnelle , il est possible de faire une « règle de 3 » pour conna ître le coefficient multiplicateur d’une unité de poids pour obtenir une unité de taille. </li></ul><ul><li>La moyenne des coefficients s’approchera de la valeur caractérisant l’équation de la droite de tendance. </li></ul>
  6. 6. Le coefficient de corrélation <ul><li>Le coefficient corrélant taille et poids est un indice sans unité, variant de -1 à +1. </li></ul><ul><li>A condition d’une relation linéaire entre les deux variables , il décrit la covariance observée entre taille et poids. </li></ul><ul><li>S’il est égal à -1 ou +1, nous pouvons calculer la valeur exacte du poids à partir de celle de la taille </li></ul><ul><li>Il mesure l’association entre deux variables quantitatives en faisant jouer des rôles symétriques aux deux variables. </li></ul><ul><li>Son intérêt est de quantifier la force de l’association entre les deux variables. </li></ul>
  7. 7. Propriétés <ul><li>Il fait jouer un rôle symétrique à X et Y (on peut permuter taille et poids, la valeur du coefficient les liant ne change pas) </li></ul><ul><li>Il est inchangé si l’on change d’unité et/ou d’origine pour Y et X. </li></ul><ul><li>On peut donc dire que la corrélation entre X et Y est plus forte que celle entre X’ et Y’ si  est supérieur (en valeur absolue) à  ’ </li></ul><ul><li>Si Y et X sont des variables indépendantes, leur covariance est nulle, et donc  = 0 . </li></ul><ul><li>Il ne donne pas d’indication pour des valeurs au delà ou en deçà de celles mesurée. Si vous n’avez que des tailles de 155 à 175 cm, vous ne pourrez pas vous prononcer sur la corrélation en deçà de 155 ni au delà de 175 cm. </li></ul>
  8. 8. Formules <ul><li>Calcul de r </li></ul><ul><li>Le coefficient de corrélation est noté r sur un échantillon. </li></ul><ul><li>On obtient son expression en remplaçant la covariance et les variances par leurs estimations. </li></ul>
  9. 9. Équation <ul><li>L’équation y =  x +  </li></ul><ul><li> n’a pas d’interprétation concrète et n’est utile que pour l’écriture de l’équation. Il décrit par exemple la taille moyenne d’un individu quand son poids est nul, ce qui n’a pas de sens. </li></ul><ul><li>Il est possible de faire passer la courbe par l’origine des deux axes et de réduire  à 0. </li></ul>
  10. 10. Équation <ul><li>L’équation y =  +  x </li></ul><ul><li>Le coefficient  , le seul important, peut s’interpréter comme l’augmentation moyenne du paramètre Y par unité de X. Cela donne une indication quantitative mais aussi qualitative : </li></ul><ul><li>Si  est positif, c’est que les Y augmentent avec les X </li></ul><ul><li>Si  est négatif, c’est que les Y diminuent avec les X </li></ul><ul><li>Si  est égal à 1 ou -1, les Y s’expliquent entièrement par la valeur des X. c’est donc la valeur maximale que peut prendre  . </li></ul><ul><li>Si  = 0, cela veut dire que Y ne dépend pas de X si leur relation est linéaire. </li></ul>
  11. 11. La régression linéaire <ul><li>Elle étudie l’association entre deux variables quantitatives . </li></ul><ul><li>Il s’agit de décrire le lien entre la taille et le poids, soit décrire au mieux la façon dont le poids varie en fonction de la taille, étudier la distribution du poids pour chaque valeur de taille, étant donné qu’il n’y a pas de lien si le poids reste le même quelque soit la valeur de la taille. </li></ul>
  12. 12. Principe <ul><li>Pourquoi se limiter à une courbe linéaire ? </li></ul><ul><li>Une courbe liant deux variables peut prendre toutes les formes possibles, la droite n’étant que la forme la plus simple </li></ul><ul><li>Une courbe polynomiale serait plus à même de montrer toutes les variations de Y par rapport à X. A condition de prendre un nombre de degrés suffisants, il est toujours possible de trouver un polynome passant par tous les points moyens observés. </li></ul><ul><li>On se limite à la droite, parce que la statistique consiste à trouver une tendance moyenne, un modèle, à simplifier l’existant en dégageant des lois générales. </li></ul>
  13. 13. Liaison ou pas ? <ul><li>Est-ce qu’il existe un lien entre X et Y ? </li></ul><ul><li>Cela revient à se poser la question « est-ce que la pente  de la droite est différente de 0 ? » </li></ul><ul><li>Et si la relation n’est pas linéaire ? </li></ul><ul><li>La régression linéaire permet de tester l’existence d’une liaison entre deux variables quantitatives sous l’hypothèse d’une relation linéaire . </li></ul><ul><li>Il faudra donc tester la linéarité de la courbe. </li></ul>
  14. 14. Liaisons non linéaires ? <ul><li>Il existe des relations non linéaires </li></ul><ul><li>Par exemple, le cartilage s’ab îme s’il n’est pas soumis à contraintes ou s’il est soumis à trop de contraintes. Il est entretenu par des contraintes moyennes. La courbe le liaison entre cartilage et contrainte est une courbe en forme de « U » </li></ul>
  15. 15. Test du coefficient de corrélation <ul><li>Pourquoi le tester ? </li></ul><ul><li>Comme toujours, les valeurs observées dans un échantillon représentatif sont une approximation des valeurs de la population qu’il représente. </li></ul><ul><li>A cause des fluctuations d’échantillonnage, la valeur de ce coefficient (appelé r et inventé par Pearson ) est une estimation de la véritable valeur  (rho) dans la population. </li></ul><ul><li>Elle p eut dans l’absolu être nulle, elle peut relier ou pas la taille et le poids. Il faut donc la vérifier, par le test du coefficient de corrélation. </li></ul>
  16. 16. Test du coefficient de corrélation <ul><li>Comme toujours, il s’agit de tester l’hypothèse nulle, ce qui consiste à tester l’hypothèse que  = 0, ce qui correspond à l’absence d’association linéaire. </li></ul><ul><li>On montre que quand H 0 est vraie, si la régression est linéaire et si l’une des deux distributions conditionnelles est normale (Y à X fixé ou X à Y fixé) et de variance constante, </li></ul><ul><li>suit une loi de Student à (n-2) degrés de liberté. </li></ul><ul><li>La valeur r 0 sera comparée à une valeur seuil dans la table de la loi de Student, ou à l’aide de la fonction « loi.student » qui, dans Excel, donne les valeurs de la table. </li></ul>
  17. 17. Calcul <ul><li>La valeur doit être comparée avec la valeur r 0 inscrite dans la table de Student (ici 2 pour des d.d.l. entre 40 et 60). </li></ul><ul><li>Si la valeur absolue de r est supérieure à r 0 , on rejette H 0 et on conclut que les données indiquent un lien statistique ( bien s ûr pas un lien de cause à effet ) entre le poids et la taille. </li></ul><ul><li>Nous avons ici une probabilité de 0,0000001 soit 1 pour 10000000 que la pente ne soit pas nulle. </li></ul>
  18. 18. Calculs avec Excel <ul><li>Fonctions </li></ul><ul><li>« COEFFICIENT.CORRELATION » </li></ul><ul><li>« PEARSON » </li></ul><ul><li>Donnent les mêmes valeurs </li></ul><ul><li>Utilitaires d’analyse </li></ul><ul><li>« Analyse de corrélation » </li></ul><ul><li>« Régression linéaire » </li></ul>
  19. 19. Analyse de corrélation <ul><li>Recherche de corrélations multiples </li></ul><ul><li>Quand il est nécessaire de rechercher plusieurs corrélations entre plusieurs variables, plut ôt qu’utiliser la fonction « coefficient.correlation » pour chaque paire de variable, Excel permet via l’outil d’analyse, d’utiliser la fonction « analyse de corrélation » </li></ul>
  20. 20. Analyse de corrélation <ul><li>Que conclure de notre étude ? </li></ul><ul><li>Un élément est parfaitement corrélé à lui m ême, d’où la valeur 1 en bout de tableau. </li></ul><ul><li>Selon Huguier & Flahaut* il est possible d’adopter la gradation suivante   </li></ul><ul><li>La pointure est fortement corrélée à la taille, le poids modérément à la taille et à la pointure, l’ âge peu ou pas du tout aux autres variables. </li></ul>* Huguier M. Flahaut A. Biostatistiques au quotidien. Elsevier. 2003.
  21. 21. Outil régression linéaire <ul><li>Il permet des analyses plus complexes, mais p eut être utilisé pour tester le coefficient de corrélation. </li></ul><ul><li>Il donne la valeur de r à comparer avec r 0 et la probabilité p </li></ul>
  22. 22. Pièges <ul><li>Il ne faut pas confondre liaison et causalité </li></ul><ul><li>Il faut que la courbe soit constamment croissante ou décroissante. </li></ul><ul><li>Conditions d’application du test : </li></ul><ul><li>Les paires (x n , y n ) doivent être indépendantes </li></ul><ul><li>Les valeurs de x doivent suivre une loi normale pour toutes les valeurs possibles de y . </li></ul><ul><li>En conséquence : </li></ul><ul><li>Le coefficient de corrélation n’est plus aujourd’hui utilisé dans les études, étant remplacé par l’utilisation du coefficient de corrélation intra-classe (ICC), qui fait appel à des tests non-paramétriques. </li></ul>
  23. 23. Le coefficient de détermination <ul><li>Il est facile de se laisser duper par une valeur haute de R et de conclure que la liaison entre X et Y doit être forte. Il faut prendre connaissance du coefficient de détermination R 2 </li></ul><ul><li>R 2 , c’est le pourcentage de variance expliqué </li></ul><ul><li>La dispersion des valeurs d’une variable par rapport à l’autre s’explique en partie par la liaison entre ces deux variables. </li></ul><ul><li>Par définition, le coefficient de détermination est le rapport de la somme des carrés des écarts dûs à la régression sur la somme des carrés des écarts totale. </li></ul><ul><li>Ceci n’est possible qu’à la condition que la régression soit effectivement linéaire . Il s’exprime comme le pourcentage de la variance de Y expliquée par la régression. </li></ul>
  24. 24. Le coefficient de détermination <ul><li>Pourquoi R 2 dit tout * ? </li></ul><ul><li>R 2 représente «  la proportion de la variance de Y qui disparaît si l’on fixe X (ou l’inverse)  » Donc : </li></ul><ul><li>Si X et Y sont liées de manière absolue, la valeur de X permet de connaître exactement Y et les valeurs de Y ne varient pas pour un X donné. La variance de Y à X fixé est nulle, et R comme R 2 valent 1, soit 100%. Quand on fixe X, 100% de la variance de Y disparaît. </li></ul><ul><li>A l’inverse une absence totale de liaison entre X et Y fait qu’aucune fraction de la variance de Y ne disparaît lorsqu’on fixe X et 0% de la variance de Y est éliminée. </li></ul><ul><li>Entre ces valeurs extrêmes se situent les pourcentages de variance d’une variable pouvant être expliquée par l’autre. </li></ul>* Cours de Denis Poinsot
  25. 25. Le coefficient de détermination <ul><li>Formule : </li></ul><ul><li>Le coefficient de détermination est le rapport de la somme des carrés des écarts dûs à la régression sur la somme des carrés des écarts totale. </li></ul><ul><li>Il est égal au carré du coefficient de corrélation en cas de régression linéaire. </li></ul><ul><li>Avec Excel </li></ul><ul><li>Utilisation de la fonction « COEFFICIENT.DETERMINATION » </li></ul><ul><li>Utilisation de l’outil « régression linéaire » </li></ul><ul><li>44% de la variance du poids s’explique par la taille </li></ul>
  26. 26. Bibliographie <ul><li>Livres : </li></ul><ul><li>Bouyer J. Méthodes statistiques. Médecine – Biologie. Estem. Editions Inserm. 2004 </li></ul><ul><li>Georgin JP. Gouet M. Statistiques avec Excel. Presses Universitaires de Rennes. 2005 </li></ul><ul><li>Huguier M. Flahault A. Biostatistiques au quotidien. Elsevier. 2003 </li></ul><ul><li>Sites : </li></ul><ul><li>Cours de Denis Poinsot, maître de conférence à la Faculté de Rennes : «  Une introduction au monde des tests statistiques à l’intention des étudiants qui n’y entravent que pouic et qui détestent les maths par dessus le marché  » http://perso.univ-rennes1.fr/denis.poinsot/Statistiques%20pour%20statophobes/ </li></ul><ul><li>Biostatistique clinique - épidemiologie et essais cliniques de la Faculté de Médecine Necker-Enfants Malades (Dr Landais & Jais) : http://www.educ.necker.fr/cours/poly/biostatistique/biostat.htm# </li></ul><ul><li>Cours : </li></ul><ul><li>Méthodologie de Base en Statistique et Epidémiologie. École d’été de santé publique et d’épidémiologie. Faculté de Médecine Paris-Sud, 63 rue Gabriel Péri, 94276 Le Kremlin Bicêtre. http://u569.kb.inserm.fr/ecolete/index.htm </li></ul><ul><li>Centre d’Enseignement de la Statistique Appliquée à la Médecine et à la Biologie Médicale (CESAM) http://cesam.vjf.inserm.fr/ </li></ul>

×