SlideShare une entreprise Scribd logo
1  sur  2
Télécharger pour lire hors ligne
b I O S TAT I S T I Q U E




Pièges des corrélations:
les coefficients de corrélation de Pearson et de Spearman
Ulrike Held
Horten-Zentrum, UniversitätsSpital, Zürich




                   En recherche clinique, il arrive fréquemment que l’on
                   mesure plusieurs paramètres chez le patient, par ex. le             Tableau 1. Mesures du poids corporel et de la pression
                                                                                       systolique prises auprès de 20 patients de sexe masculin.
                   poids corporel et la pression artérielle systolique. Chacun
                   des paramètres, appelés variables, est examiné sépa­                Patient       Poids (kg)         Pression systolique (mm Hg)
                   rément. Mais parfois, il est intéressant d’étudier s’il existe       1             92,8              153,6
                   des relations entre les deux variables. Par exemple, on              2             82,9              116,2
                   pourrait examiner le comportement d’une variable lorsque
                                                                                        3            101,6              157,8
                   l’autre diminue ou qu’elle augmente, la nature de la rela­
                                                                                        4             97,7              153,5
                   tion, les possibilités de quantification de la relation, c.­à­d.
                   son intensité et son sens. Il existe diverses façons de me­          5            111,3              153,2
                   surer la relation ou la liaison, selon qu’il s’agisse de va­         6            manque             123,3
                   riables métriques (quantitatives), telles que la pression            7             73,3              128,4
                   systolique, ou ordinales (tels que l’état dans lequel se sent
                                                                                        8             87,2              manque
                   un patient sur une échelle de 1 à 7). Contrairement à la ré­
                   gression linéaire, qui exige de définir une variable explica­         9            114,7              126,1
                   tive et une variable dépendante, cela n’est pas nécessaire          10            113,1              167,9
                   dans le cas de la corrélation.                                      11             97,4              130,5
                   Reprenons l’exemple fictif cité dans l’article «Les ques­            12             90,2              141,2
                   tionnements scientifiques de la médecine ont besoin de
                                                                                       13             95,0              109,9
                   modèles statistiques»1: on a relevé la pression systolique
                   et le poids de 20 patients. Les observations figurent au             14             89,4              89,8
                   tableau 1 p.                                                        15             90,4              137,6
                   Il est à noter qu’il manque la mesure de la variable «poids»        16             92,2              114,1
                   chez le patient portant le numéro 6, et celle de la variable
                                                                                       17            105,1              130,6
                   «pression systolique» chez le patient 8.
                                                                                       18             89,4              138,1
                   Avant de procéder à un calcul particulier de la mesure de
                   la force de la relation statistique entre deux variables mé­        19             88,7              109,4
                   triques, par ex. à celui de leur coefficient de corrélation, il      20             86,3              103,5
                   faut commencer par représenter graphiquement les deux
                   séries de données dans un diagramme de dispersion ap­
                                                                                      degré de relation linéaire entre les deux séries de données,
                   pelé nuage de points, ou scatter plot. Aussi bien la repré­
                                                                                      et il prend des valeurs situées entre –1 et 1. S’il n’y a pas
                   sentation graphique que le calcul du coefficient de corréla­
                                                                                      de relation linéaire entre les deux séries de données, le
                   tion exigent que les couples d’observations soient complets.
                                                                                      coefficient de corrélation est très proche de zéro, et on dira
                   Dans les deux séries de données de notre exemple, seuls
                                                                                      que les deux variables ne sont pas corrélées. Dans ce cas,
                   18 couples seront ainsi pris en compte, et les données des
                                                                                      il pourrait tout de même y avoir une relation entre les deux
                   personnes pour qui il manque une des observations (en
                                                                                      variables, mais alors elle ne sera pas linéaire.
                   l’occurrence celles des patients 6 et 8) seront donc exclues
                                                                                      Le signe du coefficient de corrélation indique le sens de la
                   de l’analyse statistique. Il faudrait s’assurer encore que
                                                                                      corrélation: s’il est positif, la valeur d’une des variables
                   l’absence d’une donnée soit indépendante de sa valeur:
                                                                                      tend à augmenter en même temps que celle de l’autre va­
                   par ex., il ne faut pas que le manque de données concerne
                                                                                      riable, s’il est négatif, la valeur d’une variable tend à dimi­
                   trop fréquemment les personnes dont la pression artérielle
                                                                                      nuer quand celle de l’autre augmente. Pour interpréter les
                   est très élevée ou très faible, car les résultats en seraient
                                                                                      corrélations dans le cadre de la relation examinée, nous
                   biaisés. Dans la pratique, il n’existe pas de stratégie uni­
                                                                                      pouvons nous en tenir à certaines valeurs indicatives. Les
                   versellement valable pour traiter les données manquantes,
                                                                                      valeurs situées entre 0,3 et 0,5 (resp. entre –0,3 et –0,5) in­
Ulrike Held        mais il faut plutôt juger de cas en cas. Dans la figure 1 x,
                                                                                      diquent une corrélation de faible intensité positive (resp.
                   chaque couple d’observations complet est représenté sous
                                                                                      négative), celles situées entre 0,5 et 0,8 (resp. –0,5 et –0,8)
                   la forme d’un point dont les coordonnées sont les données
                                                                                      indiquent une corrélation d’intensité moyenne, et au­des­
L’auteur déclare   d’un individu qui correspondent aux deux variables à étu­
                                                                                      sus de 0,8 (resp. en­dessous de –0,8), la corrélation entre
ne pas être en     dier.
                                                                                      les deux variables est considérée comme de forte intensité.
conflit d’intérêt   Le coefficient de corrélation de Pearson permet d’évaluer
en relation avec   l’intensité et le sens de la relation linéaire entre deux séries
cette                                                                                 1 U. Held. «Les questionnements scientifiques de la médecine
                   de données provenant de l’échantillonnage de deux va­                ont besoin de modèles statistiques». Forum Médical Suisse.
contribution.
                   riables métriques. Le coefficient de corrélation indique le           2010;10(32):528–30.


                                                                                                      Forum Med Suisse 2010;10(38):652–653           652
b I O S TAT I S T I Q U E




En calculant la corrélation de Pearson entre les deux en­     des rangs se situe dans un intervalle de –1 à 1, et les règles
sembles de données de notre exemple, nous obtenons une        d’interprétation sont les mêmes que pour le coefficient de
intensité de corrélation 0,48.                                Pearson. Les données de notre exemple sont indiquées
Dans les cas où le coefficient de corrélation de Pearson       dans le tableau 2 p, rangées selon l’ordre croissant des
semble fortement influencé par des valeurs extrêmes ou         poids corporels des patients.
aberrantes, et dans ceux où les données proviennent de        Nous pouvons observer que dans la variable poids, la
variables qui ne sont pas métriques, mais ordinales, il est   valeur 89,4 apparaît précisément deux fois. Dans ce cas,
bon d’avoir recours au coefficient de corrélation des rangs    on attribue deux fois la valeur moyenne de 6,5 au numéro
selon Spearman. Ce coefficient ne fait pas appel aux va­       de rang en lieu et place des numéros 6 et 7. On appelle
leurs quantitatives, mais simplement à leur rang. Cela si­    ces rangs des rangs ex aequo ou rangs liés.
gnifie que l’on classe les valeurs d’observation par ordre     Dans notre exemple ci­dessus, le coefficient de corrélation
de grandeur et que l’on remplace ensuite la valeur quanti­    des rangs entre poids corporel et pression systolique est
tative par le numéro du rang. Le coefficient de corrélation    estimé à 0,54. Comme seuls 18 couples d’observations
                                                              sont à disposition, il faut donner dans ce cas la préférence
                                                              au coefficient de corrélation des rangs plutôt qu’à celui de
                                                              Pearson et conclure à une corrélation modérée entre le
                                                              poids corporel et la pression systolique.


                                                              Glossaire
                                                              Métrique
                                                              On nomme les paramètres «métriques» s’ils se mesurent
                                                              sur une échelle continue. Exemples: tension artérielle,
                                                              taille en cm.

                                                              Ordinal
                                                              On nomme les paramètres «ordinaux» s’ils sont mesurés
                                                              sur une échelle de rang ordonnancée selon un ordre ap­
                                                              proprié. Exemples: la satisfaction par rapport à un produit
                                                              (très satisfait, satisfait, peu satisfait), la performance sco­
                                                              laire (très bien, bien, satisfaisant, etc.).
Figure 1
Diagramme de dispersion des 18 couples d’observation.         Rang
                                                              Les observations d’une variable ou d’une série de données
                                                              sont triées par ordre croissant et numérotées: la plus petite
 Tableau 2. Valeurs mesurées et numérotation                  observation obtient le numéro de rang 1, la suivante le
 selon leur rang par ordre croissant de poids.                numéro 2, etc.
 Patient   Poids   Rang    Pression           Rang pression
           (kg)    poids   systolique (mm Hg) systolique      Diagramme de dispersion
  7         73,3    1      128,4                  9           Dans un diagramme de dispersion, chaque couple d’obser­
  2         82,9    2      116,2                  6           vations complet est représenté sous la forme d’un point
                                                              dont les coordonnées sont les données d’un individu qui
 20         86,3    3      103,5                  2
                                                              correspondent aux deux variables à étudier, ce qui donne
  8         87,2    4
                                                              lieu à un «nuage de points». Anglais: scatter plot.
 19         88,7    5      109,4                  3
 14         89,4    6,5     89,8                  1
                                                              Correspondance:
 18         89,4    6,5    138,1                 13           Dr Ulrike Held
 12         90,2    8      141,2                 14           Horten-Zentrum
                                                              UniversitätsSpital Zürich
 15         90,4    9      137,6                 12
                                                              Postfach Nord
 16         92,2   10      114,1                  5           CH-8091 Zürich
  1         92,8   11      153,6                 17           ulrike.held@usz.ch
 13         95,0   12      109,9                  4
 11         97,4   13      130,5                 10           Références recommandées
                                                              – Bland JM, Altman DG. Statistics notes: correlation, regression, and
  4         97,7   14      153,5                 16
                                                                repeated data. BMJ. 1994;308:896.
  3        101,6   15      157,8                 18           – Held L, Rufibach C, Seifert B. Einführung in die Biostatistik. 4. Auf­
                                                                lage. Zürich: Abteilung Biostatistik, Institut für Sozial­ und Präventiv­
 17        105,1   16      130,6                 11             medizin der Universität Zürich; Juli 2009. http://www.biostat.uzh.ch.
  5        111,3   17      153,2                 15           – Hüsler J, Zimmermann H. Statistische Prinzipien für medizinische
                                                                Projekte. 4. Auflage. Bern: Huber­Verlag; 2006.
 10        113,1   18      167,9                 19           – Kreienbrock L, Schach S. Epidemiologische Methoden. 4. Auflage.
  9        114,7   19      126,1                  8             München: Elsevier­Verlag; 2005.
                                                              – R Development Core Team. R: A language and environment for sta­
  6                        123,3                  7             tistical computing. Vienna, Austria: R Foundation for Statistical Com­
                                                                puting; 2008. ISBN 3­900051­07­0. URL http://www.R­project.org.


                                                                                Forum Med Suisse 2010;10(38):652–653              653

Contenu connexe

Plus de Alexandre Villeneuve

Twitter et la communication politique en période sensible par l’Observatoire...
Twitter et la communication politique en période sensible par l’Observatoire...Twitter et la communication politique en période sensible par l’Observatoire...
Twitter et la communication politique en période sensible par l’Observatoire...Alexandre Villeneuve
 
Personal Branding - Articuler sa communication sur les réseaux sociaux - Form...
Personal Branding - Articuler sa communication sur les réseaux sociaux - Form...Personal Branding - Articuler sa communication sur les réseaux sociaux - Form...
Personal Branding - Articuler sa communication sur les réseaux sociaux - Form...Alexandre Villeneuve
 
Salon E-Marketing : E-Réputation, les défis du web de l’influence
Salon E-Marketing : E-Réputation, les défis du web de l’influenceSalon E-Marketing : E-Réputation, les défis du web de l’influence
Salon E-Marketing : E-Réputation, les défis du web de l’influenceAlexandre Villeneuve
 
Hopscoth - Salariés et médias sociaux
Hopscoth - Salariés et médias sociauxHopscoth - Salariés et médias sociaux
Hopscoth - Salariés et médias sociauxAlexandre Villeneuve
 
Linkbuilding: Fondamentaux - SMX Paris 2010
Linkbuilding: Fondamentaux - SMX Paris 2010Linkbuilding: Fondamentaux - SMX Paris 2010
Linkbuilding: Fondamentaux - SMX Paris 2010Alexandre Villeneuve
 
Etude: Moteur de recherche du futur (par Google)
Etude: Moteur de recherche du futur (par Google)Etude: Moteur de recherche du futur (par Google)
Etude: Moteur de recherche du futur (par Google)Alexandre Villeneuve
 
Etude TNS/Sofres : Vie privée des Français
Etude TNS/Sofres : Vie privée des FrançaisEtude TNS/Sofres : Vie privée des Français
Etude TNS/Sofres : Vie privée des FrançaisAlexandre Villeneuve
 
E-Réputation - Conférence Media Days
E-Réputation - Conférence Media DaysE-Réputation - Conférence Media Days
E-Réputation - Conférence Media DaysAlexandre Villeneuve
 
E-Réputation des entreprises par GFII
E-Réputation des entreprises par GFIIE-Réputation des entreprises par GFII
E-Réputation des entreprises par GFIIAlexandre Villeneuve
 
L’E-Reputation, enjeu du web SOCIAL
L’E-Reputation, enjeu du web SOCIALL’E-Reputation, enjeu du web SOCIAL
L’E-Reputation, enjeu du web SOCIALAlexandre Villeneuve
 
Liens Sponsorises en Longue Traine
Liens Sponsorises en Longue TraineLiens Sponsorises en Longue Traine
Liens Sponsorises en Longue TraineAlexandre Villeneuve
 
Navigation et Recherche pour les sites E-Commerce
Navigation et Recherche pour les sites E-CommerceNavigation et Recherche pour les sites E-Commerce
Navigation et Recherche pour les sites E-CommerceAlexandre Villeneuve
 
Web Analitycs Wednesday Waw Paris Mai 2008
Web Analitycs Wednesday Waw Paris Mai 2008Web Analitycs Wednesday Waw Paris Mai 2008
Web Analitycs Wednesday Waw Paris Mai 2008Alexandre Villeneuve
 

Plus de Alexandre Villeneuve (18)

Twitter et la communication politique en période sensible par l’Observatoire...
Twitter et la communication politique en période sensible par l’Observatoire...Twitter et la communication politique en période sensible par l’Observatoire...
Twitter et la communication politique en période sensible par l’Observatoire...
 
Personal Branding - Articuler sa communication sur les réseaux sociaux - Form...
Personal Branding - Articuler sa communication sur les réseaux sociaux - Form...Personal Branding - Articuler sa communication sur les réseaux sociaux - Form...
Personal Branding - Articuler sa communication sur les réseaux sociaux - Form...
 
Salon E-Marketing : E-Réputation, les défis du web de l’influence
Salon E-Marketing : E-Réputation, les défis du web de l’influenceSalon E-Marketing : E-Réputation, les défis du web de l’influence
Salon E-Marketing : E-Réputation, les défis du web de l’influence
 
Hopscoth - Salariés et médias sociaux
Hopscoth - Salariés et médias sociauxHopscoth - Salariés et médias sociaux
Hopscoth - Salariés et médias sociaux
 
Livre E-Réputation (Extrait)
Livre E-Réputation (Extrait)Livre E-Réputation (Extrait)
Livre E-Réputation (Extrait)
 
Linkbuilding: Fondamentaux - SMX Paris 2010
Linkbuilding: Fondamentaux - SMX Paris 2010Linkbuilding: Fondamentaux - SMX Paris 2010
Linkbuilding: Fondamentaux - SMX Paris 2010
 
Etude: Moteur de recherche du futur (par Google)
Etude: Moteur de recherche du futur (par Google)Etude: Moteur de recherche du futur (par Google)
Etude: Moteur de recherche du futur (par Google)
 
Etude TNS/Sofres : Vie privée des Français
Etude TNS/Sofres : Vie privée des FrançaisEtude TNS/Sofres : Vie privée des Français
Etude TNS/Sofres : Vie privée des Français
 
E-Réputation - Conférence Media Days
E-Réputation - Conférence Media DaysE-Réputation - Conférence Media Days
E-Réputation - Conférence Media Days
 
E-Réputation des entreprises par GFII
E-Réputation des entreprises par GFIIE-Réputation des entreprises par GFII
E-Réputation des entreprises par GFII
 
Bad Buzz & E-Reputation de crise
Bad Buzz & E-Reputation de criseBad Buzz & E-Reputation de crise
Bad Buzz & E-Reputation de crise
 
E-Réputation au SEO Campus
E-Réputation au SEO CampusE-Réputation au SEO Campus
E-Réputation au SEO Campus
 
L’E-Reputation, enjeu du web SOCIAL
L’E-Reputation, enjeu du web SOCIALL’E-Reputation, enjeu du web SOCIAL
L’E-Reputation, enjeu du web SOCIAL
 
Liens Sponsorises en Longue Traine
Liens Sponsorises en Longue TraineLiens Sponsorises en Longue Traine
Liens Sponsorises en Longue Traine
 
Navigation et Recherche pour les sites E-Commerce
Navigation et Recherche pour les sites E-CommerceNavigation et Recherche pour les sites E-Commerce
Navigation et Recherche pour les sites E-Commerce
 
E Commerce 2008 Searchandising
E Commerce 2008 SearchandisingE Commerce 2008 Searchandising
E Commerce 2008 Searchandising
 
Identité Numérique
Identité NumériqueIdentité Numérique
Identité Numérique
 
Web Analitycs Wednesday Waw Paris Mai 2008
Web Analitycs Wednesday Waw Paris Mai 2008Web Analitycs Wednesday Waw Paris Mai 2008
Web Analitycs Wednesday Waw Paris Mai 2008
 

Dernier

Cours sur les Dysmorphies cranio faciales .pdf
Cours sur les Dysmorphies cranio faciales .pdfCours sur les Dysmorphies cranio faciales .pdf
Cours sur les Dysmorphies cranio faciales .pdfKarimaLounnas
 
LES TECHNIQUES ET METHODES EN BIOLOGIE MÉDICALE.pdf
LES TECHNIQUES ET METHODES  EN BIOLOGIE MÉDICALE.pdfLES TECHNIQUES ET METHODES  EN BIOLOGIE MÉDICALE.pdf
LES TECHNIQUES ET METHODES EN BIOLOGIE MÉDICALE.pdfBallaMoussaDidhiou
 
Guide bonne pratique fabrication domaine pharmaceutique.pdf
Guide bonne pratique fabrication domaine pharmaceutique.pdfGuide bonne pratique fabrication domaine pharmaceutique.pdf
Guide bonne pratique fabrication domaine pharmaceutique.pdfmohammed197241
 
ETUDE RETROSPECTIVE DE GOITRE MULTIHETERONODULAIRE TOXIQUE CHEZ L’ADULTE, A P...
ETUDE RETROSPECTIVE DE GOITRE MULTIHETERONODULAIRE TOXIQUE CHEZ L’ADULTE, A P...ETUDE RETROSPECTIVE DE GOITRE MULTIHETERONODULAIRE TOXIQUE CHEZ L’ADULTE, A P...
ETUDE RETROSPECTIVE DE GOITRE MULTIHETERONODULAIRE TOXIQUE CHEZ L’ADULTE, A P...Sargata SIN
 
La radiothérapie.pptx les différents principes et techniques en radiothérapie
La radiothérapie.pptx les différents principes et techniques en radiothérapieLa radiothérapie.pptx les différents principes et techniques en radiothérapie
La radiothérapie.pptx les différents principes et techniques en radiothérapienimaelhajji
 
Biochimie metabolique METUOR DABIRE_pdf.pdf
Biochimie metabolique METUOR DABIRE_pdf.pdfBiochimie metabolique METUOR DABIRE_pdf.pdf
Biochimie metabolique METUOR DABIRE_pdf.pdfOuattaraBamory3
 
Artificial intelligence and medicine by SILINI.pptx
Artificial intelligence and medicine by SILINI.pptxArtificial intelligence and medicine by SILINI.pptx
Artificial intelligence and medicine by SILINI.pptxsilinianfel
 

Dernier (7)

Cours sur les Dysmorphies cranio faciales .pdf
Cours sur les Dysmorphies cranio faciales .pdfCours sur les Dysmorphies cranio faciales .pdf
Cours sur les Dysmorphies cranio faciales .pdf
 
LES TECHNIQUES ET METHODES EN BIOLOGIE MÉDICALE.pdf
LES TECHNIQUES ET METHODES  EN BIOLOGIE MÉDICALE.pdfLES TECHNIQUES ET METHODES  EN BIOLOGIE MÉDICALE.pdf
LES TECHNIQUES ET METHODES EN BIOLOGIE MÉDICALE.pdf
 
Guide bonne pratique fabrication domaine pharmaceutique.pdf
Guide bonne pratique fabrication domaine pharmaceutique.pdfGuide bonne pratique fabrication domaine pharmaceutique.pdf
Guide bonne pratique fabrication domaine pharmaceutique.pdf
 
ETUDE RETROSPECTIVE DE GOITRE MULTIHETERONODULAIRE TOXIQUE CHEZ L’ADULTE, A P...
ETUDE RETROSPECTIVE DE GOITRE MULTIHETERONODULAIRE TOXIQUE CHEZ L’ADULTE, A P...ETUDE RETROSPECTIVE DE GOITRE MULTIHETERONODULAIRE TOXIQUE CHEZ L’ADULTE, A P...
ETUDE RETROSPECTIVE DE GOITRE MULTIHETERONODULAIRE TOXIQUE CHEZ L’ADULTE, A P...
 
La radiothérapie.pptx les différents principes et techniques en radiothérapie
La radiothérapie.pptx les différents principes et techniques en radiothérapieLa radiothérapie.pptx les différents principes et techniques en radiothérapie
La radiothérapie.pptx les différents principes et techniques en radiothérapie
 
Biochimie metabolique METUOR DABIRE_pdf.pdf
Biochimie metabolique METUOR DABIRE_pdf.pdfBiochimie metabolique METUOR DABIRE_pdf.pdf
Biochimie metabolique METUOR DABIRE_pdf.pdf
 
Artificial intelligence and medicine by SILINI.pptx
Artificial intelligence and medicine by SILINI.pptxArtificial intelligence and medicine by SILINI.pptx
Artificial intelligence and medicine by SILINI.pptx
 

Pièges des corrélations: les coefficients de corrélation de Pearson et de Spearman

  • 1. b I O S TAT I S T I Q U E Pièges des corrélations: les coefficients de corrélation de Pearson et de Spearman Ulrike Held Horten-Zentrum, UniversitätsSpital, Zürich En recherche clinique, il arrive fréquemment que l’on mesure plusieurs paramètres chez le patient, par ex. le Tableau 1. Mesures du poids corporel et de la pression systolique prises auprès de 20 patients de sexe masculin. poids corporel et la pression artérielle systolique. Chacun des paramètres, appelés variables, est examiné sépa­ Patient Poids (kg) Pression systolique (mm Hg) rément. Mais parfois, il est intéressant d’étudier s’il existe 1 92,8 153,6 des relations entre les deux variables. Par exemple, on 2 82,9 116,2 pourrait examiner le comportement d’une variable lorsque 3 101,6 157,8 l’autre diminue ou qu’elle augmente, la nature de la rela­ 4 97,7 153,5 tion, les possibilités de quantification de la relation, c.­à­d. son intensité et son sens. Il existe diverses façons de me­ 5 111,3 153,2 surer la relation ou la liaison, selon qu’il s’agisse de va­ 6 manque 123,3 riables métriques (quantitatives), telles que la pression 7 73,3 128,4 systolique, ou ordinales (tels que l’état dans lequel se sent 8 87,2 manque un patient sur une échelle de 1 à 7). Contrairement à la ré­ gression linéaire, qui exige de définir une variable explica­ 9 114,7 126,1 tive et une variable dépendante, cela n’est pas nécessaire 10 113,1 167,9 dans le cas de la corrélation. 11 97,4 130,5 Reprenons l’exemple fictif cité dans l’article «Les ques­ 12 90,2 141,2 tionnements scientifiques de la médecine ont besoin de 13 95,0 109,9 modèles statistiques»1: on a relevé la pression systolique et le poids de 20 patients. Les observations figurent au 14 89,4 89,8 tableau 1 p. 15 90,4 137,6 Il est à noter qu’il manque la mesure de la variable «poids» 16 92,2 114,1 chez le patient portant le numéro 6, et celle de la variable 17 105,1 130,6 «pression systolique» chez le patient 8. 18 89,4 138,1 Avant de procéder à un calcul particulier de la mesure de la force de la relation statistique entre deux variables mé­ 19 88,7 109,4 triques, par ex. à celui de leur coefficient de corrélation, il 20 86,3 103,5 faut commencer par représenter graphiquement les deux séries de données dans un diagramme de dispersion ap­ degré de relation linéaire entre les deux séries de données, pelé nuage de points, ou scatter plot. Aussi bien la repré­ et il prend des valeurs situées entre –1 et 1. S’il n’y a pas sentation graphique que le calcul du coefficient de corréla­ de relation linéaire entre les deux séries de données, le tion exigent que les couples d’observations soient complets. coefficient de corrélation est très proche de zéro, et on dira Dans les deux séries de données de notre exemple, seuls que les deux variables ne sont pas corrélées. Dans ce cas, 18 couples seront ainsi pris en compte, et les données des il pourrait tout de même y avoir une relation entre les deux personnes pour qui il manque une des observations (en variables, mais alors elle ne sera pas linéaire. l’occurrence celles des patients 6 et 8) seront donc exclues Le signe du coefficient de corrélation indique le sens de la de l’analyse statistique. Il faudrait s’assurer encore que corrélation: s’il est positif, la valeur d’une des variables l’absence d’une donnée soit indépendante de sa valeur: tend à augmenter en même temps que celle de l’autre va­ par ex., il ne faut pas que le manque de données concerne riable, s’il est négatif, la valeur d’une variable tend à dimi­ trop fréquemment les personnes dont la pression artérielle nuer quand celle de l’autre augmente. Pour interpréter les est très élevée ou très faible, car les résultats en seraient corrélations dans le cadre de la relation examinée, nous biaisés. Dans la pratique, il n’existe pas de stratégie uni­ pouvons nous en tenir à certaines valeurs indicatives. Les versellement valable pour traiter les données manquantes, valeurs situées entre 0,3 et 0,5 (resp. entre –0,3 et –0,5) in­ Ulrike Held mais il faut plutôt juger de cas en cas. Dans la figure 1 x, diquent une corrélation de faible intensité positive (resp. chaque couple d’observations complet est représenté sous négative), celles situées entre 0,5 et 0,8 (resp. –0,5 et –0,8) la forme d’un point dont les coordonnées sont les données indiquent une corrélation d’intensité moyenne, et au­des­ L’auteur déclare d’un individu qui correspondent aux deux variables à étu­ sus de 0,8 (resp. en­dessous de –0,8), la corrélation entre ne pas être en dier. les deux variables est considérée comme de forte intensité. conflit d’intérêt Le coefficient de corrélation de Pearson permet d’évaluer en relation avec l’intensité et le sens de la relation linéaire entre deux séries cette 1 U. Held. «Les questionnements scientifiques de la médecine de données provenant de l’échantillonnage de deux va­ ont besoin de modèles statistiques». Forum Médical Suisse. contribution. riables métriques. Le coefficient de corrélation indique le 2010;10(32):528–30. Forum Med Suisse 2010;10(38):652–653 652
  • 2. b I O S TAT I S T I Q U E En calculant la corrélation de Pearson entre les deux en­ des rangs se situe dans un intervalle de –1 à 1, et les règles sembles de données de notre exemple, nous obtenons une d’interprétation sont les mêmes que pour le coefficient de intensité de corrélation 0,48. Pearson. Les données de notre exemple sont indiquées Dans les cas où le coefficient de corrélation de Pearson dans le tableau 2 p, rangées selon l’ordre croissant des semble fortement influencé par des valeurs extrêmes ou poids corporels des patients. aberrantes, et dans ceux où les données proviennent de Nous pouvons observer que dans la variable poids, la variables qui ne sont pas métriques, mais ordinales, il est valeur 89,4 apparaît précisément deux fois. Dans ce cas, bon d’avoir recours au coefficient de corrélation des rangs on attribue deux fois la valeur moyenne de 6,5 au numéro selon Spearman. Ce coefficient ne fait pas appel aux va­ de rang en lieu et place des numéros 6 et 7. On appelle leurs quantitatives, mais simplement à leur rang. Cela si­ ces rangs des rangs ex aequo ou rangs liés. gnifie que l’on classe les valeurs d’observation par ordre Dans notre exemple ci­dessus, le coefficient de corrélation de grandeur et que l’on remplace ensuite la valeur quanti­ des rangs entre poids corporel et pression systolique est tative par le numéro du rang. Le coefficient de corrélation estimé à 0,54. Comme seuls 18 couples d’observations sont à disposition, il faut donner dans ce cas la préférence au coefficient de corrélation des rangs plutôt qu’à celui de Pearson et conclure à une corrélation modérée entre le poids corporel et la pression systolique. Glossaire Métrique On nomme les paramètres «métriques» s’ils se mesurent sur une échelle continue. Exemples: tension artérielle, taille en cm. Ordinal On nomme les paramètres «ordinaux» s’ils sont mesurés sur une échelle de rang ordonnancée selon un ordre ap­ proprié. Exemples: la satisfaction par rapport à un produit (très satisfait, satisfait, peu satisfait), la performance sco­ laire (très bien, bien, satisfaisant, etc.). Figure 1 Diagramme de dispersion des 18 couples d’observation. Rang Les observations d’une variable ou d’une série de données sont triées par ordre croissant et numérotées: la plus petite Tableau 2. Valeurs mesurées et numérotation observation obtient le numéro de rang 1, la suivante le selon leur rang par ordre croissant de poids. numéro 2, etc. Patient Poids Rang Pression Rang pression (kg) poids systolique (mm Hg) systolique Diagramme de dispersion 7 73,3 1 128,4 9 Dans un diagramme de dispersion, chaque couple d’obser­ 2 82,9 2 116,2 6 vations complet est représenté sous la forme d’un point dont les coordonnées sont les données d’un individu qui 20 86,3 3 103,5 2 correspondent aux deux variables à étudier, ce qui donne 8 87,2 4 lieu à un «nuage de points». Anglais: scatter plot. 19 88,7 5 109,4 3 14 89,4 6,5 89,8 1 Correspondance: 18 89,4 6,5 138,1 13 Dr Ulrike Held 12 90,2 8 141,2 14 Horten-Zentrum UniversitätsSpital Zürich 15 90,4 9 137,6 12 Postfach Nord 16 92,2 10 114,1 5 CH-8091 Zürich 1 92,8 11 153,6 17 ulrike.held@usz.ch 13 95,0 12 109,9 4 11 97,4 13 130,5 10 Références recommandées – Bland JM, Altman DG. Statistics notes: correlation, regression, and 4 97,7 14 153,5 16 repeated data. BMJ. 1994;308:896. 3 101,6 15 157,8 18 – Held L, Rufibach C, Seifert B. Einführung in die Biostatistik. 4. Auf­ lage. Zürich: Abteilung Biostatistik, Institut für Sozial­ und Präventiv­ 17 105,1 16 130,6 11 medizin der Universität Zürich; Juli 2009. http://www.biostat.uzh.ch. 5 111,3 17 153,2 15 – Hüsler J, Zimmermann H. Statistische Prinzipien für medizinische Projekte. 4. Auflage. Bern: Huber­Verlag; 2006. 10 113,1 18 167,9 19 – Kreienbrock L, Schach S. Epidemiologische Methoden. 4. Auflage. 9 114,7 19 126,1 8 München: Elsevier­Verlag; 2005. – R Development Core Team. R: A language and environment for sta­ 6 123,3 7 tistical computing. Vienna, Austria: R Foundation for Statistical Com­ puting; 2008. ISBN 3­900051­07­0. URL http://www.R­project.org. Forum Med Suisse 2010;10(38):652–653 653