SlideShare une entreprise Scribd logo
1  sur  16
Télécharger pour lire hors ligne
Partie 2:
Corrélation linéaire
C H A P I T R E 1 1
2
Plan
• Mise en contexte
• Corrélation linéaire
• Exemple de sortie Excel
Lecture
• Chapitre 11, sections 11.2 à 11.5
Exercices
• Exercices d’application: À faire: #1-9, 12, 13, 30.
• Vrai ou faux: À faire: #1 à 9, 11 à 13, 24, 25.
• Choix multiples et autres: À faire: #28 à 30, 33 à 35.
3
Différence entre corrélation et
régression
• Corrélation linéaire essaie de mesurer l’intensité ou la
force de la relation qui existe entre X et Y.
alors que
• Régression linéaire simple se préoccupe essentiellement
de la forme de la relation linéaire qui existe entre X et Y.
• Donc, la régression linéaire donne une information
différente de la corrélation linéaire, c’est pourquoi on va
s’y intéresser à partir d’ici.
4
Degré de dépendance
• La corrélation linéaire essaie de mesurer l’intensité ou la
force de la relation qui existe entre X et Y.
• Donc, il existe trois mesures possibles pour quantifier
l’intensité de la relation entre X et Y:
1.Covariance
o Pas pratique parce qu’entre - ∞ et ∞+.
2.Coefficient de corrélation entre X et Y
o Entre -1 et 1.
3.Coefficient de détermination de Y en fonction de X
o Entre 0 et 100%.
4
5
Degré de dépendance
• Coefficient de corrélation linéaire empirique entre
deux variables aléatoire X et Y
– Est un estimé du coefficient de corrélation théorique ρ
– Déterminé par:
• -1 ≤ r ≤ 1
• Si r = ±1, alors il existe une relation linéaire parfaite entre X
et Y.
• Si r = 0, alors soit que X et Y sont indépendantes, soit qu’il y
a une dépendance non linéaire entre les deux variables.
• Si r > 0, alors X et Y varient dans le même sens.
• Si r < 0, alors X et Y varient dans le sens opposé.
• Si r ≠ 0 ou r ≠ ±1, alors il existe une relation linéaire plus ou
moins forte entre X et Y. 5
( )( )
( ) ( )
2 2
2 2
i i i i
i i i i
n x y x y
r
n x x n y y
−
=
− −
∑ ∑ ∑
∑ ∑ ∑ ∑
6
Dépendance entre 2 variables:
Corrélation linéaire
6
7
Dépendance entre 2 variables: Coefficient de
corrélation: Exemple #2
• Une entreprise veut mener une étude sur la relation entre les
dépenses hebdomadaires en publicité et le volume des ventes
qu’elle réalise. On a recueilli les données suivantes au cours des
cinq dernières semaines:
• À partir des
données,
déterminez s’il y a une dépendance entre X et Y.
7
Coûts publicitaires (X) (M$) 4 2,5 2 5,5 1
Volume des ventes (Y) (M$) 49,5 43 39 54 38
8
Dépendance entre 2 variables: La corrélation
linéaire est-elle significative?
• Idée: Comparer le coefficient de corrélation obtenu avec
la valeur critique (basée sur une student)
• Décision prise H0: ρ = 0
– Test unilatéral à gauche:
• Hypothèse alternative:
H1: ρ < 0
• Règle de décision:
Rejeter H0 si r < -rc
– Test unilatéral à droite:
• Hypothèse alternative: H1: ρ > 0
• Règle de décision: Rejeter H0 si r > rc
– Test bilatéral:
• Hypothèse alternative: H1: ρ ≠ 0
• Règle de décision: Rejeter H0 si r > rc OU r < -rc
• Exemple #2: À un niveau de signification de 1%, peut-on conclure
que les 2 variables ne sont pas liées?
8
9
Table de valeurs critiques rc pour le
coefficient de
corrélation de
Pearson (Table A9)
9
10
Dépendance entre 2 variables: Coefficient de
détermination de Y en fonction de X
• Le coefficient de détermination de Y en fonction de X mesure
la proportion de la variation de Y qui est expliquée par la
régression ou qui est expliquée par la variable X au niveau de
toute la population.
• Puisque généralement, on ne possède pas d’information sur
toute la population, mais seulement sur un échantillon de
taille n, on l’estimera à partir de l’échantillon:
• r2 fournit une indication de la force de la liaison possible
pouvant exister entre Y et X au niveau de la population. De
plus, c’est un indice de la qualité de l’ajustement de la droite
aux points expérimentaux.
10
2
2 1
2
1
ˆ
( )
variation expliquée
variation totale
( )
n
i
i
n
i
i
y y
r
y y
=
=
−
= =
−
∑
∑
11
Dépendance entre 2 variables: Coefficient de
détermination: Exemple #2
• À partir des données, déterminez la proportion des X qui explique
la valeur de Y.
11
Coûts publicitaires (X) (M$) 4 2,5 2 5,5 1
Volume des ventes (Y) (M$)49,5 43 39 54 38
12
Exemple #1: Sortie en Excel
Une entreprise veut mener une étude sur la
relation entre les dépenses hebdomadaires en
publicité et le volume des ventes qu’elle réalise.
On suppose qu’il existe une relation entre les
coûts publicitaires et le volume des ventes.
Reprenons les données (ci-contre). On vous
fournit l’analyse de régression faite à l’aide
d’excel pour répondre aux questions suivantes.
1. Tracez un diagramme de dispersion pour les
données et commentez la nature de la
relation.
2. Déterminer la droite de régression et dites si
elle est significative au niveau de confiance
de 95%.
3. Trouvez le coefficient de corrélation entre les
coûts publicitaires et le volume des ventes et
interprétez-le.
4. Estimer b0 et b1 par intervalle de confiance.
Coûts
publicitaires
(X) (M$)
Volume des
ventes (Y)
(M$)
4 49,5
2,5 43
2 39
5,5 54
1 38
3 47
6 62
1,2 35
3,6 41
1,5 37
4,4 55
5 51
5,3 46
5,7 56
3,4 50
3,8 44,5
4,3 48
4,7 50,5
4,8 47,5
13
Exemple #1: Sortie en Excel
RAPPORT DÉTAILLÉ
Statistiques de la régression
Coefficient de détermination
multiple 0,8762
Coefficient de détermination R^2 0,7676
Coefficient de détermination R^2 0,7540
Erreur-type 3,5305
Observations 19
13
ANALYSE DE VARIANCE
Degré de
liberté
Somme
des carrés
Moyenne
des carrés F
Valeur critique
de F
Régression 1 700,0561 700,0561 56,1654 0,0000008776
Résidus 17 211,8913 12,4642
Total 18 911,9474
Coefficients Erreur-type
Statistique
t Probabilité
Limite inférieure
pour seuil de
confiance = 95%
Limite supérieure
pour seuil de
confiance = 95%
Constante 31,8504 2,1842 14,5821 0,00000000005 27,2421 36,4587
Variable X 1 4,0285 0,5375 7,4944 0,00000087757 2,8944 5,1626
14
Exemple #1: Sortie en Excel
1. Tracez un diagramme de dispersion pour les données et
commentez la nature de la relation.
14
20
25
30
35
40
45
50
55
60
65
0 1 2 3 4 5 6 7
Volume
des
ventes
(M$)
Coûts publicitaires (M$)
15
Exemple #1: Sortie en Excel
2.Déterminer la droite de régression et dites si elle est
significative au niveau de confiance de 95%.
3.Trouvez le coefficient de corrélation et interprétez-le.
4.Estimer b0 et b1 par intervalle de confiance.
15
RAPPORT DÉTAILLÉ
Statistiques de la régression
Coefficientde détermination
multiple 0,8762
Coefficientde déterminationR^2 0,7676
Coefficientde déterminationR^2 0,7540
Erreur-type 3,5305
Observations 19
ANALYSE DE VARIANCE
Degré de
liberté
Somme
des carrés
Moyenne
des carrés F
Valeur critique
de F
Régression 1 700,0561 700,0561 56,1654 0,0000008776
Résidus 17 211,8913 12,4642
Total 18 911,9474
Coefficients Erreur-type
Statistique
t Probabilité
Limiteinférieure
pour seuil de
confiance = 95%
Limitesupérieure
pour seuil de
confiance = 95%
Constante 31,8504 2,1842 14,5821 0,00000000005 27,2421 36,4587
Variable X 1 4,0285 0,5375 7,4944 0,00000087757 2,8944 5,1626
16
Références
• Baillargeon G. (2020) Méthodes statistiques en gestion,
Éditions SMG.
• Bouchard J. (2011) Notes de cours MQT-1102, Université
Laval.
16

Contenu connexe

Similaire à Corrélation linéaire chapitre 2 Chap11_Partie2.pdf

Régression de variation des structures sociales
Régression de variation des structures socialesRégression de variation des structures sociales
Régression de variation des structures sociales
aniss25
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdf
OuailChoukhairi
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
mohamedchaouche
 

Similaire à Corrélation linéaire chapitre 2 Chap11_Partie2.pdf (20)

Test de corrélation simple et test de Normalité
Test de corrélation simple  et  test de Normalité  Test de corrélation simple  et  test de Normalité
Test de corrélation simple et test de Normalité
 
Statistique Descriptive s1
Statistique Descriptive s1Statistique Descriptive s1
Statistique Descriptive s1
 
statistique dsc s1
   statistique dsc s1   statistique dsc s1
statistique dsc s1
 
Statistique bivariée avec R
Statistique bivariée avec RStatistique bivariée avec R
Statistique bivariée avec R
 
Régression de variation des structures sociales
Régression de variation des structures socialesRégression de variation des structures sociales
Régression de variation des structures sociales
 
(Cours régression)
(Cours régression)(Cours régression)
(Cours régression)
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptx
 
pmi définition variance
pmi définition variancepmi définition variance
pmi définition variance
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdf
 
Stat1
Stat1Stat1
Stat1
 
Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon ici
 
6 sigma -chapitre4 : Analyser
6 sigma -chapitre4 : Analyser6 sigma -chapitre4 : Analyser
6 sigma -chapitre4 : Analyser
 
Ch1 statistique v
Ch1 statistique vCh1 statistique v
Ch1 statistique v
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdf
 
Statistiques
StatistiquesStatistiques
Statistiques
 
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
 
Analyse de régression multiple
Analyse de régression multipleAnalyse de régression multiple
Analyse de régression multiple
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 

Corrélation linéaire chapitre 2 Chap11_Partie2.pdf

  • 2. 2 Plan • Mise en contexte • Corrélation linéaire • Exemple de sortie Excel Lecture • Chapitre 11, sections 11.2 à 11.5 Exercices • Exercices d’application: À faire: #1-9, 12, 13, 30. • Vrai ou faux: À faire: #1 à 9, 11 à 13, 24, 25. • Choix multiples et autres: À faire: #28 à 30, 33 à 35.
  • 3. 3 Différence entre corrélation et régression • Corrélation linéaire essaie de mesurer l’intensité ou la force de la relation qui existe entre X et Y. alors que • Régression linéaire simple se préoccupe essentiellement de la forme de la relation linéaire qui existe entre X et Y. • Donc, la régression linéaire donne une information différente de la corrélation linéaire, c’est pourquoi on va s’y intéresser à partir d’ici.
  • 4. 4 Degré de dépendance • La corrélation linéaire essaie de mesurer l’intensité ou la force de la relation qui existe entre X et Y. • Donc, il existe trois mesures possibles pour quantifier l’intensité de la relation entre X et Y: 1.Covariance o Pas pratique parce qu’entre - ∞ et ∞+. 2.Coefficient de corrélation entre X et Y o Entre -1 et 1. 3.Coefficient de détermination de Y en fonction de X o Entre 0 et 100%. 4
  • 5. 5 Degré de dépendance • Coefficient de corrélation linéaire empirique entre deux variables aléatoire X et Y – Est un estimé du coefficient de corrélation théorique ρ – Déterminé par: • -1 ≤ r ≤ 1 • Si r = ±1, alors il existe une relation linéaire parfaite entre X et Y. • Si r = 0, alors soit que X et Y sont indépendantes, soit qu’il y a une dépendance non linéaire entre les deux variables. • Si r > 0, alors X et Y varient dans le même sens. • Si r < 0, alors X et Y varient dans le sens opposé. • Si r ≠ 0 ou r ≠ ±1, alors il existe une relation linéaire plus ou moins forte entre X et Y. 5 ( )( ) ( ) ( ) 2 2 2 2 i i i i i i i i n x y x y r n x x n y y − = − − ∑ ∑ ∑ ∑ ∑ ∑ ∑
  • 6. 6 Dépendance entre 2 variables: Corrélation linéaire 6
  • 7. 7 Dépendance entre 2 variables: Coefficient de corrélation: Exemple #2 • Une entreprise veut mener une étude sur la relation entre les dépenses hebdomadaires en publicité et le volume des ventes qu’elle réalise. On a recueilli les données suivantes au cours des cinq dernières semaines: • À partir des données, déterminez s’il y a une dépendance entre X et Y. 7 Coûts publicitaires (X) (M$) 4 2,5 2 5,5 1 Volume des ventes (Y) (M$) 49,5 43 39 54 38
  • 8. 8 Dépendance entre 2 variables: La corrélation linéaire est-elle significative? • Idée: Comparer le coefficient de corrélation obtenu avec la valeur critique (basée sur une student) • Décision prise H0: ρ = 0 – Test unilatéral à gauche: • Hypothèse alternative: H1: ρ < 0 • Règle de décision: Rejeter H0 si r < -rc – Test unilatéral à droite: • Hypothèse alternative: H1: ρ > 0 • Règle de décision: Rejeter H0 si r > rc – Test bilatéral: • Hypothèse alternative: H1: ρ ≠ 0 • Règle de décision: Rejeter H0 si r > rc OU r < -rc • Exemple #2: À un niveau de signification de 1%, peut-on conclure que les 2 variables ne sont pas liées? 8
  • 9. 9 Table de valeurs critiques rc pour le coefficient de corrélation de Pearson (Table A9) 9
  • 10. 10 Dépendance entre 2 variables: Coefficient de détermination de Y en fonction de X • Le coefficient de détermination de Y en fonction de X mesure la proportion de la variation de Y qui est expliquée par la régression ou qui est expliquée par la variable X au niveau de toute la population. • Puisque généralement, on ne possède pas d’information sur toute la population, mais seulement sur un échantillon de taille n, on l’estimera à partir de l’échantillon: • r2 fournit une indication de la force de la liaison possible pouvant exister entre Y et X au niveau de la population. De plus, c’est un indice de la qualité de l’ajustement de la droite aux points expérimentaux. 10 2 2 1 2 1 ˆ ( ) variation expliquée variation totale ( ) n i i n i i y y r y y = = − = = − ∑ ∑
  • 11. 11 Dépendance entre 2 variables: Coefficient de détermination: Exemple #2 • À partir des données, déterminez la proportion des X qui explique la valeur de Y. 11 Coûts publicitaires (X) (M$) 4 2,5 2 5,5 1 Volume des ventes (Y) (M$)49,5 43 39 54 38
  • 12. 12 Exemple #1: Sortie en Excel Une entreprise veut mener une étude sur la relation entre les dépenses hebdomadaires en publicité et le volume des ventes qu’elle réalise. On suppose qu’il existe une relation entre les coûts publicitaires et le volume des ventes. Reprenons les données (ci-contre). On vous fournit l’analyse de régression faite à l’aide d’excel pour répondre aux questions suivantes. 1. Tracez un diagramme de dispersion pour les données et commentez la nature de la relation. 2. Déterminer la droite de régression et dites si elle est significative au niveau de confiance de 95%. 3. Trouvez le coefficient de corrélation entre les coûts publicitaires et le volume des ventes et interprétez-le. 4. Estimer b0 et b1 par intervalle de confiance. Coûts publicitaires (X) (M$) Volume des ventes (Y) (M$) 4 49,5 2,5 43 2 39 5,5 54 1 38 3 47 6 62 1,2 35 3,6 41 1,5 37 4,4 55 5 51 5,3 46 5,7 56 3,4 50 3,8 44,5 4,3 48 4,7 50,5 4,8 47,5
  • 13. 13 Exemple #1: Sortie en Excel RAPPORT DÉTAILLÉ Statistiques de la régression Coefficient de détermination multiple 0,8762 Coefficient de détermination R^2 0,7676 Coefficient de détermination R^2 0,7540 Erreur-type 3,5305 Observations 19 13 ANALYSE DE VARIANCE Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F Régression 1 700,0561 700,0561 56,1654 0,0000008776 Résidus 17 211,8913 12,4642 Total 18 911,9474 Coefficients Erreur-type Statistique t Probabilité Limite inférieure pour seuil de confiance = 95% Limite supérieure pour seuil de confiance = 95% Constante 31,8504 2,1842 14,5821 0,00000000005 27,2421 36,4587 Variable X 1 4,0285 0,5375 7,4944 0,00000087757 2,8944 5,1626
  • 14. 14 Exemple #1: Sortie en Excel 1. Tracez un diagramme de dispersion pour les données et commentez la nature de la relation. 14 20 25 30 35 40 45 50 55 60 65 0 1 2 3 4 5 6 7 Volume des ventes (M$) Coûts publicitaires (M$)
  • 15. 15 Exemple #1: Sortie en Excel 2.Déterminer la droite de régression et dites si elle est significative au niveau de confiance de 95%. 3.Trouvez le coefficient de corrélation et interprétez-le. 4.Estimer b0 et b1 par intervalle de confiance. 15 RAPPORT DÉTAILLÉ Statistiques de la régression Coefficientde détermination multiple 0,8762 Coefficientde déterminationR^2 0,7676 Coefficientde déterminationR^2 0,7540 Erreur-type 3,5305 Observations 19 ANALYSE DE VARIANCE Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F Régression 1 700,0561 700,0561 56,1654 0,0000008776 Résidus 17 211,8913 12,4642 Total 18 911,9474 Coefficients Erreur-type Statistique t Probabilité Limiteinférieure pour seuil de confiance = 95% Limitesupérieure pour seuil de confiance = 95% Constante 31,8504 2,1842 14,5821 0,00000000005 27,2421 36,4587 Variable X 1 4,0285 0,5375 7,4944 0,00000087757 2,8944 5,1626
  • 16. 16 Références • Baillargeon G. (2020) Méthodes statistiques en gestion, Éditions SMG. • Bouchard J. (2011) Notes de cours MQT-1102, Université Laval. 16