SlideShare une entreprise Scribd logo
1  sur  36
Régression Linéaire
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 1
Objectifs
 Comprendre la relation additive et linéaire entre variables
 Comprendre la fonction de coût
 Avoir une notion sur les méthodes de minimisation de la fonction de coût
 Savoir interpréter l’affichage summary de R d’un modèle de régression linéaire
 Savoir interpréter les mesures de qualité RSE et R2 d’un modèle de régression linéaire
 Comprendre la notion d’interaction entre variables
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 2
Sommaire
• Relation linéaire
• Régression Linéaire Simple
• Régression Linéaire Multiple
• Bibliographie
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 3
Relation linéaire
• Soit les observations enregistrées dans le
tableau.
• nombre lamantins décédés
• nombre de bateaux enregistrés
• Le graphique montre une relation
croissante et presque linéaire:
• le nombre de lamantins décédés augmente
quand le nombre de bateaux enregistrés
augmente
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 4
Nombre de lamantins décédés par des bateaux à moteur (en
milliers) le long des côtes de la Floride, entre 1981 et 1990
source [2] Bibliographie
Relation linéaire
• Soit un individu « omniscient » qui connaît
tout ce qui se passe entre les bateaux, les
lamantins et l’environnement.
• Cet individu stipule un modèle f(X) linéaire
dont les valeurs des paramètres sont
• β0 = -49
• β1 = 0.25
• Comme il sait tout, il enregistre les erreurs
sur le nombre de lamantins décédés dues
• à l’environnement (présence de crocodiles),
• aux mauvaises imputations
• à la présence d’un élément au hasard
• …
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 5
Modèle linéaire stipulé par l’individu « omniscient »
Relation linéaire
• Par contre, nous, on ne connaît ni le modèle
linéaire de l’individu « omniscient » ni les
erreurs qu’il a enregistrées.
• On ne connaît que nos observations
• On va tenter manuellement de proposer des
estimations des paramètres β0 et β1
• ෡𝜷0 = -39, ෡𝜷 𝟏 = 0.23
• ෡𝜷0 = -57, ෡𝜷 𝟏 = 0.26
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 6
quel est le
meilleur ?
Relation linéaire
• Il faut comparer les deux propositions
d’estimation de paramètres suivantes:
• ෡𝜷0 = -39, ෡𝜷 𝟏 = 0.23
• ෡𝜷0 = -57, ෡𝜷 𝟏 = 0.26
• … selon quel critère ?
• on peut faire la somme des erreurs
respectives
• en prenant le carré afin d’additionner
uniquement des nombres positifs
• ensuite on sélectionnera le minimum
• C’est la méthode des moindre carrés
• RSS*: somme des carrés des résidus
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 7
RSS = 195.46 RSS = 211.79
(*) residual sum of squares ou somme des carrés résiduelle (SCR)
Important: pour les méthodes ou modèles basés sur
les moindres carrées (least squares) assurez vous que
le nombre de variables soit inférieur que le nombre
d’observations (n > p)
Relation linéaire
• Supposons le modèle linéaire f(X) tel que
Y = f(X) + 𝜖
• La somme des carrés des erreurs s’écrit
• Les valeurs des paramètres ෡𝜷0 et ෡𝜷 𝟏 qui
minimisent RSS par la méthode des moindres
carrés:
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 8
Relation linéaire
• Version « machine learning »
• notation β = Ɵ
• m observations x n variables
• X[., 1] = 𝒙 𝟎
(𝒊)
= 1 variable dummy
• መ𝑓=> fonction hypothèse h(X) = ƟT X
• Fonction de coût à minimiser
avec l’algorithme du gradient
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 9
n+1 colonnes
cas d’une régression linéaire simple
𝜖 ℝ
versions
vectorisées
source [3] Bibliographie
Relation linéaire
• Droite des moindres carrés
• Calculer le modèle avec R:
• Interpértation:
• A chaque enregistrement d’un milliers de bateaux, le nombre
moyen de lamantins décédés augmente de 0.24
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 10
pente
ordonnée à l’origine
መ𝑓(X) = 0.24 X – 45.17
> model <- lm(nb_lamantins~nb_bateaux, data = lamantins)
> model$coefficients
(Intercept) nb_bateaux
-45.1796424 0.2402433
droite des moindres carrés
መ𝛽0 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡
n’a aucune interprétation
(pas de sens) lorsque X=0
Régression linéaire simple
• Simple = une seule variable X
• On ajuste la droite avec une fonction de coût
quadratique
• On aurait pu utiliser une fonction de coût en
valeur absolue, plus robuste
• voir ligne noire (pas pointillée!) sur le figure
• Malgré cela, le coût quadratique est le coût le
plus souvent utilisé
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 11
source [5] Bibliographie
Régression linéaire simple
• Point aberrants (outliers)
• Ne pas les éliminer systématiquement, il faut
s’assurer si mauvaise imputation, etc. et le placer
correctement dans le contexte de l’étude
• Alternative: utiliser une méthode plus robuste …
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 12
n’affecte pas la direction
de la droite ajustée
affecte la direction de
la droite ajustée
rlm() du package MASS
source [4] Bibliographie
source [4] Bibliographie
Coursera, Data Analysis and Statistical Inference MOOC, Duke University
Régression linéaire simple
• Estimation des valeurs des coefficients β
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 13
መ𝑓(X) = 0.24 X – 45.17
summary(model)
Call:
lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins)
Residuals:
Min 1Q Median 3Q Max
-6.3566 -3.7237 0.1971 4.2178 5.1751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -45.17964 12.54392 -3.602 0.00696 **
nb_bateaux 0.24024 0.02052 11.710 2.58e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.868 on 8 degrees of freedom
Multiple R-squared: 0.9449, Adjusted R-squared: 0.938
F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06
Régression linéaire simple
• Estimation des valeurs des coefficients β
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 14
summary(model)
Call:
lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins)
Residuals:
Min 1Q Median 3Q Max
-6.3566 -3.7237 0.1971 4.2178 5.1751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -45.17964 12.54392 -3.602 0.00696 **
nb_bateaux 0.24024 0.02052 11.710 2.58e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.868 on 8 degrees of freedom
Multiple R-squared: 0.9449, Adjusted R-squared: 0.938
F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06
erreur irréductible
• Std. Error:
• estimation ෝ𝝈2 = RSE avec
Régression linéaire simple
• Conditions sur les résidus
• distribution ~gaussienne de moyenne 0
• variance constante (homoscédasticité)
• ne montrent pas de schéma (pattern) particulier
(indépendance)
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 15
Coursera, Data Analysis and Statistical Inference MOOC, Duke University
Régression linéaire simple
• Conditions sur les résidus
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 16
summary(model)
Call:
lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins)
Residuals:
Min 1Q Median 3Q Max
-6.3566 -3.7237 0.1971 4.2178 5.1751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -45.17964 12.54392 -3.602 0.00696 **
nb_bateaux 0.24024 0.02052 11.710 2.58e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.868 on 8 degrees of freedom
Multiple R-squared: 0.9449, Adjusted R-squared: 0.938
F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06
df = n – 2 = 10 obs. – 2 = 8
1ère mesure de qualité: la réponse se dévie, en
moyenne, de la vraie droite de régression de RSE
Régression linéaire simple
• Test d’hypothèse sur መ𝛽1
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 17
summary(model)
Call:
lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins)
Residuals:
Min 1Q Median 3Q Max
-6.3566 -3.7237 0.1971 4.2178 5.1751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -45.17964 12.54392 -3.602 0.00696 **
nb_bateaux 0.24024 0.02052 11.710 2.58e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.868 on 8 degrees of freedom
Multiple R-squared: 0.9449, Adjusted R-squared: 0.938
F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06
• H0: pas de relation entre Y et X (β1 = 0, null value)
• H1: il y a une relation entre Y et X (β1 ≠ 0)
On veut savoir à combien d’écart-type se trouve notre
estimation ෠𝛽1 de la null value β1 = 0; appliqué à une
distribution de « Student » ou « t »:
t value = (Estimate – 0) / Std. Error
= (0.24024 – 0) / 11.710
= 11.710
p-value: la probabilité d’observer toute valeur ≥ |t| sachant
que H0 est vraie.
p-value petite: il est peu probable d’observer une
relation importante entre Y et X due au hasard,
sachant qu’il n’existe pas de relation entre les deux
(H0 vraie). Alors on rejette H0.
Régression linéaire simple
• Intervalle de confiance à 95% de መ𝛽1
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 18
summary(model)
Call:
lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins)
Residuals:
Min 1Q Median 3Q Max
-6.3566 -3.7237 0.1971 4.2178 5.1751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -45.17964 12.54392 -3.602 0.00696 **
nb_bateaux 0.24024 0.02052 11.710 2.58e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.868 on 8 degrees of freedom
Multiple R-squared: 0.9449, Adjusted R-squared: 0.938
F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06
• degrés de liberté: df = n – 2 = 8
• t*8 = 2.03
• CI95 = ෠𝛽1 ± t*8 x SE( ෠𝛽1)
= Estimate ± 2.03 x Std. Error
= 0.24024 ± 2.03 x 0.02052
= (0.19 , 0.28)
On est à 95% sûr que la vraie valeur de β1 se
trouve dans l’intervalle [0.19 , 0.28]
qt(p = 0.025, df = 8)
[1] -2.306004
source [4] Bibliographie
Régression linéaire simple
• 2e mesure de qualité du modèle: R2
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 19
summary(model)
Call:
lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins)
Residuals:
Min 1Q Median 3Q Max
-6.3566 -3.7237 0.1971 4.2178 5.1751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -45.17964 12.54392 -3.602 0.00696 **
nb_bateaux 0.24024 0.02052 11.710 2.58e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.868 on 8 degrees of freedom
Multiple R-squared: 0.9449, Adjusted R-squared: 0.938
F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06
Coefficient de corrélation 𝑹 = Cov(X,Y) / 𝑉𝑎𝑟 𝑋 𝑉𝑎𝑟(𝑌)
ou
𝑹 = ෠𝛽1 𝑉𝑎𝑟 𝑋 /𝑉𝑎𝑟(𝑌)
Cov(X,Y)
Var(X)
Comment interpréter R2 ?
Coursera, Data Analysis and Statistical Inference MOOC, Duke University
Régression linéaire simple
• (cont.) 2e mesure de qualité du modèle: R2
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 20
summary(model)
Call:
lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins)
Residuals:
Min 1Q Median 3Q Max
-6.3566 -3.7237 0.1971 4.2178 5.1751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -45.17964 12.54392 -3.602 0.00696 **
nb_bateaux 0.24024 0.02052 11.710 2.58e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.868 on 8 degrees of freedom
Multiple R-squared: 0.9449, Adjusted R-squared: 0.938
F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06
• On souhaite expliquer pourquoi le nombre
de lamantins décédés varie d’une année à
l’autre: on veut expliquer les variations de la
variable Y.
• On propose comme explication les
variations de la variable X.
• Le coefficient R2 est tout simplement le
rapport entre la variance expliquée et la
variance initiale:
… et le reste de variance alors … ?
Régression linéaire simple
• (cont.) 2e mesure de qualité du modèle: R2
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 21
summary(model)
Call:
lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins)
Residuals:
Min 1Q Median 3Q Max
-6.3566 -3.7237 0.1971 4.2178 5.1751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -45.17964 12.54392 -3.602 0.00696 **
nb_bateaux 0.24024 0.02052 11.710 2.58e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.868 on 8 degrees of freedom
Multiple R-squared: 0.9449, Adjusted R-squared: 0.938
F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06
0
Régression linéaire simple
• Cas des variables catégorielles
• Y = niv_pauvreté et X = region4 catégorielle
region4 = {« northeast », « midwest », « west », « south »}
• La modalité « northeast » est la modalité de référence
niv_pauvreté = 9.50 + 0.03 region4:midwest + 1.79 region4:west + 4.16 region4:south
• Prévision du niveau de pauvreté pour la région « northeast » est 9.50
• Prévision du niveau de pauvreté pour la région « west » est 9.50 + 1.79 = 11.29
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 22
Coursera, Data Analysis and Statistical Inference MOOC, Duke University
Régression linéaire multiple
• On considère toujours une relation additive et linéaire entre Y et les variables X
• Additive:
• l’effet d’un changement d’une variable Xj sur la réponse Y est indépendant des valeurs des autres
variables
• Linéaire:
• si l’on varie X1 d’une unité, alors Y varie en moyenne de β1 unités,
• la présence de X2 ou d’une autre Xj (j≠1) n’affecte pas cette déclaration
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 23
Régression linéaire multiple
• Interprétation des valeurs des coefficients
• Un coefficient βj estime la variation (en moyenne) de Y
par unité de variation de sa variable Xj, en fixant tous les
autres variables explicatives.
• Cas idéal: toutes les variables sont non corrélées
• Usuellement, les variables tendent à varier ensemble …
• Quand il y a corrélation entre les variables
• la variance des coefficients augmente
• les interprétations risquent d’être hasardeuses
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 24
Régression linéaire multiple
• Exercice « The Marketing Plan »
• fichier advertising_data.txt (200 x 4)
• source [1], voir Bibliographie
1. Y a-t-il une relation entre le budget de publicité et les
ventes ?
2. Quelle est la "force" de cette relation ?
3. Quel média contribue aux ventes ?
4. Dans quelle mesure chaque média contribue-t-il aux
ventes?
5. Comment prédire les futures ventes avec le plus
d'exactitude possible ?
6. La relation est-elle linéaire ?
7. Y a-t-il une synergie entre les média ?
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 25
réponse
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
Régression linéaire multiple
• Exercice « The Marketing Plan »
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 26
summary(modele)
Call:
lm(formula = Sales ~ ., data = data)
Residuals:
Min 1Q Median 3Q Max
-8.8277 -0.8908 0.2418 1.1893 2.8292
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.938889 0.311908 9.422 <2e-16 ***
TV 0.045765 0.001395 32.809 <2e-16 ***
Radio 0.188530 0.008611 21.893 <2e-16 ***
Newspaper -0.001037 0.005871 -0.177 0.86
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.686 on 196 degrees of freedom
Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
Régression linéaire multiple
1. Y a-t-il une relation entre le budget de publicité et les ventes ?
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 27
summary(modele)
Call:
lm(formula = Sales ~ ., data = data)
Residuals:
Min 1Q Median 3Q Max
-8.8277 -0.8908 0.2418 1.1893 2.8292
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.938889 0.311908 9.422 <2e-16 ***
TV 0.045765 0.001395 32.809 <2e-16 ***
Radio 0.188530 0.008611 21.893 <2e-16 ***
Newspaper -0.001037 0.005871 -0.177 0.86
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.686 on 196 degrees of freedom
Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
• Notion de la statistique F (F-statistic)
• Test d’hypothèse
• H0: β1 = β2 = β3 = … = βp = 0
• H1: au moins un βj est non nul
Ici F = 570 >> 1 alors on rejette H0
Pour répondre à la question, il ne faut pas regarder
individuellement les p-value de chaque coefficient. Voir
question 3. plus loin.
somme des carrés totale
(SCT)
il s’ajuste au nombre de variables, ici p
Régression linéaire multiple
2. Quelle est la "force" de cette relation ?
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 28
summary(modele)
Call:
lm(formula = Sales ~ ., data = data)
Residuals:
Min 1Q Median 3Q Max
-8.8277 -0.8908 0.2418 1.1893 2.8292
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.938889 0.311908 9.422 <2e-16 ***
TV 0.045765 0.001395 32.809 <2e-16 ***
Radio 0.188530 0.008611 21.893 <2e-16 ***
Newspaper -0.001037 0.005871 -0.177 0.86
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.686 on 196 degrees of freedom
Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
Mesures de qualité du modèle:
• RSE = 1.686
• la moyenne de Sales est 14.022
• donc une erreur de RSE / 𝑆𝑎𝑙𝑒𝑠 = 12%
• R2
• 89.7% de la variance totale est expliquée par le
modèle.
• Adjusted R2
• ajoute une pénalité sur le nombre de variables
• R2 augmente si on ajoute une variable, mais si la variable
n’apporte aucune nouvelle information l’Adjusted R2
n’augmentera pas
SSE = SST – SSR   SCE = SCT - SCR
SS: sum of squares   SC: somme des carrées
E=Explained, T=Total, R=Residual
Régression linéaire multiple
3. Quel média contribue aux ventes?
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 29
summary(modele)
Call:
lm(formula = Sales ~ ., data = data)
Residuals:
Min 1Q Median 3Q Max
-8.8277 -0.8908 0.2418 1.1893 2.8292
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.938889 0.311908 9.422 <2e-16 ***
TV 0.045765 0.001395 32.809 <2e-16 ***
Radio 0.188530 0.008611 21.893 <2e-16 ***
Newspaper -0.001037 0.005871 -0.177 0.86
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.686 on 196 degrees of freedom
Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
• Rappel: Pr(>|t|) = p-value doit être
inférieur au seuil de signification (5%) ou
probabilité d’erreur de type I
• Les valeurs de p-value respectives
suggèrent que seuls les médias TV et
Radio sont liées aux ventes (Sales)
Note: si le nombre de variables p est grand, on risque
de faire des mauvaises interprétations: on pourrait
avoir quelques p-values < 0.05 par hasard
Dans ce cas, et pour répondre à cette question, une
méthode de « sélection de modèle » (expliquée plus
loin dans ce cours) est préférable.
Régression linéaire multiple
4. Dans quelle mesure chaque média contribue-t-il aux ventes?
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 30
summary(modele)
Call:
lm(formula = Sales ~ ., data = data)
Residuals:
Min 1Q Median 3Q Max
-8.8277 -0.8908 0.2418 1.1893 2.8292
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.938889 0.311908 9.422 <2e-16 ***
TV 0.045765 0.001395 32.809 <2e-16 ***
Radio 0.188530 0.008611 21.893 <2e-16 ***
Newspaper -0.001037 0.005871 -0.177 0.86
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.686 on 196 degrees of freedom
Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
Première approche: R2
• Vous pouvez effectuer une régression
linéaire simple pour chaque variable:
TV, Radio et Newspaper.
• Comparez les R2 respectifs
• TV: R2 = 0.61
• Radio: R2 = 0.33
• Newspaper: R2 = 0.05
• Il y a évidence d’une association plutôt
« molle » entre Newspaper et les ventes,
lorsque l’on ignore TV et Radio !
Régression linéaire multiple
4. Dans quelle mesure chaque média contribue-t-il aux ventes?
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 31
summary(modele)
Call:
lm(formula = Sales ~ ., data = data)
Residuals:
Min 1Q Median 3Q Max
-8.8277 -0.8908 0.2418 1.1893 2.8292
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.938889 0.311908 9.422 <2e-16 ***
TV 0.045765 0.001395 32.809 <2e-16 ***
Radio 0.188530 0.008611 21.893 <2e-16 ***
Newspaper -0.001037 0.005871 -0.177 0.86
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.686 on 196 degrees of freedom
Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
Deuxième approche: les IC
• Utilisez les Std. Error pour
construire les intervalles de confiance à
95% respectifs
• TV: CI95 = (0.043, 0.049)
• Radio: CI95 = (0.172, 0.206)
• Newspaper: CI95 = (-0.013, 0.011)
• Le IC à 95% de Newspaper inclut le zéro: la
variable n’est pas significative statistiquement
… peut être dû à la multicolinéarité ? vérifiez:
>library(car)
>vif(modele) # Facteur d'inflation de la variance
TV Radio Newspaper
1.004611 1.144952 1.145187
Régression linéaire multiple
5. Comment prédire les futures ventes avec le plus d'exactitude possible?
• Attention: ici on évalue la prévision du modèle avec l’ensemble de données d’apprentissage
• Intervalle de confiance des prévisions (Y = f(X) + 𝜖)
>ICpred <- predict(object = modele, newdata = data, interval = "pred", level = 0.95)
>head(ICpred)
fit lwr upr
1 20.52397 17.158283 23.88967
2 12.33785 8.981672 15.69404
3 12.30767 8.919038 15.69630
...
• Intervalle de confiance de la droite ajustée (E(Y))
>ICdte <- predict(object = modele, newdata = data, interval = "conf", level = 0.95)
head(ICdte)
fit lwr upr
1 20.52397 19.99627 21.05168
2 12.33785 11.87465 12.80106
3 12.30767 11.64932 12.96602
…
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 32
les ICpred seront toujours plus large que les ICdte
car ils tiennent compte de l’incertitude ou erreur
irréductible 𝜖
Régression linéaire multiple
5. La relation est-elle linéaire?
• Afficher les résidus … commentez
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 33
Régression linéaire multiple
5. Y a-t-il une synergie entre les média?
• Il se peut que la relation entre Y et les
variables TV et Radio ne soit pas additive !
• il y a interaction entre ces 2 variables
• les résidus positifs restent autour de la ligne
de 45° où les budgets de TV et de Radio sont
répartis de façon presque égale
• les résidus négatifs (difficile à voir dans la
figure) sont éloignés de cette ligne
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 34
terme d’intéraction
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
Régression linéaire multiple
• Cas des variables catégorielles
• Fonction R: model.matrix()
model.matrix(object = ~ ., data = Credit )
convertir en data.frame si vous utilisez lm()
vous pouvez lancer lm() avec la colonne (Intercept)
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 35
Bibliographie
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
Lafont G., Leçon 4 Corrélations, Module EAR206, CNAM de Paris, 2013
Ng A., Machine Learning MOOC, Coursera – Stanford University
Coursera, Data Analysis and Statistical Inference MOOC, Coursera – Duke University
Cornillon P., Matzner-LØber E., Régression avec R, ISBN 9782817801834, Springer, 2011
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 36

Contenu connexe

Tendances

Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentationDonia Hammami
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesGiorgio Pauletto
 
Cours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulCours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulProfesseur Falloul
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistiqueBoris Guarisma
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_amanMehdi Aman
 
Rapport (Mémoire de Master) de stage PFE pour l’obtention du Diplôme Nationa...
Rapport (Mémoire de Master) de stage PFE pour  l’obtention du Diplôme Nationa...Rapport (Mémoire de Master) de stage PFE pour  l’obtention du Diplôme Nationa...
Rapport (Mémoire de Master) de stage PFE pour l’obtention du Diplôme Nationa...Mohamed Amine Mahmoudi
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesJaouad Dabounou
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 
GP Chapitre 2 : Les méthodes de prévision
GP Chapitre 2 : Les méthodes de prévision GP Chapitre 2 : Les méthodes de prévision
GP Chapitre 2 : Les méthodes de prévision ibtissam el hassani
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning Niji
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes PrincipalesJaouad Dabounou
 
Exercices corrigés recherche opérationnelle par www.coursdefsjes.com
Exercices corrigés recherche opérationnelle par www.coursdefsjes.comExercices corrigés recherche opérationnelle par www.coursdefsjes.com
Exercices corrigés recherche opérationnelle par www.coursdefsjes.comcours fsjes
 
Algorithme génétique
Algorithme génétiqueAlgorithme génétique
Algorithme génétiqueIlhem Daoudi
 
Analyse discriminante (1).pptx
Analyse discriminante (1).pptxAnalyse discriminante (1).pptx
Analyse discriminante (1).pptxboutaynabendialli
 

Tendances (20)

Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes Statistiques
 
Analyse de données avec spss,
Analyse de données avec spss,Analyse de données avec spss,
Analyse de données avec spss,
 
(Cours régression)
(Cours régression)(Cours régression)
(Cours régression)
 
Cours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulCours Statistique descriptive pr Falloul
Cours Statistique descriptive pr Falloul
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_aman
 
Rapport (Mémoire de Master) de stage PFE pour l’obtention du Diplôme Nationa...
Rapport (Mémoire de Master) de stage PFE pour  l’obtention du Diplôme Nationa...Rapport (Mémoire de Master) de stage PFE pour  l’obtention du Diplôme Nationa...
Rapport (Mémoire de Master) de stage PFE pour l’obtention du Diplôme Nationa...
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des Correspondances
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
GP Chapitre 2 : Les méthodes de prévision
GP Chapitre 2 : Les méthodes de prévision GP Chapitre 2 : Les méthodes de prévision
GP Chapitre 2 : Les méthodes de prévision
 
Data mining - Associativité
Data mining - AssociativitéData mining - Associativité
Data mining - Associativité
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
Prevision de la demande
Prevision de la demandePrevision de la demande
Prevision de la demande
 
COURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLESCOURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLES
 
Exercices corrigés recherche opérationnelle par www.coursdefsjes.com
Exercices corrigés recherche opérationnelle par www.coursdefsjes.comExercices corrigés recherche opérationnelle par www.coursdefsjes.com
Exercices corrigés recherche opérationnelle par www.coursdefsjes.com
 
Algorithme génétique
Algorithme génétiqueAlgorithme génétique
Algorithme génétique
 
Analyse discriminante (1).pptx
Analyse discriminante (1).pptxAnalyse discriminante (1).pptx
Analyse discriminante (1).pptx
 

En vedette

5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisinsBoris Guarisma
 
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistiqueBoris Guarisma
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4jBoris Guarisma
 
5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoiresBoris Guarisma
 
04 Introduction au logiciel R
04 Introduction au logiciel R04 Introduction au logiciel R
04 Introduction au logiciel RBoris Guarisma
 
05 Sélection de modèle linéaire
05 Sélection de modèle linéaire05 Sélection de modèle linéaire
05 Sélection de modèle linéaireBoris Guarisma
 
Regress lineaire simple imp
Regress lineaire simple impRegress lineaire simple imp
Regress lineaire simple impKhawla At
 
Formation Fondamentaux de la value at risk
Formation Fondamentaux de la value at riskFormation Fondamentaux de la value at risk
Formation Fondamentaux de la value at riskActions-Finance
 
Sujet dcg-contrôle-de-gestion-2012
Sujet dcg-contrôle-de-gestion-2012Sujet dcg-contrôle-de-gestion-2012
Sujet dcg-contrôle-de-gestion-2012Youness ELrhermoul
 
Microsoft Technologies for Data Science 201612
Microsoft Technologies for Data Science 201612Microsoft Technologies for Data Science 201612
Microsoft Technologies for Data Science 201612Mark Tabladillo
 
Music recommendations API with Neo4j
Music recommendations API with Neo4jMusic recommendations API with Neo4j
Music recommendations API with Neo4jBoris Guarisma
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4jBoris Guarisma
 
04 amortissementdegressif
04 amortissementdegressif04 amortissementdegressif
04 amortissementdegressifhassan1488
 
قيمة الزمن عند العلماء أبو غدة
قيمة الزمن عند العلماء أبو غدةقيمة الزمن عند العلماء أبو غدة
قيمة الزمن عند العلماء أبو غدةWay To Islem
 
Exercices de stat. descriptive
Exercices de stat. descriptiveExercices de stat. descriptive
Exercices de stat. descriptiveSmahane Samita
 
Vocabulaire economie finances2012
Vocabulaire economie finances2012Vocabulaire economie finances2012
Vocabulaire economie finances2012Lulyanov78
 
Artificial Intelligence, Machine Learning and Deep Learning
Artificial Intelligence, Machine Learning and Deep LearningArtificial Intelligence, Machine Learning and Deep Learning
Artificial Intelligence, Machine Learning and Deep LearningSujit Pal
 
Comptabilite-analytique
 Comptabilite-analytique Comptabilite-analytique
Comptabilite-analytiqueMejdoubi Amal
 
Centralité urbaine 01
Centralité urbaine 01Centralité urbaine 01
Centralité urbaine 01Sami Sahli
 

En vedette (20)

5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
 
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistique
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4j
 
5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires
 
04 Introduction au logiciel R
04 Introduction au logiciel R04 Introduction au logiciel R
04 Introduction au logiciel R
 
05 Sélection de modèle linéaire
05 Sélection de modèle linéaire05 Sélection de modèle linéaire
05 Sélection de modèle linéaire
 
Regress lineaire simple imp
Regress lineaire simple impRegress lineaire simple imp
Regress lineaire simple imp
 
Formation Fondamentaux de la value at risk
Formation Fondamentaux de la value at riskFormation Fondamentaux de la value at risk
Formation Fondamentaux de la value at risk
 
Sujet dcg-contrôle-de-gestion-2012
Sujet dcg-contrôle-de-gestion-2012Sujet dcg-contrôle-de-gestion-2012
Sujet dcg-contrôle-de-gestion-2012
 
Microsoft Technologies for Data Science 201612
Microsoft Technologies for Data Science 201612Microsoft Technologies for Data Science 201612
Microsoft Technologies for Data Science 201612
 
Music recommendations API with Neo4j
Music recommendations API with Neo4jMusic recommendations API with Neo4j
Music recommendations API with Neo4j
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4j
 
04 amortissementdegressif
04 amortissementdegressif04 amortissementdegressif
04 amortissementdegressif
 
Comptabilité
ComptabilitéComptabilité
Comptabilité
 
قيمة الزمن عند العلماء أبو غدة
قيمة الزمن عند العلماء أبو غدةقيمة الزمن عند العلماء أبو غدة
قيمة الزمن عند العلماء أبو غدة
 
Exercices de stat. descriptive
Exercices de stat. descriptiveExercices de stat. descriptive
Exercices de stat. descriptive
 
Vocabulaire economie finances2012
Vocabulaire economie finances2012Vocabulaire economie finances2012
Vocabulaire economie finances2012
 
Artificial Intelligence, Machine Learning and Deep Learning
Artificial Intelligence, Machine Learning and Deep LearningArtificial Intelligence, Machine Learning and Deep Learning
Artificial Intelligence, Machine Learning and Deep Learning
 
Comptabilite-analytique
 Comptabilite-analytique Comptabilite-analytique
Comptabilite-analytique
 
Centralité urbaine 01
Centralité urbaine 01Centralité urbaine 01
Centralité urbaine 01
 

Similaire à 5.2 Régression linéaire

(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)mohamedchaouche
 
Stata- Séries Temp..pptx
Stata- Séries Temp..pptxStata- Séries Temp..pptx
Stata- Séries Temp..pptxCoachingProgram
 
modele destimation.pptx
modele destimation.pptxmodele destimation.pptx
modele destimation.pptxzahrakmar
 
regression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfregression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfSidiAbdallah1
 
Calage sur bornes minimales
Calage sur bornes minimalesCalage sur bornes minimales
Calage sur bornes minimalesAntoine Rebecq
 
Test d'hypothèses en statistique Chapitre 7.pdf
Test d'hypothèses en statistique Chapitre 7.pdfTest d'hypothèses en statistique Chapitre 7.pdf
Test d'hypothèses en statistique Chapitre 7.pdfKOUADIOPATRICE1
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdfSidiAbdallah1
 
L’apport des techniques statistiques dans les projets Lean 6 Sigma
L’apport des techniques statistiques dans les projets Lean 6 SigmaL’apport des techniques statistiques dans les projets Lean 6 Sigma
L’apport des techniques statistiques dans les projets Lean 6 SigmaXL Formation
 
Analyses des données par SPSS et R
Analyses  des données par  SPSS et RAnalyses  des données par  SPSS et R
Analyses des données par SPSS et RAB IR
 
analyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptxanalyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptxMalek338029
 
analyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptxanalyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptxMalek338029
 
Algebre_lineaire_GEOLOGIE-S1.pdf
Algebre_lineaire_GEOLOGIE-S1.pdfAlgebre_lineaire_GEOLOGIE-S1.pdf
Algebre_lineaire_GEOLOGIE-S1.pdfThierrySam1
 

Similaire à 5.2 Régression linéaire (14)

Slides act6420-e2014-partie-2
Slides act6420-e2014-partie-2Slides act6420-e2014-partie-2
Slides act6420-e2014-partie-2
 
Regression simple
Regression simpleRegression simple
Regression simple
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)
 
Stata- Séries Temp..pptx
Stata- Séries Temp..pptxStata- Séries Temp..pptx
Stata- Séries Temp..pptx
 
modele destimation.pptx
modele destimation.pptxmodele destimation.pptx
modele destimation.pptx
 
regression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfregression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdf
 
Calage sur bornes minimales
Calage sur bornes minimalesCalage sur bornes minimales
Calage sur bornes minimales
 
Test d'hypothèses en statistique Chapitre 7.pdf
Test d'hypothèses en statistique Chapitre 7.pdfTest d'hypothèses en statistique Chapitre 7.pdf
Test d'hypothèses en statistique Chapitre 7.pdf
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
L’apport des techniques statistiques dans les projets Lean 6 Sigma
L’apport des techniques statistiques dans les projets Lean 6 SigmaL’apport des techniques statistiques dans les projets Lean 6 Sigma
L’apport des techniques statistiques dans les projets Lean 6 Sigma
 
Analyses des données par SPSS et R
Analyses  des données par  SPSS et RAnalyses  des données par  SPSS et R
Analyses des données par SPSS et R
 
analyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptxanalyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptx
 
analyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptxanalyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptx
 
Algebre_lineaire_GEOLOGIE-S1.pdf
Algebre_lineaire_GEOLOGIE-S1.pdfAlgebre_lineaire_GEOLOGIE-S1.pdf
Algebre_lineaire_GEOLOGIE-S1.pdf
 

5.2 Régression linéaire

  • 1. Régression Linéaire 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 1
  • 2. Objectifs  Comprendre la relation additive et linéaire entre variables  Comprendre la fonction de coût  Avoir une notion sur les méthodes de minimisation de la fonction de coût  Savoir interpréter l’affichage summary de R d’un modèle de régression linéaire  Savoir interpréter les mesures de qualité RSE et R2 d’un modèle de régression linéaire  Comprendre la notion d’interaction entre variables 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 2
  • 3. Sommaire • Relation linéaire • Régression Linéaire Simple • Régression Linéaire Multiple • Bibliographie 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 3
  • 4. Relation linéaire • Soit les observations enregistrées dans le tableau. • nombre lamantins décédés • nombre de bateaux enregistrés • Le graphique montre une relation croissante et presque linéaire: • le nombre de lamantins décédés augmente quand le nombre de bateaux enregistrés augmente 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 4 Nombre de lamantins décédés par des bateaux à moteur (en milliers) le long des côtes de la Floride, entre 1981 et 1990 source [2] Bibliographie
  • 5. Relation linéaire • Soit un individu « omniscient » qui connaît tout ce qui se passe entre les bateaux, les lamantins et l’environnement. • Cet individu stipule un modèle f(X) linéaire dont les valeurs des paramètres sont • β0 = -49 • β1 = 0.25 • Comme il sait tout, il enregistre les erreurs sur le nombre de lamantins décédés dues • à l’environnement (présence de crocodiles), • aux mauvaises imputations • à la présence d’un élément au hasard • … 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 5 Modèle linéaire stipulé par l’individu « omniscient »
  • 6. Relation linéaire • Par contre, nous, on ne connaît ni le modèle linéaire de l’individu « omniscient » ni les erreurs qu’il a enregistrées. • On ne connaît que nos observations • On va tenter manuellement de proposer des estimations des paramètres β0 et β1 • ෡𝜷0 = -39, ෡𝜷 𝟏 = 0.23 • ෡𝜷0 = -57, ෡𝜷 𝟏 = 0.26 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 6 quel est le meilleur ?
  • 7. Relation linéaire • Il faut comparer les deux propositions d’estimation de paramètres suivantes: • ෡𝜷0 = -39, ෡𝜷 𝟏 = 0.23 • ෡𝜷0 = -57, ෡𝜷 𝟏 = 0.26 • … selon quel critère ? • on peut faire la somme des erreurs respectives • en prenant le carré afin d’additionner uniquement des nombres positifs • ensuite on sélectionnera le minimum • C’est la méthode des moindre carrés • RSS*: somme des carrés des résidus 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 7 RSS = 195.46 RSS = 211.79 (*) residual sum of squares ou somme des carrés résiduelle (SCR) Important: pour les méthodes ou modèles basés sur les moindres carrées (least squares) assurez vous que le nombre de variables soit inférieur que le nombre d’observations (n > p)
  • 8. Relation linéaire • Supposons le modèle linéaire f(X) tel que Y = f(X) + 𝜖 • La somme des carrés des erreurs s’écrit • Les valeurs des paramètres ෡𝜷0 et ෡𝜷 𝟏 qui minimisent RSS par la méthode des moindres carrés: 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 8
  • 9. Relation linéaire • Version « machine learning » • notation β = Ɵ • m observations x n variables • X[., 1] = 𝒙 𝟎 (𝒊) = 1 variable dummy • መ𝑓=> fonction hypothèse h(X) = ƟT X • Fonction de coût à minimiser avec l’algorithme du gradient 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 9 n+1 colonnes cas d’une régression linéaire simple 𝜖 ℝ versions vectorisées source [3] Bibliographie
  • 10. Relation linéaire • Droite des moindres carrés • Calculer le modèle avec R: • Interpértation: • A chaque enregistrement d’un milliers de bateaux, le nombre moyen de lamantins décédés augmente de 0.24 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 10 pente ordonnée à l’origine መ𝑓(X) = 0.24 X – 45.17 > model <- lm(nb_lamantins~nb_bateaux, data = lamantins) > model$coefficients (Intercept) nb_bateaux -45.1796424 0.2402433 droite des moindres carrés መ𝛽0 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡 n’a aucune interprétation (pas de sens) lorsque X=0
  • 11. Régression linéaire simple • Simple = une seule variable X • On ajuste la droite avec une fonction de coût quadratique • On aurait pu utiliser une fonction de coût en valeur absolue, plus robuste • voir ligne noire (pas pointillée!) sur le figure • Malgré cela, le coût quadratique est le coût le plus souvent utilisé 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 11 source [5] Bibliographie
  • 12. Régression linéaire simple • Point aberrants (outliers) • Ne pas les éliminer systématiquement, il faut s’assurer si mauvaise imputation, etc. et le placer correctement dans le contexte de l’étude • Alternative: utiliser une méthode plus robuste … 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 12 n’affecte pas la direction de la droite ajustée affecte la direction de la droite ajustée rlm() du package MASS source [4] Bibliographie source [4] Bibliographie Coursera, Data Analysis and Statistical Inference MOOC, Duke University
  • 13. Régression linéaire simple • Estimation des valeurs des coefficients β 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 13 መ𝑓(X) = 0.24 X – 45.17 summary(model) Call: lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins) Residuals: Min 1Q Median 3Q Max -6.3566 -3.7237 0.1971 4.2178 5.1751 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -45.17964 12.54392 -3.602 0.00696 ** nb_bateaux 0.24024 0.02052 11.710 2.58e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.868 on 8 degrees of freedom Multiple R-squared: 0.9449, Adjusted R-squared: 0.938 F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06
  • 14. Régression linéaire simple • Estimation des valeurs des coefficients β 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 14 summary(model) Call: lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins) Residuals: Min 1Q Median 3Q Max -6.3566 -3.7237 0.1971 4.2178 5.1751 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -45.17964 12.54392 -3.602 0.00696 ** nb_bateaux 0.24024 0.02052 11.710 2.58e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.868 on 8 degrees of freedom Multiple R-squared: 0.9449, Adjusted R-squared: 0.938 F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06 erreur irréductible • Std. Error: • estimation ෝ𝝈2 = RSE avec
  • 15. Régression linéaire simple • Conditions sur les résidus • distribution ~gaussienne de moyenne 0 • variance constante (homoscédasticité) • ne montrent pas de schéma (pattern) particulier (indépendance) 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 15 Coursera, Data Analysis and Statistical Inference MOOC, Duke University
  • 16. Régression linéaire simple • Conditions sur les résidus 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 16 summary(model) Call: lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins) Residuals: Min 1Q Median 3Q Max -6.3566 -3.7237 0.1971 4.2178 5.1751 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -45.17964 12.54392 -3.602 0.00696 ** nb_bateaux 0.24024 0.02052 11.710 2.58e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.868 on 8 degrees of freedom Multiple R-squared: 0.9449, Adjusted R-squared: 0.938 F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06 df = n – 2 = 10 obs. – 2 = 8 1ère mesure de qualité: la réponse se dévie, en moyenne, de la vraie droite de régression de RSE
  • 17. Régression linéaire simple • Test d’hypothèse sur መ𝛽1 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 17 summary(model) Call: lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins) Residuals: Min 1Q Median 3Q Max -6.3566 -3.7237 0.1971 4.2178 5.1751 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -45.17964 12.54392 -3.602 0.00696 ** nb_bateaux 0.24024 0.02052 11.710 2.58e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.868 on 8 degrees of freedom Multiple R-squared: 0.9449, Adjusted R-squared: 0.938 F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06 • H0: pas de relation entre Y et X (β1 = 0, null value) • H1: il y a une relation entre Y et X (β1 ≠ 0) On veut savoir à combien d’écart-type se trouve notre estimation ෠𝛽1 de la null value β1 = 0; appliqué à une distribution de « Student » ou « t »: t value = (Estimate – 0) / Std. Error = (0.24024 – 0) / 11.710 = 11.710 p-value: la probabilité d’observer toute valeur ≥ |t| sachant que H0 est vraie. p-value petite: il est peu probable d’observer une relation importante entre Y et X due au hasard, sachant qu’il n’existe pas de relation entre les deux (H0 vraie). Alors on rejette H0.
  • 18. Régression linéaire simple • Intervalle de confiance à 95% de መ𝛽1 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 18 summary(model) Call: lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins) Residuals: Min 1Q Median 3Q Max -6.3566 -3.7237 0.1971 4.2178 5.1751 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -45.17964 12.54392 -3.602 0.00696 ** nb_bateaux 0.24024 0.02052 11.710 2.58e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.868 on 8 degrees of freedom Multiple R-squared: 0.9449, Adjusted R-squared: 0.938 F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06 • degrés de liberté: df = n – 2 = 8 • t*8 = 2.03 • CI95 = ෠𝛽1 ± t*8 x SE( ෠𝛽1) = Estimate ± 2.03 x Std. Error = 0.24024 ± 2.03 x 0.02052 = (0.19 , 0.28) On est à 95% sûr que la vraie valeur de β1 se trouve dans l’intervalle [0.19 , 0.28] qt(p = 0.025, df = 8) [1] -2.306004 source [4] Bibliographie
  • 19. Régression linéaire simple • 2e mesure de qualité du modèle: R2 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 19 summary(model) Call: lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins) Residuals: Min 1Q Median 3Q Max -6.3566 -3.7237 0.1971 4.2178 5.1751 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -45.17964 12.54392 -3.602 0.00696 ** nb_bateaux 0.24024 0.02052 11.710 2.58e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.868 on 8 degrees of freedom Multiple R-squared: 0.9449, Adjusted R-squared: 0.938 F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06 Coefficient de corrélation 𝑹 = Cov(X,Y) / 𝑉𝑎𝑟 𝑋 𝑉𝑎𝑟(𝑌) ou 𝑹 = ෠𝛽1 𝑉𝑎𝑟 𝑋 /𝑉𝑎𝑟(𝑌) Cov(X,Y) Var(X) Comment interpréter R2 ? Coursera, Data Analysis and Statistical Inference MOOC, Duke University
  • 20. Régression linéaire simple • (cont.) 2e mesure de qualité du modèle: R2 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 20 summary(model) Call: lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins) Residuals: Min 1Q Median 3Q Max -6.3566 -3.7237 0.1971 4.2178 5.1751 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -45.17964 12.54392 -3.602 0.00696 ** nb_bateaux 0.24024 0.02052 11.710 2.58e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.868 on 8 degrees of freedom Multiple R-squared: 0.9449, Adjusted R-squared: 0.938 F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06 • On souhaite expliquer pourquoi le nombre de lamantins décédés varie d’une année à l’autre: on veut expliquer les variations de la variable Y. • On propose comme explication les variations de la variable X. • Le coefficient R2 est tout simplement le rapport entre la variance expliquée et la variance initiale: … et le reste de variance alors … ?
  • 21. Régression linéaire simple • (cont.) 2e mesure de qualité du modèle: R2 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 21 summary(model) Call: lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins) Residuals: Min 1Q Median 3Q Max -6.3566 -3.7237 0.1971 4.2178 5.1751 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -45.17964 12.54392 -3.602 0.00696 ** nb_bateaux 0.24024 0.02052 11.710 2.58e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.868 on 8 degrees of freedom Multiple R-squared: 0.9449, Adjusted R-squared: 0.938 F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06 0
  • 22. Régression linéaire simple • Cas des variables catégorielles • Y = niv_pauvreté et X = region4 catégorielle region4 = {« northeast », « midwest », « west », « south »} • La modalité « northeast » est la modalité de référence niv_pauvreté = 9.50 + 0.03 region4:midwest + 1.79 region4:west + 4.16 region4:south • Prévision du niveau de pauvreté pour la région « northeast » est 9.50 • Prévision du niveau de pauvreté pour la région « west » est 9.50 + 1.79 = 11.29 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 22 Coursera, Data Analysis and Statistical Inference MOOC, Duke University
  • 23. Régression linéaire multiple • On considère toujours une relation additive et linéaire entre Y et les variables X • Additive: • l’effet d’un changement d’une variable Xj sur la réponse Y est indépendant des valeurs des autres variables • Linéaire: • si l’on varie X1 d’une unité, alors Y varie en moyenne de β1 unités, • la présence de X2 ou d’une autre Xj (j≠1) n’affecte pas cette déclaration 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 23
  • 24. Régression linéaire multiple • Interprétation des valeurs des coefficients • Un coefficient βj estime la variation (en moyenne) de Y par unité de variation de sa variable Xj, en fixant tous les autres variables explicatives. • Cas idéal: toutes les variables sont non corrélées • Usuellement, les variables tendent à varier ensemble … • Quand il y a corrélation entre les variables • la variance des coefficients augmente • les interprétations risquent d’être hasardeuses 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 24
  • 25. Régression linéaire multiple • Exercice « The Marketing Plan » • fichier advertising_data.txt (200 x 4) • source [1], voir Bibliographie 1. Y a-t-il une relation entre le budget de publicité et les ventes ? 2. Quelle est la "force" de cette relation ? 3. Quel média contribue aux ventes ? 4. Dans quelle mesure chaque média contribue-t-il aux ventes? 5. Comment prédire les futures ventes avec le plus d'exactitude possible ? 6. La relation est-elle linéaire ? 7. Y a-t-il une synergie entre les média ? 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 25 réponse James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 26. Régression linéaire multiple • Exercice « The Marketing Plan » 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 26 summary(modele) Call: lm(formula = Sales ~ ., data = data) Residuals: Min 1Q Median 3Q Max -8.8277 -0.8908 0.2418 1.1893 2.8292 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.938889 0.311908 9.422 <2e-16 *** TV 0.045765 0.001395 32.809 <2e-16 *** Radio 0.188530 0.008611 21.893 <2e-16 *** Newspaper -0.001037 0.005871 -0.177 0.86 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.686 on 196 degrees of freedom Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956 F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
  • 27. Régression linéaire multiple 1. Y a-t-il une relation entre le budget de publicité et les ventes ? 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 27 summary(modele) Call: lm(formula = Sales ~ ., data = data) Residuals: Min 1Q Median 3Q Max -8.8277 -0.8908 0.2418 1.1893 2.8292 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.938889 0.311908 9.422 <2e-16 *** TV 0.045765 0.001395 32.809 <2e-16 *** Radio 0.188530 0.008611 21.893 <2e-16 *** Newspaper -0.001037 0.005871 -0.177 0.86 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.686 on 196 degrees of freedom Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956 F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16 • Notion de la statistique F (F-statistic) • Test d’hypothèse • H0: β1 = β2 = β3 = … = βp = 0 • H1: au moins un βj est non nul Ici F = 570 >> 1 alors on rejette H0 Pour répondre à la question, il ne faut pas regarder individuellement les p-value de chaque coefficient. Voir question 3. plus loin. somme des carrés totale (SCT) il s’ajuste au nombre de variables, ici p
  • 28. Régression linéaire multiple 2. Quelle est la "force" de cette relation ? 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 28 summary(modele) Call: lm(formula = Sales ~ ., data = data) Residuals: Min 1Q Median 3Q Max -8.8277 -0.8908 0.2418 1.1893 2.8292 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.938889 0.311908 9.422 <2e-16 *** TV 0.045765 0.001395 32.809 <2e-16 *** Radio 0.188530 0.008611 21.893 <2e-16 *** Newspaper -0.001037 0.005871 -0.177 0.86 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.686 on 196 degrees of freedom Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956 F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16 Mesures de qualité du modèle: • RSE = 1.686 • la moyenne de Sales est 14.022 • donc une erreur de RSE / 𝑆𝑎𝑙𝑒𝑠 = 12% • R2 • 89.7% de la variance totale est expliquée par le modèle. • Adjusted R2 • ajoute une pénalité sur le nombre de variables • R2 augmente si on ajoute une variable, mais si la variable n’apporte aucune nouvelle information l’Adjusted R2 n’augmentera pas SSE = SST – SSR   SCE = SCT - SCR SS: sum of squares   SC: somme des carrées E=Explained, T=Total, R=Residual
  • 29. Régression linéaire multiple 3. Quel média contribue aux ventes? 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 29 summary(modele) Call: lm(formula = Sales ~ ., data = data) Residuals: Min 1Q Median 3Q Max -8.8277 -0.8908 0.2418 1.1893 2.8292 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.938889 0.311908 9.422 <2e-16 *** TV 0.045765 0.001395 32.809 <2e-16 *** Radio 0.188530 0.008611 21.893 <2e-16 *** Newspaper -0.001037 0.005871 -0.177 0.86 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.686 on 196 degrees of freedom Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956 F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16 • Rappel: Pr(>|t|) = p-value doit être inférieur au seuil de signification (5%) ou probabilité d’erreur de type I • Les valeurs de p-value respectives suggèrent que seuls les médias TV et Radio sont liées aux ventes (Sales) Note: si le nombre de variables p est grand, on risque de faire des mauvaises interprétations: on pourrait avoir quelques p-values < 0.05 par hasard Dans ce cas, et pour répondre à cette question, une méthode de « sélection de modèle » (expliquée plus loin dans ce cours) est préférable.
  • 30. Régression linéaire multiple 4. Dans quelle mesure chaque média contribue-t-il aux ventes? 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 30 summary(modele) Call: lm(formula = Sales ~ ., data = data) Residuals: Min 1Q Median 3Q Max -8.8277 -0.8908 0.2418 1.1893 2.8292 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.938889 0.311908 9.422 <2e-16 *** TV 0.045765 0.001395 32.809 <2e-16 *** Radio 0.188530 0.008611 21.893 <2e-16 *** Newspaper -0.001037 0.005871 -0.177 0.86 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.686 on 196 degrees of freedom Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956 F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16 Première approche: R2 • Vous pouvez effectuer une régression linéaire simple pour chaque variable: TV, Radio et Newspaper. • Comparez les R2 respectifs • TV: R2 = 0.61 • Radio: R2 = 0.33 • Newspaper: R2 = 0.05 • Il y a évidence d’une association plutôt « molle » entre Newspaper et les ventes, lorsque l’on ignore TV et Radio !
  • 31. Régression linéaire multiple 4. Dans quelle mesure chaque média contribue-t-il aux ventes? 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 31 summary(modele) Call: lm(formula = Sales ~ ., data = data) Residuals: Min 1Q Median 3Q Max -8.8277 -0.8908 0.2418 1.1893 2.8292 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.938889 0.311908 9.422 <2e-16 *** TV 0.045765 0.001395 32.809 <2e-16 *** Radio 0.188530 0.008611 21.893 <2e-16 *** Newspaper -0.001037 0.005871 -0.177 0.86 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.686 on 196 degrees of freedom Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956 F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16 Deuxième approche: les IC • Utilisez les Std. Error pour construire les intervalles de confiance à 95% respectifs • TV: CI95 = (0.043, 0.049) • Radio: CI95 = (0.172, 0.206) • Newspaper: CI95 = (-0.013, 0.011) • Le IC à 95% de Newspaper inclut le zéro: la variable n’est pas significative statistiquement … peut être dû à la multicolinéarité ? vérifiez: >library(car) >vif(modele) # Facteur d'inflation de la variance TV Radio Newspaper 1.004611 1.144952 1.145187
  • 32. Régression linéaire multiple 5. Comment prédire les futures ventes avec le plus d'exactitude possible? • Attention: ici on évalue la prévision du modèle avec l’ensemble de données d’apprentissage • Intervalle de confiance des prévisions (Y = f(X) + 𝜖) >ICpred <- predict(object = modele, newdata = data, interval = "pred", level = 0.95) >head(ICpred) fit lwr upr 1 20.52397 17.158283 23.88967 2 12.33785 8.981672 15.69404 3 12.30767 8.919038 15.69630 ... • Intervalle de confiance de la droite ajustée (E(Y)) >ICdte <- predict(object = modele, newdata = data, interval = "conf", level = 0.95) head(ICdte) fit lwr upr 1 20.52397 19.99627 21.05168 2 12.33785 11.87465 12.80106 3 12.30767 11.64932 12.96602 … 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 32 les ICpred seront toujours plus large que les ICdte car ils tiennent compte de l’incertitude ou erreur irréductible 𝜖
  • 33. Régression linéaire multiple 5. La relation est-elle linéaire? • Afficher les résidus … commentez 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 33
  • 34. Régression linéaire multiple 5. Y a-t-il une synergie entre les média? • Il se peut que la relation entre Y et les variables TV et Radio ne soit pas additive ! • il y a interaction entre ces 2 variables • les résidus positifs restent autour de la ligne de 45° où les budgets de TV et de Radio sont répartis de façon presque égale • les résidus négatifs (difficile à voir dans la figure) sont éloignés de cette ligne 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 34 terme d’intéraction James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 35. Régression linéaire multiple • Cas des variables catégorielles • Fonction R: model.matrix() model.matrix(object = ~ ., data = Credit ) convertir en data.frame si vous utilisez lm() vous pouvez lancer lm() avec la colonne (Intercept) 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 35
  • 36. Bibliographie James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014 Lafont G., Leçon 4 Corrélations, Module EAR206, CNAM de Paris, 2013 Ng A., Machine Learning MOOC, Coursera – Stanford University Coursera, Data Analysis and Statistical Inference MOOC, Coursera – Duke University Cornillon P., Matzner-LØber E., Régression avec R, ISBN 9782817801834, Springer, 2011 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 36