SlideShare une entreprise Scribd logo
Régression Linéaire
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 1
Objectifs
 Comprendre la relation additive et linéaire entre variables
 Comprendre la fonction de coût
 Avoir une notion sur les méthodes de minimisation de la fonction de coût
 Savoir interpréter l’affichage summary de R d’un modèle de régression linéaire
 Savoir interpréter les mesures de qualité RSE et R2 d’un modèle de régression linéaire
 Comprendre la notion d’interaction entre variables
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 2
Sommaire
• Relation linéaire
• Régression Linéaire Simple
• Régression Linéaire Multiple
• Bibliographie
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 3
Relation linéaire
• Soit les observations enregistrées dans le
tableau.
• nombre lamantins décédés
• nombre de bateaux enregistrés
• Le graphique montre une relation
croissante et presque linéaire:
• le nombre de lamantins décédés augmente
quand le nombre de bateaux enregistrés
augmente
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 4
Nombre de lamantins décédés par des bateaux à moteur (en
milliers) le long des côtes de la Floride, entre 1981 et 1990
source [2] Bibliographie

Recommandé pour vous

Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales

Ce document qui utilisent comme prétexte un exercice pour vous présenter l'ACP, vous comprendrez l'essentiel de ce que permet de faire une Analyse en Composantes Principales. Certains fondements mathématiques et illustrations géométriques permettent d'appréhender les concepts derrière cette méthode d'analyse factorielle. Je un exercice simple sur l'ACP et détaille quelques éléments de réponse pour mes étudiants à la FST de Settat. Mais cela peut aussi intéresser d'autres personnes, surtout dans ces conditions particulières de la pandémie de Covid-19. Vos réactions me seront très utiles pour apporter davantage d'éclaircissements. Ce thème est aussi disponible en vidéo : https://www.youtube.com/playlist?list=PLzjg2z2kYUrgV6fswgo5B5gaYWfVFX44V Cordialement Pr JAOUAD DABOUNOU FST DE SETTAT UNIVERSITE HASSAN 1er

acpanalyse en composantes principalesanalyse des données
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales

Méthode d'Analyse en Composantes Principales dans la perspective de son utilisation pour réduire la dimensionnalité dans le cadre d'un traitement par réseau de neurones. Ce document s'inscrit dans un travail global sur l'Intelligence artificielle.

analyse des donnéesréseaux de neuronesmachine learning
Analyse de régression multiple
Analyse de régression multipleAnalyse de régression multiple
Analyse de régression multiple

Analyse de régression linéaire multiple et les conditions d'utilisation

régression multiplecoefficient de corrélation de la régression multsignification
Relation linéaire
• Soit un individu « omniscient » qui connaît
tout ce qui se passe entre les bateaux, les
lamantins et l’environnement.
• Cet individu stipule un modèle f(X) linéaire
dont les valeurs des paramètres sont
• β0 = -49
• β1 = 0.25
• Comme il sait tout, il enregistre les erreurs
sur le nombre de lamantins décédés dues
• à l’environnement (présence de crocodiles),
• aux mauvaises imputations
• à la présence d’un élément au hasard
• …
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 5
Modèle linéaire stipulé par l’individu « omniscient »
Relation linéaire
• Par contre, nous, on ne connaît ni le modèle
linéaire de l’individu « omniscient » ni les
erreurs qu’il a enregistrées.
• On ne connaît que nos observations
• On va tenter manuellement de proposer des
estimations des paramètres β0 et β1
• ෡𝜷0 = -39, ෡𝜷 𝟏 = 0.23
• ෡𝜷0 = -57, ෡𝜷 𝟏 = 0.26
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 6
quel est le
meilleur ?
Relation linéaire
• Il faut comparer les deux propositions
d’estimation de paramètres suivantes:
• ෡𝜷0 = -39, ෡𝜷 𝟏 = 0.23
• ෡𝜷0 = -57, ෡𝜷 𝟏 = 0.26
• … selon quel critère ?
• on peut faire la somme des erreurs
respectives
• en prenant le carré afin d’additionner
uniquement des nombres positifs
• ensuite on sélectionnera le minimum
• C’est la méthode des moindre carrés
• RSS*: somme des carrés des résidus
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 7
RSS = 195.46 RSS = 211.79
(*) residual sum of squares ou somme des carrés résiduelle (SCR)
Important: pour les méthodes ou modèles basés sur
les moindres carrées (least squares) assurez vous que
le nombre de variables soit inférieur que le nombre
d’observations (n > p)
Relation linéaire
• Supposons le modèle linéaire f(X) tel que
Y = f(X) + 𝜖
• La somme des carrés des erreurs s’écrit
• Les valeurs des paramètres ෡𝜷0 et ෡𝜷 𝟏 qui
minimisent RSS par la méthode des moindres
carrés:
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 8

Recommandé pour vous

Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales

Réduction de la dimension, Diagonalisation, études des valeurs propres, centrage et réduction, techniques de choix des axes factoriels, critère de coude, critère de Kaiser, plans factoriels, carte des individus, cercle de corrélation

data mining
Cours echantillonnage et estimations
Cours echantillonnage et estimationsCours echantillonnage et estimations
Cours echantillonnage et estimations

Cours de statistique

Introduction aux statistiques descriptives et tests d'hypothèses
Introduction aux statistiques descriptives et tests d'hypothèsesIntroduction aux statistiques descriptives et tests d'hypothèses
Introduction aux statistiques descriptives et tests d'hypothèses

Cours d'ntroduction aux statistiques descriptives et tests d'hypothèses enseigné auprès de DUT 2e année en Publicité de Bordeaux. Date de 2012.

hypothèseséchantillonstatistiques
Relation linéaire
• Version « machine learning »
• notation β = Ɵ
• m observations x n variables
• X[., 1] = 𝒙 𝟎
(𝒊)
= 1 variable dummy
• መ𝑓=> fonction hypothèse h(X) = ƟT X
• Fonction de coût à minimiser
avec l’algorithme du gradient
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 9
n+1 colonnes
cas d’une régression linéaire simple
𝜖 ℝ
versions
vectorisées
source [3] Bibliographie
Relation linéaire
• Droite des moindres carrés
• Calculer le modèle avec R:
• Interpértation:
• A chaque enregistrement d’un milliers de bateaux, le nombre
moyen de lamantins décédés augmente de 0.24
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 10
pente
ordonnée à l’origine
መ𝑓(X) = 0.24 X – 45.17
> model <- lm(nb_lamantins~nb_bateaux, data = lamantins)
> model$coefficients
(Intercept) nb_bateaux
-45.1796424 0.2402433
droite des moindres carrés
መ𝛽0 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡
n’a aucune interprétation
(pas de sens) lorsque X=0
Régression linéaire simple
• Simple = une seule variable X
• On ajuste la droite avec une fonction de coût
quadratique
• On aurait pu utiliser une fonction de coût en
valeur absolue, plus robuste
• voir ligne noire (pas pointillée!) sur le figure
• Malgré cela, le coût quadratique est le coût le
plus souvent utilisé
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 11
source [5] Bibliographie
Régression linéaire simple
• Point aberrants (outliers)
• Ne pas les éliminer systématiquement, il faut
s’assurer si mauvaise imputation, etc. et le placer
correctement dans le contexte de l’étude
• Alternative: utiliser une méthode plus robuste …
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 12
n’affecte pas la direction
de la droite ajustée
affecte la direction de
la droite ajustée
rlm() du package MASS
source [4] Bibliographie
source [4] Bibliographie
Coursera, Data Analysis and Statistical Inference MOOC, Duke University

Recommandé pour vous

5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique

Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive). La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R). Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.

logistic regression
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)

Dans ce tutoriel, il s’agit de montrer comment peut-on procéder à l’analyse ANOVA à 1 facteur entre des échantillons indépendants par le biais du logiciel SPSS et quels sont les résultats à mettre sur le rapport final ?

test d'homogéité de variancestaille d’effetpost hoc
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf

efer

fbfb
Régression linéaire simple
• Estimation des valeurs des coefficients β
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 13
መ𝑓(X) = 0.24 X – 45.17
summary(model)
Call:
lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins)
Residuals:
Min 1Q Median 3Q Max
-6.3566 -3.7237 0.1971 4.2178 5.1751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -45.17964 12.54392 -3.602 0.00696 **
nb_bateaux 0.24024 0.02052 11.710 2.58e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.868 on 8 degrees of freedom
Multiple R-squared: 0.9449, Adjusted R-squared: 0.938
F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06
Régression linéaire simple
• Estimation des valeurs des coefficients β
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 14
summary(model)
Call:
lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins)
Residuals:
Min 1Q Median 3Q Max
-6.3566 -3.7237 0.1971 4.2178 5.1751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -45.17964 12.54392 -3.602 0.00696 **
nb_bateaux 0.24024 0.02052 11.710 2.58e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.868 on 8 degrees of freedom
Multiple R-squared: 0.9449, Adjusted R-squared: 0.938
F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06
erreur irréductible
• Std. Error:
• estimation ෝ𝝈2 = RSE avec
Régression linéaire simple
• Conditions sur les résidus
• distribution ~gaussienne de moyenne 0
• variance constante (homoscédasticité)
• ne montrent pas de schéma (pattern) particulier
(indépendance)
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 15
Coursera, Data Analysis and Statistical Inference MOOC, Duke University
Régression linéaire simple
• Conditions sur les résidus
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 16
summary(model)
Call:
lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins)
Residuals:
Min 1Q Median 3Q Max
-6.3566 -3.7237 0.1971 4.2178 5.1751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -45.17964 12.54392 -3.602 0.00696 **
nb_bateaux 0.24024 0.02052 11.710 2.58e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.868 on 8 degrees of freedom
Multiple R-squared: 0.9449, Adjusted R-squared: 0.938
F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06
df = n – 2 = 10 obs. – 2 = 8
1ère mesure de qualité: la réponse se dévie, en
moyenne, de la vraie droite de régression de RSE

Recommandé pour vous

réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels

présentation générale des réseaux de neurones artificiels

réseaux de neurones
Analyses des données par SPSS et R
Analyses  des données par  SPSS et RAnalyses  des données par  SPSS et R
Analyses des données par SPSS et R

Analyse de regréssion et Analyse ACP

ab ir
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des Correspondances

L'Analyse Factorielle des Correspondances est présentée dans ce document à travers un exemple simple, pour mes étudiants à la FST de Settat. Mais cela peut aussi intéresser d'autres personnes, surtout dans ces conditions particulières de la pandémie de Covid-19. Ce thème est aussi disponible en vidéo : https://youtube.com/playlist?list=PLzjg2z2kYUrg6XvYVYMxdZQnouBEwavfQ Cordialement Pr JAOUAD DABOUNOU FST DE SETTAT UNIVERSITE HASSAN 1er

analyse factorielle des correspondancesdata sciencedatamining
Régression linéaire simple
• Test d’hypothèse sur መ𝛽1
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 17
summary(model)
Call:
lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins)
Residuals:
Min 1Q Median 3Q Max
-6.3566 -3.7237 0.1971 4.2178 5.1751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -45.17964 12.54392 -3.602 0.00696 **
nb_bateaux 0.24024 0.02052 11.710 2.58e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.868 on 8 degrees of freedom
Multiple R-squared: 0.9449, Adjusted R-squared: 0.938
F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06
• H0: pas de relation entre Y et X (β1 = 0, null value)
• H1: il y a une relation entre Y et X (β1 ≠ 0)
On veut savoir à combien d’écart-type se trouve notre
estimation ෠𝛽1 de la null value β1 = 0; appliqué à une
distribution de « Student » ou « t »:
t value = (Estimate – 0) / Std. Error
= (0.24024 – 0) / 11.710
= 11.710
p-value: la probabilité d’observer toute valeur ≥ |t| sachant
que H0 est vraie.
p-value petite: il est peu probable d’observer une
relation importante entre Y et X due au hasard,
sachant qu’il n’existe pas de relation entre les deux
(H0 vraie). Alors on rejette H0.
Régression linéaire simple
• Intervalle de confiance à 95% de መ𝛽1
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 18
summary(model)
Call:
lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins)
Residuals:
Min 1Q Median 3Q Max
-6.3566 -3.7237 0.1971 4.2178 5.1751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -45.17964 12.54392 -3.602 0.00696 **
nb_bateaux 0.24024 0.02052 11.710 2.58e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.868 on 8 degrees of freedom
Multiple R-squared: 0.9449, Adjusted R-squared: 0.938
F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06
• degrés de liberté: df = n – 2 = 8
• t*8 = 2.03
• CI95 = ෠𝛽1 ± t*8 x SE( ෠𝛽1)
= Estimate ± 2.03 x Std. Error
= 0.24024 ± 2.03 x 0.02052
= (0.19 , 0.28)
On est à 95% sûr que la vraie valeur de β1 se
trouve dans l’intervalle [0.19 , 0.28]
qt(p = 0.025, df = 8)
[1] -2.306004
source [4] Bibliographie
Régression linéaire simple
• 2e mesure de qualité du modèle: R2
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 19
summary(model)
Call:
lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins)
Residuals:
Min 1Q Median 3Q Max
-6.3566 -3.7237 0.1971 4.2178 5.1751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -45.17964 12.54392 -3.602 0.00696 **
nb_bateaux 0.24024 0.02052 11.710 2.58e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.868 on 8 degrees of freedom
Multiple R-squared: 0.9449, Adjusted R-squared: 0.938
F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06
Coefficient de corrélation 𝑹 = Cov(X,Y) / 𝑉𝑎𝑟 𝑋 𝑉𝑎𝑟(𝑌)
ou
𝑹 = ෠𝛽1 𝑉𝑎𝑟 𝑋 /𝑉𝑎𝑟(𝑌)
Cov(X,Y)
Var(X)
Comment interpréter R2 ?
Coursera, Data Analysis and Statistical Inference MOOC, Duke University
Régression linéaire simple
• (cont.) 2e mesure de qualité du modèle: R2
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 20
summary(model)
Call:
lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins)
Residuals:
Min 1Q Median 3Q Max
-6.3566 -3.7237 0.1971 4.2178 5.1751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -45.17964 12.54392 -3.602 0.00696 **
nb_bateaux 0.24024 0.02052 11.710 2.58e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.868 on 8 degrees of freedom
Multiple R-squared: 0.9449, Adjusted R-squared: 0.938
F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06
• On souhaite expliquer pourquoi le nombre
de lamantins décédés varie d’une année à
l’autre: on veut expliquer les variations de la
variable Y.
• On propose comme explication les
variations de la variable X.
• Le coefficient R2 est tout simplement le
rapport entre la variance expliquée et la
variance initiale:
… et le reste de variance alors … ?

Recommandé pour vous

Regression logistque
Regression  logistqueRegression  logistque
Regression logistque

regression logistique

machine learning
Data Analyse pas à pas avec R
Data Analyse pas à pas avec RData Analyse pas à pas avec R
Data Analyse pas à pas avec R

D'une logique projet à l'analyse quanti dans R - toutes les étapes de la data analyse

datadata analysisquanti
Régression linéaire simple
• (cont.) 2e mesure de qualité du modèle: R2
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 21
summary(model)
Call:
lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins)
Residuals:
Min 1Q Median 3Q Max
-6.3566 -3.7237 0.1971 4.2178 5.1751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -45.17964 12.54392 -3.602 0.00696 **
nb_bateaux 0.24024 0.02052 11.710 2.58e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.868 on 8 degrees of freedom
Multiple R-squared: 0.9449, Adjusted R-squared: 0.938
F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06
0
Régression linéaire simple
• Cas des variables catégorielles
• Y = niv_pauvreté et X = region4 catégorielle
region4 = {« northeast », « midwest », « west », « south »}
• La modalité « northeast » est la modalité de référence
niv_pauvreté = 9.50 + 0.03 region4:midwest + 1.79 region4:west + 4.16 region4:south
• Prévision du niveau de pauvreté pour la région « northeast » est 9.50
• Prévision du niveau de pauvreté pour la région « west » est 9.50 + 1.79 = 11.29
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 22
Coursera, Data Analysis and Statistical Inference MOOC, Duke University
Régression linéaire multiple
• On considère toujours une relation additive et linéaire entre Y et les variables X
• Additive:
• l’effet d’un changement d’une variable Xj sur la réponse Y est indépendant des valeurs des autres
variables
• Linéaire:
• si l’on varie X1 d’une unité, alors Y varie en moyenne de β1 unités,
• la présence de X2 ou d’une autre Xj (j≠1) n’affecte pas cette déclaration
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 23
Régression linéaire multiple
• Interprétation des valeurs des coefficients
• Un coefficient βj estime la variation (en moyenne) de Y
par unité de variation de sa variable Xj, en fixant tous les
autres variables explicatives.
• Cas idéal: toutes les variables sont non corrélées
• Usuellement, les variables tendent à varier ensemble …
• Quand il y a corrélation entre les variables
• la variance des coefficients augmente
• les interprétations risquent d’être hasardeuses
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 24

Recommandé pour vous

Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf

jjjjj

Filtrage image
Filtrage imageFiltrage image
Filtrage image

Filtrage image

5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins

Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive). La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R). Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.

knn
Régression linéaire multiple
• Exercice « The Marketing Plan »
• fichier advertising_data.txt (200 x 4)
• source [1], voir Bibliographie
1. Y a-t-il une relation entre le budget de publicité et les
ventes ?
2. Quelle est la "force" de cette relation ?
3. Quel média contribue aux ventes ?
4. Dans quelle mesure chaque média contribue-t-il aux
ventes?
5. Comment prédire les futures ventes avec le plus
d'exactitude possible ?
6. La relation est-elle linéaire ?
7. Y a-t-il une synergie entre les média ?
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 25
réponse
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
Régression linéaire multiple
• Exercice « The Marketing Plan »
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 26
summary(modele)
Call:
lm(formula = Sales ~ ., data = data)
Residuals:
Min 1Q Median 3Q Max
-8.8277 -0.8908 0.2418 1.1893 2.8292
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.938889 0.311908 9.422 <2e-16 ***
TV 0.045765 0.001395 32.809 <2e-16 ***
Radio 0.188530 0.008611 21.893 <2e-16 ***
Newspaper -0.001037 0.005871 -0.177 0.86
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.686 on 196 degrees of freedom
Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
Régression linéaire multiple
1. Y a-t-il une relation entre le budget de publicité et les ventes ?
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 27
summary(modele)
Call:
lm(formula = Sales ~ ., data = data)
Residuals:
Min 1Q Median 3Q Max
-8.8277 -0.8908 0.2418 1.1893 2.8292
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.938889 0.311908 9.422 <2e-16 ***
TV 0.045765 0.001395 32.809 <2e-16 ***
Radio 0.188530 0.008611 21.893 <2e-16 ***
Newspaper -0.001037 0.005871 -0.177 0.86
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.686 on 196 degrees of freedom
Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
• Notion de la statistique F (F-statistic)
• Test d’hypothèse
• H0: β1 = β2 = β3 = … = βp = 0
• H1: au moins un βj est non nul
Ici F = 570 >> 1 alors on rejette H0
Pour répondre à la question, il ne faut pas regarder
individuellement les p-value de chaque coefficient. Voir
question 3. plus loin.
somme des carrés totale
(SCT)
il s’ajuste au nombre de variables, ici p
Régression linéaire multiple
2. Quelle est la "force" de cette relation ?
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 28
summary(modele)
Call:
lm(formula = Sales ~ ., data = data)
Residuals:
Min 1Q Median 3Q Max
-8.8277 -0.8908 0.2418 1.1893 2.8292
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.938889 0.311908 9.422 <2e-16 ***
TV 0.045765 0.001395 32.809 <2e-16 ***
Radio 0.188530 0.008611 21.893 <2e-16 ***
Newspaper -0.001037 0.005871 -0.177 0.86
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.686 on 196 degrees of freedom
Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
Mesures de qualité du modèle:
• RSE = 1.686
• la moyenne de Sales est 14.022
• donc une erreur de RSE / 𝑆𝑎𝑙𝑒𝑠 = 12%
• R2
• 89.7% de la variance totale est expliquée par le
modèle.
• Adjusted R2
• ajoute une pénalité sur le nombre de variables
• R2 augmente si on ajoute une variable, mais si la variable
n’apporte aucune nouvelle information l’Adjusted R2
n’augmentera pas
SSE = SST – SSR   SCE = SCT - SCR
SS: sum of squares   SC: somme des carrées
E=Explained, T=Total, R=Residual

Recommandé pour vous

5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering

Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive). La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R). Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.

k-meansclusteringcah
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistique

Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive). La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R). Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.

statistical learning
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4j

Présentation de la base NoSQL graphe Neo4j aux elèves du module NFE204 du CNAM Paris, le 17 janvier 2017.

grapheneo4jnosql
Régression linéaire multiple
3. Quel média contribue aux ventes?
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 29
summary(modele)
Call:
lm(formula = Sales ~ ., data = data)
Residuals:
Min 1Q Median 3Q Max
-8.8277 -0.8908 0.2418 1.1893 2.8292
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.938889 0.311908 9.422 <2e-16 ***
TV 0.045765 0.001395 32.809 <2e-16 ***
Radio 0.188530 0.008611 21.893 <2e-16 ***
Newspaper -0.001037 0.005871 -0.177 0.86
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.686 on 196 degrees of freedom
Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
• Rappel: Pr(>|t|) = p-value doit être
inférieur au seuil de signification (5%) ou
probabilité d’erreur de type I
• Les valeurs de p-value respectives
suggèrent que seuls les médias TV et
Radio sont liées aux ventes (Sales)
Note: si le nombre de variables p est grand, on risque
de faire des mauvaises interprétations: on pourrait
avoir quelques p-values < 0.05 par hasard
Dans ce cas, et pour répondre à cette question, une
méthode de « sélection de modèle » (expliquée plus
loin dans ce cours) est préférable.
Régression linéaire multiple
4. Dans quelle mesure chaque média contribue-t-il aux ventes?
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 30
summary(modele)
Call:
lm(formula = Sales ~ ., data = data)
Residuals:
Min 1Q Median 3Q Max
-8.8277 -0.8908 0.2418 1.1893 2.8292
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.938889 0.311908 9.422 <2e-16 ***
TV 0.045765 0.001395 32.809 <2e-16 ***
Radio 0.188530 0.008611 21.893 <2e-16 ***
Newspaper -0.001037 0.005871 -0.177 0.86
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.686 on 196 degrees of freedom
Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
Première approche: R2
• Vous pouvez effectuer une régression
linéaire simple pour chaque variable:
TV, Radio et Newspaper.
• Comparez les R2 respectifs
• TV: R2 = 0.61
• Radio: R2 = 0.33
• Newspaper: R2 = 0.05
• Il y a évidence d’une association plutôt
« molle » entre Newspaper et les ventes,
lorsque l’on ignore TV et Radio !
Régression linéaire multiple
4. Dans quelle mesure chaque média contribue-t-il aux ventes?
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 31
summary(modele)
Call:
lm(formula = Sales ~ ., data = data)
Residuals:
Min 1Q Median 3Q Max
-8.8277 -0.8908 0.2418 1.1893 2.8292
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.938889 0.311908 9.422 <2e-16 ***
TV 0.045765 0.001395 32.809 <2e-16 ***
Radio 0.188530 0.008611 21.893 <2e-16 ***
Newspaper -0.001037 0.005871 -0.177 0.86
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.686 on 196 degrees of freedom
Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
Deuxième approche: les IC
• Utilisez les Std. Error pour
construire les intervalles de confiance à
95% respectifs
• TV: CI95 = (0.043, 0.049)
• Radio: CI95 = (0.172, 0.206)
• Newspaper: CI95 = (-0.013, 0.011)
• Le IC à 95% de Newspaper inclut le zéro: la
variable n’est pas significative statistiquement
… peut être dû à la multicolinéarité ? vérifiez:
>library(car)
>vif(modele) # Facteur d'inflation de la variance
TV Radio Newspaper
1.004611 1.144952 1.145187
Régression linéaire multiple
5. Comment prédire les futures ventes avec le plus d'exactitude possible?
• Attention: ici on évalue la prévision du modèle avec l’ensemble de données d’apprentissage
• Intervalle de confiance des prévisions (Y = f(X) + 𝜖)
>ICpred <- predict(object = modele, newdata = data, interval = "pred", level = 0.95)
>head(ICpred)
fit lwr upr
1 20.52397 17.158283 23.88967
2 12.33785 8.981672 15.69404
3 12.30767 8.919038 15.69630
...
• Intervalle de confiance de la droite ajustée (E(Y))
>ICdte <- predict(object = modele, newdata = data, interval = "conf", level = 0.95)
head(ICdte)
fit lwr upr
1 20.52397 19.99627 21.05168
2 12.33785 11.87465 12.80106
3 12.30767 11.64932 12.96602
…
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 32
les ICpred seront toujours plus large que les ICdte
car ils tiennent compte de l’incertitude ou erreur
irréductible 𝜖

Recommandé pour vous

5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires

Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive). La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R). Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.

treesdata scientistrandom frest
04 Introduction au logiciel R
04 Introduction au logiciel R04 Introduction au logiciel R
04 Introduction au logiciel R

Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive). La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R). Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.

ggplot2rstatistics
05 Sélection de modèle linéaire
05 Sélection de modèle linéaire05 Sélection de modèle linéaire
05 Sélection de modèle linéaire

Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive). La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R). Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.

regularizationmodel selection
Régression linéaire multiple
5. La relation est-elle linéaire?
• Afficher les résidus … commentez
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 33
Régression linéaire multiple
5. Y a-t-il une synergie entre les média?
• Il se peut que la relation entre Y et les
variables TV et Radio ne soit pas additive !
• il y a interaction entre ces 2 variables
• les résidus positifs restent autour de la ligne
de 45° où les budgets de TV et de Radio sont
répartis de façon presque égale
• les résidus négatifs (difficile à voir dans la
figure) sont éloignés de cette ligne
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 34
terme d’intéraction
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
Régression linéaire multiple
• Cas des variables catégorielles
• Fonction R: model.matrix()
model.matrix(object = ~ ., data = Credit )
convertir en data.frame si vous utilisez lm()
vous pouvez lancer lm() avec la colonne (Intercept)
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 35
Bibliographie
James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
Lafont G., Leçon 4 Corrélations, Module EAR206, CNAM de Paris, 2013
Ng A., Machine Learning MOOC, Coursera – Stanford University
Coursera, Data Analysis and Statistical Inference MOOC, Coursera – Duke University
Cornillon P., Matzner-LØber E., Régression avec R, ISBN 9782817801834, Springer, 2011
6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 36

Recommandé pour vous

Regress lineaire simple imp
Regress lineaire simple impRegress lineaire simple imp
Regress lineaire simple imp
Formation Fondamentaux de la value at risk
Formation Fondamentaux de la value at riskFormation Fondamentaux de la value at risk
Formation Fondamentaux de la value at risk

Actions-Finance propose la formation Fondamentaux de la value at risk Cette formation en finance permet notamment de: •Comprendre la VaR. •Savoir déterminer la valeur de la VaR dans divers portefeuilles de gestion. •Comprendre les risques liés à la VaR. Pour plus de renseignements sur la formation Fondamentaux de la value at risk, N’hésitez pas à nous contacter par téléphone au + 33 (0)1 47 20 37 30, ou par email sur contact@actions-finance.com

gestionformation financevalue at risk
Sujet dcg-contrôle-de-gestion-2012
Sujet dcg-contrôle-de-gestion-2012Sujet dcg-contrôle-de-gestion-2012
Sujet dcg-contrôle-de-gestion-2012

contrôle de gestion

Contenu connexe

Tendances

La Regression lineaire
La Regression lineaireLa Regression lineaire
La Regression lineaire
FIKRIMAIL
 
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Adad Med Chérif
 
COURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLESCOURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLES
Abdoulaziz ALHASSANE GARBA
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
Jaouad Dabounou
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
Jaouad Dabounou
 
Analyse de régression multiple
Analyse de régression multipleAnalyse de régression multiple
Analyse de régression multiple
Adad Med Chérif
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
Mohamed Heny SELMI
 
Cours echantillonnage et estimations
Cours echantillonnage et estimationsCours echantillonnage et estimations
Cours echantillonnage et estimations
Mehdi Rajawi
 
Introduction aux statistiques descriptives et tests d'hypothèses
Introduction aux statistiques descriptives et tests d'hypothèsesIntroduction aux statistiques descriptives et tests d'hypothèses
Introduction aux statistiques descriptives et tests d'hypothèses
Clément Dussarps
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
Boris Guarisma
 
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
Adad Med Chérif
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
hanamettali
 
réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels
Oussama Werfelli
 
Analyses des données par SPSS et R
Analyses  des données par  SPSS et RAnalyses  des données par  SPSS et R
Analyses des données par SPSS et R
AB IR
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des Correspondances
Jaouad Dabounou
 
Regression logistque
Regression  logistqueRegression  logistque
Regression logistque
Ferdaous HDIOUD
 
Data Analyse pas à pas avec R
Data Analyse pas à pas avec RData Analyse pas à pas avec R
Data Analyse pas à pas avec R
Amar LAKEL, PhD
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf
imane26
 
Filtrage image
Filtrage imageFiltrage image
Filtrage image
mostafadess
 

Tendances (20)

La Regression lineaire
La Regression lineaireLa Regression lineaire
La Regression lineaire
 
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
 
COURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLESCOURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLES
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
Analyse de régression multiple
Analyse de régression multipleAnalyse de régression multiple
Analyse de régression multiple
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
 
Cours echantillonnage et estimations
Cours echantillonnage et estimationsCours echantillonnage et estimations
Cours echantillonnage et estimations
 
Introduction aux statistiques descriptives et tests d'hypothèses
Introduction aux statistiques descriptives et tests d'hypothèsesIntroduction aux statistiques descriptives et tests d'hypothèses
Introduction aux statistiques descriptives et tests d'hypothèses
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
 
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
 
réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels
 
Analyses des données par SPSS et R
Analyses  des données par  SPSS et RAnalyses  des données par  SPSS et R
Analyses des données par SPSS et R
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des Correspondances
 
Regression logistque
Regression  logistqueRegression  logistque
Regression logistque
 
Data Analyse pas à pas avec R
Data Analyse pas à pas avec RData Analyse pas à pas avec R
Data Analyse pas à pas avec R
 
Series temporelles
Series temporellesSeries temporelles
Series temporelles
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf
 
Filtrage image
Filtrage imageFiltrage image
Filtrage image
 

En vedette

5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
Boris Guarisma
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
Boris Guarisma
 
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistique
Boris Guarisma
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4j
Boris Guarisma
 
5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires
Boris Guarisma
 
04 Introduction au logiciel R
04 Introduction au logiciel R04 Introduction au logiciel R
04 Introduction au logiciel R
Boris Guarisma
 
05 Sélection de modèle linéaire
05 Sélection de modèle linéaire05 Sélection de modèle linéaire
05 Sélection de modèle linéaire
Boris Guarisma
 
Regress lineaire simple imp
Regress lineaire simple impRegress lineaire simple imp
Regress lineaire simple imp
Khawla At
 
Formation Fondamentaux de la value at risk
Formation Fondamentaux de la value at riskFormation Fondamentaux de la value at risk
Formation Fondamentaux de la value at risk
Actions-Finance
 
Sujet dcg-contrôle-de-gestion-2012
Sujet dcg-contrôle-de-gestion-2012Sujet dcg-contrôle-de-gestion-2012
Sujet dcg-contrôle-de-gestion-2012
Youness ELrhermoul
 
Microsoft Technologies for Data Science 201612
Microsoft Technologies for Data Science 201612Microsoft Technologies for Data Science 201612
Microsoft Technologies for Data Science 201612
Mark Tabladillo
 
Music recommendations API with Neo4j
Music recommendations API with Neo4jMusic recommendations API with Neo4j
Music recommendations API with Neo4j
Boris Guarisma
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4j
Boris Guarisma
 
04 amortissementdegressif
04 amortissementdegressif04 amortissementdegressif
04 amortissementdegressif
hassan1488
 
Comptabilité
ComptabilitéComptabilité
Comptabilité
elfilalichaimae
 
قيمة الزمن عند العلماء أبو غدة
قيمة الزمن عند العلماء أبو غدةقيمة الزمن عند العلماء أبو غدة
قيمة الزمن عند العلماء أبو غدة
Way To Islem
 
Exercices de stat. descriptive
Exercices de stat. descriptiveExercices de stat. descriptive
Exercices de stat. descriptive
Smahane Samita
 
Vocabulaire economie finances2012
Vocabulaire economie finances2012Vocabulaire economie finances2012
Vocabulaire economie finances2012
Lulyanov78
 
Artificial Intelligence, Machine Learning and Deep Learning
Artificial Intelligence, Machine Learning and Deep LearningArtificial Intelligence, Machine Learning and Deep Learning
Artificial Intelligence, Machine Learning and Deep Learning
Sujit Pal
 
Comptabilite-analytique
 Comptabilite-analytique Comptabilite-analytique
Comptabilite-analytique
Mejdoubi Amal
 

En vedette (20)

5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistique
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4j
 
5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires
 
04 Introduction au logiciel R
04 Introduction au logiciel R04 Introduction au logiciel R
04 Introduction au logiciel R
 
05 Sélection de modèle linéaire
05 Sélection de modèle linéaire05 Sélection de modèle linéaire
05 Sélection de modèle linéaire
 
Regress lineaire simple imp
Regress lineaire simple impRegress lineaire simple imp
Regress lineaire simple imp
 
Formation Fondamentaux de la value at risk
Formation Fondamentaux de la value at riskFormation Fondamentaux de la value at risk
Formation Fondamentaux de la value at risk
 
Sujet dcg-contrôle-de-gestion-2012
Sujet dcg-contrôle-de-gestion-2012Sujet dcg-contrôle-de-gestion-2012
Sujet dcg-contrôle-de-gestion-2012
 
Microsoft Technologies for Data Science 201612
Microsoft Technologies for Data Science 201612Microsoft Technologies for Data Science 201612
Microsoft Technologies for Data Science 201612
 
Music recommendations API with Neo4j
Music recommendations API with Neo4jMusic recommendations API with Neo4j
Music recommendations API with Neo4j
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4j
 
04 amortissementdegressif
04 amortissementdegressif04 amortissementdegressif
04 amortissementdegressif
 
Comptabilité
ComptabilitéComptabilité
Comptabilité
 
قيمة الزمن عند العلماء أبو غدة
قيمة الزمن عند العلماء أبو غدةقيمة الزمن عند العلماء أبو غدة
قيمة الزمن عند العلماء أبو غدة
 
Exercices de stat. descriptive
Exercices de stat. descriptiveExercices de stat. descriptive
Exercices de stat. descriptive
 
Vocabulaire economie finances2012
Vocabulaire economie finances2012Vocabulaire economie finances2012
Vocabulaire economie finances2012
 
Artificial Intelligence, Machine Learning and Deep Learning
Artificial Intelligence, Machine Learning and Deep LearningArtificial Intelligence, Machine Learning and Deep Learning
Artificial Intelligence, Machine Learning and Deep Learning
 
Comptabilite-analytique
 Comptabilite-analytique Comptabilite-analytique
Comptabilite-analytique
 

Similaire à 5.2 Régression linéaire

modele non lineaire machine learning and data science
modele non lineaire machine learning and data sciencemodele non lineaire machine learning and data science
modele non lineaire machine learning and data science
rabiinasri11
 
Regression simple
Regression simpleRegression simple
Regression simple
LearningMahout
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)
mohamedchaouche
 
Stata- Séries Temp..pptx
Stata- Séries Temp..pptxStata- Séries Temp..pptx
Stata- Séries Temp..pptx
CoachingProgram
 
modele destimation.pptx
modele destimation.pptxmodele destimation.pptx
modele destimation.pptx
zahrakmar
 
regression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfregression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdf
SidiAbdallah1
 
Calage sur bornes minimales
Calage sur bornes minimalesCalage sur bornes minimales
Calage sur bornes minimales
Antoine Rebecq
 
Test d'hypothèses en statistique Chapitre 7.pdf
Test d'hypothèses en statistique Chapitre 7.pdfTest d'hypothèses en statistique Chapitre 7.pdf
Test d'hypothèses en statistique Chapitre 7.pdf
KOUADIOPATRICE1
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
SidiAbdallah1
 
L’apport des techniques statistiques dans les projets Lean 6 Sigma
L’apport des techniques statistiques dans les projets Lean 6 SigmaL’apport des techniques statistiques dans les projets Lean 6 Sigma
L’apport des techniques statistiques dans les projets Lean 6 Sigma
XL Formation
 
analyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptxanalyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptx
Malek338029
 
analyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptxanalyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptx
Malek338029
 
Algebre_lineaire_GEOLOGIE-S1.pdf
Algebre_lineaire_GEOLOGIE-S1.pdfAlgebre_lineaire_GEOLOGIE-S1.pdf
Algebre_lineaire_GEOLOGIE-S1.pdf
ThierrySam1
 

Similaire à 5.2 Régression linéaire (14)

Slides act6420-e2014-partie-2
Slides act6420-e2014-partie-2Slides act6420-e2014-partie-2
Slides act6420-e2014-partie-2
 
modele non lineaire machine learning and data science
modele non lineaire machine learning and data sciencemodele non lineaire machine learning and data science
modele non lineaire machine learning and data science
 
Regression simple
Regression simpleRegression simple
Regression simple
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)
 
Stata- Séries Temp..pptx
Stata- Séries Temp..pptxStata- Séries Temp..pptx
Stata- Séries Temp..pptx
 
modele destimation.pptx
modele destimation.pptxmodele destimation.pptx
modele destimation.pptx
 
regression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfregression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdf
 
Calage sur bornes minimales
Calage sur bornes minimalesCalage sur bornes minimales
Calage sur bornes minimales
 
Test d'hypothèses en statistique Chapitre 7.pdf
Test d'hypothèses en statistique Chapitre 7.pdfTest d'hypothèses en statistique Chapitre 7.pdf
Test d'hypothèses en statistique Chapitre 7.pdf
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
L’apport des techniques statistiques dans les projets Lean 6 Sigma
L’apport des techniques statistiques dans les projets Lean 6 SigmaL’apport des techniques statistiques dans les projets Lean 6 Sigma
L’apport des techniques statistiques dans les projets Lean 6 Sigma
 
analyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptxanalyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptx
 
analyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptxanalyse dimentionnelle et similitude.pptx
analyse dimentionnelle et similitude.pptx
 
Algebre_lineaire_GEOLOGIE-S1.pdf
Algebre_lineaire_GEOLOGIE-S1.pdfAlgebre_lineaire_GEOLOGIE-S1.pdf
Algebre_lineaire_GEOLOGIE-S1.pdf
 

Dernier

JSIE 2024 : Les exploitants du Réseau Equin face à la crise
JSIE 2024 : Les exploitants du Réseau Equin face à la criseJSIE 2024 : Les exploitants du Réseau Equin face à la crise
JSIE 2024 : Les exploitants du Réseau Equin face à la crise
Institut de l'Elevage - Idele
 
ELABE BFMTV Actualisation estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation estimation 2nd tour élections législatives 2024ELABE BFMTV Actualisation estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation estimation 2nd tour élections législatives 2024
contact Elabe
 
ELABE BFMTV Actualisation 23H20 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 23H20 estimation 2nd tour élections législatives 2024ELABE BFMTV Actualisation 23H20 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 23H20 estimation 2nd tour élections législatives 2024
contact Elabe
 
Flash'Conso - Juillet 2024 : Les Français et les prospectus papier
Flash'Conso - Juillet 2024 : Les Français et les prospectus papierFlash'Conso - Juillet 2024 : Les Français et les prospectus papier
Flash'Conso - Juillet 2024 : Les Français et les prospectus papier
Enov
 
Les Français et la situation post élections législatives
Les Français et la situation post élections législativesLes Français et la situation post élections législatives
Les Français et la situation post élections législatives
contact Elabe
 
JSIE 2024 : le Portail Inosys, le site de références
JSIE 2024 : le Portail Inosys, le site de référencesJSIE 2024 : le Portail Inosys, le site de références
JSIE 2024 : le Portail Inosys, le site de références
Institut de l'Elevage - Idele
 
ELABE BFMTV Estimation 2nd tour élections législatives 2024
ELABE BFMTV Estimation 2nd tour élections législatives 2024ELABE BFMTV Estimation 2nd tour élections législatives 2024
ELABE BFMTV Estimation 2nd tour élections législatives 2024
contact Elabe
 
JSIE 2024 :  Déclic Travail, un outil pour repenser son travail en équin
JSIE 2024 : 	Déclic Travail, un outil pour repenser son travail en équinJSIE 2024 : 	Déclic Travail, un outil pour repenser son travail en équin
JSIE 2024 :  Déclic Travail, un outil pour repenser son travail en équin
Institut de l'Elevage - Idele
 
ELABE BFMTV Actualisation 21H37 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 21H37 estimation 2nd tour élections législatives 2024ELABE BFMTV Actualisation 21H37 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 21H37 estimation 2nd tour élections législatives 2024
contact Elabe
 
ELABE BFMTV Actualisation 23H59 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 23H59 estimation 2nd tour élections législatives 2024ELABE BFMTV Actualisation 23H59 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 23H59 estimation 2nd tour élections législatives 2024
contact Elabe
 
Projection de la participation ELABE pour BFMTV
Projection de la participation ELABE pour BFMTVProjection de la participation ELABE pour BFMTV
Projection de la participation ELABE pour BFMTV
contact Elabe
 
Plan de communication pour "Les 7 sens".
Plan de communication pour "Les 7 sens".Plan de communication pour "Les 7 sens".
Plan de communication pour "Les 7 sens".
kevmaufay
 
JSIE 2024 : Estimation de revenus des exploitations du Réseau équin
JSIE 2024 : Estimation de revenus des exploitations du Réseau équinJSIE 2024 : Estimation de revenus des exploitations du Réseau équin
JSIE 2024 : Estimation de revenus des exploitations du Réseau équin
Institut de l'Elevage - Idele
 
Les Français et les élections législatives
Les Français et les élections législativesLes Français et les élections législatives
Les Français et les élections législatives
contact Elabe
 

Dernier (14)

JSIE 2024 : Les exploitants du Réseau Equin face à la crise
JSIE 2024 : Les exploitants du Réseau Equin face à la criseJSIE 2024 : Les exploitants du Réseau Equin face à la crise
JSIE 2024 : Les exploitants du Réseau Equin face à la crise
 
ELABE BFMTV Actualisation estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation estimation 2nd tour élections législatives 2024ELABE BFMTV Actualisation estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation estimation 2nd tour élections législatives 2024
 
ELABE BFMTV Actualisation 23H20 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 23H20 estimation 2nd tour élections législatives 2024ELABE BFMTV Actualisation 23H20 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 23H20 estimation 2nd tour élections législatives 2024
 
Flash'Conso - Juillet 2024 : Les Français et les prospectus papier
Flash'Conso - Juillet 2024 : Les Français et les prospectus papierFlash'Conso - Juillet 2024 : Les Français et les prospectus papier
Flash'Conso - Juillet 2024 : Les Français et les prospectus papier
 
Les Français et la situation post élections législatives
Les Français et la situation post élections législativesLes Français et la situation post élections législatives
Les Français et la situation post élections législatives
 
JSIE 2024 : le Portail Inosys, le site de références
JSIE 2024 : le Portail Inosys, le site de référencesJSIE 2024 : le Portail Inosys, le site de références
JSIE 2024 : le Portail Inosys, le site de références
 
ELABE BFMTV Estimation 2nd tour élections législatives 2024
ELABE BFMTV Estimation 2nd tour élections législatives 2024ELABE BFMTV Estimation 2nd tour élections législatives 2024
ELABE BFMTV Estimation 2nd tour élections législatives 2024
 
JSIE 2024 :  Déclic Travail, un outil pour repenser son travail en équin
JSIE 2024 : 	Déclic Travail, un outil pour repenser son travail en équinJSIE 2024 : 	Déclic Travail, un outil pour repenser son travail en équin
JSIE 2024 :  Déclic Travail, un outil pour repenser son travail en équin
 
ELABE BFMTV Actualisation 21H37 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 21H37 estimation 2nd tour élections législatives 2024ELABE BFMTV Actualisation 21H37 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 21H37 estimation 2nd tour élections législatives 2024
 
ELABE BFMTV Actualisation 23H59 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 23H59 estimation 2nd tour élections législatives 2024ELABE BFMTV Actualisation 23H59 estimation 2nd tour élections législatives 2024
ELABE BFMTV Actualisation 23H59 estimation 2nd tour élections législatives 2024
 
Projection de la participation ELABE pour BFMTV
Projection de la participation ELABE pour BFMTVProjection de la participation ELABE pour BFMTV
Projection de la participation ELABE pour BFMTV
 
Plan de communication pour "Les 7 sens".
Plan de communication pour "Les 7 sens".Plan de communication pour "Les 7 sens".
Plan de communication pour "Les 7 sens".
 
JSIE 2024 : Estimation de revenus des exploitations du Réseau équin
JSIE 2024 : Estimation de revenus des exploitations du Réseau équinJSIE 2024 : Estimation de revenus des exploitations du Réseau équin
JSIE 2024 : Estimation de revenus des exploitations du Réseau équin
 
Les Français et les élections législatives
Les Français et les élections législativesLes Français et les élections législatives
Les Français et les élections législatives
 

5.2 Régression linéaire

  • 1. Régression Linéaire 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 1
  • 2. Objectifs  Comprendre la relation additive et linéaire entre variables  Comprendre la fonction de coût  Avoir une notion sur les méthodes de minimisation de la fonction de coût  Savoir interpréter l’affichage summary de R d’un modèle de régression linéaire  Savoir interpréter les mesures de qualité RSE et R2 d’un modèle de régression linéaire  Comprendre la notion d’interaction entre variables 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 2
  • 3. Sommaire • Relation linéaire • Régression Linéaire Simple • Régression Linéaire Multiple • Bibliographie 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 3
  • 4. Relation linéaire • Soit les observations enregistrées dans le tableau. • nombre lamantins décédés • nombre de bateaux enregistrés • Le graphique montre une relation croissante et presque linéaire: • le nombre de lamantins décédés augmente quand le nombre de bateaux enregistrés augmente 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 4 Nombre de lamantins décédés par des bateaux à moteur (en milliers) le long des côtes de la Floride, entre 1981 et 1990 source [2] Bibliographie
  • 5. Relation linéaire • Soit un individu « omniscient » qui connaît tout ce qui se passe entre les bateaux, les lamantins et l’environnement. • Cet individu stipule un modèle f(X) linéaire dont les valeurs des paramètres sont • β0 = -49 • β1 = 0.25 • Comme il sait tout, il enregistre les erreurs sur le nombre de lamantins décédés dues • à l’environnement (présence de crocodiles), • aux mauvaises imputations • à la présence d’un élément au hasard • … 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 5 Modèle linéaire stipulé par l’individu « omniscient »
  • 6. Relation linéaire • Par contre, nous, on ne connaît ni le modèle linéaire de l’individu « omniscient » ni les erreurs qu’il a enregistrées. • On ne connaît que nos observations • On va tenter manuellement de proposer des estimations des paramètres β0 et β1 • ෡𝜷0 = -39, ෡𝜷 𝟏 = 0.23 • ෡𝜷0 = -57, ෡𝜷 𝟏 = 0.26 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 6 quel est le meilleur ?
  • 7. Relation linéaire • Il faut comparer les deux propositions d’estimation de paramètres suivantes: • ෡𝜷0 = -39, ෡𝜷 𝟏 = 0.23 • ෡𝜷0 = -57, ෡𝜷 𝟏 = 0.26 • … selon quel critère ? • on peut faire la somme des erreurs respectives • en prenant le carré afin d’additionner uniquement des nombres positifs • ensuite on sélectionnera le minimum • C’est la méthode des moindre carrés • RSS*: somme des carrés des résidus 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 7 RSS = 195.46 RSS = 211.79 (*) residual sum of squares ou somme des carrés résiduelle (SCR) Important: pour les méthodes ou modèles basés sur les moindres carrées (least squares) assurez vous que le nombre de variables soit inférieur que le nombre d’observations (n > p)
  • 8. Relation linéaire • Supposons le modèle linéaire f(X) tel que Y = f(X) + 𝜖 • La somme des carrés des erreurs s’écrit • Les valeurs des paramètres ෡𝜷0 et ෡𝜷 𝟏 qui minimisent RSS par la méthode des moindres carrés: 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 8
  • 9. Relation linéaire • Version « machine learning » • notation β = Ɵ • m observations x n variables • X[., 1] = 𝒙 𝟎 (𝒊) = 1 variable dummy • መ𝑓=> fonction hypothèse h(X) = ƟT X • Fonction de coût à minimiser avec l’algorithme du gradient 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 9 n+1 colonnes cas d’une régression linéaire simple 𝜖 ℝ versions vectorisées source [3] Bibliographie
  • 10. Relation linéaire • Droite des moindres carrés • Calculer le modèle avec R: • Interpértation: • A chaque enregistrement d’un milliers de bateaux, le nombre moyen de lamantins décédés augmente de 0.24 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 10 pente ordonnée à l’origine መ𝑓(X) = 0.24 X – 45.17 > model <- lm(nb_lamantins~nb_bateaux, data = lamantins) > model$coefficients (Intercept) nb_bateaux -45.1796424 0.2402433 droite des moindres carrés መ𝛽0 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡 n’a aucune interprétation (pas de sens) lorsque X=0
  • 11. Régression linéaire simple • Simple = une seule variable X • On ajuste la droite avec une fonction de coût quadratique • On aurait pu utiliser une fonction de coût en valeur absolue, plus robuste • voir ligne noire (pas pointillée!) sur le figure • Malgré cela, le coût quadratique est le coût le plus souvent utilisé 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 11 source [5] Bibliographie
  • 12. Régression linéaire simple • Point aberrants (outliers) • Ne pas les éliminer systématiquement, il faut s’assurer si mauvaise imputation, etc. et le placer correctement dans le contexte de l’étude • Alternative: utiliser une méthode plus robuste … 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 12 n’affecte pas la direction de la droite ajustée affecte la direction de la droite ajustée rlm() du package MASS source [4] Bibliographie source [4] Bibliographie Coursera, Data Analysis and Statistical Inference MOOC, Duke University
  • 13. Régression linéaire simple • Estimation des valeurs des coefficients β 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 13 መ𝑓(X) = 0.24 X – 45.17 summary(model) Call: lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins) Residuals: Min 1Q Median 3Q Max -6.3566 -3.7237 0.1971 4.2178 5.1751 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -45.17964 12.54392 -3.602 0.00696 ** nb_bateaux 0.24024 0.02052 11.710 2.58e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.868 on 8 degrees of freedom Multiple R-squared: 0.9449, Adjusted R-squared: 0.938 F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06
  • 14. Régression linéaire simple • Estimation des valeurs des coefficients β 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 14 summary(model) Call: lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins) Residuals: Min 1Q Median 3Q Max -6.3566 -3.7237 0.1971 4.2178 5.1751 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -45.17964 12.54392 -3.602 0.00696 ** nb_bateaux 0.24024 0.02052 11.710 2.58e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.868 on 8 degrees of freedom Multiple R-squared: 0.9449, Adjusted R-squared: 0.938 F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06 erreur irréductible • Std. Error: • estimation ෝ𝝈2 = RSE avec
  • 15. Régression linéaire simple • Conditions sur les résidus • distribution ~gaussienne de moyenne 0 • variance constante (homoscédasticité) • ne montrent pas de schéma (pattern) particulier (indépendance) 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 15 Coursera, Data Analysis and Statistical Inference MOOC, Duke University
  • 16. Régression linéaire simple • Conditions sur les résidus 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 16 summary(model) Call: lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins) Residuals: Min 1Q Median 3Q Max -6.3566 -3.7237 0.1971 4.2178 5.1751 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -45.17964 12.54392 -3.602 0.00696 ** nb_bateaux 0.24024 0.02052 11.710 2.58e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.868 on 8 degrees of freedom Multiple R-squared: 0.9449, Adjusted R-squared: 0.938 F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06 df = n – 2 = 10 obs. – 2 = 8 1ère mesure de qualité: la réponse se dévie, en moyenne, de la vraie droite de régression de RSE
  • 17. Régression linéaire simple • Test d’hypothèse sur መ𝛽1 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 17 summary(model) Call: lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins) Residuals: Min 1Q Median 3Q Max -6.3566 -3.7237 0.1971 4.2178 5.1751 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -45.17964 12.54392 -3.602 0.00696 ** nb_bateaux 0.24024 0.02052 11.710 2.58e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.868 on 8 degrees of freedom Multiple R-squared: 0.9449, Adjusted R-squared: 0.938 F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06 • H0: pas de relation entre Y et X (β1 = 0, null value) • H1: il y a une relation entre Y et X (β1 ≠ 0) On veut savoir à combien d’écart-type se trouve notre estimation ෠𝛽1 de la null value β1 = 0; appliqué à une distribution de « Student » ou « t »: t value = (Estimate – 0) / Std. Error = (0.24024 – 0) / 11.710 = 11.710 p-value: la probabilité d’observer toute valeur ≥ |t| sachant que H0 est vraie. p-value petite: il est peu probable d’observer une relation importante entre Y et X due au hasard, sachant qu’il n’existe pas de relation entre les deux (H0 vraie). Alors on rejette H0.
  • 18. Régression linéaire simple • Intervalle de confiance à 95% de መ𝛽1 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 18 summary(model) Call: lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins) Residuals: Min 1Q Median 3Q Max -6.3566 -3.7237 0.1971 4.2178 5.1751 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -45.17964 12.54392 -3.602 0.00696 ** nb_bateaux 0.24024 0.02052 11.710 2.58e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.868 on 8 degrees of freedom Multiple R-squared: 0.9449, Adjusted R-squared: 0.938 F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06 • degrés de liberté: df = n – 2 = 8 • t*8 = 2.03 • CI95 = ෠𝛽1 ± t*8 x SE( ෠𝛽1) = Estimate ± 2.03 x Std. Error = 0.24024 ± 2.03 x 0.02052 = (0.19 , 0.28) On est à 95% sûr que la vraie valeur de β1 se trouve dans l’intervalle [0.19 , 0.28] qt(p = 0.025, df = 8) [1] -2.306004 source [4] Bibliographie
  • 19. Régression linéaire simple • 2e mesure de qualité du modèle: R2 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 19 summary(model) Call: lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins) Residuals: Min 1Q Median 3Q Max -6.3566 -3.7237 0.1971 4.2178 5.1751 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -45.17964 12.54392 -3.602 0.00696 ** nb_bateaux 0.24024 0.02052 11.710 2.58e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.868 on 8 degrees of freedom Multiple R-squared: 0.9449, Adjusted R-squared: 0.938 F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06 Coefficient de corrélation 𝑹 = Cov(X,Y) / 𝑉𝑎𝑟 𝑋 𝑉𝑎𝑟(𝑌) ou 𝑹 = ෠𝛽1 𝑉𝑎𝑟 𝑋 /𝑉𝑎𝑟(𝑌) Cov(X,Y) Var(X) Comment interpréter R2 ? Coursera, Data Analysis and Statistical Inference MOOC, Duke University
  • 20. Régression linéaire simple • (cont.) 2e mesure de qualité du modèle: R2 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 20 summary(model) Call: lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins) Residuals: Min 1Q Median 3Q Max -6.3566 -3.7237 0.1971 4.2178 5.1751 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -45.17964 12.54392 -3.602 0.00696 ** nb_bateaux 0.24024 0.02052 11.710 2.58e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.868 on 8 degrees of freedom Multiple R-squared: 0.9449, Adjusted R-squared: 0.938 F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06 • On souhaite expliquer pourquoi le nombre de lamantins décédés varie d’une année à l’autre: on veut expliquer les variations de la variable Y. • On propose comme explication les variations de la variable X. • Le coefficient R2 est tout simplement le rapport entre la variance expliquée et la variance initiale: … et le reste de variance alors … ?
  • 21. Régression linéaire simple • (cont.) 2e mesure de qualité du modèle: R2 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 21 summary(model) Call: lm(formula = nb_lamantins ~ nb_bateaux, data = lamantins) Residuals: Min 1Q Median 3Q Max -6.3566 -3.7237 0.1971 4.2178 5.1751 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -45.17964 12.54392 -3.602 0.00696 ** nb_bateaux 0.24024 0.02052 11.710 2.58e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.868 on 8 degrees of freedom Multiple R-squared: 0.9449, Adjusted R-squared: 0.938 F-statistic: 137.1 on 1 and 8 DF, p-value: 2.583e-06 0
  • 22. Régression linéaire simple • Cas des variables catégorielles • Y = niv_pauvreté et X = region4 catégorielle region4 = {« northeast », « midwest », « west », « south »} • La modalité « northeast » est la modalité de référence niv_pauvreté = 9.50 + 0.03 region4:midwest + 1.79 region4:west + 4.16 region4:south • Prévision du niveau de pauvreté pour la région « northeast » est 9.50 • Prévision du niveau de pauvreté pour la région « west » est 9.50 + 1.79 = 11.29 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 22 Coursera, Data Analysis and Statistical Inference MOOC, Duke University
  • 23. Régression linéaire multiple • On considère toujours une relation additive et linéaire entre Y et les variables X • Additive: • l’effet d’un changement d’une variable Xj sur la réponse Y est indépendant des valeurs des autres variables • Linéaire: • si l’on varie X1 d’une unité, alors Y varie en moyenne de β1 unités, • la présence de X2 ou d’une autre Xj (j≠1) n’affecte pas cette déclaration 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 23
  • 24. Régression linéaire multiple • Interprétation des valeurs des coefficients • Un coefficient βj estime la variation (en moyenne) de Y par unité de variation de sa variable Xj, en fixant tous les autres variables explicatives. • Cas idéal: toutes les variables sont non corrélées • Usuellement, les variables tendent à varier ensemble … • Quand il y a corrélation entre les variables • la variance des coefficients augmente • les interprétations risquent d’être hasardeuses 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 24
  • 25. Régression linéaire multiple • Exercice « The Marketing Plan » • fichier advertising_data.txt (200 x 4) • source [1], voir Bibliographie 1. Y a-t-il une relation entre le budget de publicité et les ventes ? 2. Quelle est la "force" de cette relation ? 3. Quel média contribue aux ventes ? 4. Dans quelle mesure chaque média contribue-t-il aux ventes? 5. Comment prédire les futures ventes avec le plus d'exactitude possible ? 6. La relation est-elle linéaire ? 7. Y a-t-il une synergie entre les média ? 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 25 réponse James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 26. Régression linéaire multiple • Exercice « The Marketing Plan » 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 26 summary(modele) Call: lm(formula = Sales ~ ., data = data) Residuals: Min 1Q Median 3Q Max -8.8277 -0.8908 0.2418 1.1893 2.8292 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.938889 0.311908 9.422 <2e-16 *** TV 0.045765 0.001395 32.809 <2e-16 *** Radio 0.188530 0.008611 21.893 <2e-16 *** Newspaper -0.001037 0.005871 -0.177 0.86 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.686 on 196 degrees of freedom Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956 F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
  • 27. Régression linéaire multiple 1. Y a-t-il une relation entre le budget de publicité et les ventes ? 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 27 summary(modele) Call: lm(formula = Sales ~ ., data = data) Residuals: Min 1Q Median 3Q Max -8.8277 -0.8908 0.2418 1.1893 2.8292 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.938889 0.311908 9.422 <2e-16 *** TV 0.045765 0.001395 32.809 <2e-16 *** Radio 0.188530 0.008611 21.893 <2e-16 *** Newspaper -0.001037 0.005871 -0.177 0.86 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.686 on 196 degrees of freedom Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956 F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16 • Notion de la statistique F (F-statistic) • Test d’hypothèse • H0: β1 = β2 = β3 = … = βp = 0 • H1: au moins un βj est non nul Ici F = 570 >> 1 alors on rejette H0 Pour répondre à la question, il ne faut pas regarder individuellement les p-value de chaque coefficient. Voir question 3. plus loin. somme des carrés totale (SCT) il s’ajuste au nombre de variables, ici p
  • 28. Régression linéaire multiple 2. Quelle est la "force" de cette relation ? 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 28 summary(modele) Call: lm(formula = Sales ~ ., data = data) Residuals: Min 1Q Median 3Q Max -8.8277 -0.8908 0.2418 1.1893 2.8292 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.938889 0.311908 9.422 <2e-16 *** TV 0.045765 0.001395 32.809 <2e-16 *** Radio 0.188530 0.008611 21.893 <2e-16 *** Newspaper -0.001037 0.005871 -0.177 0.86 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.686 on 196 degrees of freedom Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956 F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16 Mesures de qualité du modèle: • RSE = 1.686 • la moyenne de Sales est 14.022 • donc une erreur de RSE / 𝑆𝑎𝑙𝑒𝑠 = 12% • R2 • 89.7% de la variance totale est expliquée par le modèle. • Adjusted R2 • ajoute une pénalité sur le nombre de variables • R2 augmente si on ajoute une variable, mais si la variable n’apporte aucune nouvelle information l’Adjusted R2 n’augmentera pas SSE = SST – SSR   SCE = SCT - SCR SS: sum of squares   SC: somme des carrées E=Explained, T=Total, R=Residual
  • 29. Régression linéaire multiple 3. Quel média contribue aux ventes? 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 29 summary(modele) Call: lm(formula = Sales ~ ., data = data) Residuals: Min 1Q Median 3Q Max -8.8277 -0.8908 0.2418 1.1893 2.8292 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.938889 0.311908 9.422 <2e-16 *** TV 0.045765 0.001395 32.809 <2e-16 *** Radio 0.188530 0.008611 21.893 <2e-16 *** Newspaper -0.001037 0.005871 -0.177 0.86 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.686 on 196 degrees of freedom Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956 F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16 • Rappel: Pr(>|t|) = p-value doit être inférieur au seuil de signification (5%) ou probabilité d’erreur de type I • Les valeurs de p-value respectives suggèrent que seuls les médias TV et Radio sont liées aux ventes (Sales) Note: si le nombre de variables p est grand, on risque de faire des mauvaises interprétations: on pourrait avoir quelques p-values < 0.05 par hasard Dans ce cas, et pour répondre à cette question, une méthode de « sélection de modèle » (expliquée plus loin dans ce cours) est préférable.
  • 30. Régression linéaire multiple 4. Dans quelle mesure chaque média contribue-t-il aux ventes? 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 30 summary(modele) Call: lm(formula = Sales ~ ., data = data) Residuals: Min 1Q Median 3Q Max -8.8277 -0.8908 0.2418 1.1893 2.8292 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.938889 0.311908 9.422 <2e-16 *** TV 0.045765 0.001395 32.809 <2e-16 *** Radio 0.188530 0.008611 21.893 <2e-16 *** Newspaper -0.001037 0.005871 -0.177 0.86 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.686 on 196 degrees of freedom Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956 F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16 Première approche: R2 • Vous pouvez effectuer une régression linéaire simple pour chaque variable: TV, Radio et Newspaper. • Comparez les R2 respectifs • TV: R2 = 0.61 • Radio: R2 = 0.33 • Newspaper: R2 = 0.05 • Il y a évidence d’une association plutôt « molle » entre Newspaper et les ventes, lorsque l’on ignore TV et Radio !
  • 31. Régression linéaire multiple 4. Dans quelle mesure chaque média contribue-t-il aux ventes? 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 31 summary(modele) Call: lm(formula = Sales ~ ., data = data) Residuals: Min 1Q Median 3Q Max -8.8277 -0.8908 0.2418 1.1893 2.8292 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.938889 0.311908 9.422 <2e-16 *** TV 0.045765 0.001395 32.809 <2e-16 *** Radio 0.188530 0.008611 21.893 <2e-16 *** Newspaper -0.001037 0.005871 -0.177 0.86 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.686 on 196 degrees of freedom Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956 F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16 Deuxième approche: les IC • Utilisez les Std. Error pour construire les intervalles de confiance à 95% respectifs • TV: CI95 = (0.043, 0.049) • Radio: CI95 = (0.172, 0.206) • Newspaper: CI95 = (-0.013, 0.011) • Le IC à 95% de Newspaper inclut le zéro: la variable n’est pas significative statistiquement … peut être dû à la multicolinéarité ? vérifiez: >library(car) >vif(modele) # Facteur d'inflation de la variance TV Radio Newspaper 1.004611 1.144952 1.145187
  • 32. Régression linéaire multiple 5. Comment prédire les futures ventes avec le plus d'exactitude possible? • Attention: ici on évalue la prévision du modèle avec l’ensemble de données d’apprentissage • Intervalle de confiance des prévisions (Y = f(X) + 𝜖) >ICpred <- predict(object = modele, newdata = data, interval = "pred", level = 0.95) >head(ICpred) fit lwr upr 1 20.52397 17.158283 23.88967 2 12.33785 8.981672 15.69404 3 12.30767 8.919038 15.69630 ... • Intervalle de confiance de la droite ajustée (E(Y)) >ICdte <- predict(object = modele, newdata = data, interval = "conf", level = 0.95) head(ICdte) fit lwr upr 1 20.52397 19.99627 21.05168 2 12.33785 11.87465 12.80106 3 12.30767 11.64932 12.96602 … 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 32 les ICpred seront toujours plus large que les ICdte car ils tiennent compte de l’incertitude ou erreur irréductible 𝜖
  • 33. Régression linéaire multiple 5. La relation est-elle linéaire? • Afficher les résidus … commentez 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 33
  • 34. Régression linéaire multiple 5. Y a-t-il une synergie entre les média? • Il se peut que la relation entre Y et les variables TV et Radio ne soit pas additive ! • il y a interaction entre ces 2 variables • les résidus positifs restent autour de la ligne de 45° où les budgets de TV et de Radio sont répartis de façon presque égale • les résidus négatifs (difficile à voir dans la figure) sont éloignés de cette ligne 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 34 terme d’intéraction James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014
  • 35. Régression linéaire multiple • Cas des variables catégorielles • Fonction R: model.matrix() model.matrix(object = ~ ., data = Credit ) convertir en data.frame si vous utilisez lm() vous pouvez lancer lm() avec la colonne (Intercept) 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 35
  • 36. Bibliographie James and al., An introduction to Statistical Learning, ISBN 9781461471370, Springer, 2014 Lafont G., Leçon 4 Corrélations, Module EAR206, CNAM de Paris, 2013 Ng A., Machine Learning MOOC, Coursera – Stanford University Coursera, Data Analysis and Statistical Inference MOOC, Coursera – Duke University Cornillon P., Matzner-LØber E., Régression avec R, ISBN 9782817801834, Springer, 2011 6/30/2016 BORIS GUARISMA - FORMATION DATA SCIENTIST - PARTIE 5 - RÉGRESSION LINÉAIRE 36