SlideShare une entreprise Scribd logo
1  sur  43
Télécharger pour lire hors ligne
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 1
Prédire / expliquer les valeurs d’une variable
quantitative Y à partir d’une autre variable X
Ricco Rakotomalala
Ricco.Rakotomalala@univ-lyon2.fr
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 2
Position du problème
Variable à prédire
Attribut classe
Variable endogène
Quantitative
Variables prédictive
Descripteur
Variable exogène
Quantitative ou binaire
Identifiant
(Pas utilisé pour les calculs, mais peut
être utilisé pour les commentaires :
points atypiques, etc.)
Exemple de régression simple (Bourbonnais, page 12)
Expliquer le rendement de maïs Y (en quintal) à partir de la quantité
d'engrais utilisé (en kilo) sur des parcelles de terrain similaires.
N° de parcelle Y X
1 16 20
2 18 24
3 23 28
4 24 22
5 28 32
6 29 28
7 26 32
8 31 36
9 32 41
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 3
9 32 41
10 34 41
iii bxay ε++×=Modèle de régression simple :
Nous disposons donc d’un échantillon de n couples de points (xi,yi) i.i.d (indépendants et identiquement
distribués), et on veut expliquer (prédire) les valeurs de Y en fonction des valeurs prises par X.
Le terme aléatoire permet de résumer toute l’information qui n’est pas prise en compte dans la
relation linéaire entre Y et X (problèmes de spécifications, approximation de la linéarité, résumer les
variables qui sont absentes, etc.)
Hypothèses
Permettent de déterminer les propriétés des estimateurs
Et de mettre en place les outils de statistique inférentielle (tests d’hypothèses, intervalle de confiance)
H1 : Hypothèses sur X et Y. Ce sont des grandeurs numériques mesurées sans erreur. X est une donnée
(exogène) dans le modèle, Y est aléatoire par l’intermédiaire de ε (c.-à-d. la seule erreur que l’on a sur Y
provient des insuffisances de X à expliquer ses valeurs dans le modèle).
H2 : Hypothèses sur le terme aléatoire . Les εi sont i.i.d. (indépendants et identiquement distribués)
(H2.a) En moyenne les erreurs s’annulent, le modèle est bien spécifié ( ) 0=E ε
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 4
(H2.a) En moyenne les erreurs s’annulent, le modèle est bien spécifié
(H2.b) La variance de l’erreur est constante et ne dépend pas de l’observation : homoscédasticité
(H2.c) En particulier, l’erreur est indépendante de la variable exogène
(H2.d) Indépendance des erreurs, les erreurs relatives à 2 observations sont indépendantes (on dit aussi que
les erreurs « ne sont pas corrélées »)
(H2.e) Loi normale
( ) 0=iE ε
( ) 2
εσε =iV
0),( =iixCOV ε
0),( =jiCOV εε
( )εσε ,0Ni ≡
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 5
Estimateur des MCO (Moindres carrés ordinaires)
Critère numérique
ix
iy
bxa i +×
iε
Critère des moindres carrés : trouver les valeurs de a et b qui
minimise la somme des carrés des écarts entre les vraies valeurs
de Y et les valeurs prédites avec le modèle de prédiction.
∑
∑
∑
=
=
=
−−=
+−=
=
n
i
ii
n
i
ii
n
i
i
baxyS
baxyS
S
1
2
1
2
1
2
][
)]([
ε
Remarque : Pourquoi
pas la somme des
erreurs ? Ou la somme
des écarts absolus ?
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 6
SOLUTION






=
∂
∂
=
∂
∂
0
0
b
S
a
S




=−−
=−−∑ ∑
0
0
2
bxay
xbxayx
i i
iii
Equations normales
( )( )
( )







−=
−
−−
=
∑
∑
xayb
xx
xxyy
a
i
i
i
ii
ˆˆ
ˆ 2
Estimateurs des moindres carrés
Voir détail des calculs…
Exemple des rendements agricoles
Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2
1 16 20 -10.1 -10.4 105.04 108.160
2 18 24 -8.1 -6.4 51.84 40.960
3 23 28 -3.1 -2.4 7.44 5.760
4 24 22 -2.1 -8.4 17.64 70.560
5 28 32 1.9 1.6 3.04 2.560
6 29 28 2.9 -2.4 -6.96 5.760
7 26 32 -0.1 1.6 -0.16 2.560
8 31 36 4.9 5.6 27.44 31.360
9 32 41 5.9 10.6 62.54 112.360
10 34 41 7.9 10.6 83.74 112.360
Moyenne 26.1 30.4 Somme 351.6 492.4
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 7
y = 0.7141x + 4.3928
15
17
19
21
23
25
27
29
31
33
35
15 20 25 30 35 40 45





=×−=
==
39.44.30714.01.26ˆ
714.0
4.492
6.351
ˆ
b
a
Quelques commentaires
Autre écriture de la pente « a »
X
Y
X
r
YXVOC
a
σ
σ
σ ˆ
ˆ
ˆ
ˆ
),(ˆ
ˆ 2
==
Erreur et résidus : « erreur » =
définie dans la spécification du
modèle ; « résidus », erreurs
observées sur les données
bxa
xyy
i
ii
ˆˆ
)(ˆˆ
+=
=
iii yy ˆˆ −=ε
Résidus de la régression
Pour la régression
Relation entre la pente et le
coefficient de corrélation
linéaire !!!
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 8
0ˆ =∑i
iε
Centre de gravité du nuage de
points : la droite de régression
passe forcément par le
barycentre du nuage de points.
Pour la régression
avec constante !
y
xayxa
bxaxy
=
−+=
+=
)ˆ(ˆ
ˆˆ)(ˆ
Voir détail des calculs…
y = 0.7141x + 4.3928
15
17
19
21
23
25
27
29
31
33
35
15 20 25 30 35 40 45
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 9
Equation d’analyse de variance
Décomposition de la variance
( ) ( )
( ) ( ) ( )( )yyyyyyyy
yyyyyy
i
i
ii
i
i
i
ii
i
iii
i
i
−−+−+−=
−+−=−
∑∑∑
∑∑
ˆˆ2ˆˆ
ˆˆ
22
22
( )∑=
−=
n
i
ii yyS
1
2
ˆ
Objectif de la régression : minimiser S.
Mais 0 ≤ S ≤ +∞ ; à partir de quand peut-on dire que
la régression est de « bonne qualité » ?
Somme des écarts à la moyenne
= 0
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 10
( ) ( ) ( )
SCESCRSCT
yyyyyy
i
i
i
ii
i
i
+=
−+−=− ∑∑∑
222
ˆˆ
= 0
Décomposition
de la variance
SCT : somme des carrés totaux
SCE : somme des carrés expliqués par le modèle
SCR : somme des carrés résiduels, non expliqués par le modèle
Voir détail des calculs…
Coefficient de détermination
Et coefficient de corrélation linéaire multiple
( )
( )
( )
( )∑
∑
∑
∑
−
−
−=
−=
−
−
==
i
i
i
ii
i
i
i
i
yy
yy
R
SCT
SCR
R
yy
yy
SCT
SCE
R
2
2
2
2
2
2
2
ˆ
1
1
ˆ
Coefficient de détermination.
Exprime la part de variabilité de Y expliquée par le modèle.
R² 1, le modèle est excellent
R² 0, le modèle ne sert à rien
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 11
Coefficient de corrélation
linéaire multiple R
2
RR =
On montre que Rasgnr XY ×= )ˆ(,
Lien entre le coefficient de corrélation linéaire (de Pearson) et le coefficient de
corrélation linéaire multiple de la régression linéaire simple
Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Résidus Résidus^2
1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149
2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461
3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922
4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574
6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286
7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812
9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110
Exemple des rendements agricoles
39.4714.0
ˆˆˆ
+=
+=
i
ii
x
bxay
iii yy ˆˆ −=ε 2
ˆiε
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 12
10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110
Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.838749
SCT SCR
ESTIMATION
a 0.714053615
b 4.392770106 SCE = SCT - SCR 251.061251
R² 0.79727295
R 0.89290142
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 13
Biais
[ ]
[ ] bbE
aaE
=
=
ˆ
ˆ
Les estimateurs sont sans biais si…
Etape 1 : Exprimer â en fonction de a ∑+=
i
iiaâ εω Où
( )
( )∑ −
−
=
j
j
i
i
xx
xx
2
ω
Voir détail des calculs…
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 14
Etape 2 : Déterminer E(â) en fonction de a
Etape 3 : Identifier sous quelles
conditions E(â) = a
( ) 





+= ∑i
iiEaâE εω
( ) ( )∑+=
i
ii EaâE εω X n’est pas aléatoire par
hypothèse, donc ωi ne l’est pas
( ) aâE =
E(εi) = E(ε) ; les εi sont i.i.d.
E(ε) = 0 par hypothèse
Biais (suite)
( )xaabb −−+= ˆˆ εPour « b »
Avec les mêmes hypothèses, on aboutit à ( ) bbE =ˆ
Conclusion : Les EMCO (estimateurs des moindres
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 15
Conclusion : Les EMCO (estimateurs des moindres
carrés ordinaires) sont sans biais, si
Les X ne sont pas stochastiques (non aléatoires)
E(ε) = 0 c.-à-d. le modèle est bien spécifié
Variance
( ) ( )
( ) ( )∑∑
∑ ∑
∑
<
<
+=






+=














=
−=
'
''
22
'
''
22
2
2
2
2
]ˆ[ˆ
ii
iiii
i
ii
i ii
iiiiii
i
ii
EE
E
E
aaEaV
εεωωεω
εεωωεω
εω
∑+=
i
iiaâ εω
puisque
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 16
∑∑ < 'iii
( ) 22
)( εσεε == ii EV
Homoscédasticité
( ) 0' =iiE εε
Non-autocorrélation des résidus
avec
( )
( )∑ −
−
=
j
j
i
i
xx
xx
2
ω ( )
( )∑ −
=
i
i xx
aV 2
2
ˆ εσ
Convergence
( )
( )∑ −
=
i
i xx
aV 2
2
ˆ εσ
Est une valeur qui ne dépend pas des effectifs (variance de l’erreur
théorique)
2
εσ
( ) +∞ →− +∞→∑ n
i
i xx
2
â est convergent ( ) 0ˆ  → +∞→n
aV
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 17
De même, pour « b » ( ) ( ) 









−
+=
∑i
i xx
x
n
bV 2
2
2 1ˆ
εσ
( ) 0ˆ  → +∞→n
bV
Caractérisation graphique
o
o
o
o
o
o
o
o
o
o
o
o
( ) 22
εσε =iE est faible
)ˆ(aV est faible, modèle « stable »
o
o
o
o
o
o
o
o
o
o
o
o
( ) 22
εσε =iE est élevé
)ˆ(aV
Cette élévation est compensée par
la valeur élevée de
( )2
∑ −
i
i xx
est moyennement élevée
(1)
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 18
o
o
o
o
o
o
o
o
o
o
o
o
( ) 22
εσε =iE est faible
( )2
∑ −
i
i xx est faible
)ˆ(aV ?
L’adjonction d’un point supplémentaire dans la régression fait « bouger » la droite
Le modèle est instable également
(2)
Les estimateurs sont d’autant plus précis que :
(1) La variance de l’erreur est faible (la droite de
régression passe bien au milieu des points.
(2) La dispersion des X est forte (les X couvrent
bien l’espace de représentation)
Théorème de GAUSS-MARKOV
Les EMCO de la régression sont sans biais et convergents.
Parmi les estimateurs sans biais, ils sont à variance minimale c.-à-d. il est
impossible de trouver un autre estimateur sans biais à plus petite variance
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 19
impossible de trouver un autre estimateur sans biais à plus petite variance
On dit qu’ils sont BLUE (best linear unbiased estimator)
Ce sont des « estimateurs efficaces »
Cf. démonstration C. Labrousse (1983), page 26
Estimation de la variance de l’erreur
2
εσ Joue un rôle très important. Comment l’estimer à partir des données ?
Le résidu est tel que
( )
( ) ( )bbxaa
bxabaxyy
ii
iiiiii
−−−−=
+−++=−=
ˆˆ
ˆˆˆˆ
ε
εε
On montre que
Giraud & Chaix (1994), page 31
( ) 22
2ˆ εσε −=





∑ nE
i
i
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 20
On en déduit un
estimateur sans biais
22
ˆ
ˆ
2
2
−
=
−
=
∑
n
SCR
n
i
iε
σε
Remarque : A propos du degré
de liberté (n-2)
Parce 2 contraintes avec les
équations normale 




=
=
∑
∑
i
i
i
iix
0ˆ
0ˆ
ε
ε
Parce que (simplement), on estimé 2 paramètres « a » et « b »
dans le modèle pour obtenir les prédictions, et donc les résidus
Rendements agricoles
Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Résidus Résidus^2
1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149
2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461
3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922
4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574
6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286
7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812
9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110
Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.83874898
SCT SCR
sigma²(epsilon) 7.979843623
ESTIMATION
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 21
ESTIMATION
a 0.714053615 sigma²(a^) 0.01620602 sigma(a^) 0.127302862
b 4.392770106 sigma²(b^) 15.7749386 sigma(b^) 3.971767696
( )
( )
0162.0
4.492
9798.7
4.492
2ˆ
ˆ)ˆ(ˆ
2
2
2
ˆ
==
−
=
−
==
∑
nSCR
xx
aV
i
i
a
εσ
σ
127.00162.0ˆˆ 2
ˆˆ === aa σσ
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 22
Distribution de « â » – Variance de l’erreur connue
( )( )
( )∑
∑
−
−−
=
i
i
i
ii
xx
xxyy
a 2
ˆ
X est non aléatoire
Y l’est par l’entremise de ε
( )εσε ,0N≡
( )1,0
ˆ
ˆ
N
aa
a
≡
−
σ
Et « â » est issue d’une
combinaison linéaire de Y
Distribution de l’estimation de la variance de l’erreur
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 23
( )∑ −
=
i
i
a
xx
2
2
2
ˆ
εσ
σ on a besoin de connaître la distribution de 2
ˆεσ
( )εσε ,0N≡
Par hypothèse
Le résidu étant une réalisation de ε,
elle suit aussi une loi normale
( )∑ −
=
i
i
a
xx
2
2
2
ˆ
ˆ
ˆ εσ
σ
)1,0(
ˆ
Ni
≡
εσ
ε
( )2
ˆ
ˆ 2
2
2
2
−≡=





∑
∑
n
i
i
i
i
χ
σ
ε
σ
ε
εε
( ) ( )2
ˆ
2 2
2
2
−≡− nn χ
σ
σ
ε
ε
Distribution de « â » – Variance de l’erreur estimée
( ) ( ) 2
2
2
ˆ
2
ˆ ˆ
2
ˆ
2
ε
ε
σ
σ
σ
σ
−=− nn
a
aOn vérifie
facilement
( ) ( )2
ˆ
2 2
2
ˆ
2
ˆ
−≡− nn
a
a
χ
σ
σ
( )2
ˆ
ˆ
ˆ
−ℑ≡
−
n
aa
aσ
On en déduit
dès lors que
( )2
ˆ
ˆ
ˆ
−ℑ≡
−
n
bb
b
σ
De la même
manière, on
montre
Intervalle de confiance au niveau (1 - α) [ ]ta ˆˆ σ×±
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 24
A partir de ces
éléments, on peut
mettre en place
l’inférence statistique
Intervalle de confiance au niveau (1 - α) [ ]ata ˆ21
ˆˆ σα ×± −
Tests d’hypothèses au risque α



≠
=
01
00
:
:
aaH
aaH
Avec, en particulier le test de
significativité (mesurer l’impact
de X dans l’explication de Y via le
modèle)



≠
=
0:
0:
1
0
aH
aH
Rendements agricoles – Tests de significativité des coefficients
Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Résidus Résidus^2
1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149
2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461
3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922
4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574
6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286
7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812
9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110
Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.83874898
SCT SCR
sigma²(epsilon) 7.979843623
ESTIMATION
a 0.714053615 sigma²(a^) 0.016206019 sigma(a^) 0.127302862
b 4.392770106 sigma²(b^) 15.77493863 sigma(b^) 3.971767696
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 25
609.5
127.0
714.0
ˆ
ˆ
ˆ
ˆ ===
a
a
a
t
σ
306.2)8()8()8( 975.02/05.012/1 === −− ttt α
b 4.392770106 sigma²(b^) 15.77493863 sigma(b^) 3.971767696
ddl 8
t théorique (bilatéral à 5%) 2.306004133
t(a^) 5.609093169 rejet H0
t(b^) 1.10599875 acceptation H0
Puisque 21ˆ α−> tta
Rejet de H0 : a = 0
Test de significativité globale du modèle
H0 : Le modèle n’amène rien dans l’explication de Y
H1 : Le modèle est pertinent (globalement significatif)
Tableau d’analyse
de variance
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 26
Statistique de test ( )2,1
2
1 −≡
−
= nF
n
SCR
SCE
F
Région critique au
risque α
)2,1(1 −> − nFF α
Remarque : Ecriture de F à partir du R²
( )
( )2
1 2
2
−
−
=
n
R
R
F
Remarque : Tester la significativité de la
régression et tester la significativité de la pente
sont équivalents dans la régression simple.
Rendements agricoles – Tests de significativité globale
Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Résidus Résidus^2
1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149
2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461
3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922
4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574
6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286
7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812
9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110
Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.83874898
SCT SCR
ESTIMATION Source de variation SC DDL CM
a 0.714053615 Expliqués (Régression) 251.061251 1 251.061251
b 4.392770106 Résidus 63.83874898 8 7.979843623
Tableau d'analyse de variance
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 27
b 4.392770106 Résidus 63.83874898 8 7.979843623
Total 314.9 9
F calculé 31.46192618 rejet de H0
DDL1 1
DDL2 8
F théorique (à 5%) 5.317655063
4619.31
9798.7
06.251
2
1 ==
−
=
n
SCR
SCE
F
37655.5)8,1()8,1( 95.01 ==− FF α
Puisque α−> 1FF
Rejet de H0 c.-à-d. on conclut que le
modèle est globalement significatif
Remarque :
atF ˆ609.54619.31 ===
Rendements agricoles – La fonction DROITEREG d’EXCEL
Y X
16 20
18 24
23 28
24 22
28 32
29 28
26 32
31 36
32 41
34 41
DROITEREG
0.71405361 4.392770106
0.12730286 3.971767696
0.79727295 2.8248617
31.4619262 8
251.061251 63.83874898
t théorique 2.30600413 2.306004133
Intervalle de confiance à 5%
aˆ bˆ
aˆˆσ bˆˆσ
2
R εσˆ
2−nF
SCE SCR
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 28
t théorique 2.30600413 2.306004133
Borne basse 0.42049269 -4.76614262
Borne haute 1.00761454 13.55168283
t de Student 5.60909317 1.10599875
p-value 0.00050487 0.30087418
F-calculé 31.4619262
DDL numérateur 1
DDL dénominateur 8
p-value 0.00050487
Test de significativité des coefficients
Test de la régression globale
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 29
Prévision ponctuelle
A prédire d’une valeur connue de X, prédire la valeur de Y
Pour un individu i*, la
prédiction ponctuelle s’écrit bxaxyy iii
ˆˆ)(ˆˆ *** +==
La prédiction est sans biais c.-à-d. ( ) **
ˆ ii yyE =
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 30
En effet,
( )
( ) ( ) **
***
***
ˆˆ
ˆˆ
ˆˆ
ii
iii
iii
bbxaa
baxbxa
yy
ε
ε
ε
−−+−=
++−+=
−=
( ) ( ) ( )[ ]
( ) ( ) ( )**
***
ˆˆ
ˆˆˆ
ii
iii
EbbEaaEx
bbxaaEE
ε
εε
−−+−=
−−+−=
0
Les EMCO sont sans biais
0
L’erreur du modèle est
nulle par hypothèse
Prévision par intervalle
Variance de l’erreur de prévision
( ) 0ˆ
ˆˆ
*
***
=
−=
i
iii
E
yy
ε
ε
( ) ( ) ( )
( )
2
ˆ2
2
*22
** *
1
1ˆˆ i
i
i
i
ii
xx
xx
n
EV εε σσεε =










−
−
++==
∑
On montre
Puisque
Giraud & Chaix (1994), page 30
( )
( ) 









−
−
++=
∑i
i
i
xx
xx
ni 2
2
*22
ˆ
1
1ˆˆ * εε σσ
D’où la variance estimée
de l’erreur de prévision
( )
( )∑ −
−
+=
i
i
i
i
xx
xx
n
h 2
2
*
*
1
est le LEVIER de l’observation i*
(Il joue un rôle très important dans la
Remarque :
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 31
La variance de
l’erreur sera d’autant
plus faible que :
2
ˆ 2
−
=
n
SCR
εσ est petit c.-à-d. la droite ajuste bien le nuage de points .
( )2
* xxi − est petit c.-à-d. le point est proche du centre de gravité du nuage.
( )∑ −
i
i xx
2
(1)
(2)
(3) est grand c.-à-d. la dispersion des points est grande.
(4) n est grand c.-à-d. le nombre d’observations ayant servi à la construction du modèle est élevé.
(Il joue un rôle très important dans la
régression. Cf. points atypiques).
Prévision par intervalle
Distribution – Définition de l’intervalle
Puisque ( )εσε ,0N≡ ( )**** 1,0ˆˆ iiii hNyy +≡−= εσε
( ) ( )2
ˆ
2 2
2
2
−≡− nn χ
σ
σ
ε
ε
( )2
ˆ **
−ℑ≡
−
n
yy ii
Rapport d’une loi normale avec un KHI-2 normalisé
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 32
( )2
ˆ
ˆ
*ˆ
**
−ℑ≡
−
n
yy
i
ii
εσ
*ˆ21*
ˆˆ i
tyi εα σ×± −
Rapport d’une loi normale avec un KHI-2 normalisé
Intervalle de confiance au niveau (1-α)
Rendements agricoles – x* = 38
Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 Y^ Résidus Résidus^2
1 16 20 -10.1 -10.4 105.04 108.160 18.674 -2.674 7.149 ESTIMATION
2 18 24 -8.1 -6.4 51.84 40.960 21.530 -3.530 12.461 a 0.714053615
3 23 28 -3.1 -2.4 7.44 5.760 24.386 -1.386 1.922 b 4.392770106
4 24 22 -2.1 -8.4 17.64 70.560 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 27.242 0.758 0.574 x* 38
6 29 28 2.9 -2.4 -6.96 5.760 24.386 4.614 21.286 y^ 31.52680747
7 26 32 -0.1 1.6 -0.16 2.560 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 30.099 0.901 0.812 (x*-xb)^2 57.76
9 32 41 5.9 10.6 62.54 112.360 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 33.669 0.331 0.110 sigma²(epsilon^) 9.71389
Moyenne 26.1 30.4 Somme 351.6 492.4 Somme 63.838749
t (0.975) 2.306004133
sigma²(erreur) 7.97984362
borne.basse 24.33965896
borne.haute 38.71395598
5268.31
39.438714.0
ˆˆˆ **
=
+×=
+= bxay ii
Variance de l’erreur de prédiction
Prédiction ponctuelle
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 33
y = 0.7141x + 4.3928
15
20
25
30
35
40
15 20 25 30 35 40 45
Intervalle de prédiction pour x* = 38( )
( )
71389.9
4.492
76.57
10
1
19798.7
1
1ˆˆ 2
2
*22
ˆ *
=






++×=










−
−
++=
∑i
i
i
xx
xx
ni εε σσ
7140.3871389.9306.25298.31..
3397.2471389.9306.25298.31..
=×+=
=×−=
hb
bb
Variance de l’erreur de prédiction
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 34
Modèle linéaire
Lecture de la pente
baXY +=
Ex. ventes = -12 * prix + 1000
Lecture en niveau : si prix = 10 euros alors
ventes = 980 unités
Lecture en termes d’évolution : si prix
augmente de 1 euro , les ventes vont
diminuer de 12 unités.
dx
dy
a =
La variation de Y est proportionnelle à la variation de X
Avantages
Simplicité
Utilisé dans une première approche
Estimation directe des paramètres par la méthode des MCO
0
5
10
15
20
25
30
35
40
0 5 10 15
Y
X
Linéaire
a = 3; b = 5
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 35
Modèle log-linéaire
a
bXY =
x
dx
y
dy
a =
Le taux de variation de Y est proportionnelle au taux de variation de X
Avantages
Modèle à élasticité constante : favori des économistes
Ex. emploi = f(production), demande = f(prix)
Linéarisation : ln(y) = a ln(x) + ln(b)
0
1000
2000
3000
4000
5000
6000
0 2 4 6 8 10 12
Y
X
Log-linéaire
a = 3; b = 5
Modèle exponentiel
(géométrique)
baX
eY +
=
dx
y
dy
a =
Le taux de variation de Y est proportionnelle à la variation de X
Avantages
Surtout utilisé quand x = temps, ainsi dx= 1
Dans ce cas, la croissance (décroissance) de Y est constante dans le temps
Ce type d’évolution (croissance exponentielle) ne dure pas longtemps
Linéarisation : ln(y) = a x + ln(b)
0
20000
40000
60000
80000
100000
120000
140000
160000
180000
0 2 4 6 8 10 12
Y
X
Exponentiel
a = 0.7; b = 5
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 36
Modèle logarithmique
bXaY += )ln(
x
dx
dy
a =
La variation de Y est proportionnelle au taux de variation de X
Avantages
Archétype de la croissance (décroissance) qui s’épuise
Ex. salaire = f(ancienneté) ; vente = f(publicité)
0
2
4
6
8
10
12
0 2 4 6 8 10 12
Y
X
Logarithmique
a = 2; b = 5
3) Un modèle particulier : le modèle logistique
Problème :
Tous les modèles dans (2) ont une concavité constante
(dérivée seconde de signe constant), on peut avoir besoin
d ’un modèle à plusieurs phases
ex : lancement d ’un produit dans le temps
Décollage
• produit inconnu
• positionnement sur le
marché
Croissance accélérée
• large diffusion
Freinage
• saturation du marché
• concurrence
Un modèle particulier
Le modèle logistique
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 37
Equation bax
e
yy
yy +
+
−
+=
1
minmax
min
Linéarisation bxa
yy
yy
+=
−
−
)ln(
min
max
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 38
Cas des données centrées
Lorsque les données
sont centrées




−=
−=
xxx
yyy
ii
o
ii
o
0ˆˆ =×−=
−−
oo
xayb
La constante est nulle
par construction Parce que le barycentre du nuage de
points est l’origine du repère c.-à-d.
0==
−−
oo
xy
Y X (Y-YB) (X-XB)
16 20 -10.1 -10.4
10
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 39
16 20 -10.1 -10.4
18 24 -8.1 -6.4
23 28 -3.1 -2.4
24 22 -2.1 -8.4
28 32 1.9 1.6
29 28 2.9 -2.4
26 32 -0.1 1.6
31 36 4.9 5.6
32 41 5.9 10.6
34 41 7.9 10.6
Moyenne 26.1 30.4
y = 0.7141x - 2E-15
R² = 0.7973
-15
-10
-5
0
5
-15 -10 -5 0 5 10 15
La droite passe forcément par le barycentre,
qui se trouve être l’origine (0, 0) du repère.
Cas des données non-centrées
b = 0 on force le modèle à passer par
l’origine (0,0) du repère iii xay ε+×=
( )∑∑ ×−==
i
ii
i
i xayS
22
ε
On veut minimiser Une équation normale
0=
∂
∂
a
S
∑
∑
=
i
i
i
ii
x
yx
a 2
ˆ
Estimation de la pente
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 40
Y X Y^.1 Y^.2
16 20 18.6738424 17.0248613
18 24 21.5300569 20.4298336
23 28 24.3862713 23.8348058
24 22 20.1019496 18.7273474
28 32 27.2424858 27.2397781
29 28 24.3862713 23.8348058
26 32 27.2424858 27.2397781
31 36 30.0987002 30.6447504
32 41 33.6689683 34.9009657
34 41 33.6689683 34.9009657
0 4.39277011 0
50 40.0954509 42.5621533
Rég.1 - Avec constante
0.71405361 4.39277011
a b
Rég.2 - Sans constante
0.85124307
a
0
5
10
15
20
25
30
35
40
45
0 10 20 30 40 50
Cas des données non-centrées (suite)
Le coefficient de détermination R² n’a plus de sens parce que : SCT ≠ SCE + SCR
Ca ne sert à rien de le calculer
A propos du R²
A propos des
degrés de liberté
Un seul paramètre « a » estimé à partir des données ddl = n - 1
1
ˆ 2
−
=
n
SCR
εσ Estimateur sans biais de la variance de l’erreur
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 41
( )∑
=
i
i
a
x
2
2
2
ˆ
ˆ
ˆ εσ
σ Variance de la pente estimée
( )1
ˆ
ˆ
ˆ
−ℑ≡
−
n
aa
aσ
Sert pour les intervalles de confiance
Pour les tests de significativité
Pour les autres tests
A propos des
performances
SCR (modèle avec constante) ≤ SCR (modèle sans constante)
Pourquoi s’embêter avec un modèle sans constante alors ???
Pour les possibilités d’interprétations
Cas des données non-centrées – Un exemple
Comparaison des salaires à l’intérieur des ménages
Numero Sal.Homme Sal.Femme
1 7.43 7.20
2 6.83 7.06
3 6.97 7.10
4 7.85 7.39
5 7.48 6.97
6 7.86 7.50
7 7.44 7.16
8 7.83 7.77
9 7.36 7.78
10 7.28 7.47
11 7.53 7.51
12 8.40 8.07
13 7.48 7.25
14 7.46 6.79
15 7.33 7.14
16 7.80 7.38
17 7.57 7.53
18 6.02 6.03
iii xay ε+×=
En termes de régression linéaire simple (Y : Sal.H ; X : Sal.F)
Test d’hypothèses
(Attention : test unilatéral ) !



>
=
1:
1:
1
0
aH
aH
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 42
18 6.02 6.03
19 7.28 7.05
20 8.42 8.01
21 7.42 7.25
22 7.47 7.59
23 7.14 7.20
24 7.29 6.93
25 8.28 7.85
26 6.98 7.29
27 8.03 7.94
28 7.69 7.11
29 6.67 6.76
30 7.92 7.72
En moyenne, l’homme a-t-il un salaire plus
élevé que sa conjointe dans les ménages
(lorsque les deux sont salariés ?)
a^ 1.021323921 0
sigma(a) 0.006821202 #N/A
0.998708093 0.27418841
22418.42983 29 ddl
1685.401501 2.18019923
a^-1 0.021323921
t calculé 3.126123666
t-théorique (95%) 1.699126996
Conclusion Rejet de H0
00682.0
10213.1
ˆ
1ˆ
ˆ
−
=
−
=
a
a
t
σ
699.1)29()1(126.3 95.01 ==−>= − tntt α
Bibliographique
• R. Bourbonnais, « Économétrie », Dunod, 1998.
• Y.Dodge, V.Rousson, « Analyse de régression appliquée », Dunod, 2004.
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 43
• Y.Dodge, V.Rousson, « Analyse de régression appliquée », Dunod, 2004.
• M. Tenenhaus, « Statistique : Méthodes pour décrire, expliquer et
prévoir », Dunod, 2007.

Contenu connexe

Tendances

La Regression lineaire
La Regression lineaireLa Regression lineaire
La Regression lineaireFIKRIMAIL
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Pierre Robentz Cassion
 
Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009mohamedchaouche
 
Choix de l’analyse statistique appropriée
 Choix de l’analyse statistique appropriée  Choix de l’analyse statistique appropriée
Choix de l’analyse statistique appropriée Adad Med Chérif
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistiqueBoris Guarisma
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_amanMehdi Aman
 
Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcAnalyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcRémi Bachelet
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesMohamed Heny SELMI
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1Adad Med Chérif
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data MiningTakfarinas KENOUCHE
 
Cours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulCours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulProfesseur Falloul
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdfSidiAbdallah1
 
11 regression logistique
11 regression logistique11 regression logistique
11 regression logistiqueHamed KHARRAZ
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeJean Roger Mably
 
T test sur des échantillons appariés avec test de normalité
T test sur des  échantillons appariés  avec  test de normalité T test sur des  échantillons appariés  avec  test de normalité
T test sur des échantillons appariés avec test de normalité Adad Med Chérif
 

Tendances (20)

La Regression lineaire
La Regression lineaireLa Regression lineaire
La Regression lineaire
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)
 
Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009
 
Test khi deux
Test khi deuxTest khi deux
Test khi deux
 
Choix de l’analyse statistique appropriée
 Choix de l’analyse statistique appropriée  Choix de l’analyse statistique appropriée
Choix de l’analyse statistique appropriée
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_aman
 
Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcAnalyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afc
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
Cours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulCours Statistique descriptive pr Falloul
Cours Statistique descriptive pr Falloul
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdf
 
Stat5 Student
Stat5 StudentStat5 Student
Stat5 Student
 
Questionnaire sous spss
Questionnaire sous spssQuestionnaire sous spss
Questionnaire sous spss
 
11 regression logistique
11 regression logistique11 regression logistique
11 regression logistique
 
(Econometrie) done
(Econometrie) done(Econometrie) done
(Econometrie) done
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
T test sur des échantillons appariés avec test de normalité
T test sur des  échantillons appariés  avec  test de normalité T test sur des  échantillons appariés  avec  test de normalité
T test sur des échantillons appariés avec test de normalité
 
Data mining - Associativité
Data mining - AssociativitéData mining - Associativité
Data mining - Associativité
 

En vedette

Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesGiorgio Pauletto
 
Centralité urbaine 01
Centralité urbaine 01Centralité urbaine 01
Centralité urbaine 01Sami Sahli
 
Traitement d'image sous Matlab
Traitement d'image sous Matlab  Traitement d'image sous Matlab
Traitement d'image sous Matlab Hajer Dahech
 
TP1 Traitement d'images Génie Logiciel avec Matlab
TP1 Traitement d'images Génie Logiciel avec MatlabTP1 Traitement d'images Génie Logiciel avec Matlab
TP1 Traitement d'images Génie Logiciel avec MatlabMariem ZAOUALI
 
M18 gestion budgetaire -ter- tsge
M18 gestion budgetaire -ter- tsgeM18 gestion budgetaire -ter- tsge
M18 gestion budgetaire -ter- tsgebookeco
 
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistiqueBoris Guarisma
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)mohamedchaouche
 
Traitement des images avec matlab
Traitement des images avec matlabTraitement des images avec matlab
Traitement des images avec matlabomar bllaouhamou
 
C´est nous, les slovaques 1. skupina
C´est nous, les slovaques   1. skupinaC´est nous, les slovaques   1. skupina
C´est nous, les slovaques 1. skupinaOľga Fraňová
 
Le Progressiste n°2263
Le Progressiste n°2263Le Progressiste n°2263
Le Progressiste n°2263Jo Anis
 
Les principales mesures de la loi Macron
Les principales mesures de la loi MacronLes principales mesures de la loi Macron
Les principales mesures de la loi MacronBecuwe Maëlle
 
Thanksgiving Dinners by 3L
Thanksgiving Dinners by 3LThanksgiving Dinners by 3L
Thanksgiving Dinners by 3LAmanda Ingalls
 

En vedette (20)

Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes Statistiques
 
Centralité urbaine 01
Centralité urbaine 01Centralité urbaine 01
Centralité urbaine 01
 
Traitement d'image sous Matlab
Traitement d'image sous Matlab  Traitement d'image sous Matlab
Traitement d'image sous Matlab
 
TP1 Traitement d'images Génie Logiciel avec Matlab
TP1 Traitement d'images Génie Logiciel avec MatlabTP1 Traitement d'images Génie Logiciel avec Matlab
TP1 Traitement d'images Génie Logiciel avec Matlab
 
Correlation and Simple Regression
Correlation  and Simple RegressionCorrelation  and Simple Regression
Correlation and Simple Regression
 
Formation traitement d_images
Formation traitement d_imagesFormation traitement d_images
Formation traitement d_images
 
M18 gestion budgetaire -ter- tsge
M18 gestion budgetaire -ter- tsgeM18 gestion budgetaire -ter- tsge
M18 gestion budgetaire -ter- tsge
 
Regression simple
Regression simpleRegression simple
Regression simple
 
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistique
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)
 
Survol Des Modèles Linéaires
Survol Des Modèles LinéairesSurvol Des Modèles Linéaires
Survol Des Modèles Linéaires
 
Traitement des images avec matlab
Traitement des images avec matlabTraitement des images avec matlab
Traitement des images avec matlab
 
C´est nous, les slovaques 1. skupina
C´est nous, les slovaques   1. skupinaC´est nous, les slovaques   1. skupina
C´est nous, les slovaques 1. skupina
 
Matelas 160x200
Matelas 160x200Matelas 160x200
Matelas 160x200
 
Journée ASIT VD 2014 - session 2
Journée ASIT VD 2014 - session 2Journée ASIT VD 2014 - session 2
Journée ASIT VD 2014 - session 2
 
Le Progressiste n°2263
Le Progressiste n°2263Le Progressiste n°2263
Le Progressiste n°2263
 
Nonsence
NonsenceNonsence
Nonsence
 
Les principales mesures de la loi Macron
Les principales mesures de la loi MacronLes principales mesures de la loi Macron
Les principales mesures de la loi Macron
 
Corporate games olness
Corporate games olnessCorporate games olness
Corporate games olness
 
Thanksgiving Dinners by 3L
Thanksgiving Dinners by 3LThanksgiving Dinners by 3L
Thanksgiving Dinners by 3L
 

Similaire à Regression lineaire simple

Electronique-Numérique-TD-7.pdf
Electronique-Numérique-TD-7.pdfElectronique-Numérique-TD-7.pdf
Electronique-Numérique-TD-7.pdfYassine Sabri
 
Chap7 stat-proba-invest en-avenir_proba-corr
Chap7 stat-proba-invest en-avenir_proba-corrChap7 stat-proba-invest en-avenir_proba-corr
Chap7 stat-proba-invest en-avenir_proba-corrAnas Abidine
 
exercices (1).pdf
exercices (1).pdfexercices (1).pdf
exercices (1).pdflompo5
 
regression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfregression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfSidiAbdallah1
 
103433 flexion hyperstatique
103433 flexion hyperstatique103433 flexion hyperstatique
103433 flexion hyperstatiqueAissa Ouai
 
Cours analyse-num source1
Cours analyse-num source1Cours analyse-num source1
Cours analyse-num source1Lacina Zina
 
Projet Méthodes Numériques
Projet  Méthodes Numériques Projet  Méthodes Numériques
Projet Méthodes Numériques Ramin Samadi
 
Corrigé TD chapitre I.pptx
Corrigé TD chapitre I.pptxCorrigé TD chapitre I.pptx
Corrigé TD chapitre I.pptxMidoxotk
 
Livre bac pro kharraz youssef
Livre bac pro kharraz youssefLivre bac pro kharraz youssef
Livre bac pro kharraz youssefkamikaz07
 
Variables aléatoires continues Chapitre 5.pdf
Variables aléatoires continues Chapitre 5.pdfVariables aléatoires continues Chapitre 5.pdf
Variables aléatoires continues Chapitre 5.pdfKOUADIOPATRICE1
 
Fonctions trigonometriques h12
Fonctions trigonometriques h12Fonctions trigonometriques h12
Fonctions trigonometriques h12Mehdi Charifi
 
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Ahmed Ammar Rebai PhD
 
Ex determ
Ex determEx determ
Ex determbades12
 

Similaire à Regression lineaire simple (20)

Electronique-Numérique-TD-7.pdf
Electronique-Numérique-TD-7.pdfElectronique-Numérique-TD-7.pdf
Electronique-Numérique-TD-7.pdf
 
Chap7 stat-proba-invest en-avenir_proba-corr
Chap7 stat-proba-invest en-avenir_proba-corrChap7 stat-proba-invest en-avenir_proba-corr
Chap7 stat-proba-invest en-avenir_proba-corr
 
Cours regression 4
Cours regression 4Cours regression 4
Cours regression 4
 
Ensa t09 m
Ensa t09 mEnsa t09 m
Ensa t09 m
 
Matlab
MatlabMatlab
Matlab
 
exercices (1).pdf
exercices (1).pdfexercices (1).pdf
exercices (1).pdf
 
regression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfregression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdf
 
103433 flexion hyperstatique
103433 flexion hyperstatique103433 flexion hyperstatique
103433 flexion hyperstatique
 
Cours analyse-num source1
Cours analyse-num source1Cours analyse-num source1
Cours analyse-num source1
 
Projet Méthodes Numériques
Projet  Méthodes Numériques Projet  Méthodes Numériques
Projet Méthodes Numériques
 
Cours de maths gene 1 ere sst
Cours de maths gene 1 ere sstCours de maths gene 1 ere sst
Cours de maths gene 1 ere sst
 
Corrigé TD chapitre I.pptx
Corrigé TD chapitre I.pptxCorrigé TD chapitre I.pptx
Corrigé TD chapitre I.pptx
 
Livre bac pro kharraz youssef
Livre bac pro kharraz youssefLivre bac pro kharraz youssef
Livre bac pro kharraz youssef
 
Slide matlab
Slide matlab Slide matlab
Slide matlab
 
Variables aléatoires continues Chapitre 5.pdf
Variables aléatoires continues Chapitre 5.pdfVariables aléatoires continues Chapitre 5.pdf
Variables aléatoires continues Chapitre 5.pdf
 
[Fsjes tanger.com]stat1 exoscorrige-splanche2
[Fsjes tanger.com]stat1 exoscorrige-splanche2[Fsjes tanger.com]stat1 exoscorrige-splanche2
[Fsjes tanger.com]stat1 exoscorrige-splanche2
 
Fic00126
Fic00126Fic00126
Fic00126
 
Fonctions trigonometriques h12
Fonctions trigonometriques h12Fonctions trigonometriques h12
Fonctions trigonometriques h12
 
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
 
Ex determ
Ex determEx determ
Ex determ
 

Dernier

Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptssusercbaa22
 
Cours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptxCours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptxlamourfrantz
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...Faga1939
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptxSAID MASHATE
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film françaisTxaruka
 
presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptxMalikaIdseaid1
 
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdfMICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdfssuser40e112
 
Formation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipFormation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipM2i Formation
 
présentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteurprésentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteurdinaelchaine
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptxTxaruka
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.Txaruka
 
Grammaire pour les élèves de la 6ème.doc
Grammaire pour les élèves de la  6ème.docGrammaire pour les élèves de la  6ème.doc
Grammaire pour les élèves de la 6ème.docKarimKhrifech
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...M2i Formation
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxssuserbd075f
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertChristianMbip
 
MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptssusercbaa22
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprisesMajdaKtiri2
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxssusercbaa22
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.Franck Apolis
 

Dernier (20)

Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
 
Cours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptxCours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptx
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptx
 
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdfMICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
 
Evaluación Alumnos de Ecole Victor Hugo
Evaluación Alumnos de Ecole  Victor HugoEvaluación Alumnos de Ecole  Victor Hugo
Evaluación Alumnos de Ecole Victor Hugo
 
Formation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipFormation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadership
 
présentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteurprésentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteur
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptx
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
Grammaire pour les élèves de la 6ème.doc
Grammaire pour les élèves de la  6ème.docGrammaire pour les élèves de la  6ème.doc
Grammaire pour les élèves de la 6ème.doc
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expert
 
MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.ppt
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprises
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.
 

Regression lineaire simple

  • 1. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 1 Prédire / expliquer les valeurs d’une variable quantitative Y à partir d’une autre variable X Ricco Rakotomalala Ricco.Rakotomalala@univ-lyon2.fr
  • 2. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 2
  • 3. Position du problème Variable à prédire Attribut classe Variable endogène Quantitative Variables prédictive Descripteur Variable exogène Quantitative ou binaire Identifiant (Pas utilisé pour les calculs, mais peut être utilisé pour les commentaires : points atypiques, etc.) Exemple de régression simple (Bourbonnais, page 12) Expliquer le rendement de maïs Y (en quintal) à partir de la quantité d'engrais utilisé (en kilo) sur des parcelles de terrain similaires. N° de parcelle Y X 1 16 20 2 18 24 3 23 28 4 24 22 5 28 32 6 29 28 7 26 32 8 31 36 9 32 41 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 3 9 32 41 10 34 41 iii bxay ε++×=Modèle de régression simple : Nous disposons donc d’un échantillon de n couples de points (xi,yi) i.i.d (indépendants et identiquement distribués), et on veut expliquer (prédire) les valeurs de Y en fonction des valeurs prises par X. Le terme aléatoire permet de résumer toute l’information qui n’est pas prise en compte dans la relation linéaire entre Y et X (problèmes de spécifications, approximation de la linéarité, résumer les variables qui sont absentes, etc.)
  • 4. Hypothèses Permettent de déterminer les propriétés des estimateurs Et de mettre en place les outils de statistique inférentielle (tests d’hypothèses, intervalle de confiance) H1 : Hypothèses sur X et Y. Ce sont des grandeurs numériques mesurées sans erreur. X est une donnée (exogène) dans le modèle, Y est aléatoire par l’intermédiaire de ε (c.-à-d. la seule erreur que l’on a sur Y provient des insuffisances de X à expliquer ses valeurs dans le modèle). H2 : Hypothèses sur le terme aléatoire . Les εi sont i.i.d. (indépendants et identiquement distribués) (H2.a) En moyenne les erreurs s’annulent, le modèle est bien spécifié ( ) 0=E ε Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 4 (H2.a) En moyenne les erreurs s’annulent, le modèle est bien spécifié (H2.b) La variance de l’erreur est constante et ne dépend pas de l’observation : homoscédasticité (H2.c) En particulier, l’erreur est indépendante de la variable exogène (H2.d) Indépendance des erreurs, les erreurs relatives à 2 observations sont indépendantes (on dit aussi que les erreurs « ne sont pas corrélées ») (H2.e) Loi normale ( ) 0=iE ε ( ) 2 εσε =iV 0),( =iixCOV ε 0),( =jiCOV εε ( )εσε ,0Ni ≡
  • 5. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 5
  • 6. Estimateur des MCO (Moindres carrés ordinaires) Critère numérique ix iy bxa i +× iε Critère des moindres carrés : trouver les valeurs de a et b qui minimise la somme des carrés des écarts entre les vraies valeurs de Y et les valeurs prédites avec le modèle de prédiction. ∑ ∑ ∑ = = = −−= +−= = n i ii n i ii n i i baxyS baxyS S 1 2 1 2 1 2 ][ )]([ ε Remarque : Pourquoi pas la somme des erreurs ? Ou la somme des écarts absolus ? Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 6 SOLUTION       = ∂ ∂ = ∂ ∂ 0 0 b S a S     =−− =−−∑ ∑ 0 0 2 bxay xbxayx i i iii Equations normales ( )( ) ( )        −= − −− = ∑ ∑ xayb xx xxyy a i i i ii ˆˆ ˆ 2 Estimateurs des moindres carrés Voir détail des calculs…
  • 7. Exemple des rendements agricoles Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 1 16 20 -10.1 -10.4 105.04 108.160 2 18 24 -8.1 -6.4 51.84 40.960 3 23 28 -3.1 -2.4 7.44 5.760 4 24 22 -2.1 -8.4 17.64 70.560 5 28 32 1.9 1.6 3.04 2.560 6 29 28 2.9 -2.4 -6.96 5.760 7 26 32 -0.1 1.6 -0.16 2.560 8 31 36 4.9 5.6 27.44 31.360 9 32 41 5.9 10.6 62.54 112.360 10 34 41 7.9 10.6 83.74 112.360 Moyenne 26.1 30.4 Somme 351.6 492.4 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 7 y = 0.7141x + 4.3928 15 17 19 21 23 25 27 29 31 33 35 15 20 25 30 35 40 45      =×−= == 39.44.30714.01.26ˆ 714.0 4.492 6.351 ˆ b a
  • 8. Quelques commentaires Autre écriture de la pente « a » X Y X r YXVOC a σ σ σ ˆ ˆ ˆ ˆ ),(ˆ ˆ 2 == Erreur et résidus : « erreur » = définie dans la spécification du modèle ; « résidus », erreurs observées sur les données bxa xyy i ii ˆˆ )(ˆˆ += = iii yy ˆˆ −=ε Résidus de la régression Pour la régression Relation entre la pente et le coefficient de corrélation linéaire !!! Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 8 0ˆ =∑i iε Centre de gravité du nuage de points : la droite de régression passe forcément par le barycentre du nuage de points. Pour la régression avec constante ! y xayxa bxaxy = −+= += )ˆ(ˆ ˆˆ)(ˆ Voir détail des calculs… y = 0.7141x + 4.3928 15 17 19 21 23 25 27 29 31 33 35 15 20 25 30 35 40 45
  • 9. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 9
  • 10. Equation d’analyse de variance Décomposition de la variance ( ) ( ) ( ) ( ) ( )( )yyyyyyyy yyyyyy i i ii i i i ii i iii i i −−+−+−= −+−=− ∑∑∑ ∑∑ ˆˆ2ˆˆ ˆˆ 22 22 ( )∑= −= n i ii yyS 1 2 ˆ Objectif de la régression : minimiser S. Mais 0 ≤ S ≤ +∞ ; à partir de quand peut-on dire que la régression est de « bonne qualité » ? Somme des écarts à la moyenne = 0 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 10 ( ) ( ) ( ) SCESCRSCT yyyyyy i i i ii i i += −+−=− ∑∑∑ 222 ˆˆ = 0 Décomposition de la variance SCT : somme des carrés totaux SCE : somme des carrés expliqués par le modèle SCR : somme des carrés résiduels, non expliqués par le modèle Voir détail des calculs…
  • 11. Coefficient de détermination Et coefficient de corrélation linéaire multiple ( ) ( ) ( ) ( )∑ ∑ ∑ ∑ − − −= −= − − == i i i ii i i i i yy yy R SCT SCR R yy yy SCT SCE R 2 2 2 2 2 2 2 ˆ 1 1 ˆ Coefficient de détermination. Exprime la part de variabilité de Y expliquée par le modèle. R² 1, le modèle est excellent R² 0, le modèle ne sert à rien Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 11 Coefficient de corrélation linéaire multiple R 2 RR = On montre que Rasgnr XY ×= )ˆ(, Lien entre le coefficient de corrélation linéaire (de Pearson) et le coefficient de corrélation linéaire multiple de la régression linéaire simple
  • 12. Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Résidus Résidus^2 1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149 2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461 3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922 4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195 5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574 6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286 7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544 8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812 9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785 10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110 Exemple des rendements agricoles 39.4714.0 ˆˆˆ += += i ii x bxay iii yy ˆˆ −=ε 2 ˆiε Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 12 10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110 Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.838749 SCT SCR ESTIMATION a 0.714053615 b 4.392770106 SCE = SCT - SCR 251.061251 R² 0.79727295 R 0.89290142
  • 13. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 13
  • 14. Biais [ ] [ ] bbE aaE = = ˆ ˆ Les estimateurs sont sans biais si… Etape 1 : Exprimer â en fonction de a ∑+= i iiaâ εω Où ( ) ( )∑ − − = j j i i xx xx 2 ω Voir détail des calculs… Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 14 Etape 2 : Déterminer E(â) en fonction de a Etape 3 : Identifier sous quelles conditions E(â) = a ( )       += ∑i iiEaâE εω ( ) ( )∑+= i ii EaâE εω X n’est pas aléatoire par hypothèse, donc ωi ne l’est pas ( ) aâE = E(εi) = E(ε) ; les εi sont i.i.d. E(ε) = 0 par hypothèse
  • 15. Biais (suite) ( )xaabb −−+= ˆˆ εPour « b » Avec les mêmes hypothèses, on aboutit à ( ) bbE =ˆ Conclusion : Les EMCO (estimateurs des moindres Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 15 Conclusion : Les EMCO (estimateurs des moindres carrés ordinaires) sont sans biais, si Les X ne sont pas stochastiques (non aléatoires) E(ε) = 0 c.-à-d. le modèle est bien spécifié
  • 16. Variance ( ) ( ) ( ) ( )∑∑ ∑ ∑ ∑ < < +=       +=               = −= ' '' 22 ' '' 22 2 2 2 2 ]ˆ[ˆ ii iiii i ii i ii iiiiii i ii EE E E aaEaV εεωωεω εεωωεω εω ∑+= i iiaâ εω puisque Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 16 ∑∑ < 'iii ( ) 22 )( εσεε == ii EV Homoscédasticité ( ) 0' =iiE εε Non-autocorrélation des résidus avec ( ) ( )∑ − − = j j i i xx xx 2 ω ( ) ( )∑ − = i i xx aV 2 2 ˆ εσ
  • 17. Convergence ( ) ( )∑ − = i i xx aV 2 2 ˆ εσ Est une valeur qui ne dépend pas des effectifs (variance de l’erreur théorique) 2 εσ ( ) +∞ →− +∞→∑ n i i xx 2 â est convergent ( ) 0ˆ  → +∞→n aV Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 17 De même, pour « b » ( ) ( )           − += ∑i i xx x n bV 2 2 2 1ˆ εσ ( ) 0ˆ  → +∞→n bV
  • 18. Caractérisation graphique o o o o o o o o o o o o ( ) 22 εσε =iE est faible )ˆ(aV est faible, modèle « stable » o o o o o o o o o o o o ( ) 22 εσε =iE est élevé )ˆ(aV Cette élévation est compensée par la valeur élevée de ( )2 ∑ − i i xx est moyennement élevée (1) Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 18 o o o o o o o o o o o o ( ) 22 εσε =iE est faible ( )2 ∑ − i i xx est faible )ˆ(aV ? L’adjonction d’un point supplémentaire dans la régression fait « bouger » la droite Le modèle est instable également (2) Les estimateurs sont d’autant plus précis que : (1) La variance de l’erreur est faible (la droite de régression passe bien au milieu des points. (2) La dispersion des X est forte (les X couvrent bien l’espace de représentation)
  • 19. Théorème de GAUSS-MARKOV Les EMCO de la régression sont sans biais et convergents. Parmi les estimateurs sans biais, ils sont à variance minimale c.-à-d. il est impossible de trouver un autre estimateur sans biais à plus petite variance Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 19 impossible de trouver un autre estimateur sans biais à plus petite variance On dit qu’ils sont BLUE (best linear unbiased estimator) Ce sont des « estimateurs efficaces » Cf. démonstration C. Labrousse (1983), page 26
  • 20. Estimation de la variance de l’erreur 2 εσ Joue un rôle très important. Comment l’estimer à partir des données ? Le résidu est tel que ( ) ( ) ( )bbxaa bxabaxyy ii iiiiii −−−−= +−++=−= ˆˆ ˆˆˆˆ ε εε On montre que Giraud & Chaix (1994), page 31 ( ) 22 2ˆ εσε −=      ∑ nE i i Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 20 On en déduit un estimateur sans biais 22 ˆ ˆ 2 2 − = − = ∑ n SCR n i iε σε Remarque : A propos du degré de liberté (n-2) Parce 2 contraintes avec les équations normale      = = ∑ ∑ i i i iix 0ˆ 0ˆ ε ε Parce que (simplement), on estimé 2 paramètres « a » et « b » dans le modèle pour obtenir les prédictions, et donc les résidus
  • 21. Rendements agricoles Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Résidus Résidus^2 1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149 2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461 3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922 4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195 5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574 6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286 7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544 8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812 9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785 10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110 Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.83874898 SCT SCR sigma²(epsilon) 7.979843623 ESTIMATION Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 21 ESTIMATION a 0.714053615 sigma²(a^) 0.01620602 sigma(a^) 0.127302862 b 4.392770106 sigma²(b^) 15.7749386 sigma(b^) 3.971767696 ( ) ( ) 0162.0 4.492 9798.7 4.492 2ˆ ˆ)ˆ(ˆ 2 2 2 ˆ == − = − == ∑ nSCR xx aV i i a εσ σ 127.00162.0ˆˆ 2 ˆˆ === aa σσ
  • 22. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 22
  • 23. Distribution de « â » – Variance de l’erreur connue ( )( ) ( )∑ ∑ − −− = i i i ii xx xxyy a 2 ˆ X est non aléatoire Y l’est par l’entremise de ε ( )εσε ,0N≡ ( )1,0 ˆ ˆ N aa a ≡ − σ Et « â » est issue d’une combinaison linéaire de Y Distribution de l’estimation de la variance de l’erreur Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 23 ( )∑ − = i i a xx 2 2 2 ˆ εσ σ on a besoin de connaître la distribution de 2 ˆεσ ( )εσε ,0N≡ Par hypothèse Le résidu étant une réalisation de ε, elle suit aussi une loi normale ( )∑ − = i i a xx 2 2 2 ˆ ˆ ˆ εσ σ )1,0( ˆ Ni ≡ εσ ε ( )2 ˆ ˆ 2 2 2 2 −≡=      ∑ ∑ n i i i i χ σ ε σ ε εε ( ) ( )2 ˆ 2 2 2 2 −≡− nn χ σ σ ε ε
  • 24. Distribution de « â » – Variance de l’erreur estimée ( ) ( ) 2 2 2 ˆ 2 ˆ ˆ 2 ˆ 2 ε ε σ σ σ σ −=− nn a aOn vérifie facilement ( ) ( )2 ˆ 2 2 2 ˆ 2 ˆ −≡− nn a a χ σ σ ( )2 ˆ ˆ ˆ −ℑ≡ − n aa aσ On en déduit dès lors que ( )2 ˆ ˆ ˆ −ℑ≡ − n bb b σ De la même manière, on montre Intervalle de confiance au niveau (1 - α) [ ]ta ˆˆ σ×± Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 24 A partir de ces éléments, on peut mettre en place l’inférence statistique Intervalle de confiance au niveau (1 - α) [ ]ata ˆ21 ˆˆ σα ×± − Tests d’hypothèses au risque α    ≠ = 01 00 : : aaH aaH Avec, en particulier le test de significativité (mesurer l’impact de X dans l’explication de Y via le modèle)    ≠ = 0: 0: 1 0 aH aH
  • 25. Rendements agricoles – Tests de significativité des coefficients Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Résidus Résidus^2 1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149 2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461 3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922 4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195 5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574 6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286 7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544 8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812 9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785 10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110 Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.83874898 SCT SCR sigma²(epsilon) 7.979843623 ESTIMATION a 0.714053615 sigma²(a^) 0.016206019 sigma(a^) 0.127302862 b 4.392770106 sigma²(b^) 15.77493863 sigma(b^) 3.971767696 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 25 609.5 127.0 714.0 ˆ ˆ ˆ ˆ === a a a t σ 306.2)8()8()8( 975.02/05.012/1 === −− ttt α b 4.392770106 sigma²(b^) 15.77493863 sigma(b^) 3.971767696 ddl 8 t théorique (bilatéral à 5%) 2.306004133 t(a^) 5.609093169 rejet H0 t(b^) 1.10599875 acceptation H0 Puisque 21ˆ α−> tta Rejet de H0 : a = 0
  • 26. Test de significativité globale du modèle H0 : Le modèle n’amène rien dans l’explication de Y H1 : Le modèle est pertinent (globalement significatif) Tableau d’analyse de variance Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 26 Statistique de test ( )2,1 2 1 −≡ − = nF n SCR SCE F Région critique au risque α )2,1(1 −> − nFF α Remarque : Ecriture de F à partir du R² ( ) ( )2 1 2 2 − − = n R R F Remarque : Tester la significativité de la régression et tester la significativité de la pente sont équivalents dans la régression simple.
  • 27. Rendements agricoles – Tests de significativité globale Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Résidus Résidus^2 1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149 2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461 3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922 4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195 5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574 6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286 7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544 8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812 9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785 10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110 Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.83874898 SCT SCR ESTIMATION Source de variation SC DDL CM a 0.714053615 Expliqués (Régression) 251.061251 1 251.061251 b 4.392770106 Résidus 63.83874898 8 7.979843623 Tableau d'analyse de variance Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 27 b 4.392770106 Résidus 63.83874898 8 7.979843623 Total 314.9 9 F calculé 31.46192618 rejet de H0 DDL1 1 DDL2 8 F théorique (à 5%) 5.317655063 4619.31 9798.7 06.251 2 1 == − = n SCR SCE F 37655.5)8,1()8,1( 95.01 ==− FF α Puisque α−> 1FF Rejet de H0 c.-à-d. on conclut que le modèle est globalement significatif Remarque : atF ˆ609.54619.31 ===
  • 28. Rendements agricoles – La fonction DROITEREG d’EXCEL Y X 16 20 18 24 23 28 24 22 28 32 29 28 26 32 31 36 32 41 34 41 DROITEREG 0.71405361 4.392770106 0.12730286 3.971767696 0.79727295 2.8248617 31.4619262 8 251.061251 63.83874898 t théorique 2.30600413 2.306004133 Intervalle de confiance à 5% aˆ bˆ aˆˆσ bˆˆσ 2 R εσˆ 2−nF SCE SCR Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 28 t théorique 2.30600413 2.306004133 Borne basse 0.42049269 -4.76614262 Borne haute 1.00761454 13.55168283 t de Student 5.60909317 1.10599875 p-value 0.00050487 0.30087418 F-calculé 31.4619262 DDL numérateur 1 DDL dénominateur 8 p-value 0.00050487 Test de significativité des coefficients Test de la régression globale
  • 29. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 29
  • 30. Prévision ponctuelle A prédire d’une valeur connue de X, prédire la valeur de Y Pour un individu i*, la prédiction ponctuelle s’écrit bxaxyy iii ˆˆ)(ˆˆ *** +== La prédiction est sans biais c.-à-d. ( ) ** ˆ ii yyE = Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 30 En effet, ( ) ( ) ( ) ** *** *** ˆˆ ˆˆ ˆˆ ii iii iii bbxaa baxbxa yy ε ε ε −−+−= ++−+= −= ( ) ( ) ( )[ ] ( ) ( ) ( )** *** ˆˆ ˆˆˆ ii iii EbbEaaEx bbxaaEE ε εε −−+−= −−+−= 0 Les EMCO sont sans biais 0 L’erreur du modèle est nulle par hypothèse
  • 31. Prévision par intervalle Variance de l’erreur de prévision ( ) 0ˆ ˆˆ * *** = −= i iii E yy ε ε ( ) ( ) ( ) ( ) 2 ˆ2 2 *22 ** * 1 1ˆˆ i i i i ii xx xx n EV εε σσεε =           − − ++== ∑ On montre Puisque Giraud & Chaix (1994), page 30 ( ) ( )           − − ++= ∑i i i xx xx ni 2 2 *22 ˆ 1 1ˆˆ * εε σσ D’où la variance estimée de l’erreur de prévision ( ) ( )∑ − − += i i i i xx xx n h 2 2 * * 1 est le LEVIER de l’observation i* (Il joue un rôle très important dans la Remarque : Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 31 La variance de l’erreur sera d’autant plus faible que : 2 ˆ 2 − = n SCR εσ est petit c.-à-d. la droite ajuste bien le nuage de points . ( )2 * xxi − est petit c.-à-d. le point est proche du centre de gravité du nuage. ( )∑ − i i xx 2 (1) (2) (3) est grand c.-à-d. la dispersion des points est grande. (4) n est grand c.-à-d. le nombre d’observations ayant servi à la construction du modèle est élevé. (Il joue un rôle très important dans la régression. Cf. points atypiques).
  • 32. Prévision par intervalle Distribution – Définition de l’intervalle Puisque ( )εσε ,0N≡ ( )**** 1,0ˆˆ iiii hNyy +≡−= εσε ( ) ( )2 ˆ 2 2 2 2 −≡− nn χ σ σ ε ε ( )2 ˆ ** −ℑ≡ − n yy ii Rapport d’une loi normale avec un KHI-2 normalisé Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 32 ( )2 ˆ ˆ *ˆ ** −ℑ≡ − n yy i ii εσ *ˆ21* ˆˆ i tyi εα σ×± − Rapport d’une loi normale avec un KHI-2 normalisé Intervalle de confiance au niveau (1-α)
  • 33. Rendements agricoles – x* = 38 Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 Y^ Résidus Résidus^2 1 16 20 -10.1 -10.4 105.04 108.160 18.674 -2.674 7.149 ESTIMATION 2 18 24 -8.1 -6.4 51.84 40.960 21.530 -3.530 12.461 a 0.714053615 3 23 28 -3.1 -2.4 7.44 5.760 24.386 -1.386 1.922 b 4.392770106 4 24 22 -2.1 -8.4 17.64 70.560 20.102 3.898 15.195 5 28 32 1.9 1.6 3.04 2.560 27.242 0.758 0.574 x* 38 6 29 28 2.9 -2.4 -6.96 5.760 24.386 4.614 21.286 y^ 31.52680747 7 26 32 -0.1 1.6 -0.16 2.560 27.242 -1.242 1.544 8 31 36 4.9 5.6 27.44 31.360 30.099 0.901 0.812 (x*-xb)^2 57.76 9 32 41 5.9 10.6 62.54 112.360 33.669 -1.669 2.785 10 34 41 7.9 10.6 83.74 112.360 33.669 0.331 0.110 sigma²(epsilon^) 9.71389 Moyenne 26.1 30.4 Somme 351.6 492.4 Somme 63.838749 t (0.975) 2.306004133 sigma²(erreur) 7.97984362 borne.basse 24.33965896 borne.haute 38.71395598 5268.31 39.438714.0 ˆˆˆ ** = +×= += bxay ii Variance de l’erreur de prédiction Prédiction ponctuelle Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 33 y = 0.7141x + 4.3928 15 20 25 30 35 40 15 20 25 30 35 40 45 Intervalle de prédiction pour x* = 38( ) ( ) 71389.9 4.492 76.57 10 1 19798.7 1 1ˆˆ 2 2 *22 ˆ * =       ++×=           − − ++= ∑i i i xx xx ni εε σσ 7140.3871389.9306.25298.31.. 3397.2471389.9306.25298.31.. =×+= =×−= hb bb Variance de l’erreur de prédiction
  • 34. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 34
  • 35. Modèle linéaire Lecture de la pente baXY += Ex. ventes = -12 * prix + 1000 Lecture en niveau : si prix = 10 euros alors ventes = 980 unités Lecture en termes d’évolution : si prix augmente de 1 euro , les ventes vont diminuer de 12 unités. dx dy a = La variation de Y est proportionnelle à la variation de X Avantages Simplicité Utilisé dans une première approche Estimation directe des paramètres par la méthode des MCO 0 5 10 15 20 25 30 35 40 0 5 10 15 Y X Linéaire a = 3; b = 5 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 35 Modèle log-linéaire a bXY = x dx y dy a = Le taux de variation de Y est proportionnelle au taux de variation de X Avantages Modèle à élasticité constante : favori des économistes Ex. emploi = f(production), demande = f(prix) Linéarisation : ln(y) = a ln(x) + ln(b) 0 1000 2000 3000 4000 5000 6000 0 2 4 6 8 10 12 Y X Log-linéaire a = 3; b = 5
  • 36. Modèle exponentiel (géométrique) baX eY + = dx y dy a = Le taux de variation de Y est proportionnelle à la variation de X Avantages Surtout utilisé quand x = temps, ainsi dx= 1 Dans ce cas, la croissance (décroissance) de Y est constante dans le temps Ce type d’évolution (croissance exponentielle) ne dure pas longtemps Linéarisation : ln(y) = a x + ln(b) 0 20000 40000 60000 80000 100000 120000 140000 160000 180000 0 2 4 6 8 10 12 Y X Exponentiel a = 0.7; b = 5 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 36 Modèle logarithmique bXaY += )ln( x dx dy a = La variation de Y est proportionnelle au taux de variation de X Avantages Archétype de la croissance (décroissance) qui s’épuise Ex. salaire = f(ancienneté) ; vente = f(publicité) 0 2 4 6 8 10 12 0 2 4 6 8 10 12 Y X Logarithmique a = 2; b = 5
  • 37. 3) Un modèle particulier : le modèle logistique Problème : Tous les modèles dans (2) ont une concavité constante (dérivée seconde de signe constant), on peut avoir besoin d ’un modèle à plusieurs phases ex : lancement d ’un produit dans le temps Décollage • produit inconnu • positionnement sur le marché Croissance accélérée • large diffusion Freinage • saturation du marché • concurrence Un modèle particulier Le modèle logistique Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 37 Equation bax e yy yy + + − += 1 minmax min Linéarisation bxa yy yy += − − )ln( min max
  • 38. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 38
  • 39. Cas des données centrées Lorsque les données sont centrées     −= −= xxx yyy ii o ii o 0ˆˆ =×−= −− oo xayb La constante est nulle par construction Parce que le barycentre du nuage de points est l’origine du repère c.-à-d. 0== −− oo xy Y X (Y-YB) (X-XB) 16 20 -10.1 -10.4 10 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 39 16 20 -10.1 -10.4 18 24 -8.1 -6.4 23 28 -3.1 -2.4 24 22 -2.1 -8.4 28 32 1.9 1.6 29 28 2.9 -2.4 26 32 -0.1 1.6 31 36 4.9 5.6 32 41 5.9 10.6 34 41 7.9 10.6 Moyenne 26.1 30.4 y = 0.7141x - 2E-15 R² = 0.7973 -15 -10 -5 0 5 -15 -10 -5 0 5 10 15 La droite passe forcément par le barycentre, qui se trouve être l’origine (0, 0) du repère.
  • 40. Cas des données non-centrées b = 0 on force le modèle à passer par l’origine (0,0) du repère iii xay ε+×= ( )∑∑ ×−== i ii i i xayS 22 ε On veut minimiser Une équation normale 0= ∂ ∂ a S ∑ ∑ = i i i ii x yx a 2 ˆ Estimation de la pente Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 40 Y X Y^.1 Y^.2 16 20 18.6738424 17.0248613 18 24 21.5300569 20.4298336 23 28 24.3862713 23.8348058 24 22 20.1019496 18.7273474 28 32 27.2424858 27.2397781 29 28 24.3862713 23.8348058 26 32 27.2424858 27.2397781 31 36 30.0987002 30.6447504 32 41 33.6689683 34.9009657 34 41 33.6689683 34.9009657 0 4.39277011 0 50 40.0954509 42.5621533 Rég.1 - Avec constante 0.71405361 4.39277011 a b Rég.2 - Sans constante 0.85124307 a 0 5 10 15 20 25 30 35 40 45 0 10 20 30 40 50
  • 41. Cas des données non-centrées (suite) Le coefficient de détermination R² n’a plus de sens parce que : SCT ≠ SCE + SCR Ca ne sert à rien de le calculer A propos du R² A propos des degrés de liberté Un seul paramètre « a » estimé à partir des données ddl = n - 1 1 ˆ 2 − = n SCR εσ Estimateur sans biais de la variance de l’erreur Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 41 ( )∑ = i i a x 2 2 2 ˆ ˆ ˆ εσ σ Variance de la pente estimée ( )1 ˆ ˆ ˆ −ℑ≡ − n aa aσ Sert pour les intervalles de confiance Pour les tests de significativité Pour les autres tests A propos des performances SCR (modèle avec constante) ≤ SCR (modèle sans constante) Pourquoi s’embêter avec un modèle sans constante alors ??? Pour les possibilités d’interprétations
  • 42. Cas des données non-centrées – Un exemple Comparaison des salaires à l’intérieur des ménages Numero Sal.Homme Sal.Femme 1 7.43 7.20 2 6.83 7.06 3 6.97 7.10 4 7.85 7.39 5 7.48 6.97 6 7.86 7.50 7 7.44 7.16 8 7.83 7.77 9 7.36 7.78 10 7.28 7.47 11 7.53 7.51 12 8.40 8.07 13 7.48 7.25 14 7.46 6.79 15 7.33 7.14 16 7.80 7.38 17 7.57 7.53 18 6.02 6.03 iii xay ε+×= En termes de régression linéaire simple (Y : Sal.H ; X : Sal.F) Test d’hypothèses (Attention : test unilatéral ) !    > = 1: 1: 1 0 aH aH Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 42 18 6.02 6.03 19 7.28 7.05 20 8.42 8.01 21 7.42 7.25 22 7.47 7.59 23 7.14 7.20 24 7.29 6.93 25 8.28 7.85 26 6.98 7.29 27 8.03 7.94 28 7.69 7.11 29 6.67 6.76 30 7.92 7.72 En moyenne, l’homme a-t-il un salaire plus élevé que sa conjointe dans les ménages (lorsque les deux sont salariés ?) a^ 1.021323921 0 sigma(a) 0.006821202 #N/A 0.998708093 0.27418841 22418.42983 29 ddl 1685.401501 2.18019923 a^-1 0.021323921 t calculé 3.126123666 t-théorique (95%) 1.699126996 Conclusion Rejet de H0 00682.0 10213.1 ˆ 1ˆ ˆ − = − = a a t σ 699.1)29()1(126.3 95.01 ==−>= − tntt α
  • 43. Bibliographique • R. Bourbonnais, « Économétrie », Dunod, 1998. • Y.Dodge, V.Rousson, « Analyse de régression appliquée », Dunod, 2004. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 43 • Y.Dodge, V.Rousson, « Analyse de régression appliquée », Dunod, 2004. • M. Tenenhaus, « Statistique : Méthodes pour décrire, expliquer et prévoir », Dunod, 2007.