SlideShare une entreprise Scribd logo
1  sur  20
Télécharger pour lire hors ligne
1
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
Comment la transposer dans un problème de classement ?
Ricco Rakotomalala
Université Lumière Lyon 2
2
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
3
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
Analyse prédictive : régression vs. classement
On veut construire une fonction de prédiction (explication) telle que
)
,
( 
X
f
Y 
Problèmes :
 il faut choisir une famille de fonction
 il faut estimer les paramètres 
 on utilise un échantillon pour optimiser sur la population
Y continue à prédire
X prédictives, quelconques
Y discrète à prédire
X prédictives, quelconques
Régression Classement
Critères d’évaluation



 2
)]
ˆ
,
(
ˆ
[ 
X
f
Y
S
Erreur quadratique
Somme des carrés des erreurs
Taux d’erreur
Erreur 0/1 (bon ou mauvais classement)











 

)
ˆ
,
(
ˆ
0
)
ˆ
,
(
ˆ
1
[.]
)]
ˆ
,
(
ˆ
,
[
)
(
1



X
f
Y
si
X
f
Y
si
où
X
f
Y
card
ET
4
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
• Se restreindre à une famille de fonction de prédiction linéaire
• Et à des exogènes continues (éventuellement des qualitatives recodées)
n
i
x
a
x
a
x
a
a
z i
p
i
p
i
i
i ,
,
1
;
,
2
,
2
1
,
1
0 
 





 
Le terme aléatoire  - l’erreur du modèle – cristallise les « insuffisances »
du modèle :
• le modèle n ’est qu’une caricature de la réalité, la spécification (linéaire
notamment) n ’est pas toujours rigoureusement exacte
• des variables qui ne sont pas prises en compte dans le modèle
• les fluctuations liées à l ’échantillonnage (si on change d ’échantillon, on
peut obtenir un résultat différent)
quantifie les écarts entre les valeurs réellement observées et les valeurs
prédites par le modèle
)
,
,
,
( 1
0 p
a
a
a  sont les paramètres du modèle que ‘l’on veut estimer à l’aide
des données
Régression linéaire multiple : rappel

ˆ
5
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
Dans un cas Y binaire
(Positifs vs. Négatifs),
nous pouvons coder








i
i
y
si
,
0
y
si
,
1
i
z
On constate aisément )
(
)
( 

 i
i Y
P
Z
E
Reportée dans l’équation
de régression p
i
p
i
i
i x
a
x
a
a
Y
P
Z
E ,
1
,
1
0
)
(
)
( 





 
On devrait donc pouvoir mettre en place une régression qui permet
d’estimer directement la probabilité d’appartenance P(Y=+) ???
>> la combinaison linéaire varie entre – et + , ce n’est pas une probabilité
>> les hypothèses de la MCO, notamment l’homoscédasticité et la normalité
de l’erreur posent problèmes
Régression sur variable cible recodée : le cas binaire -- Y{+, -}
6
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
La régression linéaire n’est pas adéquate pour estimer P(Y=+/X), …
Mais on peut exploiter ses résultats pour « séparer » des groupes !!! Vue géométrique
Vue probabiliste
y = -0.9797x + 2.142
R
2
= 0.6858
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
1.4
0 0.5 1 1.5 2 2.5 3
X (e xogè ne )
Z
(
endogène
recodée
en
0
/1
)
+
-
Comment définir cette frontière ???
i
i
i x
a
a
z 


 1
,
1
0
Ex. Une seule
variable prédictive
Régression : point de vue géométrique
7
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
Dans un cas Y binaire
(Positifs vs. Négatifs),
nous pouvons coder








i
i
y
si
,
0
y
si
,
1
i
z
i
p
i
p
i
i
i x
a
x
a
x
a
a
z 





 ,
2
,
2
1
,
1
0 
On effectue la régression linéaire
multiple (DROITEREG dans EXCEL
par ex.)
EMCO p
i
p
i
i
i x
a
x
a
x
a
a
z ,
2
,
2
1
,
1
0
ˆ
ˆ
ˆ
ˆ
ˆ 



 
Règle d’affectation








z
z
yi
i
i
ẑ
si
,
ẑ
si
,
ˆ
Moyenne des « z » c.-à-d. )
( 

 Y
P
z
Régression : règle d’affectation avec codage 0/1
8
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
Dans un cas Y binaire
(Positifs vs. Négatifs),
nous pouvons coder















i
i
y
si
,
y
si
,
n
n
n
n
zi
i
p
i
p
i
i
i x
a
x
a
x
a
a
z 





 ,
2
,
2
1
,
1
0 
On effectue la régression linéaire
multiple (DROITEREG dans EXCEL
par ex.)
EMCO p
i
p
i
i
i x
a
x
a
x
a
a
z ,
2
,
2
1
,
1
0
ˆ
ˆ
ˆ
ˆ
ˆ 



 
Règle d’affectation








0
ẑ
si
,
0
ẑ
si
,
ˆ
i
i
i
y
On remarque ici
0
)
(
1











 



n
n
n
n
n
n
n
z
Régression : règle d’affectation avec autre codage
9
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
10
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
Discrimination : construire une frontière linéaire
n = 100 individus
Dans le plan c.-à-d. p = 2 variables prédictives.
Cible à K = 2 modalités c.-à-d. 2 groupes d’individus (n1 = n2 = 50)
0.5
1.0
1.5
2.0
2.5
3.0
2.0 3.0 4.0 5.0 6.0 7.0 8.0
versicolor
virginica
Les méthodes
supervisées linéaires
visent à produire
cette frontière.
11
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
Global results
R² 0.7198
Adjusted-R 0.713979
Sigma error 0.268752
F-Test (2,97)
124.5641
(0.000000)
Coefficients
Attribute Coef. std t(97) p-value
pet.length -0.198 0.057648 -3.428 0.000893
pet.width -0.663 0.112044 -5.921 0.000000
Intercept 2.082 0.168871 12.326 0.000000
MANOVA
Stat Value p-value
Wilks' Lambda 0.2802 -
Bartlett -- C(2) 123.3935 0
Rao -- F(2, 97) 124.5641 0
LDA Summary
Score function
Attribute versicolor virginica D(X) Wilks L. Partial L. F(1,97) p-value
pet.length 14.40029 17.164859 -2.765 0.314202 0.89192 11.754 0.000893
pet.width 7.824622 17.104674 -9.280 0.381538 0.734509 35.061 0.000000
constant -36.55349 -65.66983 29.116
Statistical Evaluation
-
Classification functions
Comparaisons des résultats
Régression
Analyse
discriminante
2802
.
0
7198
.
0
1
1 2





 R
988
.
13
082
.
2
116
.
29
988
.
13
663
.
0
280
.
9
988
.
13
198
.
0
765
.
2











 

 j
j

,
)
428
.
3
(
754
.
11 2
2


 j
j t
F
On sait calculer
directement  !
12
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
MANOVA
Stat Value p-value
Wilks' Lambda 0.7247 -
Bartlett -- C(2) 57.9534 0
Rao -- F(2, 180) 34.1851 0
LDA Summary
Attribute present absent Wilks L. Partial L. F(1,180) p-value
max.rate 0.3113 0.3530 -0.0417 0.8419 0.8609 29.0951 0.0000
oldpeak 2.3975 1.4665 0.9310 0.8336 0.8694 27.0301 0.0000
constant -23.9246 -28.6913 4.7667
Classification functions Statistical Evaluation
-
Fonction
score
Cas des classes non équilibrées (n1  n2) n = 183 avec
n1 = 96, n2 = 87
Régression
Analyse
discriminante
7247
.
0
2753
.
0
1
1 2





 R
(-5.3940)² = 29.0951
(5.1990)² = 27.0301
Global results
R² 0.2753
Adjusted-R 0.2672
Sigma error 0.4287
F-Test (2,180) 34.1851
Coefficients
Attribute Coef. std t(180) p-value
max.rate -0.0076 0.0014 -5.3940 0.0000
oldpeak 0.1701 0.0327 5.1990 0.0000
Intercept 0.8463 0.2200 3.8461 0.0002
-0.0417 / -0.0076 = 5.4721
0.9310 / 0.1701 = 5.4721
4.7667 / 0.8463 = 5.6323
Il n’y a plus l’équivalence
pour la constante. La règle
de décision est différente !!!
13
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
Cas des classes non équilibrées – Frontières induites
Analyse discriminante
Régression linéaire
(1) Seule la constante diffère
(2) Les frontières sont différentes mais parallèles
(3) Les modèles se comportent différemment c.-à-d. les matrices
de confusion ne sont pas identiques
(4) L’amplitude de l’écart dépend de l’amplitude du déséquilibre
entre les classes
14
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
Il est possible de retrouver les coefficients de l’ADL à partir
d’une régression linéaire multiple
>> l’équivalence est totale dans le cas des classes équilibrées
>> la constante est différente lorsque n1  n2, il faudrait une
correction additionnelle
Attention, les hypothèses ne sont pas les mêmes,
notamment :
• les X sont aléatoires dans la discrimination
• Y est binaire (dist. binomiale) et non pas normale (dist.
normale) par l’intermédiaire du terme d’erreur 
Il n’en reste pas moins que les tests de significativité globale
du modèle et individuelle des coefficients sont directement
utilisables, quelle que soit la distribution des classes
Régression vs. Analyse discriminante linéaire - BILAN
15
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
16
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
Trois séparateurs linéaires (Rég. Logistique, Analyse Discriminante, Rég. Linéaire)
Régression logistique p
p x
a
x
a
a
X
Y
P
X
Y
P
X
Y
P
X
Y
P
LOGIT 













 
1
1
0
)
/
(
)
/
(
ln
)
/
(
1
)
/
(
ln
0
ˆ 

 LOGIT
si
Y
Analyse discriminante
linéaire
 
   
 
p
p x
b
x
b
b
Y
X
P
Y
P
Y
X
P
Y
P
X
D

















1
1
0
)
/
(
)
(
ln
)
/
(
)
(
ln
)
(
0
)
(
ˆ 

 X
D
si
Y
Régression linéaire
multiple 











Y
Y
Z
x
c
x
c
c
Z p
p
,
0
,
1
;
1
1
0 
Z
Z
si
Y 

 ˆ
ˆ
17
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
Fichier BREAST (Y binaire « cancer », 9 descripteurs continus) – Évaluation en resubstitution
Attribute Coef. Std-dev Wald Signif
clump -0.531 0.132 16.237 0.000
ucellsize -0.006 0.187 0.001 0.975
ucellshape -0.333 0.208 2.567 0.109
mgadhesion -0.240 0.115 4.380 0.036
sepics -0.069 0.151 0.212 0.645
bnuclei -0.400 0.089 20.041 0.000
bchromatin -0.411 0.156 6.918 0.009
normnucl -0.145 0.102 2.003 0.157
mitoses -0.551 0.303 3.311 0.069
constant 9.671 - - -
Régression logistique
begnin malignant Sum
begnin 447 11 458
malignant 11 230 241
Sum 458 241 699
0315
.
0
699
11
11




Attribute begnin
malignan
t
Wilks L. Partial L. F(1,689) p-value
clump 0.729 1.616 0.184 0.892 83.767 0.000
ucellsize -0.316 0.292 0.167 0.983 12.264 0.000
ucellshape 0.066 0.504 0.165 0.990 6.662 0.010
mgadhesion 0.057 0.232 0.164 0.996 2.608 0.107
sepics 0.654 0.870 0.164 0.997 2.290 0.131
bnuclei 0.209 1.427 0.210 0.779 195.186 0.000
bchromatin 0.686 1.245 0.168 0.977 16.553 0.000
normnucl 0.000 0.462 0.169 0.971 20.885 0.000
mitoses 0.201 0.278 0.164 1.000 0.324 0.569
constant -3.048 -23.296
Classification Statistical Evaluation
-
Analyse discriminante linéaire
begnin malignant Sum
begnin 448 10 458
malignant 18 223 241
Sum 466 233 699
0401
.
0
699
10
18




Régression linéaire multiple (begnin = 1)
Attribute Coef. std t(689) p-value
clump -0.033 0.004 -9.152 0.000
ucellsize -0.023 0.006 -3.502 0.000
ucellshape -0.016 0.006 -2.581 0.010
mgadhesion -0.006 0.004 -1.615 0.107
sepics -0.008 0.005 -1.513 0.131
bnuclei -0.045 0.003 -13.971 0.000
bchromatin -0.021 0.005 -4.069 0.000
normnucl -0.017 0.004 -4.570 0.000
mitoses -0.003 0.005 -0.569 0.569
Constant 1.253
begnin malignant Sum
begnin 442 16 458
malignant 4 237 241
Sum 466 233 699
0286
.
0
699
16
4




18
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
19
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
Conclusion
(1) On peut utiliser la régression linéaire pour le classement binaire.
(2) Du point de vue de l’inférence statistique, c’est discutable ; du point de
vue géométrique, ça tient la route.
(3) Dans le cas binaire, il y a une équivalence avec l’analyse discriminante.
(4) Elle est totale dans le cas des classes équilibrées (n1 = n2).
(5) La constante est différente dans le cas contraire (n1  n2). Mais les
coefficients des variables et les tests de significativité restent valables.
On peut utiliser un programme de sélection de variables de la régression
pour l’analyse discriminante.
(6) Il y a différentes solutions possibles pour (K > 2). Mais elles présentent
différents inconvénients (les frontières entres les classes peuvent être
incohérentes), et il n’y a plus l’équivalence avec l’analyse discriminante.
20
Ricco Rakotomalala
Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
Bibliographique
• Tutoriel Tanagra, « Analyse discriminante et régression linéaire », Avril 2014.
• R. Tomassone, M. Danzart, J.J. Daudin, J.P. Masson, « Discrimination et
classement », Masson, 1988, pages 36 à 38
• G. Saporta, « Probabilités, Analyses de données et Statistique », Technip,
2006, pages 451 et 452.

Contenu connexe

Similaire à regression_multiple_pour_le_classement.pdf

FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptxsara6496
 
Cours gestion de la production Pr Falloul
Cours gestion de la production Pr FalloulCours gestion de la production Pr Falloul
Cours gestion de la production Pr FalloulProfesseur Falloul
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdfSidiAbdallah1
 
Regression lineaire simple
Regression lineaire simpleRegression lineaire simple
Regression lineaire simpleMehdi Rajawi
 
Cours analyse-num source1
Cours analyse-num source1Cours analyse-num source1
Cours analyse-num source1Lacina Zina
 
M2 An 1986 20 3 371 0
M2 An 1986  20 3 371 0M2 An 1986  20 3 371 0
M2 An 1986 20 3 371 0guest8b8369
 
Ponts castillo1 statistique
Ponts castillo1 statistiquePonts castillo1 statistique
Ponts castillo1 statistiqueAli BEN MANSOUR
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdfOuailChoukhairi
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfAnassFarkadi
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistiqueBoris Guarisma
 
43 projets Lean Six Sigma - Etude 2008
43 projets Lean Six Sigma - Etude 200843 projets Lean Six Sigma - Etude 2008
43 projets Lean Six Sigma - Etude 2008Laurent
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multipleafryma
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multipleafryma
 
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016ibtissam el hassani
 
FiltrageNumérique.pptx
FiltrageNumérique.pptxFiltrageNumérique.pptx
FiltrageNumérique.pptxAyoubELJAFRY1
 
Les Filtres Numeriques
Les Filtres NumeriquesLes Filtres Numeriques
Les Filtres NumeriquesSAHELAicha
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiplemohamedchaouche
 
STRM1_Chapitre1_2021-2022.pdf
STRM1_Chapitre1_2021-2022.pdfSTRM1_Chapitre1_2021-2022.pdf
STRM1_Chapitre1_2021-2022.pdfAssiaYdroudj1
 

Similaire à regression_multiple_pour_le_classement.pdf (20)

FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptx
 
Cours gestion de la production Pr Falloul
Cours gestion de la production Pr FalloulCours gestion de la production Pr Falloul
Cours gestion de la production Pr Falloul
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdf
 
Comparaison
ComparaisonComparaison
Comparaison
 
Regression lineaire simple
Regression lineaire simpleRegression lineaire simple
Regression lineaire simple
 
Cours analyse-num source1
Cours analyse-num source1Cours analyse-num source1
Cours analyse-num source1
 
M2 An 1986 20 3 371 0
M2 An 1986  20 3 371 0M2 An 1986  20 3 371 0
M2 An 1986 20 3 371 0
 
Ponts castillo1 statistique
Ponts castillo1 statistiquePonts castillo1 statistique
Ponts castillo1 statistique
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdf
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdf
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
 
43 projets Lean Six Sigma - Etude 2008
43 projets Lean Six Sigma - Etude 200843 projets Lean Six Sigma - Etude 2008
43 projets Lean Six Sigma - Etude 2008
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
 
FiltrageNumérique.pptx
FiltrageNumérique.pptxFiltrageNumérique.pptx
FiltrageNumérique.pptx
 
Les Filtres Numeriques
Les Filtres NumeriquesLes Filtres Numeriques
Les Filtres Numeriques
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
statistique dsc s1
   statistique dsc s1   statistique dsc s1
statistique dsc s1
 
STRM1_Chapitre1_2021-2022.pdf
STRM1_Chapitre1_2021-2022.pdfSTRM1_Chapitre1_2021-2022.pdf
STRM1_Chapitre1_2021-2022.pdf
 

Plus de SidiAbdallah1

Introduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfIntroduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfSidiAbdallah1
 
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdffr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdfSidiAbdallah1
 
naive_bayes_classifier.pdf
naive_bayes_classifier.pdfnaive_bayes_classifier.pdf
naive_bayes_classifier.pdfSidiAbdallah1
 
resampling_evaluation.pdf
resampling_evaluation.pdfresampling_evaluation.pdf
resampling_evaluation.pdfSidiAbdallah1
 
380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdf380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdfSidiAbdallah1
 
presentation_rgpd_062018.pptx
presentation_rgpd_062018.pptxpresentation_rgpd_062018.pptx
presentation_rgpd_062018.pptxSidiAbdallah1
 

Plus de SidiAbdallah1 (7)

Introduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfIntroduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdf
 
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdffr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
 
naive_bayes_classifier.pdf
naive_bayes_classifier.pdfnaive_bayes_classifier.pdf
naive_bayes_classifier.pdf
 
resampling_evaluation.pdf
resampling_evaluation.pdfresampling_evaluation.pdf
resampling_evaluation.pdf
 
ATELIER_3.pdf
ATELIER_3.pdfATELIER_3.pdf
ATELIER_3.pdf
 
380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdf380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdf
 
presentation_rgpd_062018.pptx
presentation_rgpd_062018.pptxpresentation_rgpd_062018.pptx
presentation_rgpd_062018.pptx
 

Dernier

Présentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptxPrésentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptxpopzair
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxssuserbd075f
 
MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptssusercbaa22
 
Cours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptxCours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptxlamourfrantz
 
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptssusercbaa22
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne FontaineTxaruka
 
Formation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipFormation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipM2i Formation
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.Franck Apolis
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...Faga1939
 
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdfMICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdfssuser40e112
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...M2i Formation
 
présentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteurprésentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteurdinaelchaine
 
presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptxMalikaIdseaid1
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptxTxaruka
 
Grammaire pour les élèves de la 6ème.doc
Grammaire pour les élèves de la  6ème.docGrammaire pour les élèves de la  6ème.doc
Grammaire pour les élèves de la 6ème.docKarimKhrifech
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprisesMajdaKtiri2
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxssusercbaa22
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptxSAID MASHATE
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.Txaruka
 

Dernier (20)

Présentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptxPrésentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptx
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
 
MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.ppt
 
Cours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptxCours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptx
 
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne Fontaine
 
Pâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie PelletierPâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie Pelletier
 
Formation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipFormation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadership
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
 
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdfMICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
 
présentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteurprésentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteur
 
presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptx
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptx
 
Grammaire pour les élèves de la 6ème.doc
Grammaire pour les élèves de la  6ème.docGrammaire pour les élèves de la  6ème.doc
Grammaire pour les élèves de la 6ème.doc
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprises
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 

regression_multiple_pour_le_classement.pdf

  • 1. 1 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/ Comment la transposer dans un problème de classement ? Ricco Rakotomalala Université Lumière Lyon 2
  • 2. 2 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
  • 3. 3 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/ Analyse prédictive : régression vs. classement On veut construire une fonction de prédiction (explication) telle que ) , (  X f Y  Problèmes :  il faut choisir une famille de fonction  il faut estimer les paramètres   on utilise un échantillon pour optimiser sur la population Y continue à prédire X prédictives, quelconques Y discrète à prédire X prédictives, quelconques Régression Classement Critères d’évaluation     2 )] ˆ , ( ˆ [  X f Y S Erreur quadratique Somme des carrés des erreurs Taux d’erreur Erreur 0/1 (bon ou mauvais classement)               ) ˆ , ( ˆ 0 ) ˆ , ( ˆ 1 [.] )] ˆ , ( ˆ , [ ) ( 1    X f Y si X f Y si où X f Y card ET
  • 4. 4 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/ • Se restreindre à une famille de fonction de prédiction linéaire • Et à des exogènes continues (éventuellement des qualitatives recodées) n i x a x a x a a z i p i p i i i , , 1 ; , 2 , 2 1 , 1 0           Le terme aléatoire  - l’erreur du modèle – cristallise les « insuffisances » du modèle : • le modèle n ’est qu’une caricature de la réalité, la spécification (linéaire notamment) n ’est pas toujours rigoureusement exacte • des variables qui ne sont pas prises en compte dans le modèle • les fluctuations liées à l ’échantillonnage (si on change d ’échantillon, on peut obtenir un résultat différent) quantifie les écarts entre les valeurs réellement observées et les valeurs prédites par le modèle ) , , , ( 1 0 p a a a  sont les paramètres du modèle que ‘l’on veut estimer à l’aide des données Régression linéaire multiple : rappel  ˆ
  • 5. 5 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/ Dans un cas Y binaire (Positifs vs. Négatifs), nous pouvons coder         i i y si , 0 y si , 1 i z On constate aisément ) ( ) (    i i Y P Z E Reportée dans l’équation de régression p i p i i i x a x a a Y P Z E , 1 , 1 0 ) ( ) (         On devrait donc pouvoir mettre en place une régression qui permet d’estimer directement la probabilité d’appartenance P(Y=+) ??? >> la combinaison linéaire varie entre – et + , ce n’est pas une probabilité >> les hypothèses de la MCO, notamment l’homoscédasticité et la normalité de l’erreur posent problèmes Régression sur variable cible recodée : le cas binaire -- Y{+, -}
  • 6. 6 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/ La régression linéaire n’est pas adéquate pour estimer P(Y=+/X), … Mais on peut exploiter ses résultats pour « séparer » des groupes !!! Vue géométrique Vue probabiliste y = -0.9797x + 2.142 R 2 = 0.6858 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.4 0 0.5 1 1.5 2 2.5 3 X (e xogè ne ) Z ( endogène recodée en 0 /1 ) + - Comment définir cette frontière ??? i i i x a a z     1 , 1 0 Ex. Une seule variable prédictive Régression : point de vue géométrique
  • 7. 7 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/ Dans un cas Y binaire (Positifs vs. Négatifs), nous pouvons coder         i i y si , 0 y si , 1 i z i p i p i i i x a x a x a a z        , 2 , 2 1 , 1 0  On effectue la régression linéaire multiple (DROITEREG dans EXCEL par ex.) EMCO p i p i i i x a x a x a a z , 2 , 2 1 , 1 0 ˆ ˆ ˆ ˆ ˆ       Règle d’affectation         z z yi i i ẑ si , ẑ si , ˆ Moyenne des « z » c.-à-d. ) (    Y P z Régression : règle d’affectation avec codage 0/1
  • 8. 8 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/ Dans un cas Y binaire (Positifs vs. Négatifs), nous pouvons coder                i i y si , y si , n n n n zi i p i p i i i x a x a x a a z        , 2 , 2 1 , 1 0  On effectue la régression linéaire multiple (DROITEREG dans EXCEL par ex.) EMCO p i p i i i x a x a x a a z , 2 , 2 1 , 1 0 ˆ ˆ ˆ ˆ ˆ       Règle d’affectation         0 ẑ si , 0 ẑ si , ˆ i i i y On remarque ici 0 ) ( 1                 n n n n n n n z Régression : règle d’affectation avec autre codage
  • 9. 9 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
  • 10. 10 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/ Discrimination : construire une frontière linéaire n = 100 individus Dans le plan c.-à-d. p = 2 variables prédictives. Cible à K = 2 modalités c.-à-d. 2 groupes d’individus (n1 = n2 = 50) 0.5 1.0 1.5 2.0 2.5 3.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 versicolor virginica Les méthodes supervisées linéaires visent à produire cette frontière.
  • 11. 11 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/ Global results R² 0.7198 Adjusted-R 0.713979 Sigma error 0.268752 F-Test (2,97) 124.5641 (0.000000) Coefficients Attribute Coef. std t(97) p-value pet.length -0.198 0.057648 -3.428 0.000893 pet.width -0.663 0.112044 -5.921 0.000000 Intercept 2.082 0.168871 12.326 0.000000 MANOVA Stat Value p-value Wilks' Lambda 0.2802 - Bartlett -- C(2) 123.3935 0 Rao -- F(2, 97) 124.5641 0 LDA Summary Score function Attribute versicolor virginica D(X) Wilks L. Partial L. F(1,97) p-value pet.length 14.40029 17.164859 -2.765 0.314202 0.89192 11.754 0.000893 pet.width 7.824622 17.104674 -9.280 0.381538 0.734509 35.061 0.000000 constant -36.55349 -65.66983 29.116 Statistical Evaluation - Classification functions Comparaisons des résultats Régression Analyse discriminante 2802 . 0 7198 . 0 1 1 2       R 988 . 13 082 . 2 116 . 29 988 . 13 663 . 0 280 . 9 988 . 13 198 . 0 765 . 2                j j  , ) 428 . 3 ( 754 . 11 2 2    j j t F On sait calculer directement  !
  • 12. 12 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/ MANOVA Stat Value p-value Wilks' Lambda 0.7247 - Bartlett -- C(2) 57.9534 0 Rao -- F(2, 180) 34.1851 0 LDA Summary Attribute present absent Wilks L. Partial L. F(1,180) p-value max.rate 0.3113 0.3530 -0.0417 0.8419 0.8609 29.0951 0.0000 oldpeak 2.3975 1.4665 0.9310 0.8336 0.8694 27.0301 0.0000 constant -23.9246 -28.6913 4.7667 Classification functions Statistical Evaluation - Fonction score Cas des classes non équilibrées (n1  n2) n = 183 avec n1 = 96, n2 = 87 Régression Analyse discriminante 7247 . 0 2753 . 0 1 1 2       R (-5.3940)² = 29.0951 (5.1990)² = 27.0301 Global results R² 0.2753 Adjusted-R 0.2672 Sigma error 0.4287 F-Test (2,180) 34.1851 Coefficients Attribute Coef. std t(180) p-value max.rate -0.0076 0.0014 -5.3940 0.0000 oldpeak 0.1701 0.0327 5.1990 0.0000 Intercept 0.8463 0.2200 3.8461 0.0002 -0.0417 / -0.0076 = 5.4721 0.9310 / 0.1701 = 5.4721 4.7667 / 0.8463 = 5.6323 Il n’y a plus l’équivalence pour la constante. La règle de décision est différente !!!
  • 13. 13 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/ Cas des classes non équilibrées – Frontières induites Analyse discriminante Régression linéaire (1) Seule la constante diffère (2) Les frontières sont différentes mais parallèles (3) Les modèles se comportent différemment c.-à-d. les matrices de confusion ne sont pas identiques (4) L’amplitude de l’écart dépend de l’amplitude du déséquilibre entre les classes
  • 14. 14 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/ Il est possible de retrouver les coefficients de l’ADL à partir d’une régression linéaire multiple >> l’équivalence est totale dans le cas des classes équilibrées >> la constante est différente lorsque n1  n2, il faudrait une correction additionnelle Attention, les hypothèses ne sont pas les mêmes, notamment : • les X sont aléatoires dans la discrimination • Y est binaire (dist. binomiale) et non pas normale (dist. normale) par l’intermédiaire du terme d’erreur  Il n’en reste pas moins que les tests de significativité globale du modèle et individuelle des coefficients sont directement utilisables, quelle que soit la distribution des classes Régression vs. Analyse discriminante linéaire - BILAN
  • 15. 15 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
  • 16. 16 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/ Trois séparateurs linéaires (Rég. Logistique, Analyse Discriminante, Rég. Linéaire) Régression logistique p p x a x a a X Y P X Y P X Y P X Y P LOGIT                 1 1 0 ) / ( ) / ( ln ) / ( 1 ) / ( ln 0 ˆ    LOGIT si Y Analyse discriminante linéaire         p p x b x b b Y X P Y P Y X P Y P X D                  1 1 0 ) / ( ) ( ln ) / ( ) ( ln ) ( 0 ) ( ˆ    X D si Y Régression linéaire multiple             Y Y Z x c x c c Z p p , 0 , 1 ; 1 1 0  Z Z si Y    ˆ ˆ
  • 17. 17 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/ Fichier BREAST (Y binaire « cancer », 9 descripteurs continus) – Évaluation en resubstitution Attribute Coef. Std-dev Wald Signif clump -0.531 0.132 16.237 0.000 ucellsize -0.006 0.187 0.001 0.975 ucellshape -0.333 0.208 2.567 0.109 mgadhesion -0.240 0.115 4.380 0.036 sepics -0.069 0.151 0.212 0.645 bnuclei -0.400 0.089 20.041 0.000 bchromatin -0.411 0.156 6.918 0.009 normnucl -0.145 0.102 2.003 0.157 mitoses -0.551 0.303 3.311 0.069 constant 9.671 - - - Régression logistique begnin malignant Sum begnin 447 11 458 malignant 11 230 241 Sum 458 241 699 0315 . 0 699 11 11     Attribute begnin malignan t Wilks L. Partial L. F(1,689) p-value clump 0.729 1.616 0.184 0.892 83.767 0.000 ucellsize -0.316 0.292 0.167 0.983 12.264 0.000 ucellshape 0.066 0.504 0.165 0.990 6.662 0.010 mgadhesion 0.057 0.232 0.164 0.996 2.608 0.107 sepics 0.654 0.870 0.164 0.997 2.290 0.131 bnuclei 0.209 1.427 0.210 0.779 195.186 0.000 bchromatin 0.686 1.245 0.168 0.977 16.553 0.000 normnucl 0.000 0.462 0.169 0.971 20.885 0.000 mitoses 0.201 0.278 0.164 1.000 0.324 0.569 constant -3.048 -23.296 Classification Statistical Evaluation - Analyse discriminante linéaire begnin malignant Sum begnin 448 10 458 malignant 18 223 241 Sum 466 233 699 0401 . 0 699 10 18     Régression linéaire multiple (begnin = 1) Attribute Coef. std t(689) p-value clump -0.033 0.004 -9.152 0.000 ucellsize -0.023 0.006 -3.502 0.000 ucellshape -0.016 0.006 -2.581 0.010 mgadhesion -0.006 0.004 -1.615 0.107 sepics -0.008 0.005 -1.513 0.131 bnuclei -0.045 0.003 -13.971 0.000 bchromatin -0.021 0.005 -4.069 0.000 normnucl -0.017 0.004 -4.570 0.000 mitoses -0.003 0.005 -0.569 0.569 Constant 1.253 begnin malignant Sum begnin 442 16 458 malignant 4 237 241 Sum 466 233 699 0286 . 0 699 16 4    
  • 18. 18 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/
  • 19. 19 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/ Conclusion (1) On peut utiliser la régression linéaire pour le classement binaire. (2) Du point de vue de l’inférence statistique, c’est discutable ; du point de vue géométrique, ça tient la route. (3) Dans le cas binaire, il y a une équivalence avec l’analyse discriminante. (4) Elle est totale dans le cas des classes équilibrées (n1 = n2). (5) La constante est différente dans le cas contraire (n1  n2). Mais les coefficients des variables et les tests de significativité restent valables. On peut utiliser un programme de sélection de variables de la régression pour l’analyse discriminante. (6) Il y a différentes solutions possibles pour (K > 2). Mais elles présentent différents inconvénients (les frontières entres les classes peuvent être incohérentes), et il n’y a plus l’équivalence avec l’analyse discriminante.
  • 20. 20 Ricco Rakotomalala Tutoriel Tanagra - http://tutoriels-data-mining.blogspot.fr/ Bibliographique • Tutoriel Tanagra, « Analyse discriminante et régression linéaire », Avril 2014. • R. Tomassone, M. Danzart, J.J. Daudin, J.P. Masson, « Discrimination et classement », Masson, 1988, pages 36 à 38 • G. Saporta, « Probabilités, Analyses de données et Statistique », Technip, 2006, pages 451 et 452.