SlideShare une entreprise Scribd logo
1  sur  35
Télécharger pour lire hors ligne
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1
Une approche pour rendre calculable P(Y/X)
Ricco RAKOTOMALALA
Théorème de Bayes
Probabilité conditionnelle
( ) ( ) ( )
( )
( ) ( )
( ) ( )
∑
=
=
ℵ
×
=
=
ℵ
×
=
=
ℵ
=
ℵ
×
=
=
ℵ
=
K
k
k
k
k
k
k
k
k
y
Y
P
y
Y
P
y
Y
P
y
Y
P
P
y
Y
P
y
Y
P
y
Y
P
1
/
/
/
/
Estimer la probabilité conditionnelle
Déterminer la conclusion = déterminer le max.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2
Déterminer la conclusion = déterminer le max.
( )
( ) ( )
k
k
k
k
k
k
k
y
Y
P
y
Y
P
y
y
Y
P
y
=
ℵ
×
=
=
⇔
ℵ
=
=
/
max
arg
/
max
arg
*
*
Comment estimer P(X/Y=yk)
Probabilité a priori
Estimée facilement par nk/n Impossibilité à estimer avec des fréquences
Le tableau croisé serait trop grand et rempli de zéros
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
Modèle d’indépendance conditionnelle
Hypothèse d’indépendance conditionnelle ∏
=
=
=
=
ℵ
J
j
k
j
k y
Y
X
P
y
Y
P
1
)
/
(
)
/
(
Les descripteurs sont deux à deux indépendants
conditionnellement aux valeurs prises par Y
Pour un descripteur X discret quelconque, la
probabilité conditionnelle pour qu’elle prenne la
valeur xl s’écrit
)
(
)
(
)
/
(
k
k
l
k
l
y
Y
P
y
Y
x
X
P
y
Y
x
X
P
=
=
∧
=
=
=
=
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4
Et son estimation par les
fréquences (profil ligne)
( ) { }
{ } k
kl
k
k
l
k
l
n
n
y
Y
y
Y
x
X
y
Y
x
X
P =
=
Ω
∈
=
∧
=
Ω
∈
=
=
=
)
(
,
#
)
(
)
(
,
#
/
ˆ
ω
ω
ω
ω
ω
n
n
n
y
x
X
Y
k
kl
k
l
Σ
Σ

On lui préfère souvent l’estimateur « laplacien » des probabilités !!!
( )
L
n
n
p
y
Y
x
X
P
k
kl
k
l
k
l
+
+
=
=
=
=
1
/
ˆ
/
(1) « Lissage » des estimations
sur les petits effectifs.
(2) Eviter le problème du nkl=0
Un exemple
NB Maladie
Maladie Total
Indépendance conditionnelle
Maladie Marié Etud.Sup
Présent Non Oui
Présent Non Oui
Absent Non Non
Absent Oui Oui
Présent Non Oui
Absent Non Non
Absent Oui Non
Présent Non Oui
Absent Oui Non
Présent Oui Non
Estimation directe
1
1
1
)
,
/
(
ˆ =
=
=
=
= oui
Etu
oui
Marié
Absent
Maladie
P
0
1
0
)
,
/
Présent
(
ˆ =
=
=
=
= oui
Etu
oui
Marié
Maladie
P
Si Etu = oui et Marié = oui Alors Maladie = Absent
(+) Calcul sans hypothèses restrictives, (-) effectifs indigents
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5
Maladie Total
Absent 5
Présent 5
Total général 10
NB Maladie Marié
Maladie Non Oui Total général
Absent 2 3 5
Présent 4 1 5
Total général 6 4 10
NB Maladie Etud.Sup
Maladie Non Oui Total général
Absent 4 1 5
Présent 1 4 5
Total général 5 5 10
Indépendance conditionnelle
082
.
0
2
5
1
1
2
5
1
3
2
10
1
5
.)
/
(
ˆ
.)
/
(
ˆ
)
(
ˆ
)
,
/
(
ˆ
=
+
+
×
+
+
×
+
+
=
=
=
×
=
=
×
=
=
=
=
=
Abs
M
oui
Etu
P
Abs
M
oui
Marié
P
Absent
Maladie
P
oui
Etu
oui
Marié
Absent
Maladie
P
102
.
0
2
5
1
4
2
5
1
1
2
10
1
5
.)
/
(
ˆ
.)
/
(
ˆ
)
(
ˆ
)
,
/
(
ˆ
=
+
+
×
+
+
×
+
+
=
=
=
×
=
=
×
=
=
=
=
=
Abs
M
oui
Etu
P
Abs
M
oui
Marié
P
présent
Maladie
P
oui
Etu
oui
Marié
présent
Maladie
P
Si Etu = oui et Marié = oui Alors Maladie = Présent
(-) Hypothèse discutable, (+) estimations des probas (effectifs) plus fiables
Avantages et inconvénients (fin du cours ?)
>> Simplicité, rapidité de calcul, capacité à traiter de très très très grandes bases
(lignes , colonnes) (aucun risque de « plantage », cf. la régression logistique ou l’ADL)
>> C’est un modèle linéaire même niveau de performances
(cf. les nombreuses expérimentations dans les publications scientifiques)
>> Incrémentalité (table des probas conditionnelles à maintenir)
>> Robustesse (performant même si hypothèse non-respectée)
>> Pas de sélection (mise en évidence) des variables pertinentes (sûr, sûr ?)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6
>> Pas de sélection (mise en évidence) des variables pertinentes (sûr, sûr ?)
>> Nombre de règles égal au nombre de combinaisons de descripteurs
(dans la pratique, les règles ne sont pas formées, nous conservons les probas conditionnelles que nous
appliquons pour chaque individu à classer ; cf. quelques logiciels + format PMML)
>> Pas de modèle explicite (sûr, sûr ?) très utilisé en recherche, peu en marketing
On s’en tient souvent à ces conclusions dans les ouvrages…
On ne peut pas aller plus loin ?
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7






=
+
=
=
⇔
=
×
=
=
∑
∏
=
=
J
j
k
j
k
k
k
J
j
k
j
k
k
k
y
Y
X
P
y
Y
P
y
y
Y
X
P
y
Y
P
y
1
*
1
*
)
/
(
ln
)
(
ln
max
arg
)
/
(
)
(
max
arg
Passage au logarithme
Cas d’une seule variable prédictive qualitative
Cas d’une seule prédictive X à L modalités
)
/
(
ln
)
(
ln
)
,
( k
k
k y
Y
X
P
y
Y
P
X
y
d =
+
=
=
A partir de X on peut dériver L indicatrices
∑
=
×
=
=
+
=
=
L
l
k
l
k
k I
y
Y
x
X
P
y
Y
P
X
y
d )
/
(
ln
)
(
ln
)
,
(
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
∑
∑
∑
=
=
=
×
+
=
×
=
=
+
=
=
L
l
l
k
l
k
L
l
l
k
l
k
l
I
a
a
I
y
Y
x
X
P
y
Y
P
1
,
,
0
1
1
)
/
(
ln
)
(
ln
On obtient une combinaison linéaire d’indicatrices : un modèle explicite facile à déployer
Exactement comme avec la régression logistique ou l’ADL !!!
Fonction de classement
Un exemple
NB Maladie
Maladie Total
Absent 5
Présent 5
Total général 10
NB Maladie Etud.Sup
Maladie Non Oui Total général
Absent 4 1 5
Présent 1 4 5
Total général 5 5 10
)
(
2
5
1
1
ln
)
(
2
5
1
4
ln
2
10
1
5
ln
)
,
( oui
X
non
X
X
absent
d =
×
+
+
+
=
×
+
+
+
+
+
=
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
)
(
2528
.
1
)
(
3365
.
0
6931
.
0
)
(
2
5
ln
)
(
2
5
ln
2
10
ln
)
,
(
oui
X
non
X
oui
X
non
X
X
absent
d
=
×
−
=
×
−
−
=
=
×
+
+
=
×
+
+
+
=
)
(
3365
.
0
)
(
2528
.
1
6931
.
0
)
,
( oui
X
non
X
X
present
d =
×
−
=
×
−
−
=
Pour un individu Etu.Sup = NON 0296
.
1
3365
.
0
6931
.
0
)
,
( −
=
−
−
=
X
absent
d
9495
.
1
2528
.
1
9631
.
0
)
,
( −
=
−
−
=
X
present
d
Prédire l’ABSENCE de la maladie
Implémentation dans Tanagra
Utilisation de (L-1) indicatrices pour une variable X à L modalités
L
puisque
1
=
+
+
+ I
I
I L
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
∑
∑
∑
−
=
−
=
=
×
+
=
×
=
=
=
=
+
=
=
+
=
=
×
=
=
+
=
=
1
1
,
,
0
1
1
1
)
/
(
)
/
(
ln
)
/
(
ln
)
(
ln
)
/
(
ln
)
(
ln
)
,
(
L
l
l
k
l
k
L
l
l
k
L
k
l
k
L
k
L
l
l
k
l
k
k
I
b
b
I
y
Y
x
X
P
y
Y
x
X
P
y
Y
x
X
P
y
Y
P
I
y
Y
x
X
P
y
Y
P
X
y
d
1
2
1 =
+
+
+ L
I
I
I L
Codage habituellement utilisé pour la régression logistique et l’ADL
Généralisation à J variables prédictives
Chaque explicative est décomposée en un bloc d’indicatrices
X = L modalités (L-1) indicatrices
Maladie Marié Etud.Sup
Présent Non Oui
Présent Non Oui
Absent Non Non
Absent Oui Oui
Présent Non Oui
Absent Non Non
Absent Oui Non
Présent Non Oui
Absent Oui Non
Présent Oui Non
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11
Cas particulier du Y à (K = 2) modalités
Construction de la fonction SCORE
La variable à prédire prend deux modalités :: Y={+,-}
J
J
J
J
J
J
X
c
X
c
X
c
c
X
d
X
a
X
a
X
a
a
X
d
X
a
X
a
X
a
a
X
d
+
+
+
+
=



+
+
+
+
=
−
+
+
+
+
=
+
−
−
−
−
−
+
+
+
+
K
L
L
2
2
1
1
,
2
2
,
1
1
,
0
,
,
2
2
,
1
1
,
0
,
)
(
)
,
(
)
,
(
Règle d’affectation
D(X) > 0 Y = +
>> D(X) est communément appelé un score, c’est la propension à être positif.
>> Le signe des coefficients « c » donne une idée sur le sens de la causalité.
Interprétation
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12
>> Le signe des coefficients « c » donne une idée sur le sens de la causalité.
>> Les Xj étant des indicatrices (0/1), les coefficients « c » peuvent être lus comme des «
points » attribués aux individus portant le caractère Xj
Classification
functions SCORE
Descriptors Présent Absent D(X)
Marié = Non 0.916291 -0.287682 1.203973
Etud.Sup = Oui 0.916291 -0.916291 1.832582
constant -3.198673 -1.589235 -1.609438
Notre
exemple :
Ne pas être marié rend malade.
Faire des études rend malade.
Hum, ça donne à réfléchir…
Lecture des coefficients
Fonction de classement
Revenons à l’estimation fréquentielle
des probabilités
386294
.
1
)
ln(
4
2
.
0
8
.
0
)
;
/
( =
⇒
=
=
=
=
= odds
present
Y
O
M
N
M
odds
Résultats Naive Bayes
Nombre de
Maladie Marié
Maladie Non Oui Total général
Présent 0.8 0.2 1.0
Absent 0.4 0.6 1.0
Total général 0.6 0.4 1.0
Classification
functions
Descriptors Présent Absent
Marié = Non 1.38629 -0.4055
constant -2.3026 -1.204
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13
2
.
0
Les personnes malades (maladie = présent) ont 4
fois plus de chances de ne pas être mariées (que
d’être mariées)
Le coefficient de la fonction de
classement correspond au
logarithme de l’odds
4055
.
0
)
ln(
667
.
0
6
.
0
4
.
0
)
;
/
( −
=
⇒
=
=
=
=
= odds
absent
M
O
M
N
M
odds
Chez les personnes non malades, on a (1/0.667) = 1.5 fois plus
de chances d’être marié (que de ne pas l’être)
Lecture des coefficients
Fonction Score
Nombre de
Maladie Marié
Maladie Non Oui Total général
Présent 0.8 0.2 1.0
Absent 0.4 0.6 1.0
Total général 0.6 0.4 1.0
6
66
.
0
4
)
;
/
(
)
;
/
(
)
/
;
/
(
=
=
=
=
=
=
=
=
=
=
=
=
=
−
A
Y
O
M
N
M
odds
P
Y
O
M
N
M
odds
A
Y
P
Y
O
M
N
M
ratio
odds
Classification
functions
Descriptors Présent Absent SCORE
Marié = Non 1.38629 -0.40547 1.79176
constant -2.30259 -1.20397 -1.09861
( ) 79176
.
1
6
ln =
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 14
6
66
.
0
)
;
/
(
=
=
=
=
=
=
A
Y
O
M
N
M
odds
Les personnes malades ont 6 fois plus de chances
d’être mariées que les personnes non malades.
Le coefficient de la fonction
score correspond au
logarithme de l’odds-ratio
• La lecture de l’odds-ratio est inversée par
rapport à la régression logistique
•Toutes ces analyses ne sont pertinentes que si la
liaison entre X et Y est significative !!!
Commentaires :
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 15
Evaluer la pertinence d’une variable
Eliminer les variables non-pertinentes
Supprimer les redondances
Conséquence étonnante de l’hypothèse
d’indépendance conditionnelle
Par construction (indépendance conditionnelle, toutes les
estimations sont faites de manière individuelle)
le retrait ou l’ajout de variables explicatives ne perturbe
pas les autres coefficients (des autres variables).
Classification functions Classification functions
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 16
Classification functions
Descriptors Présent Absent
Marié = Non 0.916291 -0.287682
constant -1.94591 -1.252763
Classification functions
Descriptors Présent Absent
Marié = Non 0.916291 -0.287682
Etud.Sup = Oui 0.916291 -0.916291
constant -3.198673 -1.589235
Modèle à 1 variable Modèle à 2 variables
Il n’est pas nécessaire de reconstruire le modèle à chaque
ajout ou retrait de variables.
Pertinence d’une variable
Une variable a un fort impact si elle permet d’exacerber les différences entre les
fonctions de classement d(yk,X) (selon yk)
⇔ si distributions conditionnelles P(X/yk) sont très différentes selon les valeurs de yk
⇔ si dist. conditionnelles P(X/yk) sont très différentes de la dist. marignale P(X)
Nombre de Marié Marié
Maladie Non Oui Total général
Absent 0.4 0.6 1.0
Présent 0.8 0.2 1.0
Total général 0.6 0.4 1.0
Nombre de Marié Etud.Sup
Maladie Non Oui Total général
Absent 0.8 0.2 1.0
Présent 0.2 0.8 1.0
Total général 0.5 0.5 1.0
L
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 17
∑ ∑
∑
= =
=
=
=
K
k
L
l
k
l
k
l
k
L
l
l
l
p
p
p
Y
X
H
p
p
X
H
1 1
/
2
/
.
1
.
2
.
log
)
/
(
log
)
(
~ variance totale
~ variance intra-classes
~Variance inter-classes
c.-à-d. variance expliquée ∑ ∑
= = ×
=
=
−
L
l
K
k k
l
kl
kl
p
p
p
p
X
Y
I
Y
X
H
X
H
1 1 .
.
2
log
)
,
(
)
/
(
)
(
Information mutuelle
Pertinence d’une variable (suite)
Nombre de Marié Etud.Sup
Maladie Non Oui Total général
Absent 0.4 0.1 0.5
Présent 0.1 0.4 0.5
Total général 0.5 0.5 1.0
Nombre de Marié Marié
Maladie Non Oui Total général
Absent 0.2 0.3 0.5
Présent 0.4 0.1 0.5
Total général 0.6 0.4 1.0
2781
.
0
)
,
( =
ES
Y
I 1245
.
0
)
,
( =
M
Y
I
On peut même tester la significativité du lien
On peut établir une hiérarchie entre les variables
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 18
Test (H0 : les deux variables
sont indépendantes) ( ) ( )
[ ]
1
1
~
)
,
(
2
ln
2
2
−
×
−
×
×
×
=
L
K
X
Y
I
n
G
χ
0496
.
0
.
85
.
3
)
(
=
⇒
=
value
p
ES
G
1889
.
0
.
73
.
1
)
(
=
⇒
=
value
p
M
G
Le lien entre Y et ES est significatif Le lien entre Y et Maladie, NON
Utiliser l’indicateur s
(symetrical uncertainty)
Parce que varie entre [0 ; 1]
)
(
)
(
)
,
(
2
,
X
H
Y
H
X
Y
I
s X
Y
+
×
=
RANKING :
1. Calculer s pour toutes les
variables
2. Les trier par ordre décroissant
3. Ne conserver que les variables
significativement liées avec Y
Exemple « kr-vs-kp » (19 sél. pour α = 0.001)
Problèmes ennuyeux :
• Fixer le seuil « alpha » très difficile
• Tout devient significatif dès que
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 19
• Tout devient significatif dès que
« n » est important
Solution possible : « loi du coude »
Problème rédhibitoire :
• Ne tient pas compte de la
redondance entre les prédicteurs !!!
Sélection tenant compte de la redondance – Méthode CFS
( ) X
X
X
Y
s
p
p
p
s
p
merit
,
,
1 ×
+
×
+
×
=
Le « mérite » d’un sous-ensemble
de « p » variables prédictives
Numérateur : lien des prédicteurs avec la
variable cible (pertinence)
Dénominateur : lien entre les prédicteurs
(redondance)
On veut que les prédicteurs soient fortement
liés avec la cible, tout en étant le moins liés
entre eux (les plus orthogonaux possible)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 20
Optimisation « FORWARD »
• Commencer avec 0 variables
• Ajout itératif de variables
c.-à-d. chercher la variable qui augmente
le plus le « mérite »
• Etc.
Arrêt lorsque le critère « mérite »
commence à décroître
Exemple « kr-vs-kp »
3 var. sélectionnées
Pourquoi la sélection de variables ?
34 prédicteurs
Taux d’erreur en test = 14.80%
1500 apprentissage
1696 test
3 prédicteurs
Taux d’erreur en test = 9.67%
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 21
La sélection de variables permet de réduire le nombre de variables
tout en maintenant le niveau de performances
Parfois, elle peut être bénéfique (comme ici, mais c’est plutôt rare)
Parfois, elle peut être nocive (quand trop restrictive)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 22
Se ramener au cas des variables qualitatives (précédent)
En discrétisant les prédicteurs quantitatifs
Plusieurs études montrent que cette approche est la pus intéressante
C’est aussi l’approche à privilégier si mélange de prédicteurs quanti et quali
Découpage en intervalles des variables quantitatives
Utilisation d’algorithmes supervisés
Les algorithmes usuels (ex. fréquences égales, largeurs égales) ne tiennent pas compte
de la représentation des modalités de Y dans les intervalles inadaptés pour
l’apprentissage supervisé.
Densité
0.2
0.4
0.6
0.8
Densité
0.1
0.2
0.3
0.4
4 exemples de distributions conditionnelles
Utilisation des algorithmes supervisés
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 23
x1
0.0
0.2
2 4 6 8
x2
0.0
0.1
0 2 4 6 8
x3
Densité
0.0
0.1
0.2
0.3
0.4
0 5 10 15 20
x4
Densité
0.00
0.05
0.10
0.15
0 5 10 15
Utilisation des algorithmes supervisés
(MDLPC, Fayyad et Irani, 1993 ;
Kerber, 1992)
Pourquoi ?
• Création d’intervalles où une des
modalités de Y est surreprésentée
• Détection automatique du bon nombre
d’intervalles
Découpage en intervalles des variables quantitatives
Une solution simple : les arbres de décision
Utiliser la variable à découper comme seule variable prédictive dans l’arbre
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 24
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 25
Démarche paramétrique
Hypothèses de distribution pour les probas conditionnelles
(pour simplifier les calculs…)
HYP.1 - Distributions conditionnelles gaussiennes
[ ]
2
,
,
2
1
, 2
1
)
(
/







 −
−
=
=
= j
k
j
k
j
x
j
k
j
k
k
j e
X
f
y
Y
X
P
σ
µ
π
σ
D
e
n
s
ité
0.2
0.3
0.4
Densité
0.2
0.3
0.4
Distribution d’un des prédicteurs
conditionnellement à yk
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 26
x
D
e
n
s
ité
0.0
0.1
-5 0 5
x
Densité
0.0
0.1
-5 0 5
1
µ 2
µ
1
σ
2
σ
Compatible avec l’hypothèse de
distribution gaussienne
Incompatible avec l’hypothèse de
distribution gaussienne seule solution
possible : discrétiser
2
1 µ
µ =
Remarque : C’est un cas particulier de l’analyse discriminante où l’on considère que les éléments hors
diagonale de la matrice de variance covariance sont tous nuls ! (cf. Cours d’Analyse discriminante prédictive).
Distributions conditionnelles gaussiennes - Conséquences
Modèle quadratique
Règle d’affectation inchangée c.-à-d. [ ]
)
(
,
max
arg
)
(
ˆ *
* ω
ω ℵ
=
⇔
= k
k
k
k y
d
y
y
y
∑
∑
+
+
+
∝


















+
×
−
+
×
−
+
∝
ℵ
j
j
k
j
j
k
j
j
k
k
j
j
k
j
k
j
k
j
j
k
j
k
j
j
k
k
k
c
x
b
x
a
p
x
x
p
y
d
,
,
2
,
,
2
,
2
,
2
,
,
2
2
,
ln
)
ln(
2
2
1
ln
)
,
( σ
σ
µ
σ
µ
σ
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 27
Fichier IRIS (2 variables) Interprétation très difficile !!!
HYP.2 - Homoscédasticité
k
j
j
k ∀
= ,
, σ
σ
Les dispersions conditionnelles
sont identiques
[ ]
2
,
2
1
2
1
)
(
/







 −
−
=
=
= j
j
k
j
x
j
j
k
k
j e
X
f
y
Y
X
P
σ
µ
π
σ
Estimation à l’aide de
l’écart-type intra-classes !!!
0.3
0.4
0.3
0.4
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 28
x
Densité
0.0
0.1
0.2
0.3
-5 0 5
1
µ 2
µ
1
σ
2
σ
Non compatible avec l’hypothèse d’homoscédasticité
Mais la technique est robuste !!!
x
Densité
0.0
0.1
0.2
0.3
-6 -4 -2 0 2 4
1
µ 2
µ
1
σ 2
σ
Compatible avec l’hypothèse d’homoscédasticité
Homoscédasticité - Conséquences
J
J
k
k
k
k
j j
j
k
j
j
j
k
k
k
x
a
x
a
x
a
a
x
p
y
d
,
2
2
,
1
1
,
0
,
2
2
,
2
,
2
ln
)
,
(
+
+
+
+
∝










×
−
+
∝
ℵ ∑
L
σ
µ
σ
µ
Modèle linéaire
Règle d’affectation inchangée c.-à-d.
[ ]
)
(
,
max
arg
)
(
ˆ *
* ω
ω ℵ
=
⇔
= k
k
k
k y
d
y
y
y
Et si K=2 (Y : + vs. -), on peut construire
une fonction SCORE -- D(X)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 29
Fichier IRIS (2 variables)
Interprétation facilitée
Ex. PET.LENGTH faible -> Setosa
PET.LENGTH moyen -> Versicolor
PET.LENGTH élevé -> Virginica
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 30
Evaluer la pertinence d’une variable
Eliminer les variables non-pertinentes
Supprimer les redondances…
Contribution d’une variable – Test ANOVA
x
Densité
0.0
0.1
0.2
0.3
0.4
-6 -4 -2 0 2 4
1
µ 2
µ
k
H j
k ∀
= ,
: ,
0 µ
µ
Comparaison des moyennes conditionnelles
Statistique de test F
( )
( )
K
n
n
K
n
F
k k
k
k k
k
−
−
−
−
=
∑
∑
2
2
ˆ
1
1
ˆ
ˆ
σ
µ
µ
Variance Inter
-----------------
Variance Intra
Sous H0, F ~ Fisher (K-1, n-K) degrés de liberté
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 31
Sous H0, F ~ Fisher (K-1, n-K) degrés de liberté
Sélection de variables - RANKING
RANKING :
1. Calculer F pour toutes les variables
2. Les trier par ordre décroissant
3. Ne conserver que les variables significativement liées avec Y c.-
à-d. test ANOVA = écart significatif entre les moyennes cond.
IRIS + 1 ALEA
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 32
Mêmes difficultés qu’avec les
prédicteurs qualitatifs
Fixer le seuil « alpha » ?
Gestion de la redondance ?
Sélection de variables – Difficile gestion de la redondance
Pourquoi pas un critère de type
MERITE utilisé dans CFS ?
• Indice 1 : Mesure le lien entre Y (quali.) et X (quanti.)
• Indice 2 : Mesure le lien entre Xj (quanti) et Xj’ (quanti)
Indice 1 et Indice 2 ne sont pas comparables !
( ) X
X
X
Y
s
p
p
p
s
p
merit
,
,
1 ×
+
×
+
×
=
Quelles pistes ?
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 33
Quelles pistes ?
Indicateur de type LAMBDA de Wilks utilisé en Analyse discriminante.
Généralisation multidimensionnelle de la comparaison de moyenne.
Mais… calculs matriciels lourds, on perd l’avantage de rapidité du Naive Bayes.
Utiliser des techniques de sélection intégrées à d’autres méthodes (ex.
sélection des variables par un arbre de décision).
Mais… les variables pertinentes pour un type de classifieur ne le sont pas forcément pour les autres
Passer par la discrétisation et utiliser les techniques pour var. expl. qualitatives
>> Cf. les avantages déjà cités précédemment (surtout Incrémentalité et
Traitement des très grandes bases)
>> Possibilité de produire un modèle explicite !!! (Totalement méconnu)
>> Très connu et très utilisé des chercheurs (text mining, etc.)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 34
>> Possibilité de produire un modèle explicite !!! (Totalement méconnu)
>> Méconnu des praticiens (applications marketing)… parce qu’on ne sait pas
qu’on peut en dériver un modèle explicite…
Bibliographie
Tutoriels Tanagra – « Le bayesien naïf revisité »
http://tutoriels-data-mining.blogspot.com/2010/03/le-classifieur-bayesien-naif-
revisite.html
Tutoriels Tanagra – « Bayesien naïf pour prédicteurs continus »
http://tutoriels-data-mining.blogspot.com/2010/10/bayesien-naif-pour-
predicteurs-continus.html
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 35
Wikipedia, « Naive Bayes Classifier »
http://en.wikipedia.org/wiki/Naive_Bayes_classifier
STATSOFT E-BOOKS, « Naive Bayes Classifier » (cf. autres hypothèses de distributions)
http://www.statsoft.com/textbook/naive-bayes-classifier/

Contenu connexe

Similaire à naive_bayes_classifier.pdf

rappel.pdf
rappel.pdfrappel.pdf
rappel.pdfAathGhl
 
Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1Arthur Charpentier
 
Bdt tich phan-npk
Bdt tich phan-npkBdt tich phan-npk
Bdt tich phan-npkHuynh ICT
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Pierre Robentz Cassion
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptxsara6496
 
Exercices corrigés les matrices- djeddi kamel
Exercices corrigés les matrices- djeddi kamelExercices corrigés les matrices- djeddi kamel
Exercices corrigés les matrices- djeddi kamelKamel Djeddi
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdfSidiAbdallah1
 
Ch logique cours
Ch logique coursCh logique cours
Ch logique coursbades12
 
Cours arithmetique
Cours arithmetiqueCours arithmetique
Cours arithmetiquebades12
 
Tp n°1 calcul des structures matricielles
Tp n°1 calcul des structures matriciellesTp n°1 calcul des structures matricielles
Tp n°1 calcul des structures matriciellesChristian Lukumbuka
 
Correction 3M1 dc2
Correction 3M1 dc2Correction 3M1 dc2
Correction 3M1 dc2Hela Ch
 
Correction dc2
Correction dc2Correction dc2
Correction dc2Hela Ch
 
Chapitre 1 automatique de base
Chapitre 1 automatique de  baseChapitre 1 automatique de  base
Chapitre 1 automatique de basesimo927066
 
Chapitre 1 auto base
Chapitre 1 auto baseChapitre 1 auto base
Chapitre 1 auto basesimo927066
 

Similaire à naive_bayes_classifier.pdf (20)

rappel.pdf
rappel.pdfrappel.pdf
rappel.pdf
 
Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1
 
Bdt tich phan-npk
Bdt tich phan-npkBdt tich phan-npk
Bdt tich phan-npk
 
Slides ensae 5
Slides ensae 5Slides ensae 5
Slides ensae 5
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)
 
Slides ensae-2016-5
Slides ensae-2016-5Slides ensae-2016-5
Slides ensae-2016-5
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptx
 
Exercices corrigés les matrices- djeddi kamel
Exercices corrigés les matrices- djeddi kamelExercices corrigés les matrices- djeddi kamel
Exercices corrigés les matrices- djeddi kamel
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
Ch logique cours
Ch logique coursCh logique cours
Ch logique cours
 
Cours arithmetique
Cours arithmetiqueCours arithmetique
Cours arithmetique
 
Slides 2040-5
Slides 2040-5Slides 2040-5
Slides 2040-5
 
Tp n°1 calcul des structures matricielles
Tp n°1 calcul des structures matriciellesTp n°1 calcul des structures matricielles
Tp n°1 calcul des structures matricielles
 
Correction 3M1 dc2
Correction 3M1 dc2Correction 3M1 dc2
Correction 3M1 dc2
 
Correction dc2
Correction dc2Correction dc2
Correction dc2
 
Cours de maths gene 1 ere sst
Cours de maths gene 1 ere sstCours de maths gene 1 ere sst
Cours de maths gene 1 ere sst
 
Chapitre 1 automatique de base
Chapitre 1 automatique de  baseChapitre 1 automatique de  base
Chapitre 1 automatique de base
 
Chapitre 1 auto base
Chapitre 1 auto baseChapitre 1 auto base
Chapitre 1 auto base
 
transparents-Algo-correction.pdf
transparents-Algo-correction.pdftransparents-Algo-correction.pdf
transparents-Algo-correction.pdf
 
Maths Annexes
Maths AnnexesMaths Annexes
Maths Annexes
 

Plus de SidiAbdallah1

analyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdfanalyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdfSidiAbdallah1
 
logistic_regression_ml.pdf
logistic_regression_ml.pdflogistic_regression_ml.pdf
logistic_regression_ml.pdfSidiAbdallah1
 
Introduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfIntroduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfSidiAbdallah1
 
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdffr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdfSidiAbdallah1
 
regression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfregression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfSidiAbdallah1
 
resampling_evaluation.pdf
resampling_evaluation.pdfresampling_evaluation.pdf
resampling_evaluation.pdfSidiAbdallah1
 
analyse_discriminante.pdf
analyse_discriminante.pdfanalyse_discriminante.pdf
analyse_discriminante.pdfSidiAbdallah1
 
Apprentissage_Supervise.pdf
Apprentissage_Supervise.pdfApprentissage_Supervise.pdf
Apprentissage_Supervise.pdfSidiAbdallah1
 
380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdf380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdfSidiAbdallah1
 
presentation_rgpd_062018.pptx
presentation_rgpd_062018.pptxpresentation_rgpd_062018.pptx
presentation_rgpd_062018.pptxSidiAbdallah1
 

Plus de SidiAbdallah1 (11)

analyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdfanalyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdf
 
logistic_regression_ml.pdf
logistic_regression_ml.pdflogistic_regression_ml.pdf
logistic_regression_ml.pdf
 
Introduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfIntroduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdf
 
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdffr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
 
regression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfregression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdf
 
resampling_evaluation.pdf
resampling_evaluation.pdfresampling_evaluation.pdf
resampling_evaluation.pdf
 
analyse_discriminante.pdf
analyse_discriminante.pdfanalyse_discriminante.pdf
analyse_discriminante.pdf
 
Apprentissage_Supervise.pdf
Apprentissage_Supervise.pdfApprentissage_Supervise.pdf
Apprentissage_Supervise.pdf
 
ATELIER_3.pdf
ATELIER_3.pdfATELIER_3.pdf
ATELIER_3.pdf
 
380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdf380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdf
 
presentation_rgpd_062018.pptx
presentation_rgpd_062018.pptxpresentation_rgpd_062018.pptx
presentation_rgpd_062018.pptx
 

Dernier

Saint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxSaint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxMartin M Flynn
 
7 PPT sue le project de fin d'étude.pptx
7 PPT sue le project de fin d'étude.pptx7 PPT sue le project de fin d'étude.pptx
7 PPT sue le project de fin d'étude.pptxrababouerdighi
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETMedBechir
 
Présentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxPrésentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxrababouerdighi
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertChristianMbip
 
Guide Final de rédaction de mémoire de fin d'étude
Guide Final de rédaction de mémoire de fin d'étudeGuide Final de rédaction de mémoire de fin d'étude
Guide Final de rédaction de mémoire de fin d'étudeBenamraneMarwa
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETMedBechir
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptxTxaruka
 
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .Txaruka
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptxSAID MASHATE
 
Evaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. MarocpptxEvaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. MarocpptxAsmaa105193
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.Franck Apolis
 
Formation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipFormation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipM2i Formation
 

Dernier (15)

Pâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie PelletierPâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie Pelletier
 
Saint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxSaint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptx
 
7 PPT sue le project de fin d'étude.pptx
7 PPT sue le project de fin d'étude.pptx7 PPT sue le project de fin d'étude.pptx
7 PPT sue le project de fin d'étude.pptx
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSET
 
Présentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxPrésentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptx
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expert
 
Guide Final de rédaction de mémoire de fin d'étude
Guide Final de rédaction de mémoire de fin d'étudeGuide Final de rédaction de mémoire de fin d'étude
Guide Final de rédaction de mémoire de fin d'étude
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptx
 
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
 
Evaluación Alumnos de Ecole Victor Hugo
Evaluación Alumnos de Ecole  Victor HugoEvaluación Alumnos de Ecole  Victor Hugo
Evaluación Alumnos de Ecole Victor Hugo
 
Evaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. MarocpptxEvaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. Marocpptx
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.
 
Formation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipFormation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadership
 

naive_bayes_classifier.pdf

  • 1. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 Une approche pour rendre calculable P(Y/X) Ricco RAKOTOMALALA
  • 2. Théorème de Bayes Probabilité conditionnelle ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ∑ = = ℵ × = = ℵ × = = ℵ = ℵ × = = ℵ = K k k k k k k k k y Y P y Y P y Y P y Y P P y Y P y Y P y Y P 1 / / / / Estimer la probabilité conditionnelle Déterminer la conclusion = déterminer le max. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2 Déterminer la conclusion = déterminer le max. ( ) ( ) ( ) k k k k k k k y Y P y Y P y y Y P y = ℵ × = = ⇔ ℵ = = / max arg / max arg * * Comment estimer P(X/Y=yk) Probabilité a priori Estimée facilement par nk/n Impossibilité à estimer avec des fréquences Le tableau croisé serait trop grand et rempli de zéros
  • 3. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
  • 4. Modèle d’indépendance conditionnelle Hypothèse d’indépendance conditionnelle ∏ = = = = ℵ J j k j k y Y X P y Y P 1 ) / ( ) / ( Les descripteurs sont deux à deux indépendants conditionnellement aux valeurs prises par Y Pour un descripteur X discret quelconque, la probabilité conditionnelle pour qu’elle prenne la valeur xl s’écrit ) ( ) ( ) / ( k k l k l y Y P y Y x X P y Y x X P = = ∧ = = = = Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4 Et son estimation par les fréquences (profil ligne) ( ) { } { } k kl k k l k l n n y Y y Y x X y Y x X P = = Ω ∈ = ∧ = Ω ∈ = = = ) ( , # ) ( ) ( , # / ˆ ω ω ω ω ω n n n y x X Y k kl k l Σ Σ On lui préfère souvent l’estimateur « laplacien » des probabilités !!! ( ) L n n p y Y x X P k kl k l k l + + = = = = 1 / ˆ / (1) « Lissage » des estimations sur les petits effectifs. (2) Eviter le problème du nkl=0
  • 5. Un exemple NB Maladie Maladie Total Indépendance conditionnelle Maladie Marié Etud.Sup Présent Non Oui Présent Non Oui Absent Non Non Absent Oui Oui Présent Non Oui Absent Non Non Absent Oui Non Présent Non Oui Absent Oui Non Présent Oui Non Estimation directe 1 1 1 ) , / ( ˆ = = = = = oui Etu oui Marié Absent Maladie P 0 1 0 ) , / Présent ( ˆ = = = = = oui Etu oui Marié Maladie P Si Etu = oui et Marié = oui Alors Maladie = Absent (+) Calcul sans hypothèses restrictives, (-) effectifs indigents Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5 Maladie Total Absent 5 Présent 5 Total général 10 NB Maladie Marié Maladie Non Oui Total général Absent 2 3 5 Présent 4 1 5 Total général 6 4 10 NB Maladie Etud.Sup Maladie Non Oui Total général Absent 4 1 5 Présent 1 4 5 Total général 5 5 10 Indépendance conditionnelle 082 . 0 2 5 1 1 2 5 1 3 2 10 1 5 .) / ( ˆ .) / ( ˆ ) ( ˆ ) , / ( ˆ = + + × + + × + + = = = × = = × = = = = = Abs M oui Etu P Abs M oui Marié P Absent Maladie P oui Etu oui Marié Absent Maladie P 102 . 0 2 5 1 4 2 5 1 1 2 10 1 5 .) / ( ˆ .) / ( ˆ ) ( ˆ ) , / ( ˆ = + + × + + × + + = = = × = = × = = = = = Abs M oui Etu P Abs M oui Marié P présent Maladie P oui Etu oui Marié présent Maladie P Si Etu = oui et Marié = oui Alors Maladie = Présent (-) Hypothèse discutable, (+) estimations des probas (effectifs) plus fiables
  • 6. Avantages et inconvénients (fin du cours ?) >> Simplicité, rapidité de calcul, capacité à traiter de très très très grandes bases (lignes , colonnes) (aucun risque de « plantage », cf. la régression logistique ou l’ADL) >> C’est un modèle linéaire même niveau de performances (cf. les nombreuses expérimentations dans les publications scientifiques) >> Incrémentalité (table des probas conditionnelles à maintenir) >> Robustesse (performant même si hypothèse non-respectée) >> Pas de sélection (mise en évidence) des variables pertinentes (sûr, sûr ?) Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6 >> Pas de sélection (mise en évidence) des variables pertinentes (sûr, sûr ?) >> Nombre de règles égal au nombre de combinaisons de descripteurs (dans la pratique, les règles ne sont pas formées, nous conservons les probas conditionnelles que nous appliquons pour chaque individu à classer ; cf. quelques logiciels + format PMML) >> Pas de modèle explicite (sûr, sûr ?) très utilisé en recherche, peu en marketing On s’en tient souvent à ces conclusions dans les ouvrages… On ne peut pas aller plus loin ?
  • 7. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7       = + = = ⇔ = × = = ∑ ∏ = = J j k j k k k J j k j k k k y Y X P y Y P y y Y X P y Y P y 1 * 1 * ) / ( ln ) ( ln max arg ) / ( ) ( max arg Passage au logarithme
  • 8. Cas d’une seule variable prédictive qualitative Cas d’une seule prédictive X à L modalités ) / ( ln ) ( ln ) , ( k k k y Y X P y Y P X y d = + = = A partir de X on peut dériver L indicatrices ∑ = × = = + = = L l k l k k I y Y x X P y Y P X y d ) / ( ln ) ( ln ) , ( Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8 ∑ ∑ ∑ = = = × + = × = = + = = L l l k l k L l l k l k l I a a I y Y x X P y Y P 1 , , 0 1 1 ) / ( ln ) ( ln On obtient une combinaison linéaire d’indicatrices : un modèle explicite facile à déployer Exactement comme avec la régression logistique ou l’ADL !!! Fonction de classement
  • 9. Un exemple NB Maladie Maladie Total Absent 5 Présent 5 Total général 10 NB Maladie Etud.Sup Maladie Non Oui Total général Absent 4 1 5 Présent 1 4 5 Total général 5 5 10 ) ( 2 5 1 1 ln ) ( 2 5 1 4 ln 2 10 1 5 ln ) , ( oui X non X X absent d = × + + + = × + + + + + = Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9 ) ( 2528 . 1 ) ( 3365 . 0 6931 . 0 ) ( 2 5 ln ) ( 2 5 ln 2 10 ln ) , ( oui X non X oui X non X X absent d = × − = × − − = = × + + = × + + + = ) ( 3365 . 0 ) ( 2528 . 1 6931 . 0 ) , ( oui X non X X present d = × − = × − − = Pour un individu Etu.Sup = NON 0296 . 1 3365 . 0 6931 . 0 ) , ( − = − − = X absent d 9495 . 1 2528 . 1 9631 . 0 ) , ( − = − − = X present d Prédire l’ABSENCE de la maladie
  • 10. Implémentation dans Tanagra Utilisation de (L-1) indicatrices pour une variable X à L modalités L puisque 1 = + + + I I I L Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10 ∑ ∑ ∑ − = − = = × + = × = = = = + = = + = = × = = + = = 1 1 , , 0 1 1 1 ) / ( ) / ( ln ) / ( ln ) ( ln ) / ( ln ) ( ln ) , ( L l l k l k L l l k L k l k L k L l l k l k k I b b I y Y x X P y Y x X P y Y x X P y Y P I y Y x X P y Y P X y d 1 2 1 = + + + L I I I L Codage habituellement utilisé pour la régression logistique et l’ADL
  • 11. Généralisation à J variables prédictives Chaque explicative est décomposée en un bloc d’indicatrices X = L modalités (L-1) indicatrices Maladie Marié Etud.Sup Présent Non Oui Présent Non Oui Absent Non Non Absent Oui Oui Présent Non Oui Absent Non Non Absent Oui Non Présent Non Oui Absent Oui Non Présent Oui Non Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11
  • 12. Cas particulier du Y à (K = 2) modalités Construction de la fonction SCORE La variable à prédire prend deux modalités :: Y={+,-} J J J J J J X c X c X c c X d X a X a X a a X d X a X a X a a X d + + + + =    + + + + = − + + + + = + − − − − − + + + + K L L 2 2 1 1 , 2 2 , 1 1 , 0 , , 2 2 , 1 1 , 0 , ) ( ) , ( ) , ( Règle d’affectation D(X) > 0 Y = + >> D(X) est communément appelé un score, c’est la propension à être positif. >> Le signe des coefficients « c » donne une idée sur le sens de la causalité. Interprétation Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12 >> Le signe des coefficients « c » donne une idée sur le sens de la causalité. >> Les Xj étant des indicatrices (0/1), les coefficients « c » peuvent être lus comme des « points » attribués aux individus portant le caractère Xj Classification functions SCORE Descriptors Présent Absent D(X) Marié = Non 0.916291 -0.287682 1.203973 Etud.Sup = Oui 0.916291 -0.916291 1.832582 constant -3.198673 -1.589235 -1.609438 Notre exemple : Ne pas être marié rend malade. Faire des études rend malade. Hum, ça donne à réfléchir…
  • 13. Lecture des coefficients Fonction de classement Revenons à l’estimation fréquentielle des probabilités 386294 . 1 ) ln( 4 2 . 0 8 . 0 ) ; / ( = ⇒ = = = = = odds present Y O M N M odds Résultats Naive Bayes Nombre de Maladie Marié Maladie Non Oui Total général Présent 0.8 0.2 1.0 Absent 0.4 0.6 1.0 Total général 0.6 0.4 1.0 Classification functions Descriptors Présent Absent Marié = Non 1.38629 -0.4055 constant -2.3026 -1.204 Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13 2 . 0 Les personnes malades (maladie = présent) ont 4 fois plus de chances de ne pas être mariées (que d’être mariées) Le coefficient de la fonction de classement correspond au logarithme de l’odds 4055 . 0 ) ln( 667 . 0 6 . 0 4 . 0 ) ; / ( − = ⇒ = = = = = odds absent M O M N M odds Chez les personnes non malades, on a (1/0.667) = 1.5 fois plus de chances d’être marié (que de ne pas l’être)
  • 14. Lecture des coefficients Fonction Score Nombre de Maladie Marié Maladie Non Oui Total général Présent 0.8 0.2 1.0 Absent 0.4 0.6 1.0 Total général 0.6 0.4 1.0 6 66 . 0 4 ) ; / ( ) ; / ( ) / ; / ( = = = = = = = = = = = = = − A Y O M N M odds P Y O M N M odds A Y P Y O M N M ratio odds Classification functions Descriptors Présent Absent SCORE Marié = Non 1.38629 -0.40547 1.79176 constant -2.30259 -1.20397 -1.09861 ( ) 79176 . 1 6 ln = Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 14 6 66 . 0 ) ; / ( = = = = = = A Y O M N M odds Les personnes malades ont 6 fois plus de chances d’être mariées que les personnes non malades. Le coefficient de la fonction score correspond au logarithme de l’odds-ratio • La lecture de l’odds-ratio est inversée par rapport à la régression logistique •Toutes ces analyses ne sont pertinentes que si la liaison entre X et Y est significative !!! Commentaires :
  • 15. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 15 Evaluer la pertinence d’une variable Eliminer les variables non-pertinentes Supprimer les redondances
  • 16. Conséquence étonnante de l’hypothèse d’indépendance conditionnelle Par construction (indépendance conditionnelle, toutes les estimations sont faites de manière individuelle) le retrait ou l’ajout de variables explicatives ne perturbe pas les autres coefficients (des autres variables). Classification functions Classification functions Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 16 Classification functions Descriptors Présent Absent Marié = Non 0.916291 -0.287682 constant -1.94591 -1.252763 Classification functions Descriptors Présent Absent Marié = Non 0.916291 -0.287682 Etud.Sup = Oui 0.916291 -0.916291 constant -3.198673 -1.589235 Modèle à 1 variable Modèle à 2 variables Il n’est pas nécessaire de reconstruire le modèle à chaque ajout ou retrait de variables.
  • 17. Pertinence d’une variable Une variable a un fort impact si elle permet d’exacerber les différences entre les fonctions de classement d(yk,X) (selon yk) ⇔ si distributions conditionnelles P(X/yk) sont très différentes selon les valeurs de yk ⇔ si dist. conditionnelles P(X/yk) sont très différentes de la dist. marignale P(X) Nombre de Marié Marié Maladie Non Oui Total général Absent 0.4 0.6 1.0 Présent 0.8 0.2 1.0 Total général 0.6 0.4 1.0 Nombre de Marié Etud.Sup Maladie Non Oui Total général Absent 0.8 0.2 1.0 Présent 0.2 0.8 1.0 Total général 0.5 0.5 1.0 L Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 17 ∑ ∑ ∑ = = = = = K k L l k l k l k L l l l p p p Y X H p p X H 1 1 / 2 / . 1 . 2 . log ) / ( log ) ( ~ variance totale ~ variance intra-classes ~Variance inter-classes c.-à-d. variance expliquée ∑ ∑ = = × = = − L l K k k l kl kl p p p p X Y I Y X H X H 1 1 . . 2 log ) , ( ) / ( ) ( Information mutuelle
  • 18. Pertinence d’une variable (suite) Nombre de Marié Etud.Sup Maladie Non Oui Total général Absent 0.4 0.1 0.5 Présent 0.1 0.4 0.5 Total général 0.5 0.5 1.0 Nombre de Marié Marié Maladie Non Oui Total général Absent 0.2 0.3 0.5 Présent 0.4 0.1 0.5 Total général 0.6 0.4 1.0 2781 . 0 ) , ( = ES Y I 1245 . 0 ) , ( = M Y I On peut même tester la significativité du lien On peut établir une hiérarchie entre les variables Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 18 Test (H0 : les deux variables sont indépendantes) ( ) ( ) [ ] 1 1 ~ ) , ( 2 ln 2 2 − × − × × × = L K X Y I n G χ 0496 . 0 . 85 . 3 ) ( = ⇒ = value p ES G 1889 . 0 . 73 . 1 ) ( = ⇒ = value p M G Le lien entre Y et ES est significatif Le lien entre Y et Maladie, NON
  • 19. Utiliser l’indicateur s (symetrical uncertainty) Parce que varie entre [0 ; 1] ) ( ) ( ) , ( 2 , X H Y H X Y I s X Y + × = RANKING : 1. Calculer s pour toutes les variables 2. Les trier par ordre décroissant 3. Ne conserver que les variables significativement liées avec Y Exemple « kr-vs-kp » (19 sél. pour α = 0.001) Problèmes ennuyeux : • Fixer le seuil « alpha » très difficile • Tout devient significatif dès que Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 19 • Tout devient significatif dès que « n » est important Solution possible : « loi du coude » Problème rédhibitoire : • Ne tient pas compte de la redondance entre les prédicteurs !!!
  • 20. Sélection tenant compte de la redondance – Méthode CFS ( ) X X X Y s p p p s p merit , , 1 × + × + × = Le « mérite » d’un sous-ensemble de « p » variables prédictives Numérateur : lien des prédicteurs avec la variable cible (pertinence) Dénominateur : lien entre les prédicteurs (redondance) On veut que les prédicteurs soient fortement liés avec la cible, tout en étant le moins liés entre eux (les plus orthogonaux possible) Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 20 Optimisation « FORWARD » • Commencer avec 0 variables • Ajout itératif de variables c.-à-d. chercher la variable qui augmente le plus le « mérite » • Etc. Arrêt lorsque le critère « mérite » commence à décroître Exemple « kr-vs-kp » 3 var. sélectionnées
  • 21. Pourquoi la sélection de variables ? 34 prédicteurs Taux d’erreur en test = 14.80% 1500 apprentissage 1696 test 3 prédicteurs Taux d’erreur en test = 9.67% Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 21 La sélection de variables permet de réduire le nombre de variables tout en maintenant le niveau de performances Parfois, elle peut être bénéfique (comme ici, mais c’est plutôt rare) Parfois, elle peut être nocive (quand trop restrictive)
  • 22. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 22 Se ramener au cas des variables qualitatives (précédent) En discrétisant les prédicteurs quantitatifs Plusieurs études montrent que cette approche est la pus intéressante C’est aussi l’approche à privilégier si mélange de prédicteurs quanti et quali
  • 23. Découpage en intervalles des variables quantitatives Utilisation d’algorithmes supervisés Les algorithmes usuels (ex. fréquences égales, largeurs égales) ne tiennent pas compte de la représentation des modalités de Y dans les intervalles inadaptés pour l’apprentissage supervisé. Densité 0.2 0.4 0.6 0.8 Densité 0.1 0.2 0.3 0.4 4 exemples de distributions conditionnelles Utilisation des algorithmes supervisés Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 23 x1 0.0 0.2 2 4 6 8 x2 0.0 0.1 0 2 4 6 8 x3 Densité 0.0 0.1 0.2 0.3 0.4 0 5 10 15 20 x4 Densité 0.00 0.05 0.10 0.15 0 5 10 15 Utilisation des algorithmes supervisés (MDLPC, Fayyad et Irani, 1993 ; Kerber, 1992) Pourquoi ? • Création d’intervalles où une des modalités de Y est surreprésentée • Détection automatique du bon nombre d’intervalles
  • 24. Découpage en intervalles des variables quantitatives Une solution simple : les arbres de décision Utiliser la variable à découper comme seule variable prédictive dans l’arbre Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 24
  • 25. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 25 Démarche paramétrique Hypothèses de distribution pour les probas conditionnelles (pour simplifier les calculs…)
  • 26. HYP.1 - Distributions conditionnelles gaussiennes [ ] 2 , , 2 1 , 2 1 ) ( /         − − = = = j k j k j x j k j k k j e X f y Y X P σ µ π σ D e n s ité 0.2 0.3 0.4 Densité 0.2 0.3 0.4 Distribution d’un des prédicteurs conditionnellement à yk Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 26 x D e n s ité 0.0 0.1 -5 0 5 x Densité 0.0 0.1 -5 0 5 1 µ 2 µ 1 σ 2 σ Compatible avec l’hypothèse de distribution gaussienne Incompatible avec l’hypothèse de distribution gaussienne seule solution possible : discrétiser 2 1 µ µ = Remarque : C’est un cas particulier de l’analyse discriminante où l’on considère que les éléments hors diagonale de la matrice de variance covariance sont tous nuls ! (cf. Cours d’Analyse discriminante prédictive).
  • 27. Distributions conditionnelles gaussiennes - Conséquences Modèle quadratique Règle d’affectation inchangée c.-à-d. [ ] ) ( , max arg ) ( ˆ * * ω ω ℵ = ⇔ = k k k k y d y y y ∑ ∑ + + + ∝                   + × − + × − + ∝ ℵ j j k j j k j j k k j j k j k j k j j k j k j j k k k c x b x a p x x p y d , , 2 , , 2 , 2 , 2 , , 2 2 , ln ) ln( 2 2 1 ln ) , ( σ σ µ σ µ σ Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 27 Fichier IRIS (2 variables) Interprétation très difficile !!!
  • 28. HYP.2 - Homoscédasticité k j j k ∀ = , , σ σ Les dispersions conditionnelles sont identiques [ ] 2 , 2 1 2 1 ) ( /         − − = = = j j k j x j j k k j e X f y Y X P σ µ π σ Estimation à l’aide de l’écart-type intra-classes !!! 0.3 0.4 0.3 0.4 Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 28 x Densité 0.0 0.1 0.2 0.3 -5 0 5 1 µ 2 µ 1 σ 2 σ Non compatible avec l’hypothèse d’homoscédasticité Mais la technique est robuste !!! x Densité 0.0 0.1 0.2 0.3 -6 -4 -2 0 2 4 1 µ 2 µ 1 σ 2 σ Compatible avec l’hypothèse d’homoscédasticité
  • 29. Homoscédasticité - Conséquences J J k k k k j j j k j j j k k k x a x a x a a x p y d , 2 2 , 1 1 , 0 , 2 2 , 2 , 2 ln ) , ( + + + + ∝           × − + ∝ ℵ ∑ L σ µ σ µ Modèle linéaire Règle d’affectation inchangée c.-à-d. [ ] ) ( , max arg ) ( ˆ * * ω ω ℵ = ⇔ = k k k k y d y y y Et si K=2 (Y : + vs. -), on peut construire une fonction SCORE -- D(X) Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 29 Fichier IRIS (2 variables) Interprétation facilitée Ex. PET.LENGTH faible -> Setosa PET.LENGTH moyen -> Versicolor PET.LENGTH élevé -> Virginica
  • 30. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 30 Evaluer la pertinence d’une variable Eliminer les variables non-pertinentes Supprimer les redondances…
  • 31. Contribution d’une variable – Test ANOVA x Densité 0.0 0.1 0.2 0.3 0.4 -6 -4 -2 0 2 4 1 µ 2 µ k H j k ∀ = , : , 0 µ µ Comparaison des moyennes conditionnelles Statistique de test F ( ) ( ) K n n K n F k k k k k k − − − − = ∑ ∑ 2 2 ˆ 1 1 ˆ ˆ σ µ µ Variance Inter ----------------- Variance Intra Sous H0, F ~ Fisher (K-1, n-K) degrés de liberté Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 31 Sous H0, F ~ Fisher (K-1, n-K) degrés de liberté
  • 32. Sélection de variables - RANKING RANKING : 1. Calculer F pour toutes les variables 2. Les trier par ordre décroissant 3. Ne conserver que les variables significativement liées avec Y c.- à-d. test ANOVA = écart significatif entre les moyennes cond. IRIS + 1 ALEA Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 32 Mêmes difficultés qu’avec les prédicteurs qualitatifs Fixer le seuil « alpha » ? Gestion de la redondance ?
  • 33. Sélection de variables – Difficile gestion de la redondance Pourquoi pas un critère de type MERITE utilisé dans CFS ? • Indice 1 : Mesure le lien entre Y (quali.) et X (quanti.) • Indice 2 : Mesure le lien entre Xj (quanti) et Xj’ (quanti) Indice 1 et Indice 2 ne sont pas comparables ! ( ) X X X Y s p p p s p merit , , 1 × + × + × = Quelles pistes ? Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 33 Quelles pistes ? Indicateur de type LAMBDA de Wilks utilisé en Analyse discriminante. Généralisation multidimensionnelle de la comparaison de moyenne. Mais… calculs matriciels lourds, on perd l’avantage de rapidité du Naive Bayes. Utiliser des techniques de sélection intégrées à d’autres méthodes (ex. sélection des variables par un arbre de décision). Mais… les variables pertinentes pour un type de classifieur ne le sont pas forcément pour les autres Passer par la discrétisation et utiliser les techniques pour var. expl. qualitatives
  • 34. >> Cf. les avantages déjà cités précédemment (surtout Incrémentalité et Traitement des très grandes bases) >> Possibilité de produire un modèle explicite !!! (Totalement méconnu) >> Très connu et très utilisé des chercheurs (text mining, etc.) Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 34 >> Possibilité de produire un modèle explicite !!! (Totalement méconnu) >> Méconnu des praticiens (applications marketing)… parce qu’on ne sait pas qu’on peut en dériver un modèle explicite…
  • 35. Bibliographie Tutoriels Tanagra – « Le bayesien naïf revisité » http://tutoriels-data-mining.blogspot.com/2010/03/le-classifieur-bayesien-naif- revisite.html Tutoriels Tanagra – « Bayesien naïf pour prédicteurs continus » http://tutoriels-data-mining.blogspot.com/2010/10/bayesien-naif-pour- predicteurs-continus.html Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 35 Wikipedia, « Naive Bayes Classifier » http://en.wikipedia.org/wiki/Naive_Bayes_classifier STATSOFT E-BOOKS, « Naive Bayes Classifier » (cf. autres hypothèses de distributions) http://www.statsoft.com/textbook/naive-bayes-classifier/