SlideShare une entreprise Scribd logo
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1
Ricco Rakotomalala
Université Lumière Lyon 2
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2
Tableau de données
Success Wages Job Refunding
Y 0 Unemployed Slow
N 2000 Skilled Worker Slow
N 1400 Worker Slow
N 1573 Retired Slow
Y 2776 Skilled Worker Slow
N 2439 Retired Fast
N 862 Office employee Slow
Y 1400 Salesman Slow
N 1700 Skilled Worker Slow
Y 785 Employee Fast
Y 1274 Worker Slow
N 960 Employee Fast
N 1656 Worker Fast
N 0 Unemployed Slow
Variables, caractères, attributs,
Descripteurs, champs, etc.
Individus, observations, objets, enregistrements, etc.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
Statut des variables
Variable à prédire
Attribut classe
Variable endogène
Nécessairement discrète nominale
(qualitative)
Success Wages Job Refunding
Y 0 Unemployed Slow
N 2000 Skilled Worker Slow
N 1400 Worker Slow
N 1573 Retired Slow
Y 2776 Skilled Worker Slow
N 2439 Retired Fast
N 862 Office employee Slow
Y 1400 Salesman Slow
N 1700 Skilled Worker Slow
Y 785 Employee Fast
Y 1274 Worker Slow
N 960 Employee Fast
N 1656 Worker Fast
N 0 Unemployed Slow
Variables prédictives
Descripteurs
Variables exogènes
De type quelconque
(nominale, ordinale, continue)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4
Principes de l’apprentissage supervisé
Population 



es)
(quelconqu
exogènes
variables
e
qualitativ
,
(endogène)
prédire
à
variable
X
Y
Une série de variables
X=(x1|…|xp)
On veut construire une fonction de classement telle que
)
,
( 
X
f
Y 
Objet de l ’étude
Utiliser un échantillon a (extraite de la population) pour
choisir la fonction f et ses paramètres  telle que l ’on
minimise l ’erreur théorique
Objectif de
l ’apprentissage











 

)
ˆ
,
(
ˆ
0
)
ˆ
,
(
ˆ
1
[.]
)]
ˆ
,
(
ˆ
,
[
)
(
1



X
f
Y
si
X
f
Y
si
où
X
f
Y
card
ET Problèmes :
 il faut choisir une famille de fonction
 il faut estimer les paramètres 
 on utilise un échantillon pour optimiser
sur la population
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5
Apprentissage bayésien
(cas particulier du problème à 2 classes – Positifs vs. Négatifs)
Apprentissage en 2 étapes à partir des données :
• estimer la probabilité d’affectation P(Y / X)
• prédire [Y = +] si P(Y = + / X) > P(Y = - / X)
Remarques :
• P(Y = + / X) est selon le cas appelé « score » ou « appétence » : c’est
la « propension à être un positif »
• Cette méthode d’affectation minimise l’erreur de prédiction -- c’est
un cas particulier du coût de mauvaise affectation
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6
Apprentissage bayésien
(généralisation à K classes)
Apprentissage en 2 étapes à partir des données :
• estimer la probabilité d’affectation
• prédire
)
/
( X
y
Y
P k

)
/
(
max
arg
* X
y
Y
P
y k
k
k 

Remarque : Lorsque les X sont discrets, nous pouvons en déduire un
modèle logique d’affectation.
Si X1 = ? et X2 = ? et X3 = ? … Alors Y = ?
prémisse conclusion
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7
Apprentissage bayésien -- Exemple
Maladie Poids Taille Marié Etud.Sup
Présent 45 Trapu Non Oui
Présent 57 Elancé Non Oui
Absent 59 Elancé Non Non
Absent 61 Trapu Oui Oui
Présent 65 Elancé Non Oui
Absent 68 Elancé Non Non
Absent 70 Trapu Oui Non
Présent 72 Trapu Non Oui
Absent 78 Trapu Oui Non
Présent 80 Elancé Oui Non
Y X
• SI taille = ? ALORS Maladie = ?
• SI taille = ? ET etud.sup = ? ALORS Maladie = ?
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
Avantages et inconvénient du modèle bayésien complet
Optimale, elle minimise l’erreur théorique
Pas de solution directe pour les descripteurs continus
(discrétisation ou hypothèse de distribution)
Pas de sélection et d’évaluation des descripteurs
(individuellement ou des groupes de variables – donc pas de sélection)
Dès que le nombre de descripteurs augmente
• Problème de calculabilité
Nombre d’opérations énorme, ex. 10 descr. Binaires => 2^10 règles
• Problème de fragmentation des données
Plein de cases avec des 0, estimations peu fiables
Cette approche n’est pas utilisable dans la pratique !
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
Évaluation de l’apprentissage
Compréhensibilité
Rapidité
Précision
Le modèle exprime une « connaissance »
 Explication : comprendre la causalité pour mieux l’exploiter
 Validation : l’expert peut évaluer la pertinence de l’expertise
 Amélioration : l’expert peut intervenir pour ajuster les paramètres
calculés (ex. les bornes de discrétisation)
 En apprentissage  pouvoir tester plusieurs pistes (ajout de variables,
test de combinaison de variables, modifications de paramètres, etc.)
 En classement, affecter une étiquette à un nouvel individu
 Facilité de mise à jour du modèle (cf. la notion d’incrémentalité)
 Évaluer la précision (qualité) du modèle lors de son utilisation future
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
Évaluation de l’apprentissage – Matrice de confusion
Principe : confronter la valeur observée avec la prédiction
+ - Total
+ a b a+b
- c d c+d
Total a+c b+d n
Prédite
Observée
Quelques indicateurs :
• Vrais positifs VP = a
• Faux positifs FP = c
• Taux d’erreur = (c+b)/n
• Sensibilité = Rappel = Taux de VP = a/(a+b)
• Précision = a/(a+c)
• Taux de FP = c/(c+d)
• Spécificité = d/(c+d) = 1 – Taux de FP
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11
Évaluation – Les coûts de mauvaise affectation
+ - Total
+ 40 10 50
- 20 30 50
Total 60 40 100
Prédite
Observée
Comparaison de deux méthodes d’apprentissage
+ - Total
+ 20 30 50
- 0 50 50
Total 20 80 100
Prédite
Observée
Une information complémentaire
La matrice de coûts de mauvais classement
+ -
+ 0 5
- 1 0
Prédite
Observée
 Coût moyen de mauvaise affectation (dont le taux d’erreur est un cas particulier)
 Calculer les indicateurs synthétiques et comparer
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12
Évaluation – Le principe apprentissage & test
Problème : un fichier ne peut pas être juge et partie
Dans ce cas, les indicateurs calculés sont dit « de resubstitution »
On sait qu’ils sont biaisés -- trop optimistes
Success Wages Job Refunding
Y 0 Unemployed Slow
N 2000 Skilled Worker Slow
N 1400 Worker Slow
N 1573 Retired Slow
Y 2776 Skilled Worker Slow
N 2439 Retired Fast
N 862 Office employee Slow
Y 1400 Salesman Slow
N 1700 Skilled Worker Slow
Y 785 Employee Fast
Y 1274 Worker Slow
N 960 Employee Fast
N 1656 Worker Fast
N 0 Unemployed Slow
Subdivision aléatoire
Échantillon d’apprentissage
Utilisé pour la construction du modèle
70%
Échantillon test
Utilisé pour l’évaluation du modèle
30%
 Rappel, précision, taux d’erreur…
(exercice : fichier LOAN – Success vs. Housing & Refunding)…
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13
Bibliographique : compréhension des méthodes supervisées
• « Analyse discriminante – Application au risque et au scoring financier », M.
Bardos, ed. Dunod, 2001.
Technique pratique, avec de bons repères théoriques, tourné vers les applications
• « The elements of statistical learning - Data Mining, Inference and
Prediction », T. Hastie, R. Tibshirani, J. Friedman, Springer 2001.
Très technique, encyclopédique, indispensable pour la recherche, à lire plusieurs fois

Contenu connexe

Similaire à Apprentissage_Supervise.pdf

5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
Boris Guarisma
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdf
OuailChoukhairi
 
Aiguille dans botte de foin: scikit-learn et joblib
Aiguille dans botte de foin: scikit-learn et joblibAiguille dans botte de foin: scikit-learn et joblib
Aiguille dans botte de foin: scikit-learn et joblib
Gael Varoquaux
 
cours_statistiques_master.pdf
cours_statistiques_master.pdfcours_statistiques_master.pdf
cours_statistiques_master.pdf
Arkadaar
 
TP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage MachineTP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage Machine
Boubaker KHMILI
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
Quentin Ambard
 
Des mesures pour des décisions
Des mesures pour des décisionsDes mesures pour des décisions
Des mesures pour des décisions
Jean-Michel POU
 
1569628.ppt
1569628.ppt1569628.ppt
1569628.ppt
SaidaSoundouss
 
6 sigma -chapitre4 : Analyser
6 sigma -chapitre4 : Analyser6 sigma -chapitre4 : Analyser
6 sigma -chapitre4 : Analyser
ibtissam el hassani
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
SidiAbdallah1
 
Data Mining
Data MiningData Mining
Modèles probabilistes chapitre 4 et 3.pdf
Modèles probabilistes chapitre 4 et 3.pdfModèles probabilistes chapitre 4 et 3.pdf
Modèles probabilistes chapitre 4 et 3.pdf
KOUADIOPATRICE1
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdf
nesrinetaamallah
 
Apprentissage par renforcement
Apprentissage par renforcementApprentissage par renforcement
Apprentissage par renforcement
Stany Mwamba
 
L1 TD Numérique et Société
L1 TD Numérique et SociétéL1 TD Numérique et Société
L1 TD Numérique et Société
Amar LAKEL, PhD
 

Similaire à Apprentissage_Supervise.pdf (15)

5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdf
 
Aiguille dans botte de foin: scikit-learn et joblib
Aiguille dans botte de foin: scikit-learn et joblibAiguille dans botte de foin: scikit-learn et joblib
Aiguille dans botte de foin: scikit-learn et joblib
 
cours_statistiques_master.pdf
cours_statistiques_master.pdfcours_statistiques_master.pdf
cours_statistiques_master.pdf
 
TP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage MachineTP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage Machine
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 
Des mesures pour des décisions
Des mesures pour des décisionsDes mesures pour des décisions
Des mesures pour des décisions
 
1569628.ppt
1569628.ppt1569628.ppt
1569628.ppt
 
6 sigma -chapitre4 : Analyser
6 sigma -chapitre4 : Analyser6 sigma -chapitre4 : Analyser
6 sigma -chapitre4 : Analyser
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
Data Mining
Data MiningData Mining
Data Mining
 
Modèles probabilistes chapitre 4 et 3.pdf
Modèles probabilistes chapitre 4 et 3.pdfModèles probabilistes chapitre 4 et 3.pdf
Modèles probabilistes chapitre 4 et 3.pdf
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdf
 
Apprentissage par renforcement
Apprentissage par renforcementApprentissage par renforcement
Apprentissage par renforcement
 
L1 TD Numérique et Société
L1 TD Numérique et SociétéL1 TD Numérique et Société
L1 TD Numérique et Société
 

Plus de SidiAbdallah1

analyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdfanalyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdf
SidiAbdallah1
 
Introduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfIntroduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdf
SidiAbdallah1
 
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdffr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
SidiAbdallah1
 
naive_bayes_classifier.pdf
naive_bayes_classifier.pdfnaive_bayes_classifier.pdf
naive_bayes_classifier.pdf
SidiAbdallah1
 
ATELIER_3.pdf
ATELIER_3.pdfATELIER_3.pdf
ATELIER_3.pdf
SidiAbdallah1
 
380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdf380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdf
SidiAbdallah1
 
presentation_rgpd_062018.pptx
presentation_rgpd_062018.pptxpresentation_rgpd_062018.pptx
presentation_rgpd_062018.pptx
SidiAbdallah1
 

Plus de SidiAbdallah1 (7)

analyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdfanalyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdf
 
Introduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfIntroduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdf
 
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdffr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
 
naive_bayes_classifier.pdf
naive_bayes_classifier.pdfnaive_bayes_classifier.pdf
naive_bayes_classifier.pdf
 
ATELIER_3.pdf
ATELIER_3.pdfATELIER_3.pdf
ATELIER_3.pdf
 
380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdf380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdf
 
presentation_rgpd_062018.pptx
presentation_rgpd_062018.pptxpresentation_rgpd_062018.pptx
presentation_rgpd_062018.pptx
 

Dernier

Presentation d'esquisse route juin 2023.pptx
Presentation d'esquisse route juin 2023.pptxPresentation d'esquisse route juin 2023.pptx
Presentation d'esquisse route juin 2023.pptx
imed53
 
Leviers d’adaptation au changement climatique, qualité du lait et des produit...
Leviers d’adaptation au changement climatique, qualité du lait et des produit...Leviers d’adaptation au changement climatique, qualité du lait et des produit...
Leviers d’adaptation au changement climatique, qualité du lait et des produit...
Institut de l'Elevage - Idele
 
COURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdf
COURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdfCOURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdf
COURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdf
sieousse95
 
Accompagner les éleveurs dans l'analyse de leurs coûts de production
Accompagner les éleveurs dans l'analyse de leurs coûts de productionAccompagner les éleveurs dans l'analyse de leurs coûts de production
Accompagner les éleveurs dans l'analyse de leurs coûts de production
Institut de l'Elevage - Idele
 
COUPROD Une méthode nationale commune à l’ensemble des filières herbivores
COUPROD Une méthode nationale commune à l’ensemble des filières herbivoresCOUPROD Une méthode nationale commune à l’ensemble des filières herbivores
COUPROD Une méthode nationale commune à l’ensemble des filières herbivores
Institut de l'Elevage - Idele
 
Reconquête de l’engraissement du chevreau à la ferme
Reconquête de l’engraissement du chevreau à la fermeReconquête de l’engraissement du chevreau à la ferme
Reconquête de l’engraissement du chevreau à la ferme
Institut de l'Elevage - Idele
 
Comment aborder le changement climatique dans son métier, volet adaptation
Comment aborder le changement climatique dans son métier, volet adaptationComment aborder le changement climatique dans son métier, volet adaptation
Comment aborder le changement climatique dans son métier, volet adaptation
Institut de l'Elevage - Idele
 
1er webinaire INOSYS Réseaux d’élevage Ovins Viande
1er webinaire INOSYS Réseaux d’élevage Ovins Viande1er webinaire INOSYS Réseaux d’élevage Ovins Viande
1er webinaire INOSYS Réseaux d’élevage Ovins Viande
Institut de l'Elevage - Idele
 
Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...
Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...
Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...
Institut de l'Elevage - Idele
 
Accompagner les porteurs de projets en transformation fermière
Accompagner les porteurs de projets en transformation fermièreAccompagner les porteurs de projets en transformation fermière
Accompagner les porteurs de projets en transformation fermière
Institut de l'Elevage - Idele
 
Alternative - Complément au Tramway et 3ème lien de la ville de Québec
Alternative - Complément  au Tramway et 3ème lien de la ville de Québec  Alternative - Complément  au Tramway et 3ème lien de la ville de Québec
Alternative - Complément au Tramway et 3ème lien de la ville de Québec
Daniel Bedard
 

Dernier (11)

Presentation d'esquisse route juin 2023.pptx
Presentation d'esquisse route juin 2023.pptxPresentation d'esquisse route juin 2023.pptx
Presentation d'esquisse route juin 2023.pptx
 
Leviers d’adaptation au changement climatique, qualité du lait et des produit...
Leviers d’adaptation au changement climatique, qualité du lait et des produit...Leviers d’adaptation au changement climatique, qualité du lait et des produit...
Leviers d’adaptation au changement climatique, qualité du lait et des produit...
 
COURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdf
COURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdfCOURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdf
COURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdf
 
Accompagner les éleveurs dans l'analyse de leurs coûts de production
Accompagner les éleveurs dans l'analyse de leurs coûts de productionAccompagner les éleveurs dans l'analyse de leurs coûts de production
Accompagner les éleveurs dans l'analyse de leurs coûts de production
 
COUPROD Une méthode nationale commune à l’ensemble des filières herbivores
COUPROD Une méthode nationale commune à l’ensemble des filières herbivoresCOUPROD Une méthode nationale commune à l’ensemble des filières herbivores
COUPROD Une méthode nationale commune à l’ensemble des filières herbivores
 
Reconquête de l’engraissement du chevreau à la ferme
Reconquête de l’engraissement du chevreau à la fermeReconquête de l’engraissement du chevreau à la ferme
Reconquête de l’engraissement du chevreau à la ferme
 
Comment aborder le changement climatique dans son métier, volet adaptation
Comment aborder le changement climatique dans son métier, volet adaptationComment aborder le changement climatique dans son métier, volet adaptation
Comment aborder le changement climatique dans son métier, volet adaptation
 
1er webinaire INOSYS Réseaux d’élevage Ovins Viande
1er webinaire INOSYS Réseaux d’élevage Ovins Viande1er webinaire INOSYS Réseaux d’élevage Ovins Viande
1er webinaire INOSYS Réseaux d’élevage Ovins Viande
 
Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...
Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...
Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...
 
Accompagner les porteurs de projets en transformation fermière
Accompagner les porteurs de projets en transformation fermièreAccompagner les porteurs de projets en transformation fermière
Accompagner les porteurs de projets en transformation fermière
 
Alternative - Complément au Tramway et 3ème lien de la ville de Québec
Alternative - Complément  au Tramway et 3ème lien de la ville de Québec  Alternative - Complément  au Tramway et 3ème lien de la ville de Québec
Alternative - Complément au Tramway et 3ème lien de la ville de Québec
 

Apprentissage_Supervise.pdf

  • 1. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 Ricco Rakotomalala Université Lumière Lyon 2
  • 2. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2 Tableau de données Success Wages Job Refunding Y 0 Unemployed Slow N 2000 Skilled Worker Slow N 1400 Worker Slow N 1573 Retired Slow Y 2776 Skilled Worker Slow N 2439 Retired Fast N 862 Office employee Slow Y 1400 Salesman Slow N 1700 Skilled Worker Slow Y 785 Employee Fast Y 1274 Worker Slow N 960 Employee Fast N 1656 Worker Fast N 0 Unemployed Slow Variables, caractères, attributs, Descripteurs, champs, etc. Individus, observations, objets, enregistrements, etc.
  • 3. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3 Statut des variables Variable à prédire Attribut classe Variable endogène Nécessairement discrète nominale (qualitative) Success Wages Job Refunding Y 0 Unemployed Slow N 2000 Skilled Worker Slow N 1400 Worker Slow N 1573 Retired Slow Y 2776 Skilled Worker Slow N 2439 Retired Fast N 862 Office employee Slow Y 1400 Salesman Slow N 1700 Skilled Worker Slow Y 785 Employee Fast Y 1274 Worker Slow N 960 Employee Fast N 1656 Worker Fast N 0 Unemployed Slow Variables prédictives Descripteurs Variables exogènes De type quelconque (nominale, ordinale, continue)
  • 4. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4 Principes de l’apprentissage supervisé Population     es) (quelconqu exogènes variables e qualitativ , (endogène) prédire à variable X Y Une série de variables X=(x1|…|xp) On veut construire une fonction de classement telle que ) , (  X f Y  Objet de l ’étude Utiliser un échantillon a (extraite de la population) pour choisir la fonction f et ses paramètres  telle que l ’on minimise l ’erreur théorique Objectif de l ’apprentissage               ) ˆ , ( ˆ 0 ) ˆ , ( ˆ 1 [.] )] ˆ , ( ˆ , [ ) ( 1    X f Y si X f Y si où X f Y card ET Problèmes :  il faut choisir une famille de fonction  il faut estimer les paramètres   on utilise un échantillon pour optimiser sur la population
  • 5. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5 Apprentissage bayésien (cas particulier du problème à 2 classes – Positifs vs. Négatifs) Apprentissage en 2 étapes à partir des données : • estimer la probabilité d’affectation P(Y / X) • prédire [Y = +] si P(Y = + / X) > P(Y = - / X) Remarques : • P(Y = + / X) est selon le cas appelé « score » ou « appétence » : c’est la « propension à être un positif » • Cette méthode d’affectation minimise l’erreur de prédiction -- c’est un cas particulier du coût de mauvaise affectation
  • 6. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6 Apprentissage bayésien (généralisation à K classes) Apprentissage en 2 étapes à partir des données : • estimer la probabilité d’affectation • prédire ) / ( X y Y P k  ) / ( max arg * X y Y P y k k k   Remarque : Lorsque les X sont discrets, nous pouvons en déduire un modèle logique d’affectation. Si X1 = ? et X2 = ? et X3 = ? … Alors Y = ? prémisse conclusion
  • 7. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7 Apprentissage bayésien -- Exemple Maladie Poids Taille Marié Etud.Sup Présent 45 Trapu Non Oui Présent 57 Elancé Non Oui Absent 59 Elancé Non Non Absent 61 Trapu Oui Oui Présent 65 Elancé Non Oui Absent 68 Elancé Non Non Absent 70 Trapu Oui Non Présent 72 Trapu Non Oui Absent 78 Trapu Oui Non Présent 80 Elancé Oui Non Y X • SI taille = ? ALORS Maladie = ? • SI taille = ? ET etud.sup = ? ALORS Maladie = ?
  • 8. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8 Avantages et inconvénient du modèle bayésien complet Optimale, elle minimise l’erreur théorique Pas de solution directe pour les descripteurs continus (discrétisation ou hypothèse de distribution) Pas de sélection et d’évaluation des descripteurs (individuellement ou des groupes de variables – donc pas de sélection) Dès que le nombre de descripteurs augmente • Problème de calculabilité Nombre d’opérations énorme, ex. 10 descr. Binaires => 2^10 règles • Problème de fragmentation des données Plein de cases avec des 0, estimations peu fiables Cette approche n’est pas utilisable dans la pratique !
  • 9. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9 Évaluation de l’apprentissage Compréhensibilité Rapidité Précision Le modèle exprime une « connaissance »  Explication : comprendre la causalité pour mieux l’exploiter  Validation : l’expert peut évaluer la pertinence de l’expertise  Amélioration : l’expert peut intervenir pour ajuster les paramètres calculés (ex. les bornes de discrétisation)  En apprentissage  pouvoir tester plusieurs pistes (ajout de variables, test de combinaison de variables, modifications de paramètres, etc.)  En classement, affecter une étiquette à un nouvel individu  Facilité de mise à jour du modèle (cf. la notion d’incrémentalité)  Évaluer la précision (qualité) du modèle lors de son utilisation future
  • 10. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10 Évaluation de l’apprentissage – Matrice de confusion Principe : confronter la valeur observée avec la prédiction + - Total + a b a+b - c d c+d Total a+c b+d n Prédite Observée Quelques indicateurs : • Vrais positifs VP = a • Faux positifs FP = c • Taux d’erreur = (c+b)/n • Sensibilité = Rappel = Taux de VP = a/(a+b) • Précision = a/(a+c) • Taux de FP = c/(c+d) • Spécificité = d/(c+d) = 1 – Taux de FP
  • 11. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11 Évaluation – Les coûts de mauvaise affectation + - Total + 40 10 50 - 20 30 50 Total 60 40 100 Prédite Observée Comparaison de deux méthodes d’apprentissage + - Total + 20 30 50 - 0 50 50 Total 20 80 100 Prédite Observée Une information complémentaire La matrice de coûts de mauvais classement + - + 0 5 - 1 0 Prédite Observée  Coût moyen de mauvaise affectation (dont le taux d’erreur est un cas particulier)  Calculer les indicateurs synthétiques et comparer
  • 12. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12 Évaluation – Le principe apprentissage & test Problème : un fichier ne peut pas être juge et partie Dans ce cas, les indicateurs calculés sont dit « de resubstitution » On sait qu’ils sont biaisés -- trop optimistes Success Wages Job Refunding Y 0 Unemployed Slow N 2000 Skilled Worker Slow N 1400 Worker Slow N 1573 Retired Slow Y 2776 Skilled Worker Slow N 2439 Retired Fast N 862 Office employee Slow Y 1400 Salesman Slow N 1700 Skilled Worker Slow Y 785 Employee Fast Y 1274 Worker Slow N 960 Employee Fast N 1656 Worker Fast N 0 Unemployed Slow Subdivision aléatoire Échantillon d’apprentissage Utilisé pour la construction du modèle 70% Échantillon test Utilisé pour l’évaluation du modèle 30%  Rappel, précision, taux d’erreur… (exercice : fichier LOAN – Success vs. Housing & Refunding)…
  • 13. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13 Bibliographique : compréhension des méthodes supervisées • « Analyse discriminante – Application au risque et au scoring financier », M. Bardos, ed. Dunod, 2001. Technique pratique, avec de bons repères théoriques, tourné vers les applications • « The elements of statistical learning - Data Mining, Inference and Prediction », T. Hastie, R. Tibshirani, J. Friedman, Springer 2001. Très technique, encyclopédique, indispensable pour la recherche, à lire plusieurs fois