SlideShare une entreprise Scribd logo
1  sur  13
Télécharger pour lire hors ligne
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1
Ricco Rakotomalala
Université Lumière Lyon 2
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2
Tableau de données
Success Wages Job Refunding
Y 0 Unemployed Slow
N 2000 Skilled Worker Slow
N 1400 Worker Slow
N 1573 Retired Slow
Y 2776 Skilled Worker Slow
N 2439 Retired Fast
N 862 Office employee Slow
Y 1400 Salesman Slow
N 1700 Skilled Worker Slow
Y 785 Employee Fast
Y 1274 Worker Slow
N 960 Employee Fast
N 1656 Worker Fast
N 0 Unemployed Slow
Variables, caractères, attributs,
Descripteurs, champs, etc.
Individus, observations, objets, enregistrements, etc.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
Statut des variables
Variable à prédire
Attribut classe
Variable endogène
Nécessairement discrète nominale
(qualitative)
Success Wages Job Refunding
Y 0 Unemployed Slow
N 2000 Skilled Worker Slow
N 1400 Worker Slow
N 1573 Retired Slow
Y 2776 Skilled Worker Slow
N 2439 Retired Fast
N 862 Office employee Slow
Y 1400 Salesman Slow
N 1700 Skilled Worker Slow
Y 785 Employee Fast
Y 1274 Worker Slow
N 960 Employee Fast
N 1656 Worker Fast
N 0 Unemployed Slow
Variables prédictives
Descripteurs
Variables exogènes
De type quelconque
(nominale, ordinale, continue)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4
Principes de l’apprentissage supervisé
Population 



es)
(quelconqu
exogènes
variables
e
qualitativ
,
(endogène)
prédire
à
variable
X
Y
Une série de variables
X=(x1|…|xp)
On veut construire une fonction de classement telle que
)
,
( 
X
f
Y 
Objet de l ’étude
Utiliser un échantillon a (extraite de la population) pour
choisir la fonction f et ses paramètres  telle que l ’on
minimise l ’erreur théorique
Objectif de
l ’apprentissage











 

)
ˆ
,
(
ˆ
0
)
ˆ
,
(
ˆ
1
[.]
)]
ˆ
,
(
ˆ
,
[
)
(
1



X
f
Y
si
X
f
Y
si
où
X
f
Y
card
ET Problèmes :
 il faut choisir une famille de fonction
 il faut estimer les paramètres 
 on utilise un échantillon pour optimiser
sur la population
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5
Apprentissage bayésien
(cas particulier du problème à 2 classes – Positifs vs. Négatifs)
Apprentissage en 2 étapes à partir des données :
• estimer la probabilité d’affectation P(Y / X)
• prédire [Y = +] si P(Y = + / X) > P(Y = - / X)
Remarques :
• P(Y = + / X) est selon le cas appelé « score » ou « appétence » : c’est
la « propension à être un positif »
• Cette méthode d’affectation minimise l’erreur de prédiction -- c’est
un cas particulier du coût de mauvaise affectation
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6
Apprentissage bayésien
(généralisation à K classes)
Apprentissage en 2 étapes à partir des données :
• estimer la probabilité d’affectation
• prédire
)
/
( X
y
Y
P k

)
/
(
max
arg
* X
y
Y
P
y k
k
k 

Remarque : Lorsque les X sont discrets, nous pouvons en déduire un
modèle logique d’affectation.
Si X1 = ? et X2 = ? et X3 = ? … Alors Y = ?
prémisse conclusion
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7
Apprentissage bayésien -- Exemple
Maladie Poids Taille Marié Etud.Sup
Présent 45 Trapu Non Oui
Présent 57 Elancé Non Oui
Absent 59 Elancé Non Non
Absent 61 Trapu Oui Oui
Présent 65 Elancé Non Oui
Absent 68 Elancé Non Non
Absent 70 Trapu Oui Non
Présent 72 Trapu Non Oui
Absent 78 Trapu Oui Non
Présent 80 Elancé Oui Non
Y X
• SI taille = ? ALORS Maladie = ?
• SI taille = ? ET etud.sup = ? ALORS Maladie = ?
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
Avantages et inconvénient du modèle bayésien complet
Optimale, elle minimise l’erreur théorique
Pas de solution directe pour les descripteurs continus
(discrétisation ou hypothèse de distribution)
Pas de sélection et d’évaluation des descripteurs
(individuellement ou des groupes de variables – donc pas de sélection)
Dès que le nombre de descripteurs augmente
• Problème de calculabilité
Nombre d’opérations énorme, ex. 10 descr. Binaires => 2^10 règles
• Problème de fragmentation des données
Plein de cases avec des 0, estimations peu fiables
Cette approche n’est pas utilisable dans la pratique !
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
Évaluation de l’apprentissage
Compréhensibilité
Rapidité
Précision
Le modèle exprime une « connaissance »
 Explication : comprendre la causalité pour mieux l’exploiter
 Validation : l’expert peut évaluer la pertinence de l’expertise
 Amélioration : l’expert peut intervenir pour ajuster les paramètres
calculés (ex. les bornes de discrétisation)
 En apprentissage  pouvoir tester plusieurs pistes (ajout de variables,
test de combinaison de variables, modifications de paramètres, etc.)
 En classement, affecter une étiquette à un nouvel individu
 Facilité de mise à jour du modèle (cf. la notion d’incrémentalité)
 Évaluer la précision (qualité) du modèle lors de son utilisation future
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
Évaluation de l’apprentissage – Matrice de confusion
Principe : confronter la valeur observée avec la prédiction
+ - Total
+ a b a+b
- c d c+d
Total a+c b+d n
Prédite
Observée
Quelques indicateurs :
• Vrais positifs VP = a
• Faux positifs FP = c
• Taux d’erreur = (c+b)/n
• Sensibilité = Rappel = Taux de VP = a/(a+b)
• Précision = a/(a+c)
• Taux de FP = c/(c+d)
• Spécificité = d/(c+d) = 1 – Taux de FP
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11
Évaluation – Les coûts de mauvaise affectation
+ - Total
+ 40 10 50
- 20 30 50
Total 60 40 100
Prédite
Observée
Comparaison de deux méthodes d’apprentissage
+ - Total
+ 20 30 50
- 0 50 50
Total 20 80 100
Prédite
Observée
Une information complémentaire
La matrice de coûts de mauvais classement
+ -
+ 0 5
- 1 0
Prédite
Observée
 Coût moyen de mauvaise affectation (dont le taux d’erreur est un cas particulier)
 Calculer les indicateurs synthétiques et comparer
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12
Évaluation – Le principe apprentissage & test
Problème : un fichier ne peut pas être juge et partie
Dans ce cas, les indicateurs calculés sont dit « de resubstitution »
On sait qu’ils sont biaisés -- trop optimistes
Success Wages Job Refunding
Y 0 Unemployed Slow
N 2000 Skilled Worker Slow
N 1400 Worker Slow
N 1573 Retired Slow
Y 2776 Skilled Worker Slow
N 2439 Retired Fast
N 862 Office employee Slow
Y 1400 Salesman Slow
N 1700 Skilled Worker Slow
Y 785 Employee Fast
Y 1274 Worker Slow
N 960 Employee Fast
N 1656 Worker Fast
N 0 Unemployed Slow
Subdivision aléatoire
Échantillon d’apprentissage
Utilisé pour la construction du modèle
70%
Échantillon test
Utilisé pour l’évaluation du modèle
30%
 Rappel, précision, taux d’erreur…
(exercice : fichier LOAN – Success vs. Housing & Refunding)…
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13
Bibliographique : compréhension des méthodes supervisées
• « Analyse discriminante – Application au risque et au scoring financier », M.
Bardos, ed. Dunod, 2001.
Technique pratique, avec de bons repères théoriques, tourné vers les applications
• « The elements of statistical learning - Data Mining, Inference and
Prediction », T. Hastie, R. Tibshirani, J. Friedman, Springer 2001.
Très technique, encyclopédique, indispensable pour la recherche, à lire plusieurs fois

Contenu connexe

Similaire à Apprentissage_Supervise.pdf

5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistiqueBoris Guarisma
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdfOuailChoukhairi
 
Aiguille dans botte de foin: scikit-learn et joblib
Aiguille dans botte de foin: scikit-learn et joblibAiguille dans botte de foin: scikit-learn et joblib
Aiguille dans botte de foin: scikit-learn et joblibGael Varoquaux
 
cours_statistiques_master.pdf
cours_statistiques_master.pdfcours_statistiques_master.pdf
cours_statistiques_master.pdfArkadaar
 
TP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage MachineTP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage MachineBoubaker KHMILI
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learningQuentin Ambard
 
Des mesures pour des décisions
Des mesures pour des décisionsDes mesures pour des décisions
Des mesures pour des décisionsJean-Michel POU
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdfSidiAbdallah1
 
Modèles probabilistes chapitre 4 et 3.pdf
Modèles probabilistes chapitre 4 et 3.pdfModèles probabilistes chapitre 4 et 3.pdf
Modèles probabilistes chapitre 4 et 3.pdfKOUADIOPATRICE1
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfnesrinetaamallah
 
Apprentissage par renforcement
Apprentissage par renforcementApprentissage par renforcement
Apprentissage par renforcementStany Mwamba
 
L1 TD Numérique et Société
L1 TD Numérique et SociétéL1 TD Numérique et Société
L1 TD Numérique et SociétéAmar LAKEL, PhD
 

Similaire à Apprentissage_Supervise.pdf (15)

5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdf
 
Aiguille dans botte de foin: scikit-learn et joblib
Aiguille dans botte de foin: scikit-learn et joblibAiguille dans botte de foin: scikit-learn et joblib
Aiguille dans botte de foin: scikit-learn et joblib
 
cours_statistiques_master.pdf
cours_statistiques_master.pdfcours_statistiques_master.pdf
cours_statistiques_master.pdf
 
TP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage MachineTP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage Machine
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 
Des mesures pour des décisions
Des mesures pour des décisionsDes mesures pour des décisions
Des mesures pour des décisions
 
1569628.ppt
1569628.ppt1569628.ppt
1569628.ppt
 
6 sigma -chapitre4 : Analyser
6 sigma -chapitre4 : Analyser6 sigma -chapitre4 : Analyser
6 sigma -chapitre4 : Analyser
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
Data Mining
Data MiningData Mining
Data Mining
 
Modèles probabilistes chapitre 4 et 3.pdf
Modèles probabilistes chapitre 4 et 3.pdfModèles probabilistes chapitre 4 et 3.pdf
Modèles probabilistes chapitre 4 et 3.pdf
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdf
 
Apprentissage par renforcement
Apprentissage par renforcementApprentissage par renforcement
Apprentissage par renforcement
 
L1 TD Numérique et Société
L1 TD Numérique et SociétéL1 TD Numérique et Société
L1 TD Numérique et Société
 

Plus de SidiAbdallah1

analyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdfanalyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdfSidiAbdallah1
 
Introduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfIntroduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfSidiAbdallah1
 
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdffr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdfSidiAbdallah1
 
naive_bayes_classifier.pdf
naive_bayes_classifier.pdfnaive_bayes_classifier.pdf
naive_bayes_classifier.pdfSidiAbdallah1
 
380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdf380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdfSidiAbdallah1
 
presentation_rgpd_062018.pptx
presentation_rgpd_062018.pptxpresentation_rgpd_062018.pptx
presentation_rgpd_062018.pptxSidiAbdallah1
 

Plus de SidiAbdallah1 (7)

analyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdfanalyse_discriminante_descriptive.pdf
analyse_discriminante_descriptive.pdf
 
Introduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfIntroduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdf
 
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdffr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf
 
naive_bayes_classifier.pdf
naive_bayes_classifier.pdfnaive_bayes_classifier.pdf
naive_bayes_classifier.pdf
 
ATELIER_3.pdf
ATELIER_3.pdfATELIER_3.pdf
ATELIER_3.pdf
 
380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdf380170667-ier2015-fr.pdf
380170667-ier2015-fr.pdf
 
presentation_rgpd_062018.pptx
presentation_rgpd_062018.pptxpresentation_rgpd_062018.pptx
presentation_rgpd_062018.pptx
 

Dernier

GAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engageGAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engageInstitut de l'Elevage - Idele
 
GAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversitéGAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversitéInstitut de l'Elevage - Idele
 
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...Institut de l'Elevage - Idele
 
JTC 2024 La relance de la filière de la viande de chevreau.pdf
JTC 2024 La relance de la filière de la viande de chevreau.pdfJTC 2024 La relance de la filière de la viande de chevreau.pdf
JTC 2024 La relance de la filière de la viande de chevreau.pdfInstitut de l'Elevage - Idele
 
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...Institut de l'Elevage - Idele
 
JTC 2024 - Réglementation européenne BEA et Transport.pdf
JTC 2024 - Réglementation européenne BEA et Transport.pdfJTC 2024 - Réglementation européenne BEA et Transport.pdf
JTC 2024 - Réglementation européenne BEA et Transport.pdfInstitut de l'Elevage - Idele
 
WBS OBS RACI_2020-etunhjjlllllll pdf.pdf
WBS OBS RACI_2020-etunhjjlllllll pdf.pdfWBS OBS RACI_2020-etunhjjlllllll pdf.pdf
WBS OBS RACI_2020-etunhjjlllllll pdf.pdfSophie569778
 
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...Institut de l'Elevage - Idele
 
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusGAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusInstitut de l'Elevage - Idele
 
comprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestioncomprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestionyakinekaidouchi1
 
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...Institut de l'Elevage - Idele
 
GAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentesGAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentesInstitut de l'Elevage - Idele
 
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdfJTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdfInstitut de l'Elevage - Idele
 
Câblage, installation et paramétrage d’un réseau informatique.pdf
Câblage, installation et paramétrage d’un réseau informatique.pdfCâblage, installation et paramétrage d’un réseau informatique.pdf
Câblage, installation et paramétrage d’un réseau informatique.pdfmia884611
 
Algo II : les piles ( cours + exercices)
Algo II :  les piles ( cours + exercices)Algo II :  les piles ( cours + exercices)
Algo II : les piles ( cours + exercices)Sana REFAI
 
conception d'un batiment r+4 comparative de defferente ariante de plancher
conception d'un  batiment  r+4 comparative de defferente ariante de plancherconception d'un  batiment  r+4 comparative de defferente ariante de plancher
conception d'un batiment r+4 comparative de defferente ariante de planchermansouriahlam
 
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...Institut de l'Elevage - Idele
 

Dernier (20)

GAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engageGAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engage
 
GAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversitéGAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversité
 
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
 
CAP2ER_GC_Presentation_Outil_20240422.pptx
CAP2ER_GC_Presentation_Outil_20240422.pptxCAP2ER_GC_Presentation_Outil_20240422.pptx
CAP2ER_GC_Presentation_Outil_20240422.pptx
 
JTC 2024 La relance de la filière de la viande de chevreau.pdf
JTC 2024 La relance de la filière de la viande de chevreau.pdfJTC 2024 La relance de la filière de la viande de chevreau.pdf
JTC 2024 La relance de la filière de la viande de chevreau.pdf
 
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
 
JTC 2024 - Réglementation européenne BEA et Transport.pdf
JTC 2024 - Réglementation européenne BEA et Transport.pdfJTC 2024 - Réglementation européenne BEA et Transport.pdf
JTC 2024 - Réglementation européenne BEA et Transport.pdf
 
WBS OBS RACI_2020-etunhjjlllllll pdf.pdf
WBS OBS RACI_2020-etunhjjlllllll pdf.pdfWBS OBS RACI_2020-etunhjjlllllll pdf.pdf
WBS OBS RACI_2020-etunhjjlllllll pdf.pdf
 
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
 
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusGAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
 
comprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestioncomprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestion
 
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
 
JTC 2024 Bâtiment et Photovoltaïque.pdf
JTC 2024  Bâtiment et Photovoltaïque.pdfJTC 2024  Bâtiment et Photovoltaïque.pdf
JTC 2024 Bâtiment et Photovoltaïque.pdf
 
GAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentesGAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentes
 
JTC 2024 - DeCremoux_Anomalies_génétiques.pdf
JTC 2024 - DeCremoux_Anomalies_génétiques.pdfJTC 2024 - DeCremoux_Anomalies_génétiques.pdf
JTC 2024 - DeCremoux_Anomalies_génétiques.pdf
 
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdfJTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
 
Câblage, installation et paramétrage d’un réseau informatique.pdf
Câblage, installation et paramétrage d’un réseau informatique.pdfCâblage, installation et paramétrage d’un réseau informatique.pdf
Câblage, installation et paramétrage d’un réseau informatique.pdf
 
Algo II : les piles ( cours + exercices)
Algo II :  les piles ( cours + exercices)Algo II :  les piles ( cours + exercices)
Algo II : les piles ( cours + exercices)
 
conception d'un batiment r+4 comparative de defferente ariante de plancher
conception d'un  batiment  r+4 comparative de defferente ariante de plancherconception d'un  batiment  r+4 comparative de defferente ariante de plancher
conception d'un batiment r+4 comparative de defferente ariante de plancher
 
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
 

Apprentissage_Supervise.pdf

  • 1. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 Ricco Rakotomalala Université Lumière Lyon 2
  • 2. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2 Tableau de données Success Wages Job Refunding Y 0 Unemployed Slow N 2000 Skilled Worker Slow N 1400 Worker Slow N 1573 Retired Slow Y 2776 Skilled Worker Slow N 2439 Retired Fast N 862 Office employee Slow Y 1400 Salesman Slow N 1700 Skilled Worker Slow Y 785 Employee Fast Y 1274 Worker Slow N 960 Employee Fast N 1656 Worker Fast N 0 Unemployed Slow Variables, caractères, attributs, Descripteurs, champs, etc. Individus, observations, objets, enregistrements, etc.
  • 3. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3 Statut des variables Variable à prédire Attribut classe Variable endogène Nécessairement discrète nominale (qualitative) Success Wages Job Refunding Y 0 Unemployed Slow N 2000 Skilled Worker Slow N 1400 Worker Slow N 1573 Retired Slow Y 2776 Skilled Worker Slow N 2439 Retired Fast N 862 Office employee Slow Y 1400 Salesman Slow N 1700 Skilled Worker Slow Y 785 Employee Fast Y 1274 Worker Slow N 960 Employee Fast N 1656 Worker Fast N 0 Unemployed Slow Variables prédictives Descripteurs Variables exogènes De type quelconque (nominale, ordinale, continue)
  • 4. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4 Principes de l’apprentissage supervisé Population     es) (quelconqu exogènes variables e qualitativ , (endogène) prédire à variable X Y Une série de variables X=(x1|…|xp) On veut construire une fonction de classement telle que ) , (  X f Y  Objet de l ’étude Utiliser un échantillon a (extraite de la population) pour choisir la fonction f et ses paramètres  telle que l ’on minimise l ’erreur théorique Objectif de l ’apprentissage               ) ˆ , ( ˆ 0 ) ˆ , ( ˆ 1 [.] )] ˆ , ( ˆ , [ ) ( 1    X f Y si X f Y si où X f Y card ET Problèmes :  il faut choisir une famille de fonction  il faut estimer les paramètres   on utilise un échantillon pour optimiser sur la population
  • 5. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5 Apprentissage bayésien (cas particulier du problème à 2 classes – Positifs vs. Négatifs) Apprentissage en 2 étapes à partir des données : • estimer la probabilité d’affectation P(Y / X) • prédire [Y = +] si P(Y = + / X) > P(Y = - / X) Remarques : • P(Y = + / X) est selon le cas appelé « score » ou « appétence » : c’est la « propension à être un positif » • Cette méthode d’affectation minimise l’erreur de prédiction -- c’est un cas particulier du coût de mauvaise affectation
  • 6. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6 Apprentissage bayésien (généralisation à K classes) Apprentissage en 2 étapes à partir des données : • estimer la probabilité d’affectation • prédire ) / ( X y Y P k  ) / ( max arg * X y Y P y k k k   Remarque : Lorsque les X sont discrets, nous pouvons en déduire un modèle logique d’affectation. Si X1 = ? et X2 = ? et X3 = ? … Alors Y = ? prémisse conclusion
  • 7. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7 Apprentissage bayésien -- Exemple Maladie Poids Taille Marié Etud.Sup Présent 45 Trapu Non Oui Présent 57 Elancé Non Oui Absent 59 Elancé Non Non Absent 61 Trapu Oui Oui Présent 65 Elancé Non Oui Absent 68 Elancé Non Non Absent 70 Trapu Oui Non Présent 72 Trapu Non Oui Absent 78 Trapu Oui Non Présent 80 Elancé Oui Non Y X • SI taille = ? ALORS Maladie = ? • SI taille = ? ET etud.sup = ? ALORS Maladie = ?
  • 8. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8 Avantages et inconvénient du modèle bayésien complet Optimale, elle minimise l’erreur théorique Pas de solution directe pour les descripteurs continus (discrétisation ou hypothèse de distribution) Pas de sélection et d’évaluation des descripteurs (individuellement ou des groupes de variables – donc pas de sélection) Dès que le nombre de descripteurs augmente • Problème de calculabilité Nombre d’opérations énorme, ex. 10 descr. Binaires => 2^10 règles • Problème de fragmentation des données Plein de cases avec des 0, estimations peu fiables Cette approche n’est pas utilisable dans la pratique !
  • 9. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9 Évaluation de l’apprentissage Compréhensibilité Rapidité Précision Le modèle exprime une « connaissance »  Explication : comprendre la causalité pour mieux l’exploiter  Validation : l’expert peut évaluer la pertinence de l’expertise  Amélioration : l’expert peut intervenir pour ajuster les paramètres calculés (ex. les bornes de discrétisation)  En apprentissage  pouvoir tester plusieurs pistes (ajout de variables, test de combinaison de variables, modifications de paramètres, etc.)  En classement, affecter une étiquette à un nouvel individu  Facilité de mise à jour du modèle (cf. la notion d’incrémentalité)  Évaluer la précision (qualité) du modèle lors de son utilisation future
  • 10. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10 Évaluation de l’apprentissage – Matrice de confusion Principe : confronter la valeur observée avec la prédiction + - Total + a b a+b - c d c+d Total a+c b+d n Prédite Observée Quelques indicateurs : • Vrais positifs VP = a • Faux positifs FP = c • Taux d’erreur = (c+b)/n • Sensibilité = Rappel = Taux de VP = a/(a+b) • Précision = a/(a+c) • Taux de FP = c/(c+d) • Spécificité = d/(c+d) = 1 – Taux de FP
  • 11. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11 Évaluation – Les coûts de mauvaise affectation + - Total + 40 10 50 - 20 30 50 Total 60 40 100 Prédite Observée Comparaison de deux méthodes d’apprentissage + - Total + 20 30 50 - 0 50 50 Total 20 80 100 Prédite Observée Une information complémentaire La matrice de coûts de mauvais classement + - + 0 5 - 1 0 Prédite Observée  Coût moyen de mauvaise affectation (dont le taux d’erreur est un cas particulier)  Calculer les indicateurs synthétiques et comparer
  • 12. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12 Évaluation – Le principe apprentissage & test Problème : un fichier ne peut pas être juge et partie Dans ce cas, les indicateurs calculés sont dit « de resubstitution » On sait qu’ils sont biaisés -- trop optimistes Success Wages Job Refunding Y 0 Unemployed Slow N 2000 Skilled Worker Slow N 1400 Worker Slow N 1573 Retired Slow Y 2776 Skilled Worker Slow N 2439 Retired Fast N 862 Office employee Slow Y 1400 Salesman Slow N 1700 Skilled Worker Slow Y 785 Employee Fast Y 1274 Worker Slow N 960 Employee Fast N 1656 Worker Fast N 0 Unemployed Slow Subdivision aléatoire Échantillon d’apprentissage Utilisé pour la construction du modèle 70% Échantillon test Utilisé pour l’évaluation du modèle 30%  Rappel, précision, taux d’erreur… (exercice : fichier LOAN – Success vs. Housing & Refunding)…
  • 13. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13 Bibliographique : compréhension des méthodes supervisées • « Analyse discriminante – Application au risque et au scoring financier », M. Bardos, ed. Dunod, 2001. Technique pratique, avec de bons repères théoriques, tourné vers les applications • « The elements of statistical learning - Data Mining, Inference and Prediction », T. Hastie, R. Tibshirani, J. Friedman, Springer 2001. Très technique, encyclopédique, indispensable pour la recherche, à lire plusieurs fois