SlideShare une entreprise Scribd logo
Chapitre 1: Introduction à
l’apprentissage automatique
Chapitre 2: Apprentissage supervisé
Partie 1: Classification
Hela Mahersia Kaouther Ezzameli
Email: helamahersia@yahoo.fr Email:kaouther.zammeli@gmail.com
Année universitaire: 2022/2023
GLSI3
Plan
1. Introduction
2. Problèmes d’apprentissage supervisé
3. Étapes de classification
4. KNN
5. Arbre de décision
2
Introduction
L'apprentissage supervisé est l'endroit où on peut :
• ………………………………………………………………………………………………………………
……………………………………………………………………………………………………………
• Utiliser un algorithme pour ……………………………………………………………
………………………………………………………………………………………………………………
……………………………..………………………………………………………………………………
• Modéliser …………………………………………………………… …………………………………………...
………………………………
3
avoir des données étiquetées, ce qui signifie que nous connaissons déjà la sorite correspondante pour chaque entrée
apprendre les modeles qui régissent la relation entre les entrées et la sorite
tendance à
ces motifs cachés par une fonction de mappage
Problèmes d’apprentissage supervisé
Il existe deux types de problèmes d'apprentissage supervisé :
4
Regression:………………………………
……………………………………………………
……………………………………………………
……………………………………………………
…………………………………………………
prédiction de la catégorie à laquelle
appartiennent les données
Classification:……………………………
……………………………………………………
……………………………………………………
…………………......................................
.............................
prédiction de la catégorie à laquelle appartiennent les données
prédiction de valeurs numériques sur la base de données observées
antérieurement
Étapes de classification
5
Apprentissage : ………………………………………………………………………………………………………………
Test : ………………………………………………………………………………………………………………………………
à partir des données connues avec leurs classes correctes ( labels )
à partir des données connues ( 1/3 généralement )
Nombres de données de test correctement classées
Nombre total de données de test
Nombres de données de test pas correctement classées
Nombre total de données de test
Classification : Apprentissage
6
algorithme de classification supervisée
Model
données
d'apprentissage
Classification: Test
7
Model
nouveau cas
données de test
KNN : Définition
8
L'algorithme K-nearest-neighbor, souvent abrégé en KNN, est utilisé pour
..………………………………………………………………………….................................………
…………………………………………………………………………………….. …………………….. …
“Dis moi qui sont tes amis, et je te dirais qui tu es”
• Un algorithme de classification…………………………….
• Classification basée sur……………………………………..
• Non paramétrique (sauf K)
Principe : …………………………
Chaque fois que nous avons une nouvelle donnée à classer, nous trouvons
……………………………………………………………………………………………………………………
classer de nouvelles données en partant du principe qu'elles sont similaires à ses K-plus proches voisins
simple mais trés puissant
une mesure de similarité
vote majoritaire
ses K voisins les plus proches à partir des donées d'apprentissage
KNN: Étapes
9
Pour un point de données x d'une classe inconnue :
1) …………………………….…………………………….…………………………….
2) …………………………….…………………………….…………………………….……………………………..
3) …………………………….…………………………….…………………………….…………………………….
…………………………….…………………………….…………………………….…………………………….
4) …………………………….…………………………….…………………………….…………………………….
…………………………….…………………………….…………………………….…………………………….
Introduction de la valeur K .
Calcul de la distance entre X et tous les points de données dans les données d'apprentissage .
Sélection des entrées K dans la BD qui sont les plus proches de X .
Prendre le vote majoritaire ( la classe /étiquette la plus courante parmi ces entrées K sera la classe de X ).
10
• …………………………….…………………………….………………………………………….…………………………….
• …………………………….…………………………….………………………………………….…………………………….
• ……………………………. …………………………….…………………………..…………….…………………………….
• …………………………….…………………………….…………………………….…………….……………………………
• …………………………….…………………………….…………………………….………………………………………….
KNN: Avantages
Aucune hypothèse sur les données .
Algorithme simple facile à comprendre et à interpréter .
Aucune formation nécessaire .
variété de fonctions de distance .
Peut étre utilisé à la fois pour la classification et la régression .
11
• …………………………….…………………………….………………………………………….…………………………….
• …………………………….…………………………….………………………………………….…………………………….
• ……………………………. …………………………….…………………………..…………….…………………………….
• …………………………….…………………………….…………………………….…………….……………………………
• …………………………….…………………………….…………………………….………………………………………….
KNN: Inconvénients
Sensible à la variation de K
Lent et couteux en terme de mémoire
Très sensible aux attributs non pertinents ou corrélés
Ne convient pas si les données d'apprentissage ont peu de prototypes
KNN a besoin de caractéristiques homogènes car les caractéristiques doivent avoir la méme échelle .
Arbre de décision
12
• Un arbre de décision est……………………………………………………………………………………
…………………………………………………………………………………………………………………………
• Le résultat peut être une……………………………………………………………………………….
• Si nous visualisons l'ensemble des décisions, nous pouvons clairement voir la forme
de l'arbre. Mais c'est à l'envers.
un ensemble de décisions hièrarchiques qui donnent finalement un résultat final .
prédiction de régression ou une classification .
13
Arbre de décision : Structure
Un arbre de décision est composé de :
• …………………………….…………………………….………………………………………….…………………………
…………………….……………………………….……………………………….……………………………….……….
• …………………………….…………………………….…………………………..…………….…………………………
…………..……………………………………………………………………………………………………………………
• …………………………….…………………………….…………………………….…………….…………………………
……………………………….…………………………….……………………………….…………………………….…
• …………………………….…………………………….…………………………….………………………………………
…. ……………………….……………………………….……………………………….……………………………….…
un noeud racine qui représente le noeud le plus haut .
Noeuds internes qui dénotent un test sous la forme d'une question sur nos fonctionnalités (attributs) .
Des branches qui représentent un résultat du test. l'arbre se divise en fonction de ces réponses .
Des noeuds feuilles qui représentent une classification ou une décision .
Arbre de décision: Concept
14
À chaque nœud, nous essaierons de créer un fractionnement binaire, puis de
sélectionner la fonctionnalité qui nous donne le fractionnement binaire optimal.
Répartition optimale:
• …………………………….…………………………….…………………………..…………….……………………………………..……………
………………………………………………………………………………………………………
• …………………………….…………………………….…………………………….…………….…………………………………………………
……….…………………………….……………………………….…………………………….…
• …………………………….…………………………….…………………………….………………………………………….
……………………….……………………………….……………………………….……………………………….…
Il faut calculer combien chaque division coutera en termes de précision .
=> Il faut utiliser une fonction de cout .
La division la moins couteuse est choisie pour maximiser la précision .
Arbre de décision: Construction
15
• Au départ, les points des la base d’apprentissage sont……………………………………………
……………………………………………………………..
• Une des variables de description des points est……………………………………………………..
…………………………………………………………………………………..
• La variable cible peut être…………………………………………………………………………………..
…………………………………………………………………………………..
• Chaque nœud est………………………………………………………………………………………………..
…………………………………………………………………………………..
• Un élément de la base d’apprentissage situé dans un nœud se retrouvera dans un
seul de ses descendants.
tous placés dans le noeud racine
la classe du point ( la "vérité terrain" ) ; cette variable est dite ''variable cible '' .
catégorielle ( problème de classement ) ou valeur réelle ( problème de régression ) .
coupé ( opération split ) donnant naissance à plusieurs noeuds descendants .
Arbre de décision: Construction
16
•L’arbre est construite………………………………………………………………………………..
…………………………..…………………………………………………………………………………..
• Le critère optimisé est……………………………………………………………………………...
…………………………………………………………………………………………………………………
•La variable qui est testée dans un nœud sera celle qui……………………………
………………………………………………………………………………………………
•Le processus s’arrête quand …………………………………………………………………
par répartition récursive de chaque noeud en fonction de la valeur de l'attribut testé à chaque itération
( top-down induction ) .
la homogénéité les descendants par rapport à la variable cible
maximise cette homogénéité
les éléments d'un noeud ont la méme valeur pour la variable
cible ( homogénéité ) .
Arbre de décision: Exemple
17
Arbre de décision: Avantages
18
• …………………………….…………………………….…………………………..…………….…………………………
…………..……………………………………………………………………………………………………………………
• …………………………….…………………………….…………………………….…………….………………………
………………………………….…………………………….……………………………….…………………………….
…
• …………………………….…………………………….…………………………….………………………………………
…. ……………………….……………………………….……………………………….……………………………….…
Arbre de décision: Inconvénients
19
• …………………………….…………………………….…………………………..…………….………………………
……………..………………………………………………………………………………………………………………
……
• …………………………….…………………………….…………………………….…………….……………………
…………………………………….…………………………….……………………………….…………………………
….…
20
A partir de l’arbre suivante,
déterminer toutes les règles
de classification possibles.
Exercice

Contenu connexe

Similaire à CH2_p1-Classification ia ml aa .pdf

337626 jawadnakad2
337626 jawadnakad2337626 jawadnakad2
337626 jawadnakad2Amira Abdi
 
Essai du mois de mai
Essai du mois de maiEssai du mois de mai
Essai du mois de maiPape Kamara
 
Object detection and recognition in digital images
Object detection and recognition in digital imagesObject detection and recognition in digital images
Object detection and recognition in digital images
Sakher BELOUADAH
 
devoir de synthèse N1
devoir de synthèse N1devoir de synthèse N1
devoir de synthèse N1
Hichem Kemali
 
B.Sc Thesis: Moteur 3D en XNA pour un simulateur de vol
B.Sc Thesis: Moteur 3D en XNA pour un simulateur de volB.Sc Thesis: Moteur 3D en XNA pour un simulateur de vol
B.Sc Thesis: Moteur 3D en XNA pour un simulateur de vol
Roman Atachiants
 
Maaouia Hamza Rapport de stage
Maaouia Hamza Rapport de stageMaaouia Hamza Rapport de stage
Maaouia Hamza Rapport de stage
Maaouia Hamza
 
Realiser une interview : carnet de bord
Realiser une interview : carnet de bordRealiser une interview : carnet de bord
Realiser une interview : carnet de bord
Claire Chignard
 
Cctp ca 20101209
Cctp ca 20101209Cctp ca 20101209
Cctp ca 20101209leo1971
 
courspython3.pdf
courspython3.pdfcourspython3.pdf
courspython3.pdf
Dendouga1
 
The Ring programming language version 1.4 book - Part 1 of 30
The Ring programming language version 1.4 book - Part 1 of 30The Ring programming language version 1.4 book - Part 1 of 30
The Ring programming language version 1.4 book - Part 1 of 30
Mahmoud Samir Fayed
 
Les serious games - Mémoire de master en Sc. Educ de Bernard Lamailloux
Les serious games - Mémoire de master en Sc. Educ de Bernard LamaillouxLes serious games - Mémoire de master en Sc. Educ de Bernard Lamailloux
Les serious games - Mémoire de master en Sc. Educ de Bernard Lamailloux
Bernard Lamailloux
 
Essaim de Particules Quantique
Essaim de Particules QuantiqueEssaim de Particules Quantique
Essaim de Particules Quantique
Benkhaled sihem
 
The Ring programming language version 1.3 book - Part 1 of 88
The Ring programming language version 1.3 book - Part 1 of 88The Ring programming language version 1.3 book - Part 1 of 88
The Ring programming language version 1.3 book - Part 1 of 88
Mahmoud Samir Fayed
 
The Ring programming language version 1.8 book - Part 1 of 202
The Ring programming language version 1.8 book - Part 1 of 202The Ring programming language version 1.8 book - Part 1 of 202
The Ring programming language version 1.8 book - Part 1 of 202
Mahmoud Samir Fayed
 
INFORMATIQUE DES GESTION : MERISE
INFORMATIQUE DES GESTION : MERISE INFORMATIQUE DES GESTION : MERISE
INFORMATIQUE DES GESTION : MERISE HINDOUSSATI
 
The Ring programming language version 1.9 book - Part 1 of 210
The Ring programming language version 1.9 book - Part 1 of 210The Ring programming language version 1.9 book - Part 1 of 210
The Ring programming language version 1.9 book - Part 1 of 210
Mahmoud Samir Fayed
 
Bo de kt chuong i ds+hh 7
Bo de kt chuong i ds+hh 7Bo de kt chuong i ds+hh 7
Bo de kt chuong i ds+hh 7doanhuongdn
 
Tp sgbd gsi
Tp sgbd gsiTp sgbd gsi
Tp sgbd gsi
saqrjareh
 

Similaire à CH2_p1-Classification ia ml aa .pdf (20)

337626 jawadnakad2
337626 jawadnakad2337626 jawadnakad2
337626 jawadnakad2
 
Plan de travail
Plan de travailPlan de travail
Plan de travail
 
Essai du mois de mai
Essai du mois de maiEssai du mois de mai
Essai du mois de mai
 
Object detection and recognition in digital images
Object detection and recognition in digital imagesObject detection and recognition in digital images
Object detection and recognition in digital images
 
devoir de synthèse N1
devoir de synthèse N1devoir de synthèse N1
devoir de synthèse N1
 
B.Sc Thesis: Moteur 3D en XNA pour un simulateur de vol
B.Sc Thesis: Moteur 3D en XNA pour un simulateur de volB.Sc Thesis: Moteur 3D en XNA pour un simulateur de vol
B.Sc Thesis: Moteur 3D en XNA pour un simulateur de vol
 
Maaouia Hamza Rapport de stage
Maaouia Hamza Rapport de stageMaaouia Hamza Rapport de stage
Maaouia Hamza Rapport de stage
 
Realiser une interview : carnet de bord
Realiser une interview : carnet de bordRealiser une interview : carnet de bord
Realiser une interview : carnet de bord
 
Cctp ca 20101209
Cctp ca 20101209Cctp ca 20101209
Cctp ca 20101209
 
courspython3.pdf
courspython3.pdfcourspython3.pdf
courspython3.pdf
 
The Ring programming language version 1.4 book - Part 1 of 30
The Ring programming language version 1.4 book - Part 1 of 30The Ring programming language version 1.4 book - Part 1 of 30
The Ring programming language version 1.4 book - Part 1 of 30
 
Les serious games - Mémoire de master en Sc. Educ de Bernard Lamailloux
Les serious games - Mémoire de master en Sc. Educ de Bernard LamaillouxLes serious games - Mémoire de master en Sc. Educ de Bernard Lamailloux
Les serious games - Mémoire de master en Sc. Educ de Bernard Lamailloux
 
Essaim de Particules Quantique
Essaim de Particules QuantiqueEssaim de Particules Quantique
Essaim de Particules Quantique
 
The Ring programming language version 1.3 book - Part 1 of 88
The Ring programming language version 1.3 book - Part 1 of 88The Ring programming language version 1.3 book - Part 1 of 88
The Ring programming language version 1.3 book - Part 1 of 88
 
The Ring programming language version 1.8 book - Part 1 of 202
The Ring programming language version 1.8 book - Part 1 of 202The Ring programming language version 1.8 book - Part 1 of 202
The Ring programming language version 1.8 book - Part 1 of 202
 
INFORMATIQUE DES GESTION : MERISE
INFORMATIQUE DES GESTION : MERISE INFORMATIQUE DES GESTION : MERISE
INFORMATIQUE DES GESTION : MERISE
 
Algo
AlgoAlgo
Algo
 
The Ring programming language version 1.9 book - Part 1 of 210
The Ring programming language version 1.9 book - Part 1 of 210The Ring programming language version 1.9 book - Part 1 of 210
The Ring programming language version 1.9 book - Part 1 of 210
 
Bo de kt chuong i ds+hh 7
Bo de kt chuong i ds+hh 7Bo de kt chuong i ds+hh 7
Bo de kt chuong i ds+hh 7
 
Tp sgbd gsi
Tp sgbd gsiTp sgbd gsi
Tp sgbd gsi
 

CH2_p1-Classification ia ml aa .pdf

  • 1. Chapitre 1: Introduction à l’apprentissage automatique Chapitre 2: Apprentissage supervisé Partie 1: Classification Hela Mahersia Kaouther Ezzameli Email: helamahersia@yahoo.fr Email:kaouther.zammeli@gmail.com Année universitaire: 2022/2023 GLSI3
  • 2. Plan 1. Introduction 2. Problèmes d’apprentissage supervisé 3. Étapes de classification 4. KNN 5. Arbre de décision 2
  • 3. Introduction L'apprentissage supervisé est l'endroit où on peut : • ……………………………………………………………………………………………………………… …………………………………………………………………………………………………………… • Utiliser un algorithme pour …………………………………………………………… ……………………………………………………………………………………………………………… ……………………………..……………………………………………………………………………… • Modéliser …………………………………………………………… …………………………………………... ……………………………… 3 avoir des données étiquetées, ce qui signifie que nous connaissons déjà la sorite correspondante pour chaque entrée apprendre les modeles qui régissent la relation entre les entrées et la sorite tendance à ces motifs cachés par une fonction de mappage
  • 4. Problèmes d’apprentissage supervisé Il existe deux types de problèmes d'apprentissage supervisé : 4 Regression:……………………………… …………………………………………………… …………………………………………………… …………………………………………………… ………………………………………………… prédiction de la catégorie à laquelle appartiennent les données Classification:…………………………… …………………………………………………… …………………………………………………… …………………...................................... ............................. prédiction de la catégorie à laquelle appartiennent les données prédiction de valeurs numériques sur la base de données observées antérieurement
  • 5. Étapes de classification 5 Apprentissage : ……………………………………………………………………………………………………………… Test : ……………………………………………………………………………………………………………………………… à partir des données connues avec leurs classes correctes ( labels ) à partir des données connues ( 1/3 généralement ) Nombres de données de test correctement classées Nombre total de données de test Nombres de données de test pas correctement classées Nombre total de données de test
  • 6. Classification : Apprentissage 6 algorithme de classification supervisée Model données d'apprentissage
  • 8. KNN : Définition 8 L'algorithme K-nearest-neighbor, souvent abrégé en KNN, est utilisé pour ..………………………………………………………………………….................................……… …………………………………………………………………………………….. …………………….. … “Dis moi qui sont tes amis, et je te dirais qui tu es” • Un algorithme de classification……………………………. • Classification basée sur…………………………………….. • Non paramétrique (sauf K) Principe : ………………………… Chaque fois que nous avons une nouvelle donnée à classer, nous trouvons …………………………………………………………………………………………………………………… classer de nouvelles données en partant du principe qu'elles sont similaires à ses K-plus proches voisins simple mais trés puissant une mesure de similarité vote majoritaire ses K voisins les plus proches à partir des donées d'apprentissage
  • 9. KNN: Étapes 9 Pour un point de données x d'une classe inconnue : 1) …………………………….…………………………….……………………………. 2) …………………………….…………………………….…………………………….…………………………….. 3) …………………………….…………………………….…………………………….……………………………. …………………………….…………………………….…………………………….……………………………. 4) …………………………….…………………………….…………………………….……………………………. …………………………….…………………………….…………………………….……………………………. Introduction de la valeur K . Calcul de la distance entre X et tous les points de données dans les données d'apprentissage . Sélection des entrées K dans la BD qui sont les plus proches de X . Prendre le vote majoritaire ( la classe /étiquette la plus courante parmi ces entrées K sera la classe de X ).
  • 10. 10 • …………………………….…………………………….………………………………………….……………………………. • …………………………….…………………………….………………………………………….……………………………. • ……………………………. …………………………….…………………………..…………….……………………………. • …………………………….…………………………….…………………………….…………….…………………………… • …………………………….…………………………….…………………………….…………………………………………. KNN: Avantages Aucune hypothèse sur les données . Algorithme simple facile à comprendre et à interpréter . Aucune formation nécessaire . variété de fonctions de distance . Peut étre utilisé à la fois pour la classification et la régression .
  • 11. 11 • …………………………….…………………………….………………………………………….……………………………. • …………………………….…………………………….………………………………………….……………………………. • ……………………………. …………………………….…………………………..…………….……………………………. • …………………………….…………………………….…………………………….…………….…………………………… • …………………………….…………………………….…………………………….…………………………………………. KNN: Inconvénients Sensible à la variation de K Lent et couteux en terme de mémoire Très sensible aux attributs non pertinents ou corrélés Ne convient pas si les données d'apprentissage ont peu de prototypes KNN a besoin de caractéristiques homogènes car les caractéristiques doivent avoir la méme échelle .
  • 12. Arbre de décision 12 • Un arbre de décision est…………………………………………………………………………………… ………………………………………………………………………………………………………………………… • Le résultat peut être une………………………………………………………………………………. • Si nous visualisons l'ensemble des décisions, nous pouvons clairement voir la forme de l'arbre. Mais c'est à l'envers. un ensemble de décisions hièrarchiques qui donnent finalement un résultat final . prédiction de régression ou une classification .
  • 13. 13 Arbre de décision : Structure Un arbre de décision est composé de : • …………………………….…………………………….………………………………………….………………………… …………………….……………………………….……………………………….……………………………….………. • …………………………….…………………………….…………………………..…………….………………………… …………..…………………………………………………………………………………………………………………… • …………………………….…………………………….…………………………….…………….………………………… ……………………………….…………………………….……………………………….…………………………….… • …………………………….…………………………….…………………………….……………………………………… …. ……………………….……………………………….……………………………….……………………………….… un noeud racine qui représente le noeud le plus haut . Noeuds internes qui dénotent un test sous la forme d'une question sur nos fonctionnalités (attributs) . Des branches qui représentent un résultat du test. l'arbre se divise en fonction de ces réponses . Des noeuds feuilles qui représentent une classification ou une décision .
  • 14. Arbre de décision: Concept 14 À chaque nœud, nous essaierons de créer un fractionnement binaire, puis de sélectionner la fonctionnalité qui nous donne le fractionnement binaire optimal. Répartition optimale: • …………………………….…………………………….…………………………..…………….……………………………………..…………… ……………………………………………………………………………………………………… • …………………………….…………………………….…………………………….…………….………………………………………………… ……….…………………………….……………………………….…………………………….… • …………………………….…………………………….…………………………….…………………………………………. ……………………….……………………………….……………………………….……………………………….… Il faut calculer combien chaque division coutera en termes de précision . => Il faut utiliser une fonction de cout . La division la moins couteuse est choisie pour maximiser la précision .
  • 15. Arbre de décision: Construction 15 • Au départ, les points des la base d’apprentissage sont…………………………………………… …………………………………………………………….. • Une des variables de description des points est…………………………………………………….. ………………………………………………………………………………….. • La variable cible peut être………………………………………………………………………………….. ………………………………………………………………………………….. • Chaque nœud est……………………………………………………………………………………………….. ………………………………………………………………………………….. • Un élément de la base d’apprentissage situé dans un nœud se retrouvera dans un seul de ses descendants. tous placés dans le noeud racine la classe du point ( la "vérité terrain" ) ; cette variable est dite ''variable cible '' . catégorielle ( problème de classement ) ou valeur réelle ( problème de régression ) . coupé ( opération split ) donnant naissance à plusieurs noeuds descendants .
  • 16. Arbre de décision: Construction 16 •L’arbre est construite……………………………………………………………………………….. …………………………..………………………………………………………………………………….. • Le critère optimisé est……………………………………………………………………………... ………………………………………………………………………………………………………………… •La variable qui est testée dans un nœud sera celle qui…………………………… ……………………………………………………………………………………………… •Le processus s’arrête quand ………………………………………………………………… par répartition récursive de chaque noeud en fonction de la valeur de l'attribut testé à chaque itération ( top-down induction ) . la homogénéité les descendants par rapport à la variable cible maximise cette homogénéité les éléments d'un noeud ont la méme valeur pour la variable cible ( homogénéité ) .
  • 17. Arbre de décision: Exemple 17
  • 18. Arbre de décision: Avantages 18 • …………………………….…………………………….…………………………..…………….………………………… …………..…………………………………………………………………………………………………………………… • …………………………….…………………………….…………………………….…………….……………………… ………………………………….…………………………….……………………………….……………………………. … • …………………………….…………………………….…………………………….……………………………………… …. ……………………….……………………………….……………………………….……………………………….…
  • 19. Arbre de décision: Inconvénients 19 • …………………………….…………………………….…………………………..…………….……………………… ……………..……………………………………………………………………………………………………………… …… • …………………………….…………………………….…………………………….…………….…………………… …………………………………….…………………………….……………………………….………………………… ….…
  • 20. 20 A partir de l’arbre suivante, déterminer toutes les règles de classification possibles. Exercice