Université de N’Djamena
Faculté des Sciences Exactes et Appliquées
Département d’Informatique
Option : Ingénierie des Données
Niveau : Master 2
Année académique 2021-2022
Thème :
Les plus “proches voisins” (KPPV et K-
MEANS)
Enseignant :
Dr. GERAUD FOKOU PELAP
Présenté par :
MBAILASSEM ERIC
ABDRAMANE ISSA OUMAR
Matière : Machine Learning
Plan du travail
Introduction
Quelques notions de base de ML ;
K-means ;
Enoncé ;
Formalisme ;
Algorithme ;
Pratique ;
Conclusion.
Introduction
Le machine learning est un
concept utilisé en intelligence
artificielle. Il s'agit d'entraîner
une machine à apprendre à
reconnaitre certaines formes. On
utilise une base d'entraînement
pour la machine. L'algorithme
kppv donne une méthode qui
permet d'utiliser cette base
d'entrainement.
Définitions
L’algorithme des plus proches voisins est l’un des algorithmes
utilisés dans le domaine de l’intelligence artificielle. Il intervient
dans de nombreux domaines de l’apprentissage automatique.
Il est par exemple utilisé par des entreprises d'Internet comme
Amazon, netflix, Spotify ou iTunes afin de prévoir si vous seriez
ou non intéressés par un produit donné en utilisant vos
données et en les comparant à celles des clients ayant acheté ce
produit particulier. Son principe peut être résumé par cette
phrase : Dis-moi qui sont tes amis et je te dirai qui tu es
Cet algorithme a été introduit en 1951 par Fix et Hodges dans un
rapport de la faculté de médecine aéronautique de la US Air
Force.
5
Enoncé
L’algorithme k-means mis au point par McQueen en 1967, un des
plus simples algorithmes d’apprentissage non supervisé ,
appelée algorithme des centres mobiles, iattribue chaque point
dans un cluster dont le centre (centroïde) est le plus proche. Le
centre est la moyenne de tous les points dans le cluster , ses
coordonnées sont la moyenne arithmétique pour chaque
dimension séparément de tous les Points dans le cluster c’est à
dire chaque cluster est représentée par son centre de gravité.
6
k-means (principe)
Le principe de la méthode des "K-means" c’est que la
classification se fait sur la base du critère des plus proches
voisins. Celui-ci signifie que chaque individu est affecté à une
classe s’il est très proche de son centre de gravité.
7
k-means (formalisme)
8
k-means (formalisme)
9
k-means (formalisme)
10
Description de l’algorithme
Pour prédire la classe d’un nouvel élément, il faut des données :
Un échantillon de données ;
Un nouvel élément dont on connaît les caractéristiques et dont on
veut prédire le type ;
La valeur de, le nombre de voisins étudiés.
Une fois ces données modélisées, nous pouvons formaliser
l'algorithme de la façon suivante
1.Trouver, dans l’échantillon, les plus proches voisins de l'élément
à déterminer.
2. Parmi ces proches_voisins, trouver la classification majoritaire.
3. Renvoyer la classification_majoritaire comme type cherché de
l'élément.
11
propriétés de l’algorithme
Pour implémenter cet algorithme, il nous faut :
1. Une table de données. Cette table peut être une liste ou un dictionnaire.
2. Une distance entre deux données.
3. Une cible.
La notion de distance est un élément central de cet algorithme. Voici quelques distances
possibles :
La distance Euclidienne (dans un repère orthonormé)
12
propriétés de l’algorithme
Entrée :
Ensemble de N données, noté par x
Nombre de groupes souhaité, noté par k
Sortie
Une partition de K groupes {C1 ,C2 ,...Ck }
Début
1) Initialisation aléatoire des centres Ck ;
Répéter
2) Affectation : générer une nouvelle partition en assignant
chaque objet au groupe dont le centre est le plus proche ;
Avec μk le centre de la classe K ; 3) Représentation : Calculer les
centres associe à la nouvelle partition ;
Jusqu’à convergence de l'algorithme vers une partition stable ;
Fin.
Où est le barycentre des points dans
k-means (algorithme)
14
Probleme
Nous considérons un jeu de données constitué de la façon suivante: les
données sont réparties suivant deux types : le type 1 et le type 2, les
données n'ont que deux caractéristiques : caractéristique 1 et
caractéristique 2, Imaginez la situation suivante dans un jeu : Vous avez
deux types de personnages : les fantassins (type 1 : "fantassin") et les
chevaliers (type 2: "chevalier").
Nous avons deux types de caractéristiques : la force (caractéristique 1 :
nombre entre 0 et 20) et le courage (Caractéristique 2 : nombre entre 0 et
20 ). Nous avons une collection de personnages dont vous connaissez les
caractéristiques et le type. Nous introduisons un nouveau personnage dont
vous ne connaissez pas le type. Vous possédez les caractéristiques de ce
nouveau personnage. Le but de l'algorithme KNN (Nearest Neighbors = plus
proches voisins en français) est de déterminer le type de ce nouveau
personnage.
15
Probleme
16
Probleme
17
Problème
Nous introduisons une nouvelle donnée (appelée cible dans
notre exemple) avec ses deux caractéristiques : une force de 12
et un courage de 12,5 . Le but de l'algorithme KNN des plus
proches voisins est de déterminer le type de cette nouvelle
donnée.
1. Dans un premier, il faut fixer le nombre de voisins. Nous
allons choisir =7.
Voici une nouvelle représentation avec la cible et la recherche
des 7 voisins les plus proches proches, ceux qui se trouvent dans
le cercle bleu :
18
Probleme
19
Probleme
En utilisant les voisins de type "chevalier" et de type
"fantassin", déterminer le type le plus probable de notre cible.
2. On considère désormais la valeur . Voici une nouvelle
représentation avec la cible et la recherche des 13 voisins les
plus proches proches, ceux qui se trouvent dans le cercle bleu :
Déterminer le type le plus probable de notre cible dans ce cas ?
20
Probleme
21
Inconveneant
1. Le de k choix arbitraire. Cette valeur doit néanmoins être choisie
judicieusement : trop faible, la qualité de la prédiction diminue ;
trop grande, la qualité de la prédiction diminue aussi. Il suffit
d'imaginer qu'il existe une classe prédominante en nombre. Avec
une grande valeur de k, cette classe remporterait la prédiction à
chaque fois.
2. Nous avons utilisé une distance schématisée par un disque. Ce
choix est discutable. Il faut faire attention à la distance Euclidienne
qui n'a de sens que dans un repère orthonormé. Nous aurions pu
choisir une autre distance.
3. Il est facile de représenter graphiquement les données avec 1 à 3
caractéristiques. Nous ne pouvons pas représenter des données
avec des caractéristiques supérieures à 3 mais l'algorithme reste
22
Conclusion
Plusieurs méthodes sont proposées pour le problème
général de la classification. Ils se différent par les mesures
de proximités qu’ils utilisent ,la nature des données qu’ils
traitent et l’objectifs finale de la classification, chacune de
ces méthodes possède ses points forts et ses points
faibles, les méthodes hiérarchiques ascendantes sont
utilisées en cas des données de petite taille car la
complexité est très élevée , et Si des problèmes de temps
d’exécution se posent, alors c’est les méthodes des K-
means qui sont utilisées. Pour cela on s’est intéressé à
cette dernière.
Merci pour votre attention

K plus proches vois Algorithmes de machine Learning

  • 1.
    Université de N’Djamena Facultédes Sciences Exactes et Appliquées Département d’Informatique Option : Ingénierie des Données Niveau : Master 2 Année académique 2021-2022 Thème : Les plus “proches voisins” (KPPV et K- MEANS) Enseignant : Dr. GERAUD FOKOU PELAP Présenté par : MBAILASSEM ERIC ABDRAMANE ISSA OUMAR Matière : Machine Learning
  • 2.
    Plan du travail Introduction Quelquesnotions de base de ML ; K-means ; Enoncé ; Formalisme ; Algorithme ; Pratique ; Conclusion.
  • 3.
    Introduction Le machine learningest un concept utilisé en intelligence artificielle. Il s'agit d'entraîner une machine à apprendre à reconnaitre certaines formes. On utilise une base d'entraînement pour la machine. L'algorithme kppv donne une méthode qui permet d'utiliser cette base d'entrainement.
  • 4.
    Définitions L’algorithme des plusproches voisins est l’un des algorithmes utilisés dans le domaine de l’intelligence artificielle. Il intervient dans de nombreux domaines de l’apprentissage automatique. Il est par exemple utilisé par des entreprises d'Internet comme Amazon, netflix, Spotify ou iTunes afin de prévoir si vous seriez ou non intéressés par un produit donné en utilisant vos données et en les comparant à celles des clients ayant acheté ce produit particulier. Son principe peut être résumé par cette phrase : Dis-moi qui sont tes amis et je te dirai qui tu es Cet algorithme a été introduit en 1951 par Fix et Hodges dans un rapport de la faculté de médecine aéronautique de la US Air Force.
  • 5.
    5 Enoncé L’algorithme k-means misau point par McQueen en 1967, un des plus simples algorithmes d’apprentissage non supervisé , appelée algorithme des centres mobiles, iattribue chaque point dans un cluster dont le centre (centroïde) est le plus proche. Le centre est la moyenne de tous les points dans le cluster , ses coordonnées sont la moyenne arithmétique pour chaque dimension séparément de tous les Points dans le cluster c’est à dire chaque cluster est représentée par son centre de gravité.
  • 6.
    6 k-means (principe) Le principede la méthode des "K-means" c’est que la classification se fait sur la base du critère des plus proches voisins. Celui-ci signifie que chaque individu est affecté à une classe s’il est très proche de son centre de gravité.
  • 7.
  • 8.
  • 9.
  • 10.
    10 Description de l’algorithme Pourprédire la classe d’un nouvel élément, il faut des données : Un échantillon de données ; Un nouvel élément dont on connaît les caractéristiques et dont on veut prédire le type ; La valeur de, le nombre de voisins étudiés. Une fois ces données modélisées, nous pouvons formaliser l'algorithme de la façon suivante 1.Trouver, dans l’échantillon, les plus proches voisins de l'élément à déterminer. 2. Parmi ces proches_voisins, trouver la classification majoritaire. 3. Renvoyer la classification_majoritaire comme type cherché de l'élément.
  • 11.
    11 propriétés de l’algorithme Pourimplémenter cet algorithme, il nous faut : 1. Une table de données. Cette table peut être une liste ou un dictionnaire. 2. Une distance entre deux données. 3. Une cible. La notion de distance est un élément central de cet algorithme. Voici quelques distances possibles : La distance Euclidienne (dans un repère orthonormé)
  • 12.
  • 13.
    Entrée : Ensemble deN données, noté par x Nombre de groupes souhaité, noté par k Sortie Une partition de K groupes {C1 ,C2 ,...Ck } Début 1) Initialisation aléatoire des centres Ck ; Répéter 2) Affectation : générer une nouvelle partition en assignant chaque objet au groupe dont le centre est le plus proche ; Avec μk le centre de la classe K ; 3) Représentation : Calculer les centres associe à la nouvelle partition ; Jusqu’à convergence de l'algorithme vers une partition stable ; Fin. Où est le barycentre des points dans k-means (algorithme)
  • 14.
    14 Probleme Nous considérons unjeu de données constitué de la façon suivante: les données sont réparties suivant deux types : le type 1 et le type 2, les données n'ont que deux caractéristiques : caractéristique 1 et caractéristique 2, Imaginez la situation suivante dans un jeu : Vous avez deux types de personnages : les fantassins (type 1 : "fantassin") et les chevaliers (type 2: "chevalier"). Nous avons deux types de caractéristiques : la force (caractéristique 1 : nombre entre 0 et 20) et le courage (Caractéristique 2 : nombre entre 0 et 20 ). Nous avons une collection de personnages dont vous connaissez les caractéristiques et le type. Nous introduisons un nouveau personnage dont vous ne connaissez pas le type. Vous possédez les caractéristiques de ce nouveau personnage. Le but de l'algorithme KNN (Nearest Neighbors = plus proches voisins en français) est de déterminer le type de ce nouveau personnage.
  • 15.
  • 16.
  • 17.
    17 Problème Nous introduisons unenouvelle donnée (appelée cible dans notre exemple) avec ses deux caractéristiques : une force de 12 et un courage de 12,5 . Le but de l'algorithme KNN des plus proches voisins est de déterminer le type de cette nouvelle donnée. 1. Dans un premier, il faut fixer le nombre de voisins. Nous allons choisir =7. Voici une nouvelle représentation avec la cible et la recherche des 7 voisins les plus proches proches, ceux qui se trouvent dans le cercle bleu :
  • 18.
  • 19.
    19 Probleme En utilisant lesvoisins de type "chevalier" et de type "fantassin", déterminer le type le plus probable de notre cible. 2. On considère désormais la valeur . Voici une nouvelle représentation avec la cible et la recherche des 13 voisins les plus proches proches, ceux qui se trouvent dans le cercle bleu : Déterminer le type le plus probable de notre cible dans ce cas ?
  • 20.
  • 21.
    21 Inconveneant 1. Le dek choix arbitraire. Cette valeur doit néanmoins être choisie judicieusement : trop faible, la qualité de la prédiction diminue ; trop grande, la qualité de la prédiction diminue aussi. Il suffit d'imaginer qu'il existe une classe prédominante en nombre. Avec une grande valeur de k, cette classe remporterait la prédiction à chaque fois. 2. Nous avons utilisé une distance schématisée par un disque. Ce choix est discutable. Il faut faire attention à la distance Euclidienne qui n'a de sens que dans un repère orthonormé. Nous aurions pu choisir une autre distance. 3. Il est facile de représenter graphiquement les données avec 1 à 3 caractéristiques. Nous ne pouvons pas représenter des données avec des caractéristiques supérieures à 3 mais l'algorithme reste
  • 22.
    22 Conclusion Plusieurs méthodes sontproposées pour le problème général de la classification. Ils se différent par les mesures de proximités qu’ils utilisent ,la nature des données qu’ils traitent et l’objectifs finale de la classification, chacune de ces méthodes possède ses points forts et ses points faibles, les méthodes hiérarchiques ascendantes sont utilisées en cas des données de petite taille car la complexité est très élevée , et Si des problèmes de temps d’exécution se posent, alors c’est les méthodes des K- means qui sont utilisées. Pour cela on s’est intéressé à cette dernière.
  • 23.