K plus proches vois Algorithmes de machine Learning

Université de N’Djamena
Faculté des Sciences Exactes et Appliquées
Département d’Informatique
Option : Ingénierie des Données
Niveau : Master 2
Année académique 2021-2022
Thème :
Les plus “proches voisins” (KPPV et K-
MEANS)
Enseignant :
Dr. GERAUD FOKOU PELAP
Présenté par :
MBAILASSEM ERIC
ABDRAMANE ISSA OUMAR
Matière : Machine Learning

Plan du travail
Introduction
Quelques notions de base de ML ;
K-means ;
Enoncé ;
Formalisme ;
Algorithme ;
Pratique ;
Conclusion.

Introduction
Le machine learning est un
concept utilisé en intelligence
artificielle. Il s'agit d'entraîner
une machine à apprendre à
reconnaitre certaines formes. On
utilise une base d'entraînement
pour la machine. L'algorithme
kppv donne une méthode qui
permet d'utiliser cette base
d'entrainement.

Définitions
L’algorithme des plus proches voisins est l’un des algorithmes
utilisés dans le domaine de l’intelligence artificielle. Il intervient
dans de nombreux domaines de l’apprentissage automatique.
Il est par exemple utilisé par des entreprises d'Internet comme
Amazon, netflix, Spotify ou iTunes afin de prévoir si vous seriez
ou non intéressés par un produit donné en utilisant vos
données et en les comparant à celles des clients ayant acheté ce
produit particulier. Son principe peut être résumé par cette
phrase : Dis-moi qui sont tes amis et je te dirai qui tu es
Cet algorithme a été introduit en 1951 par Fix et Hodges dans un
rapport de la faculté de médecine aéronautique de la US Air
Force.

5
Enoncé
L’algorithme k-means mis au point par McQueen en 1967, un des
plus simples algorithmes d’apprentissage non supervisé ,
appelée algorithme des centres mobiles, iattribue chaque point
dans un cluster dont le centre (centroïde) est le plus proche. Le
centre est la moyenne de tous les points dans le cluster , ses
coordonnées sont la moyenne arithmétique pour chaque
dimension séparément de tous les Points dans le cluster c’est à
dire chaque cluster est représentée par son centre de gravité.

6
k-means (principe)
Le principe de la méthode des "K-means" c’est que la
classification se fait sur la base du critère des plus proches
voisins. Celui-ci signifie que chaque individu est affecté à une
classe s’il est très proche de son centre de gravité.

10
Description de l’algorithme
Pour prédire la classe d’un nouvel élément, il faut des données :
Un échantillon de données ;
Un nouvel élément dont on connaît les caractéristiques et dont on
veut prédire le type ;
La valeur de, le nombre de voisins étudiés.
Une fois ces données modélisées, nous pouvons formaliser
l'algorithme de la façon suivante
1.Trouver, dans l’échantillon, les plus proches voisins de l'élément
à déterminer.
2. Parmi ces proches_voisins, trouver la classification majoritaire.
3. Renvoyer la classification_majoritaire comme type cherché de
l'élément.

11
propriétés de l’algorithme
Pour implémenter cet algorithme, il nous faut :
1. Une table de données. Cette table peut être une liste ou un dictionnaire.
2. Une distance entre deux données.
3. Une cible.
La notion de distance est un élément central de cet algorithme. Voici quelques distances
possibles :
La distance Euclidienne (dans un repère orthonormé)

12
propriétés de l’algorithme

Entrée :
Ensemble de N données, noté par x
Nombre de groupes souhaité, noté par k
Sortie
Une partition de K groupes {C1 ,C2 ,...Ck }
Début
1) Initialisation aléatoire des centres Ck ;
Répéter
2) Affectation : générer une nouvelle partition en assignant
chaque objet au groupe dont le centre est le plus proche ;
Avec μk le centre de la classe K ; 3) Représentation : Calculer les
centres associe à la nouvelle partition ;
Jusqu’à convergence de l'algorithme vers une partition stable ;
Fin.
Où est le barycentre des points dans
k-means (algorithme)

14
Probleme
Nous considérons un jeu de données constitué de la façon suivante: les
données sont réparties suivant deux types : le type 1 et le type 2, les
données n'ont que deux caractéristiques : caractéristique 1 et
caractéristique 2, Imaginez la situation suivante dans un jeu : Vous avez
deux types de personnages : les fantassins (type 1 : "fantassin") et les
chevaliers (type 2: "chevalier").
Nous avons deux types de caractéristiques : la force (caractéristique 1 :
nombre entre 0 et 20) et le courage (Caractéristique 2 : nombre entre 0 et
20 ). Nous avons une collection de personnages dont vous connaissez les
caractéristiques et le type. Nous introduisons un nouveau personnage dont
vous ne connaissez pas le type. Vous possédez les caractéristiques de ce
nouveau personnage. Le but de l'algorithme KNN (Nearest Neighbors = plus
proches voisins en français) est de déterminer le type de ce nouveau
personnage.

17
Problème
Nous introduisons une nouvelle donnée (appelée cible dans
notre exemple) avec ses deux caractéristiques : une force de 12
et un courage de 12,5 . Le but de l'algorithme KNN des plus
proches voisins est de déterminer le type de cette nouvelle
donnée.
1. Dans un premier, il faut fixer le nombre de voisins. Nous
allons choisir =7.
Voici une nouvelle représentation avec la cible et la recherche
des 7 voisins les plus proches proches, ceux qui se trouvent dans
le cercle bleu :

19
Probleme
En utilisant les voisins de type "chevalier" et de type
"fantassin", déterminer le type le plus probable de notre cible.
2. On considère désormais la valeur . Voici une nouvelle
représentation avec la cible et la recherche des 13 voisins les
plus proches proches, ceux qui se trouvent dans le cercle bleu :
Déterminer le type le plus probable de notre cible dans ce cas ?

21
Inconveneant
1. Le de k choix arbitraire. Cette valeur doit néanmoins être choisie
judicieusement : trop faible, la qualité de la prédiction diminue ;
trop grande, la qualité de la prédiction diminue aussi. Il suffit
d'imaginer qu'il existe une classe prédominante en nombre. Avec
une grande valeur de k, cette classe remporterait la prédiction à
chaque fois.
2. Nous avons utilisé une distance schématisée par un disque. Ce
choix est discutable. Il faut faire attention à la distance Euclidienne
qui n'a de sens que dans un repère orthonormé. Nous aurions pu
choisir une autre distance.
3. Il est facile de représenter graphiquement les données avec 1 à 3
caractéristiques. Nous ne pouvons pas représenter des données
avec des caractéristiques supérieures à 3 mais l'algorithme reste

22
Conclusion
Plusieurs méthodes sont proposées pour le problème
général de la classification. Ils se différent par les mesures
de proximités qu’ils utilisent ,la nature des données qu’ils
traitent et l’objectifs finale de la classification, chacune de
ces méthodes possède ses points forts et ses points
faibles, les méthodes hiérarchiques ascendantes sont
utilisées en cas des données de petite taille car la
complexité est très élevée , et Si des problèmes de temps
d’exécution se posent, alors c’est les méthodes des K-
means qui sont utilisées. Pour cela on s’est intéressé à
cette dernière.

K plus proches vois Algorithmes de machine Learning

Contenu connexe

Similaire à K plus proches vois Algorithmes de machine Learning

K plus proches vois Algorithmes de machine Learning