(k narres neighbours, ou k plus proches      voisins)                  Réalisé par :                 Wassim               ...
plan   1         Introduction       2         Généralités       3      Domaine d’activité       4     Principe de         ...
Introduction   Le data mining emploie des techniques et des    algorithme issus de disciplines scientifiques    diverses ...
Généralités•   la méthode des k plus proches voisins est une méthode de    d’apprentissage supervisé.•   dédiée à la class...
Domaine d’activité   L’algorithme kNN est utilisée dans de    nombreux domaines :•   La reconnaissance de formes.•   La r...
Principe de fonctionnement   Le principe de cet algorithme de classification est    très simple. On lui fournit:•    un e...
Exemple•Dans l’exemple suivant, on a 3 classeset le but est de trouver la valeur de la classe de l’exempleinconnu x.•On pr...
Comment choisir la valeur de K?   K=1 : frontières des classes très complexes      très sensible aux fluctuations des do...
Mesures de distance   Mesures souvent utilisées pour la distance dist(xi, xj)•   la distance Euclidienne: qui calcule la ...
Notations et Algorithme     Soit D = {(x′, c), c ∈ C} l’ensemble d’apprentissage     Soit x l’exemple dont on souhaite d...
Avantages    Apprentissage rapide    Méthode facile à comprendre    Adapté aux domaines où chaque classe est     représ...
Inconvénients    prédiction lente car il faut revoir tous les     exemples à chaque fois.    méthode gourmande en place ...
Conclusion   dans cette présentation nous avons vue le    principe de k plus proche voisin mais il y a    d’autres algori...
Merci pour votre   attention
Prochain SlideShare
Chargement dans…5
×

Algorithme knn

9 656 vues

Publié le

0 commentaire
6 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
9 656
Sur SlideShare
0
Issues des intégrations
0
Intégrations
12
Actions
Partages
0
Téléchargements
328
Commentaires
0
J’aime
6
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Algorithme knn

  1. 1. (k narres neighbours, ou k plus proches voisins) Réalisé par : Wassim Lahbibi2012-2013
  2. 2. plan 1 Introduction 2 Généralités 3 Domaine d’activité 4 Principe de fonctionnement 5 Mesures de distance 6 Notations et Algorithme 7 Avantage et inconvénient 8 conclusion
  3. 3. Introduction Le data mining emploie des techniques et des algorithme issus de disciplines scientifiques diverses telles que les statistiques, l‘intelligence artificielle ou l‘informatique, pour construire des modèles à partir des données Parmi les techniques utilisées, il ya la méthode de k plus proche voisin.
  4. 4. Généralités• la méthode des k plus proches voisins est une méthode de d’apprentissage supervisé.• dédiée à la classification.• En abrégé k-NN ou KNN, de langlais k-nearest neighbor.• L’algorithme KNN figure parmi les plus simples algorithmes d’apprentissage artificiel.• L’objectif de l’algorithme est de classé les exemples non étiquetés sur la base de leur similarité avec les exemples de la base d’apprentissage .
  5. 5. Domaine d’activité L’algorithme kNN est utilisée dans de nombreux domaines :• La reconnaissance de formes.• La recherche de nouveaux biomarqueurs pour le diagnostic.• Algorithmes de compression.• Analyse d’image satellite• Marketing ciblé
  6. 6. Principe de fonctionnement Le principe de cet algorithme de classification est très simple. On lui fournit:• un ensemble de données d’apprentissage D• une fonction de distance d• et un entier k Pour tout nouveau point de test x, pour lequel il doit prendre une décision, l’algorithme recherche dans D les k points les plus proches de x au sens de la distance d , et attribue x à la classe qui est la plus fréquente parmi ces k voisins.
  7. 7. Exemple•Dans l’exemple suivant, on a 3 classeset le but est de trouver la valeur de la classe de l’exempleinconnu x.•On prend la distance Euclidienne et k=5 voisins•Des 5 plus proches voisins, 4 appartiennent à ω1 et 1appartient à ω3, donc x est affecté à ω1, la classe majoritaire
  8. 8. Comment choisir la valeur de K? K=1 : frontières des classes très complexes  très sensible aux fluctuations des données (variance élevée).  risque de sur-ajustement.  résiste mal aux données bruitées. K=n : frontière rigide  moins sensible au bruit  plus la valeur de k est grande plus la résultat d’affectation est bien réalisée
  9. 9. Mesures de distance Mesures souvent utilisées pour la distance dist(xi, xj)• la distance Euclidienne: qui calcule la racine carrée de la somme des différences carrées entre les coordonnées de deux points : la distance de Manhattan: qui calcule la somme des valeur absolue des différences entre les coordonnées de deux points :• la distance de Minkowski: qui est une métrique de distance générale.
  10. 10. Notations et Algorithme Soit D = {(x′, c), c ∈ C} l’ensemble d’apprentissage Soit x l’exemple dont on souhaite déterminer la classeAlgorithmeDébut pour chaque ( (x′, c) ∈ D) faire Calculer la distance dist(x, x′) fin pour chaque {x′ ∈ kppv(x)} faire compter le nombre d’occurrence de chaque classe fin Attribuer à x la classe la plus fréquente;fin
  11. 11. Avantages  Apprentissage rapide  Méthode facile à comprendre  Adapté aux domaines où chaque classe est représentée par plusieurs prototypes et où les frontières sont irrégulières (ex. Reconnaissance de chiffre manuscrits ou dimages satellites)
  12. 12. Inconvénients  prédiction lente car il faut revoir tous les exemples à chaque fois.  méthode gourmande en place mémoire  sensible aux attributs non pertinents et corrélés  particulièrement vulnérable au fléau de la dimensionnalité
  13. 13. Conclusion dans cette présentation nous avons vue le principe de k plus proche voisin mais il y a d’autres algorithmes utilisés par le data mining comme : Arbres de décision Réseaux de neurones Classification bayésienne…
  14. 14. Merci pour votre attention

×