Universitaire d’EL-OUED
Domaine : Mathématique et Informatique
Filière : Informatique
Spécialité : système distribuée et i...
plan Introduction1
Domaine d’activité3
Principe de
fonctionnement
4
Mesures de distance5
Avantage et inconvénient7
conclus...
Introduction
• Le data mining emploie des techniques et des
algorithme issus de disciplines scientifiques
diverses telles ...
Généralités• la méthode des k plus proches voisins est une méthode
de d’apprentissage supervisé.
• dédiée à la classificat...
Domaine d’activité
• L’algorithme kNN est utilisée dans de nombreux
domaines :
• La reconnaissance de formes.
• La recherc...
Principe de fonctionnement
• Le principe de cet algorithme de classification est
très simple. On lui fournit:
• un ensembl...
Exemple
•Dans l’exemple suivant, on a 3 classes
et le but est de trouver la valeur de la classe de l’exemple inconnu
x.
•O...
Comment choisir la valeur de K ?
• K=1 : frontières des classes très complexes
 très sensible aux fluctuations des donnée...
Mesures de distance
• Mesures souvent utilisées pour la distance dist(xi, xj)
• la distance Euclidienne: qui calcule la ra...
Notations et Algorithme• Soit D = {(x′, c), c ∈ C} l’ensemble d’apprentissage
• Soit x l’exemple dont on souhaite détermin...
Avantages
 Apprentissage rapide
 Méthode facile à comprendre
 Adapté aux domaines où chaque classe est
représentée par ...
Inconvénients
 prédiction lente car il faut revoir tous les
exemples à chaque fois.
 méthode gourmande en place mémoire
...
Partie pratique
1. Charger le fichier de données
Conclusion
• dans cette présentation nous avons vue le
principe de k plus proche voisin mais il y a
d’autres algorithmes u...
Knn
Knn
Knn
Knn
Knn
Knn
Knn
Prochain SlideShare
Chargement dans…5
×

Knn

739 vues

Publié le

k plus proche voisin datamining

Publié dans : Formation
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
739
Sur SlideShare
0
Issues des intégrations
0
Intégrations
3
Actions
Partages
0
Téléchargements
41
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Knn

  1. 1. Universitaire d’EL-OUED Domaine : Mathématique et Informatique Filière : Informatique Spécialité : système distribuée et intelligence artificielle Présenté par: Ghendir mabrouk nacira Menaceur khadija Dirigé par: Naoui med anoiar 20132014  (k plus proches voisins)
  2. 2. plan Introduction1 Domaine d’activité3 Principe de fonctionnement 4 Mesures de distance5 Avantage et inconvénient7 conclusion8 Notations et Algorithme6 Généralités2
  3. 3. Introduction • Le data mining emploie des techniques et des algorithme issus de disciplines scientifiques diverses telles que les statistiques, l‘intelligence artificielle ou l‘informatique, pour construire des modèles à partir des données • Parmi les techniques utilisées, il ya la méthode de k plus proche voisin.
  4. 4. Généralités• la méthode des k plus proches voisins est une méthode de d’apprentissage supervisé. • dédiée à la classification. • En abrégé k-NN ou KNN, de l'anglais k-nearest neighbor. • L’algorithme KNN figure parmi les plus simples algorithmes d’apprentissage artificiel. • L’objectif de l’algorithme est de classé les exemples non étiquetés sur la base de leur similarité avec les exemples de la base d’apprentissage .
  5. 5. Domaine d’activité • L’algorithme kNN est utilisée dans de nombreux domaines : • La reconnaissance de formes. • La recherche de nouveaux biomarqueurs pour le diagnostic. • Algorithmes de compression. • Analyse d’image satellite • Marketing ciblé
  6. 6. Principe de fonctionnement • Le principe de cet algorithme de classification est très simple. On lui fournit: • un ensemble de données d’apprentissage D • une fonction de distance d • et un entier k • Pour tout nouveau point de test x, pour lequel il doit prendre une décision, l’algorithme recherche dans D les k points les plus proches de x au sens de la distance d , et attribue x à la classe qui est la plus fréquente parmi ces k voisins.
  7. 7. Exemple •Dans l’exemple suivant, on a 3 classes et le but est de trouver la valeur de la classe de l’exemple inconnu x. •On prend la distance Euclidienne et k=5 voisins •Des 5 plus proches voisins, 4 appartiennent à ω1 et 1 appartient à ω3, donc x est affecté à ω1, la classe majoritaire
  8. 8. Comment choisir la valeur de K ? • K=1 : frontières des classes très complexes  très sensible aux fluctuations des données (variance élevée).  risque de sur-ajustement.  résiste mal aux données bruitées. • K=n : frontière rigide  moins sensible au bruit  plus la valeur de k est grande plus la résultat d’affectation est bien réalisée
  9. 9. Mesures de distance • Mesures souvent utilisées pour la distance dist(xi, xj) • la distance Euclidienne: qui calcule la racine carrée de la somme des différences carrées entre les coordonnées de deux points : • la distance de Manhattan: qui calcule la somme des valeur absolue des différences entre les coordonnées de deux points : • la distance de Minkowski: qui est une métrique de distance générale.
  10. 10. Notations et Algorithme• Soit D = {(x′, c), c ∈ C} l’ensemble d’apprentissage • Soit x l’exemple dont on souhaite déterminer la classe Algorithme Début pour chaque ( (x′, c) ∈ D) faire Calculer la distance dist(x, x′) fin pour chaque {x′ ∈ kppv(x)} faire compter le nombre d’occurrence de chaque classe fin Attribuer à x la classe la plus fréquente; fin
  11. 11. Avantages  Apprentissage rapide  Méthode facile à comprendre  Adapté aux domaines où chaque classe est représentée par plusieurs prototypes et où les frontières sont irrégulières (ex. Reconnaissance de chiffre manuscrits ou d'images satellites)
  12. 12. Inconvénients  prédiction lente car il faut revoir tous les exemples à chaque fois.  méthode gourmande en place mémoire  sensible aux attributs non pertinents et corrélés  particulièrement vulnérable au fléau de la dimensionnalité
  13. 13. Partie pratique 1. Charger le fichier de données
  14. 14. Conclusion • dans cette présentation nous avons vue le principe de k plus proche voisin mais il y a d’autres algorithmes utilisés par le data mining comme : • Arbres de décision • Réseaux de neurones • Classification bayésienne…

×