>  Automated Variable Weighting    in k-Means Type Clustering   ( Huang, J.Z.; Ng, M.K.; Hongqiang Rong; Zichen Li. ; 2005...
Sommaire <ul><li>La classification  </li></ul><ul><li>La méthode des K-moyennes </li></ul><ul><li>Automatisation de la pon...
1. La classification   <ul><ul><li>La classification (clustering)  </li></ul></ul>
1. La classification  <ul><li>Exemples d’applications de la  classification  </li></ul><ul><li>Marketing  : trouver des gr...
Sommaire <ul><li>La classification   </li></ul><ul><li>La méthode des K-moyennes </li></ul><ul><li>Automatisation de la po...
2. La méthode des K-moyennes K-moyennes (K-means) Une méthode non supervisée MacQueen, 1967 2)  k  groupes sont créés en a...
2. La méthode des K-moyennes <ul><li>Les limites de l’algorithme des K-moyennes : </li></ul><ul><li>Nécessité de l’existen...
2. La méthode des K-moyennes <ul><li>Les limites de l’algorithme des K-moyennes : </li></ul><ul><li>Nécessité de l’existen...
2. La méthode des K-moyennes <ul><li>Exemple en 3D : x 1  et x 2  sont ok pour la classification, x 3  est du bruit </li><...
Sommaire <ul><li>La classification   </li></ul><ul><li>La méthode des K-moyennes </li></ul><ul><li>K-moyennes avec pondéra...
3. K-moyennes avec pondération des poids dynamique <ul><li>K-moyennes avec pondération des poids dynamique </li></ul><ul><...
3. K-moyennes avec pondération des poids dynamique 2)  k  groupes sont créés en associant chaque individu au centre le plu...
3. K-moyennes avec pondération des poids dynamique <ul><li>Calcul des poids - Théorème </li></ul>avec Où u i,l  signifie q...
3. K-moyennes avec pondération des poids dynamique <ul><li>Calcul des poids - Théorème </li></ul>avec Où u i,l  signifie q...
3. K-moyennes avec pondération des poids dynamique <ul><li>Calcul des poids </li></ul>Fonction à minimiser :  Contrainte :...
3. K-moyennes avec pondération des poids dynamique <ul><li>Calcul des poids </li></ul>Le Lagrangien :  On dérive :
3. K-moyennes avec pondération des poids dynamique <ul><li>Calcul des poids </li></ul>On voit : D’où : CQFD ! De plus :
3. K-moyennes avec pondération des poids dynamique <ul><li>Calcul des poids - Théorème </li></ul>avec Où u i,l  signifie q...
Sommaire <ul><li>La classification   </li></ul><ul><li>La méthode des K-moyennes </li></ul><ul><li>K-moyennes avec pondéra...
4. Expériences <ul><li>Expérience 1 : Avec un jeu de données synthétique </li></ul>5 Variables, 300 individus : X 1 , X 2 ...
4. Expériences Indice de Rand : Clustering accuracy : <ul><li>a i  est le nombre de points affectés à la bonne classe </li...
4. Expériences Indice de Rand : Clustering accuracy : <ul><li>a i  est le nombre de points affectés à la bonne classe </li...
4. Expériences X 1 , X 2 , X 3  : Données formant 3 classes nettes
4. Expériences X 4 , X 5   : Bruit
4. Expériences Expérience : 1) Génération des données 2) Choix aléatoire des poids 3) Algorithme K-moyennes  classique 3) ...
4. Expériences Algorithme K-moyennes classique K-moyennes avec pondération  des poids dynamique Résultats
4. Expériences Algorithme K-moyennes classique K-moyennes avec pondération  des poids dynamique Résultats Problème commun ...
4. Expériences Solution commune :  Faire tourner les algorithmes plusieurs fois et prendre le meilleur résultat. Les poids...
4. Expériences Solution commune :  Faire tourner les algorithmes plusieurs fois et prendre le meilleur résultat. Résultats :
4. Expériences <ul><li>Expérience 2 : Avec 2 jeux de données réels </li></ul>Australian Credit Card data :  690 individus,...
4. Expériences Résultats Australian Credit Card data
4. Expériences Résultats Australian Credit Card data   +0.02 de prévision que les études précédentes !
4. Expériences Résultats Australian Credit Card data   +0.02 de prévision que les études précédentes ! Erratum : 0.85 est ...
4. Expériences Résultats Heart Diseases
4. Expériences Résultats Heart Diseases +0.02 de prévision que les études précédentes !
4. Expériences Qu’en est-il des poids ?
4. Expériences Qu’en est-il des poids ?
4. Expériences Résultats en supprimant les variables au poids faible  Australian Credit Card data
4. Expériences Australian Credit Card data   +0.03 de prévision que les études précédentes ! Résultats en supprimant les v...
4. Expériences Heart Diseases Résultats en supprimant les variables au poids faible
4. Expériences +0.01 de prévision que les études précédentes ! Heart Diseases Résultats en supprimant les variables au poi...
4. Expériences Résultats +0.01 de prévision que les études précédentes ! Heart Diseases Erratum : Les résultats sont ici m...
Sommaire <ul><li>La classification   </li></ul><ul><li>La méthode des K-moyennes </li></ul><ul><li>K-moyennes avec pondéra...
5. Limites de l’étude 1) Le choix de  β  semble vraiment empirique. L’étude constate simplement que selon la valeur de  β ...
5. Limites de l’étude Heart Diseases Résultats en supprimant les variables au poids faible
5. Limites de l’étude <ul><li>2) Complexité de l’algorithme ? </li></ul><ul><li>L’article indique que la complexité est de...
5. Limites de l’étude 2) Complexité de l’algorithme ? Exemple avec deux algorithmes de tri   bubble sort  est  О(n²),  n é...
5. Limites de l’étude 3) Mesure de qualité de l’indice de qualité ? Cet étude utilise l’indice de Rand et le clustering ac...
5. Limites de l’étude 3) Mesure de qualité de l’indice de qualité ? Cet étude utilise l’indice de Rand et le clustering ac...
5. Limites de l’étude 3) Mesure de qualité de l’indice de qualité ? Quid des autres ?
5. Limites de l’étude Conclusion <ul><li>Une étude très intéressante améliorant un algorithme classique de clarification (...
Questions ?
Prochain SlideShare
Chargement dans…5
×

Presentation - Automated Variable Weighting in k-Means Type Clustering

1 893 vues

Publié le

Publié dans : Business
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 893
Sur SlideShare
0
Issues des intégrations
0
Intégrations
17
Actions
Partages
0
Téléchargements
60
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Presentation - Automated Variable Weighting in k-Means Type Clustering

  1. 1. > Automated Variable Weighting in k-Means Type Clustering ( Huang, J.Z.; Ng, M.K.; Hongqiang Rong; Zichen Li. ; 2005 ) Présentation 28 Septembre 2010 [email_address]
  2. 2. Sommaire <ul><li>La classification </li></ul><ul><li>La méthode des K-moyennes </li></ul><ul><li>Automatisation de la pondération des poids </li></ul><ul><li>Résultats obtenus </li></ul><ul><li>Limites de l’étude </li></ul>
  3. 3. 1. La classification <ul><ul><li>La classification (clustering) </li></ul></ul>
  4. 4. 1. La classification <ul><li>Exemples d’applications de la classification </li></ul><ul><li>Marketing : trouver des groupes de clients similaires </li></ul><ul><li>Biologie : classer des plantes selon leurs caractéristiques </li></ul><ul><li>Algorithmes évolutionnistes : améliorer la diversité des </li></ul><ul><li> croisements. </li></ul><ul><li>… </li></ul>
  5. 5. Sommaire <ul><li>La classification </li></ul><ul><li>La méthode des K-moyennes </li></ul><ul><li>Automatisation de la pondération des poids </li></ul><ul><li>Résultats obtenus </li></ul><ul><li>Limites de l’étude </li></ul>
  6. 6. 2. La méthode des K-moyennes K-moyennes (K-means) Une méthode non supervisée MacQueen, 1967 2) k  groupes sont créés en associant chaque individu au centre le plus proche. 1) k  centres initiaux sont sélectionnés aléatoirement parmi l'ensemble des données (ici k=3 ) 3) Les centroïdes de chaque groupe deviennent les nouveaux centres. 4) Les étapes 2 et 3 sont répétées aussi longtemps que les centres ne sont pas stabilisés Stabilisation des centres et fin
  7. 7. 2. La méthode des K-moyennes <ul><li>Les limites de l’algorithme des K-moyennes : </li></ul><ul><li>Nécessité de l’existence d’une distance </li></ul><ul><li>Choix du nombre de classes </li></ul><ul><li>Influence du choix des centres initiaux sur le résultat </li></ul><ul><li>Sensible au bruit </li></ul>
  8. 8. 2. La méthode des K-moyennes <ul><li>Les limites de l’algorithme des K-moyennes : </li></ul><ul><li>Nécessité de l’existence d’une distance </li></ul><ul><li>Choix du nombre de classes </li></ul><ul><li>Influence du choix des centres initiaux sur le résultat </li></ul><ul><li>Sensible au bruit </li></ul>
  9. 9. 2. La méthode des K-moyennes <ul><li>Exemple en 3D : x 1 et x 2 sont ok pour la classification, x 3 est du bruit </li></ul>x 1 et x 2 x 1 et x 3 x 2 et x 3 Classification obtenue
  10. 10. Sommaire <ul><li>La classification </li></ul><ul><li>La méthode des K-moyennes </li></ul><ul><li>K-moyennes avec pondération des poids dynamique </li></ul><ul><li>Résultats obtenus </li></ul><ul><li>Limites de l’étude </li></ul>
  11. 11. 3. K-moyennes avec pondération des poids dynamique <ul><li>K-moyennes avec pondération des poids dynamique </li></ul><ul><li>( Automated Variable Weighting in k-Means Type Clustering – 2005) </li></ul>Idée : Pondérer chaque variable afin de pouvoir donner un poids plus faible aux variables affectées par un bruit important. Existant : Modha et Spangler y ont déjà pensé… mais les poids qu’ils utilisaient étaient calculés au tout début de l’algorithme. Ici, les poids vont être calculer dynamiquement, à chaque itérations de l’algorithme des K-moyennes.
  12. 12. 3. K-moyennes avec pondération des poids dynamique 2) k  groupes sont créés en associant chaque individu au centre le plus proche. 1) k  centres initiaux sont sélectionnés aléatoirement parmi l'ensemble des données (ici k=3 ) 3) Les centroïdes de chaque groupe deviennent les nouveaux centres. 5) Les étapes 2, 3 et 4 sont répétées aussi longtemps que les centres ne sont pas stabilisés Stabilisation des centres et fin 4) Calcul des poids
  13. 13. 3. K-moyennes avec pondération des poids dynamique <ul><li>Calcul des poids - Théorème </li></ul>avec Où u i,l signifie que l’objet i est affecté à la classe l d(x i,j , z l,j ) est la distance entre les objets x et z h est le nombre de variables D j telles que D j ≠ 0 z l,j est la valeur de la variable j du centroïde du cluster l
  14. 14. 3. K-moyennes avec pondération des poids dynamique <ul><li>Calcul des poids - Théorème </li></ul>avec Où u i,l signifie que l’objet i est affecté à la classe l d(x i,j , z l,j ) est la distance entre les objets x et z h est le nombre de variables D j telles que D j ≠ 0 z l,j est la valeur de la variable j du centroïde du cluster l Idée : Donner un poids faible pour les variables dont la valeur de chacun des individus est en moyenne éloigner des centroïdes
  15. 15. 3. K-moyennes avec pondération des poids dynamique <ul><li>Calcul des poids </li></ul>Fonction à minimiser : Contrainte :  Multiplicateurs de Lagrange !
  16. 16. 3. K-moyennes avec pondération des poids dynamique <ul><li>Calcul des poids </li></ul>Le Lagrangien : On dérive :
  17. 17. 3. K-moyennes avec pondération des poids dynamique <ul><li>Calcul des poids </li></ul>On voit : D’où : CQFD ! De plus :
  18. 18. 3. K-moyennes avec pondération des poids dynamique <ul><li>Calcul des poids - Théorème </li></ul>avec Où u i,l signifie que l’objet i est affecté à la classe l d(x i,j , z l,j ) est la distance entre les objets x et z h est le nombre de variables D j telles que D j ≠ 0 z l,j est la valeur de la variable j du centroïde du cluster l Idée : Donner un poids faible pour les variables dont la valeur de chacun des individus est en moyenne éloigner des centroïdes
  19. 19. Sommaire <ul><li>La classification </li></ul><ul><li>La méthode des K-moyennes </li></ul><ul><li>K-moyennes avec pondération des poids dynamique </li></ul><ul><li>Expériences </li></ul><ul><li>Limites de l’étude </li></ul>
  20. 20. 4. Expériences <ul><li>Expérience 1 : Avec un jeu de données synthétique </li></ul>5 Variables, 300 individus : X 1 , X 2 , X 3 : Données formant 3 classes nettes X 4 , X 5 : Bruit Comme nous connaissons les 3 classes, nous allons comparer les résultats obtenus par l’algorithme des K-moyennes standard avec l’algorithme des K-moyennes avec pondération des poids dynamique. Pour effectuer cette comparaison, nous utiliserons l’ indice de Rand et le clustering accuracy qui permettent d’évaluer la performance d’une classification par comparaison avec la classification voulue.
  21. 21. 4. Expériences Indice de Rand : Clustering accuracy : <ul><li>a i est le nombre de points affectés à la bonne classe </li></ul><ul><li>N est le nombre total de point </li></ul>
  22. 22. 4. Expériences Indice de Rand : Clustering accuracy : <ul><li>a i est le nombre de points affectés à la bonne classe </li></ul><ul><li>N est le nombre total de point </li></ul>Erratum
  23. 23. 4. Expériences X 1 , X 2 , X 3 : Données formant 3 classes nettes
  24. 24. 4. Expériences X 4 , X 5 : Bruit
  25. 25. 4. Expériences Expérience : 1) Génération des données 2) Choix aléatoire des poids 3) Algorithme K-moyennes classique 3) Algorithme K-moyennes classique 4) Recalcul des poids 5) Retour à étape 3. Après 10 itérations, finir la boucle
  26. 26. 4. Expériences Algorithme K-moyennes classique K-moyennes avec pondération des poids dynamique Résultats
  27. 27. 4. Expériences Algorithme K-moyennes classique K-moyennes avec pondération des poids dynamique Résultats Problème commun : La classification dépend des centroïdes et poids initiaux
  28. 28. 4. Expériences Solution commune : Faire tourner les algorithmes plusieurs fois et prendre le meilleur résultat. Les poids convergent de façon similaire :
  29. 29. 4. Expériences Solution commune : Faire tourner les algorithmes plusieurs fois et prendre le meilleur résultat. Résultats :
  30. 30. 4. Expériences <ul><li>Expérience 2 : Avec 2 jeux de données réels </li></ul>Australian Credit Card data : 690 individus, 5 variables quantitatives, 8 variables qualitatives. Heart Diseases : 270 individus, 6 variables quantitatives, 9 variables qualitatives. <ul><li>Objectifs : </li></ul><ul><li>Évaluer l’impact de β , paramètres utilisés dans la formule de </li></ul><ul><li>calcul des poids. </li></ul><ul><li>2) Comparer les résultats obtenus avec les études précédentes </li></ul><ul><li>réalisées sur ces mêmes jeux de données. </li></ul>
  31. 31. 4. Expériences Résultats Australian Credit Card data
  32. 32. 4. Expériences Résultats Australian Credit Card data +0.02 de prévision que les études précédentes !
  33. 33. 4. Expériences Résultats Australian Credit Card data +0.02 de prévision que les études précédentes ! Erratum : 0.85 est aussi atteint lorsque = 8
  34. 34. 4. Expériences Résultats Heart Diseases
  35. 35. 4. Expériences Résultats Heart Diseases +0.02 de prévision que les études précédentes !
  36. 36. 4. Expériences Qu’en est-il des poids ?
  37. 37. 4. Expériences Qu’en est-il des poids ?
  38. 38. 4. Expériences Résultats en supprimant les variables au poids faible Australian Credit Card data
  39. 39. 4. Expériences Australian Credit Card data +0.03 de prévision que les études précédentes ! Résultats en supprimant les variables au poids faible
  40. 40. 4. Expériences Heart Diseases Résultats en supprimant les variables au poids faible
  41. 41. 4. Expériences +0.01 de prévision que les études précédentes ! Heart Diseases Résultats en supprimant les variables au poids faible
  42. 42. 4. Expériences Résultats +0.01 de prévision que les études précédentes ! Heart Diseases Erratum : Les résultats sont ici moins bons qu’avant la suppression des variables Résultats en supprimant les variables au poids faible
  43. 43. Sommaire <ul><li>La classification </li></ul><ul><li>La méthode des K-moyennes </li></ul><ul><li>K-moyennes avec pondération des poids dynamique </li></ul><ul><li>Résultats obtenus </li></ul><ul><li>Limites de l’étude </li></ul>
  44. 44. 5. Limites de l’étude 1) Le choix de β semble vraiment empirique. L’étude constate simplement que selon la valeur de β , les résultats de la classification varient beaucoup, et que le meilleur résultat est meilleur que les résultats obtenus avec d’autres algorithmes des K-moyennes. Constatation, mais pas interprétation.
  45. 45. 5. Limites de l’étude Heart Diseases Résultats en supprimant les variables au poids faible
  46. 46. 5. Limites de l’étude <ul><li>2) Complexité de l’algorithme ? </li></ul><ul><li>L’article indique que la complexité est de O(tmnk) avec : </li></ul><ul><li>k est le nombre de classes ; </li></ul><ul><li>m est le nombre de variables ; </li></ul><ul><li>n est le nombre d’individus ; </li></ul><ul><li>t est le nombre d’itérations de l’algorithme. </li></ul><ul><li>t ne devrait pas figurer dans O, car en incluant dedans, la complexité de l’algorithme n’est plus du tout estimable. </li></ul>
  47. 47. 5. Limites de l’étude 2) Complexité de l’algorithme ? Exemple avec deux algorithmes de tri bubble sort est О(n²), n étant le nombre d’éléments à classer. En utilisant un t indiquant le nombre d'itérations, la complexité de bubble sort pourrait être également être notée O(t) (car une itération est O(1)). quicksort sort est О(nlogn), n étant le nombre d’éléments à classer. En utilisant un t indiquant le nombre d'itérations, la complexité de quicksort pourrait être également être notée O(t) (car une itération est O(1)). Conclusion : En utilisant un t indiquant le nombre d'itérations, cela rend les complexités incomparables entre elles. Même si cela permet d'évaluer la complexité d'une seule itération
  48. 48. 5. Limites de l’étude 3) Mesure de qualité de l’indice de qualité ? Cet étude utilise l’indice de Rand et le clustering accuracy. Nous avons vu les différences entre ses deux indices sont parfois très importants.
  49. 49. 5. Limites de l’étude 3) Mesure de qualité de l’indice de qualité ? Cet étude utilise l’indice de Rand et le clustering accuracy. Nous avons vu les différences entre ses deux indices sont parfois très importants.
  50. 50. 5. Limites de l’étude 3) Mesure de qualité de l’indice de qualité ? Quid des autres ?
  51. 51. 5. Limites de l’étude Conclusion <ul><li>Une étude très intéressante améliorant un algorithme classique de clarification (K-moyennes) </li></ul><ul><li>Une approche dynamique des poids semblant bien fondée et répondant à un besoin existant. </li></ul><ul><li>Les résultats semblent prometteurs mais auraient mérité à être mieux explorés. </li></ul>
  52. 52. Questions ?

×