1. Présentation de PFE Sujet: Analyse des différentes catégories d’utilisateurs d’un réseau de hotspots Wifi en appliquant des techniques de clustering. 1 21/09/2010 Arnaud LEMPEREUR Entreprise : Laboratoire Universitaire de IIT ChicagoResponsable de stage : Dr Edward CHLEBUSTuteur de stage : Mr Daniel NEGRUDate du stage : Du 15/02/2010 au 30/07/2010
2. Sommaire de la présentation. 21/09/2010 Arnaud LEMPEREUR 2
3. Sommaire de la présentation. 21/09/2010 Arnaud LEMPEREUR 3
4.
5. L’université: L’IIT (Illinois Institute of Technology), grande université de Chicago, très ouverte aux étrangers, et partenaire de l’ENSEIRB.
6.
7. II. Présentation du sujet Le point de départ, la base de données : Données fournies par Azure Wireless, gros opérateur de réseaux sans fil en Australie! La base de données concerne l’utilisation des hotspots de Azure pendant 5 mois pour un total de 14273 sessions. Différents types de comptes selon les utilisateurs : « Hourlyaccount » - Compte à l’heure (1, 2, 5, 10 heures) « Daily account » - Compte à la journée (1, 3, 5 jours) « Monthlyaccount » - Compte au mois (téléchargement illimité dans ce type de compte) 21/09/2010 Arnaud LEMPEREUR 6
8. II. Présentation du sujet Les paramètres qui caractérisent une session : La durée de la session Le trafic montant Le trafic descendant Définition du clustering : « Etant donné un nombre d’objets, chacun décrit par une base de mesures numériques, il s’agit de diviser le plan afin de diviser les objets en plusieurs groupes de tel manière que deux objets du même groupe soient similaire selon un critère défini. Le nombre de groupes et les caractéristiques de chaque groupes sont à déterminés. » 21/09/2010 Arnaud LEMPEREUR 7
9.
10. Chercher dans quelle mesure les caractéristiques des éléments de ces clusters correspondent à celle de chaque catégorie de compte. « Daily account »
11. Sommaire de la présentation. 21/09/2010 Arnaud LEMPEREUR 9
12. III. Introduction au clustering Existence d’une panoplie très large d’algorithmes de clustering qui peuvent se classer selon certains critères: La fonction de distance utilisée pour mesurer la proximité ou la ressemblance entre deux données (influence sur la forme des clusters). La méthode de clustering peut être : Agglomerative ou divisive. Monothéique ou polythétique. « Hard » ou « fuzzy ». … Existence d’algorithmes de références qu’il serait intéressant de présenter pour mieux comprendre mais le temps me manque… 21/09/2010 Arnaud LEMPEREUR 10
13. Sommaire de la présentation. 21/09/2010 Arnaud LEMPEREUR 11
15. IV. L’algorithme choisi Les étapes de l’algorithme NetCluster: L’application de l’algorithme WaveCluster : Quantifier l’espace sous forme d’une grille et assigner les données à leurs cellules. Appliquer la « wavelet transform » sur la densité des cellules de la grille. Trouver les cellules connectées (clusters) et assigner à chaque donnée un label selon son cluster d’appartenance. Une étape de post-processing. 21/09/2010 Arnaud LEMPEREUR 13
16. IV. L’algorithme choisi La quantification : 21/09/2010 Arnaud LEMPEREUR 14 Densité de la cellule (4,6) : 2! Grillage de l’espace deux dimensions formé par labase de données avec une certaine granularité pour chaque dimension (ici 7 pour l’axe des abscisses et 6 pour celui des ordonnés)
17. IV. L’algorithme choisi La wavelet transform : (procédé itératif) Correspond à un filtre sur les densités de chaque cellules. Ce filtre s’applique ligne par ligne puis colonne par colonne (pour le cas 2 dimensions). La nouvelle densité de chaque cellule prend en compte la densité des cellules voisines. Le filtre choisi est le « MexicanHat ». Puis on réalise l’élimination d’une densité sur deux. 21/09/2010 Arnaud LEMPEREUR 15 D’ = densité cellule après filtre C(k) = coefficient du filtre M = nbr. de coefficient du filtre D = densité cellule avant filtre
20. IV. L’algorithme choisi Le post-processing: Définition d’un rayon maximal pour chaque dimension. Chaque cluster qui dépasse une des tailles maximales pour une des dimensions est soumis au post-processing. Par itération : Détermine la cellule de plus forte densité dans le cluster. Définit le nouveau cluster par les cellules comprises dans l’ellipse créée par les rayon maximaux de chaque dimension autour de la cellule de plus forte densité. Procède à la même opération avec les cellules restantes. 21/09/2010 Arnaud LEMPEREUR 18
21. Sommaire de la présentation. 21/09/2010 Arnaud LEMPEREUR 19
22.
23.
24. VI. Les résultats de l’étude 21/09/2010 Arnaud LEMPEREUR 22 Représentation des clusters pour le cas 1 dimension de la durée de session
25. VI. Les résultats de l’étude 21/09/2010 Arnaud LEMPEREUR 23 Histogramme représentant la quantité absolue d’utilisateurs dans chaque cluster pour les 3 catégories d’utilisateurs
26. VI. Les résultats de l’étude 21/09/2010 Arnaud LEMPEREUR 24 Représentation des clusters pour le cas 1 dimension du trafic montant à l’échelle logarithmique
27. VI. Les résultats de l’étude 21/09/2010 Arnaud LEMPEREUR 25 Représentation des clusters pour le cas 2 dimensions durée de session et trafic montant à l’échelle logarithmique
28. VI. Les résultats de l’étude 21/09/2010 Arnaud LEMPEREUR 26 Représentation des clusters pour le cas 3 dimensions à l’échelle logarithmique
29. Sommaire de la présentation. 21/09/2010 Arnaud LEMPEREUR 27
30. VII. Perspectives pour le projet La partie du projet sur la base de données qui m’a été confiée a été menée à bien. Le thésard confronte en ce moment les résultats qu’il avait pu obtenir précédemment par d’autres méthodes avec les miens pour en conforter éventuellement certains ou découvrir d’autres spécificités. Si les résultats obtenus sont probants, le projet donnera peut-être lieu à une publication. 21/09/2010 Arnaud LEMPEREUR 28
31. Merci de votre attention Et Place aux questions 21/09/2010 Arnaud LEMPEREUR 29