ENSEIRB - Stage 3A @IIT Chicago

Présentation de PFE Sujet: Analyse des différentes catégories d’utilisateurs d’un réseau de hotspots Wifi en appliquant des techniques de clustering. 1 21/09/2010 Arnaud LEMPEREUR Entreprise : Laboratoire Universitaire de IIT ChicagoResponsable de stage : Dr Edward CHLEBUSTuteur de stage : Mr Daniel NEGRUDate du stage : Du 15/02/2010 au 30/07/2010

Sommaire de la présentation. 21/09/2010 Arnaud LEMPEREUR 2

I. L’environnement du stage 21/09/2010 Arnaud LEMPEREUR 4 ,[object Object]

L’université: L’IIT (Illinois Institute of Technology), grande université de Chicago, très ouverte aux étrangers, et partenaire de l’ENSEIRB.

Le laboratoire: « Network Modeling and TeletrafficAnalysis » composé du Dr Chlebus et de son thésard Gautam Divgi ayant déjà travaillé sur la base de données.,[object Object]

II. Présentation du sujet Le point de départ, la base de données : Données fournies par Azure Wireless, gros opérateur de réseaux sans fil en Australie! La base de données concerne l’utilisation des hotspots de Azure pendant 5 mois pour un total de 14273 sessions. Différents types de comptes selon les utilisateurs : « Hourlyaccount » - Compte à l’heure (1, 2, 5, 10 heures) « Daily account » - Compte à la journée (1, 3, 5 jours) « Monthlyaccount » - Compte au mois (téléchargement illimité dans ce type de compte) 21/09/2010 Arnaud LEMPEREUR 6

II. Présentation du sujet Les paramètres qui caractérisent une session : La durée de la session Le trafic montant Le trafic descendant Définition du clustering : « Etant donné un nombre d’objets, chacun décrit par une base de mesures numériques, il s’agit de diviser le plan afin de diviser les objets en plusieurs groupes de tel manière que deux objets du même groupe soient similaire selon un critère défini. Le nombre de groupes et les caractéristiques de chaque groupes sont à déterminés. » 21/09/2010 Arnaud LEMPEREUR 7

II. Présentation du sujet 21/09/2010 Arnaud LEMPEREUR 8 Petit exemple décrivant l’objectif du projet : ,[object Object]

Chercher dans quelle mesure les caractéristiques des éléments de ces clusters correspondent à celle de chaque catégorie de compte. « Daily account »

III. Introduction au clustering Existence d’une panoplie très large d’algorithmes de clustering qui peuvent se classer selon certains critères: La fonction de distance utilisée pour mesurer la proximité ou la ressemblance entre deux données (influence sur la forme des clusters). La méthode de clustering peut être : Agglomerative ou divisive. Monothéique ou polythétique. « Hard » ou « fuzzy ». … Existence d’algorithmes de références qu’il serait intéressant de présenter pour mieux comprendre mais le temps me manque… 21/09/2010 Arnaud LEMPEREUR 10

IV. L’algorithme choisi Pourquoi cet algorithme? : 21/09/2010 Arnaud LEMPEREUR 12

IV. L’algorithme choisi Les étapes de l’algorithme NetCluster: L’application de l’algorithme WaveCluster : Quantifier l’espace sous forme d’une grille et assigner les données à leurs cellules. Appliquer la « wavelet transform » sur la densité des cellules de la grille. Trouver les cellules connectées (clusters) et assigner à chaque donnée un label selon son cluster d’appartenance. Une étape de post-processing. 21/09/2010 Arnaud LEMPEREUR 13

IV. L’algorithme choisi La quantification : 21/09/2010 Arnaud LEMPEREUR 14 Densité de la cellule (4,6) : 2! Grillage de l’espace deux dimensions formé par labase de données avec une certaine granularité pour chaque dimension (ici 7 pour l’axe des abscisses et 6 pour celui des ordonnés)

IV. L’algorithme choisi La wavelet transform : (procédé itératif) Correspond à un filtre sur les densités de chaque cellules. Ce filtre s’applique ligne par ligne puis colonne par colonne (pour le cas 2 dimensions). La nouvelle densité de chaque cellule prend en compte la densité des cellules voisines. Le filtre choisi est le « MexicanHat ». Puis on réalise l’élimination d’une densité sur deux. 21/09/2010 Arnaud LEMPEREUR 15 D’ = densité cellule après filtre C(k) = coefficient du filtre M = nbr. de coefficient du filtre D = densité cellule avant filtre

IV. L’algorithme choisi 21/09/2010 Arnaud LEMPEREUR 16

IV. L’algorithme choisi La labellisation : 21/09/2010 Arnaud LEMPEREUR 17

IV. L’algorithme choisi Le post-processing: Définition d’un rayon maximal pour chaque dimension. Chaque cluster qui dépasse une des tailles maximales pour une des dimensions est soumis au post-processing. Par itération : Détermine la cellule de plus forte densité dans le cluster. Définit le nouveau cluster par les cellules comprises dans l’ellipse créée par les rayon maximaux de chaque dimension autour de la cellule de plus forte densité. Procède à la même opération avec les cellules restantes. 21/09/2010 Arnaud LEMPEREUR 18

V. L’implémentation 21/09/2010 Arnaud LEMPEREUR 20 Implémentation à l’aide de : ,[object Object]

GnuPlot pour les graphiques,[object Object]

VI. Les résultats de l’étude 21/09/2010 Arnaud LEMPEREUR 22 Représentation des clusters pour le cas 1 dimension de la durée de session

VI. Les résultats de l’étude 21/09/2010 Arnaud LEMPEREUR 23 Histogramme représentant la quantité absolue d’utilisateurs dans chaque cluster pour les 3 catégories d’utilisateurs

VI. Les résultats de l’étude 21/09/2010 Arnaud LEMPEREUR 24 Représentation des clusters pour le cas 1 dimension du trafic montant à l’échelle logarithmique

VI. Les résultats de l’étude 21/09/2010 Arnaud LEMPEREUR 25 Représentation des clusters pour le cas 2 dimensions durée de session et trafic montant à l’échelle logarithmique

VI. Les résultats de l’étude 21/09/2010 Arnaud LEMPEREUR 26 Représentation des clusters pour le cas 3 dimensions à l’échelle logarithmique

ENSEIRB - Stage 3A @IIT Chicago

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (8)

Similaire à ENSEIRB - Stage 3A @IIT Chicago

Similaire à ENSEIRB - Stage 3A @IIT Chicago (20)

ENSEIRB - Stage 3A @IIT Chicago