Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Data-mining dans les données spatio-temporelles.pdf

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Chargement dans…3
×

Consultez-les par la suite

1 sur 43 Publicité

Plus De Contenu Connexe

Plus récents (20)

Publicité

Data-mining dans les données spatio-temporelles.pdf

  1. 1. Mme. Lilia Rejeb 1 Spatio and spatio temporal data science Trajectory Data Mining
  2. 2. Les méthodes de fouille des trajectoires 2  Types de méthodes :  Clustering  Identifier des clusters d’objets en mouvement (partitionner le MOD (base de données des objets en mouvement)  Grouper des trajectoires en considérant la durée de vie des objets en mouvement  Identifier des modèles ou patterns locaux qui ne sont valables que pour des portions de leur durée de vie  Représenter un ensemble de trajectoires par un petit ensemble d’objets qui peuvent être :  artificiels (ex. Trajectoires Centroïde des clusters)  Sélectionnés à partir de l’ensemble lui-même (méthode d’échantillonnage)
  3. 3. Les méthodes de fouille des trajectoires 3  Autres méthodes :  La découverte séquentielle des patterns de trajectoires  Classification  Techniques de détection des points aberrants
  4. 4. Clustering in Mobility Data 4  Extension des méthodes existantes  Les méthodes classiques ne peuvent être appliquées  Etendre ces méthodes  Les trajectoires doivent être converties en vecteurs dans un espace multi-dimentionnels  Les mesures de similarité entre trajectoires doivent être considérées  Peuvent coïncider complètement ou partiellement dans le temps et l’espace  Ont des formes similaires  Ont les mêmes début et fin  Sont complètement ou partiellement synchronisés  Sont disjoints en temps mais ont la même dynamique comportementale
  5. 5. Clustering 5  Une fois la mesure de similarité définie, on calcule la matrice des similarités entre trajectoires et on applique un algorithme de clustering hiérarchique  Progressive clustering :  appliquer un algorithme de clustering avec une mesure de similarité  Choisir un ou plusieurs clusters et leur appliquer le même ou un autre algorithme de clustering avec une mesure de similarité différente
  6. 6. Clustering 6  CenTR-I-FCM  Considère l’incertitude  Composé de trois étapes  1ère étape :  Modélise les trajectoires comme  des séquences de régions  accompagnées de valeurs floues intuitives  Réduire l’hésitation relative aux informations imprécises  Caractérisées par 2 éléments : appartenance et non appartenance  Probabilité de présence ou pas dans la région
  7. 7. Clustering 7  Son succès se base sur la mesure de similarité  Echec des mesures globales  Se baser sur les similarités locales  2ème étape :  Application de l’algorithme Centroid Trajectory CenTra pour découvrir le centroïde d’un groupe de trajectoires  Avantages : représente des patterns complexes et prend en considération le temps  Identifie une région incluant une sous-trajectoire évoluant sur un intervalle de temps donné  et cherche la région ayant :  Le nombre maximal de trajectoires similaires % à une distance d  Une densité supérieure à un seuil 
  8. 8. Clustering 8  CenTR-I-FCM
  9. 9. Clustering 9  Chercher la prochaine région pour s’étendre aux sous-trajectoires les plus similaires  Chercher parmi ces candidates pour sélectionner celle qui satisfait les contraintes de similarité et de densité  Continuer jusqu’à ce qu’il n’y est plus d’extension possible  3ème étape : CenTR-I-FCM  utilise CenTra pour mettre à jour le centroide  utilise une fonction de similarité globale qui tient compte de l’incertitude pour grouper les trajectoires à un niveau plus élevé  raffine itérativement les résultats en utilisant la similarité locale entre les sous-trajectoires
  10. 10. Clustering : 10  T-Optics :  Utilise une variante de la mesure DISSIM  Normalise les intégrales par rapport à la durée commune des trajectoires  Fournit un schéma d’accessibilité
  11. 11. Clustering : 11  Inconvénient : la mesure de similarité globale utilisée peut induire en erreur  Une autre variante est apparue TF-OPTICS permet de découvrir les intervalles de temps qui donnent une meilleure segmentation  TF-OPTICS applique T-OPTICS sur des portions de trajectoires qui sont exactement dans le même intervalle de temps
  12. 12. Clustering : 12  Les méthodes de clustering des sous- trajectoires  Méthodes permettant de découvrir des patterns locaux par des portions de trajectoires  Méthodes qui prennent en considération le réseau de routes (FlowScan, NEAT) et d’autres non TRACLUS)  TRACLUS : Trajectory Clustering  Les trajectoires sont partitionnées en segments dirigés  Les segments sont ensuite regroupés  Une trajectoire représentative visuelle est synthétisée
  13. 13. Clustering 13  TRACLUS
  14. 14. Clustering : 14  3 étapes  Partitionnement :  chercher les points caractéristiques où chaque trajectoire change significativement de comportement  Trouver un équilibre entre la précision et la concision : Principe du Minimum Description Length (MDI)  Grouper les sous-trajectoires en utilisant une variante de l’algorithme DB-SCAN  Se base sur la similarité en terme de distance ,// et angulaire < pour définir les voisins  Si le nombre de voisins excède un seuil MinLNS, ils seront rajoutés au cluster  L’algorithme calcule pour chaque cluster la trajectoire représentative Representative Trajectory Generation Algorithm
  15. 15. Clustering : 15
  16. 16. Clustering : 16  FlowScan  Découvre les patterns considérés comme des routes chaudes (pattern général de flux de trafic d’objets en mouvements : séquence d’arcs sur le réseau qui sont proches qui partagent un trafic dense)  Etapes :  Définir le début des routes chaudes (plus d’un seuil d’objets commencent dans l’arc e ou convergent à e à partir d’autres arcs)  Cet arc est agrandi par l’attachement des arcs ayant une densité de trafic importante (density reachable trafic) de telle manière qu’il existe entre eux aussi des arcs ayant cette densité de trafic (il faut qu’ils soient proches en terme de nombre d’arcs les séparant et ayant le même trafic).
  17. 17. Clustering : 17  NEAT :  Tient en considération  les contraintes physiques du réseau  La proximité du réseau  Les flux entre les segments de routes durant le clustering  Trois étapes :  Formation du cluster de base :  Les trajectoires sont partitionnées en des sous- trajectoires t-fragments (tous ces points sont sur la même route)  Les clusters de base sont formés à partir des t-fragments appartenant à la même route
  18. 18. Clustering : 18  Formation des clusters de flux :  Combiner les clusters de base en clusters de flux en utilisant Merging Selectivity  Merging Selectivity est une fonction pondérée qui tient en compte la densité et les facteurs de vitesse sur la route  Raffinement des clusters de flux :  Une variante du DBScan est utilisée pour compresser les clusters de flux  La mesure de distance Hausdorff modifiée pour tenir compte de la distance au réseau a été utilisée  Si les localisations finales de deux clusters de flux ne dépassent pas une distance fixée, les clusters sont fusionnés en un cluster plus large
  19. 19. Clustering : 19
  20. 20. Clustering : 20  Trouver les représentatifs dans une BD trajectoires  Trajectoire représentative d’un cluster  Exemple CenTra de CenTR-I-FCM, Representative trajectory de TRACLUS (trajectoires synthétiques)
  21. 21. Clustering : 21  T-Sampling :  Une méthodologie de vote  permet de faire un échantillonnage des trajectoires représentatives à partir d’une base de données  Objectif : faire ressortir les K trajectoires les plus représentatives qui préservent le pattern caché dans la base de données entière
  22. 22. Clustering : 22
  23. 23. Comportement Collectif de mobilité 23  Troupeaux (Flocks) et ses variantes :  Troupeaux :  Ces méthodes  travaillent sur des trajectoires échantillonnées sur des intervalles aux mêmes instants  considèrent la proximité spatiale et la direction des objets  Nécessitent un minimum de trajectoires qui satisfont ces contraintes
  24. 24. Comportement Collectif de mobilité 24  Un troupeau ou Flock sur un intervalle de temps I s’étalant sur K mesures e comportant m objets et un disque de rayon r contenant ces m entités  La sélection du rayon r est une tâche difficile
  25. 25. Comportement Collectif de mobilité 25  La sélection du rayon r est une tâche difficile  Problèmes :  Le nombre minimal d’objet est difficile à déterminer  La forme circulaire est limitative  Le nombre k d’instants à considérer est difficile à déterminer
  26. 26. Comportement Collectif de mobilité 26  Variantes :  Découvertes des rencontres sur un intervalle de temps I (K instants au minimum)  M objets qui restent dans le même disque de rayon r durant un intervalle I  Rencontre fixe : les m entités restent ensemble durant tout l’intervalle I  Rencontre variable : les entités peuvent changer durant l’intervalle de temps
  27. 27. Comportement Collectif de mobilité 27  Patterns de Convergence : trajectoires qui convergent vers la même localisation  Leadership Pattern : une trajectoire est en train de guider toutes les autres (bancs de poisson, groupes d’oiseaux)
  28. 28. Comportement Collectif de mobilité 28  Groupes en mouvement (moving cluster)  Les clusters ci et ci+1 déterminés selon la proximité spatiale et la densité ont un nombre suffisant d’objets en commun pour être considérés comme un cluster en mouvement  <ci,ci+1> est un groupe en mouvement si Avec le seuil en pourcentage
  29. 29. Comportement Collectif de mobilité 29 Problème : Considérer les instants consécutifs peut engendrer une perte de patterns intéressants
  30. 30. Comportement Collectif de mobilité 30  Troupeaux (Flocks) et ses variantes :  Améliorations :  Les convois :  groupes de m objets qui sont proches et denses par rapport à un seuil de distance e durant un nombre consécutif de points  Diffèrent des groupes en mouvement : les mêmes objets apparaissent dans les groupes consécutifs
  31. 31. Comportement Collectif de mobilité 31  Troupeaux (Flocks) et ses variantes : 50% d’intersection
  32. 32. Comportement Collectif de mobilité 32  Troupeaux (Flocks) et ses variantes :  Améliorations :  Problème : Les approches précédentes nécessitent des instants consécutifs  Rencontres à des instants particuliers (t1, t4, t6)  Les patterns de groupes  Groupe qui voyage à travers un disque durant des instants pas nécessairement consécutifs  Limite : le nombre et la forme dans un disque
  33. 33. Comportement Collectif de mobilité 33  Troupeaux (Flocks) et ses variantes :  Améliorations :  Essaims (Swarms ): groupe d’objets en mouvement de cardinalité minimale m qui font partie du même groupe au moins pour K instants
  34. 34. La fouille des patterns séquentiels 34  Extension de techniques existantes  Deux classes de méthodes :  identifier les régularités dans le comportement individuel (trajectoires d’un seul objet en mouvement)  Identifier le comportement séquentiel collectif d’un ensemble d’objets
  35. 35. La fouille des patterns séquentiels 35  Patterns périodiques :  Séquences de localisations non adjacentes qui réapparaissent dans l’historique de la trajectoire périodiquement  <r0,r1,…r T-1> ri sont des régions spatiales et T est la période du pattern et * peut correspondre à un mouvement libre  Exemple : MT*M
  36. 36. La fouille des patterns séquentiels 36  Trajectory-pattern (T-patterns ):  Ensemble de trajectoires qui visitent la même séquence d’endroits avec un temps de transition d’une place à une autre qui est similaire. Les places doivent être fréquemment visitées
  37. 37. La fouille des patterns séquentiels 37  Trajectory-pattern (T-patterns ):
  38. 38. Prédiction et classification 38  Prédiction :  Prédire la localisation future d’une certaine trajectoire (vitesse et localisation actuelle)  Se base sur les règles d’association et les patterns fréquents  Où – après (WhereNext) :  Basée sur les T-patterns  Construit un arbe préfixe de T-patterns  Un T-pattern est considéré comme préfixe d’un T- pattern si  la cardinalité du premier est inférieure ou égale à celle du deuxième  La séquence de régions du premier est incluse dans celle du deuxième (sous-séquence)
  39. 39. Prédiction et classification 39
  40. 40. Prédiction et classification 40  La trajectoire est comparée aux différents T-patterns  Un score est calculé  Intersection avec les nœuds d’un chemin dans l’arbre  Distance séparant la trajectoire du nœud  La localisation prédite est la feuille du meilleur chemin
  41. 41. Prédiction et classification 41  Classification :  Se base sur les trajectoires et non pas sur l’extraction des caractéristiques  TRACLASS :  prédit les étiquettes des classes d’objets en mouvement en se basant sur les trajectoires et d’autres caractéristiques (Régions sur les proportions de trajectoires )
  42. 42. Prédiction et classification 42  TRACLASS  partitionne les trajectoires en se basant sur leur forme en se basant sur une variante de TRACLUS  Applique le clustering hiérarchique basé sur les régions  Détecter les régions contenant les sous-trajectoires d’une classe dans une région rectangulaire sans considérer leur pattern de mouvement  Appliquer le clustering basé sur les sous-trajectoires des régions qui ne sont pas homogènes pour déterminer les patterns de mouvement communs pour chaque classe incluse dans la région (TRACLUS)  Pour chaque trajectoire déterminer le vecteur des attributs (fréquence de l’apparition de l’attribut dans la trajectoire : clusters basés régions ou clusters basés trajectoires)  Appliquer un SVM pour la classification
  43. 43. Prédiction et classification 43  TROAD  Identifier parmi les trajectoires celles qui ne se comportent pas comme leur voisines et les considérer comme aberrantes  Deux phases :  Partionnement TRACLUS et TRACLASS  Détection : une trajectoire est aberrante s’il n’y a pas un nombre suffisant de trajectoires voisines en considérant la fonction de distance de TRACLUS

×