More than Just Lines on a Map: Best Practices for U.S Bike Routes
Présentation Master 2 BIG DATA
1. Master 2
Big Data et fouille de données
Université Paris 8 Vincennes-Saint Denis
République Française
DÉTECTION D’ANOMALIES DANS LES SÉRIES TEMPORELLES
DES DONNÉES PIEZOMÉTRIQUES
Mahdi SMIDA
Sous la direction de: M.Vincent LABBE & M.Boubaker DAACHI
2. PLAN DE LA PRÉSENTATION
1 Introduction
2 Problématiques
3 État de l’art
4 Éxpériences & Résultats
5 Conclusions
16/09/2019 Détection d’anomalies 2/27eng.smida@gmail.com
3. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
INTRODUCTION GÉNÉRALE
Anomalie = valeur aberrante = "outlier"
Tâche indispensable en fouille de données.
Divers domaines d’applications
Domaine d’intérêt : l’hydrogéologie.
cœur des verrous technologiques
Progression de l’acquisition des données ⇒ Besoin d’avoir des
traitements plus pertinent et de qualité.
16/09/2019 Détection d’anomalies 3/27eng.smida@gmail.com
4. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
ENTREPRISE D’ACCUEIL
BRGM : Bureau de Recherches Géologiques et Minières
EPIC crée en 1959
70% des salariés : des chercheurs et des ingénieurs
16/09/2019 Détection d’anomalies 4/27eng.smida@gmail.com
5. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
LES DONNÉES
Système d’acquisition : un capteur piézomètre, une station
et un modem
Figure – Station d’acquisition des données piézomètriques
Fréquence d’acquisition : journalière
Environ 5000 points d’eau en France
16/09/2019 Détection d’anomalies 5/27eng.smida@gmail.com
6. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
LES DONNÉES
API piezo du projet Hub’eau. (https://hubeau.eaufrance.fr/)
Figure – Structure des données de mesures piezométriques
16/09/2019 Détection d’anomalies 6/27eng.smida@gmail.com
7. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
ENJEUX & GOUVERNANCE
EAUX SOUTERRAINES :
• Alimentation des milieux aquatiques et les cours d’eau
• Eau potable, industrie et irrigation
ALERTES :
• Garantir l’alimentation en eau potable
• Préserver la biodiversité
FAUSSES ALERTES :
• Impact sur l’économie locale
• Impacter le refroidissement des centrales nucléaire
16/09/2019 Détection d’anomalies 7/27eng.smida@gmail.com
8. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
EXEMPLES D’ANOMALIES ET D’ALERTES
Les pics :une surexploitation, rechargement inhabituel de la nappe
ou une valeur aberrante ...
Figure – Pics dans une série temporelle piezométrique
16/09/2019 Détection d’anomalies 8/27eng.smida@gmail.com
9. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
EXEMPLES D’ANOMALIES ET D’ALERTES
Changement de comportement : sécheresse, inondation ..
Figure – Changement de comportement dans une série temporelle piezométrique
16/09/2019 Détection d’anomalies 9/27eng.smida@gmail.com
10. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
EXEMPLES D’ANOMALIES ET D’ALERTES
Dérives :
Figure – Dérive dans une série temporelle piezométrique
16/09/2019 Détection d’anomalies 10/27eng.smida@gmail.com
11. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
MÉTHODES ÉTUDIÉES
Méthodes statistiques :
• "Sigma Rule"
• L’autoregression (AR)
• La moyenne mobile (MA)
• Le modèle ARMA
Méthodes d’apprentissage automatique :
• Isolation Forest et Extended Isolation Forest
• LSTM-AD
16/09/2019 Détection d’anomalies 11/27eng.smida@gmail.com
12. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
EXEMPLE D’ALGORITHME : ISOLATION FOREST
Algorithme de foret, non supervisée
publiée en 2008 par Liu et al (la conférence IEEE international
conference on Data Mining en Italie)
Hypothèse : Les anomalies sont rares.
16/09/2019 Détection d’anomalies 12/27eng.smida@gmail.com
13. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
EXEMPLE D’ALGORITHME : ISOLATION FOREST
Algorithme de foret, non supervisée
publiée en 2008 par Liu et al (la conférence IEEE international
conference on Data Mining en Italie)
Hypothèse : Les anomalies sont rares.
16/09/2019 Détection d’anomalies 12/27eng.smida@gmail.com
14. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
EXEMPLE D’ALGORITHME : ISOLATION FOREST
Algorithme de foret, non supervisée
publiée en 2008 par Liu et al (la conférence IEEE international
conference on Data Mining en Italie)
Hypothèse : Les anomalies sont rares.
16/09/2019 Détection d’anomalies 12/27eng.smida@gmail.com
15. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
EXEMPLE D’ALGORITHME : ISOLATION FOREST
Algorithme de foret, non supervisée
publiée en 2008 par Liu et al (la conférence IEEE international
conference on Data Mining en Italie)
Hypothèse : Les anomalies sont rares.
16/09/2019 Détection d’anomalies 12/27eng.smida@gmail.com
16. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
EXEMPLE D’ALGORITHME : ISOLATION FOREST
16/09/2019 Détection d’anomalies 13/27eng.smida@gmail.com
17. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
EXEMPLE D’ALGORITHME : ISOLATION FOREST
16/09/2019 Détection d’anomalies 13/27eng.smida@gmail.com
19. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
MÉTHODES STATISTIQUES
La Règle N-SIGMA classique :
Figure – Règle 3-SIGMA non valide
16/09/2019 Détection d’anomalies 14/27eng.smida@gmail.com
20. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
MÉTHODES STATISTIQUES
La Règle N-SIGMA basée sur la moyenne mobile :
Figure – Règle N-SIGMA basée sur la moyenne mobile
16/09/2019 Détection d’anomalies 15/27eng.smida@gmail.com
21. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
MÉTHODES STATISTIQUES
Prophet - bibliothèque Facebook qui se base sur :
• Effet de saisonnalité
• Série de Fourier, pour un modèle flexible
Figure – Application de Prophet
16/09/2019 Détection d’anomalies 16/27eng.smida@gmail.com
22. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
MÉTHODES STATISTIQUES
Les points forts de Prophet :
• Simple et Robuste
• N’est pas sensible aux données manquantes
• Détecte les décalages (point de changement)
Figure – Détection d’anomalies de décalage avec Prophet
16/09/2019 Détection d’anomalies 17/27eng.smida@gmail.com
23. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
MÉTHODES STATISTIQUES
AnomalyDetection - bibliothèque Twitter :
• Une approximation par morceaux
• Autres métriques statistiques ( médiane...)
• Inconvénient : temps d’exécution
Figure – Détection d’anomalies avec AnomalyDetection
16/09/2019 Détection d’anomalies 18/27eng.smida@gmail.com
24. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
MÉTHODES D’APPRENTISSAGE AUTOMATIQUE
Isolation Forest :
• Implémentation de Scikit-learn
• contamination : proportion de valeurs aberrantes
• n_estimator : nombre d’estimateurs de base dans l’ensemble
• max_samples : nombres d’échantillons à tirer
• concept d’isolation sans mesure de distance ou de densité
Figure – Application de l’algorithme iForest16/09/2019 Détection d’anomalies 19/27eng.smida@gmail.com
25. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
MÉTHODES D’APPRENTISSAGE AUTOMATIQUE
LSTM :
• Implémentation de Keras
• 70% d’entraînement et 30% pour le test
• Score : distance entre la valeur cible et la prédite
Figure – Lstm pour détecter les valeurs aberrantes
16/09/2019 Détection d’anomalies 20/27eng.smida@gmail.com
26. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
ÉVALUATION : COURBE ROC
Jeu de données :
• Sélection de 100 Time series
• différentes variétés de TS
• Éviter les trous de données
Figure – Evaluation iForest : Matrice de confusion et courbe ROC
16/09/2019 Détection d’anomalies 21/27eng.smida@gmail.com
28. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
ÉVALUATION : PyOD
Bibliothèque pour évaluer les algorithmes de détection d’anomalies
Test de 11 algorithmes à la fois sur les données piezométriques
Figure – Comparaisons d’algorithmes avec PyOD
16/09/2019 Détection d’anomalies 23/27eng.smida@gmail.com
29. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
Conclusions & Perspectives
iForest : l’algorithme le plus performant sur les données
piezométriques
Enrichir les données :
• pluviométrie
• température
• quantité d’eau prélevé
Détection d’anomalies : Temps réel
16/09/2019 Détection d’anomalies 24/27eng.smida@gmail.com
30. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
Bilan de l’alternance
Développements sur l’environnement BigData
Collecte de données Entreposage Indexation
Ingestion de données dans la zone brute
du hive
ZONE RAW
Valorisation des données
ZONE REFINED
Indexation
API
Indexation des données
Diffusion
Figure – Chaîne simplifiée de développement des projets Big Data au BRGM
Projets : Hub’eau, Ades, Pic’eau, ZEB2WEB ..
16/09/2019 Détection d’anomalies 25/27eng.smida@gmail.com
31. Références
Fei Tony Liu, Kai Ming Ting and Zhi-Hua Zhou
ISOLATION FOREST
Eighth IEEE International Conference on Data Mining, Pages 413-422,2008
Sahand Hariri, Matias Carrasco Kind, Robert J. Brunner
Extended ISOLATION FOREST
Corell University 2018
Sean J. Taylor, Benjamin Letham
Prophet : Forecasting at Scale
Facebook, Menlo Park, California, United States 2017
Jordan Hochenbaum, Owen S. Vallis, Arun Kejariwal
Automatic Anomaly Detection in the Cloud Via Statistical Learning
Twitter Inc, 2017
16/09/2019 Détection d’anomalies 26/27eng.smida@gmail.com