SlideShare une entreprise Scribd logo
1  sur  32
Télécharger pour lire hors ligne
Master 2
Big Data et fouille de données
Université Paris 8 Vincennes-Saint Denis
République Française
DÉTECTION D’ANOMALIES DANS LES SÉRIES TEMPORELLES
DES DONNÉES PIEZOMÉTRIQUES
Mahdi SMIDA
Sous la direction de: M.Vincent LABBE & M.Boubaker DAACHI
PLAN DE LA PRÉSENTATION
1 Introduction
2 Problématiques
3 État de l’art
4 Éxpériences & Résultats
5 Conclusions
16/09/2019 Détection d’anomalies 2/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
INTRODUCTION GÉNÉRALE
Anomalie = valeur aberrante = "outlier"
Tâche indispensable en fouille de données.
Divers domaines d’applications
Domaine d’intérêt : l’hydrogéologie.
cœur des verrous technologiques
Progression de l’acquisition des données ⇒ Besoin d’avoir des
traitements plus pertinent et de qualité.
16/09/2019 Détection d’anomalies 3/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
ENTREPRISE D’ACCUEIL
BRGM : Bureau de Recherches Géologiques et Minières
EPIC crée en 1959
70% des salariés : des chercheurs et des ingénieurs
16/09/2019 Détection d’anomalies 4/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
LES DONNÉES
Système d’acquisition : un capteur piézomètre, une station
et un modem
Figure – Station d’acquisition des données piézomètriques
Fréquence d’acquisition : journalière
Environ 5000 points d’eau en France
16/09/2019 Détection d’anomalies 5/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
LES DONNÉES
API piezo du projet Hub’eau. (https://hubeau.eaufrance.fr/)
Figure – Structure des données de mesures piezométriques
16/09/2019 Détection d’anomalies 6/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
ENJEUX & GOUVERNANCE
EAUX SOUTERRAINES :
• Alimentation des milieux aquatiques et les cours d’eau
• Eau potable, industrie et irrigation
ALERTES :
• Garantir l’alimentation en eau potable
• Préserver la biodiversité
FAUSSES ALERTES :
• Impact sur l’économie locale
• Impacter le refroidissement des centrales nucléaire
16/09/2019 Détection d’anomalies 7/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
EXEMPLES D’ANOMALIES ET D’ALERTES
Les pics :une surexploitation, rechargement inhabituel de la nappe
ou une valeur aberrante ...
Figure – Pics dans une série temporelle piezométrique
16/09/2019 Détection d’anomalies 8/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
EXEMPLES D’ANOMALIES ET D’ALERTES
Changement de comportement : sécheresse, inondation ..
Figure – Changement de comportement dans une série temporelle piezométrique
16/09/2019 Détection d’anomalies 9/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
EXEMPLES D’ANOMALIES ET D’ALERTES
Dérives :
Figure – Dérive dans une série temporelle piezométrique
16/09/2019 Détection d’anomalies 10/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
MÉTHODES ÉTUDIÉES
Méthodes statistiques :
• "Sigma Rule"
• L’autoregression (AR)
• La moyenne mobile (MA)
• Le modèle ARMA
Méthodes d’apprentissage automatique :
• Isolation Forest et Extended Isolation Forest
• LSTM-AD
16/09/2019 Détection d’anomalies 11/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
EXEMPLE D’ALGORITHME : ISOLATION FOREST
Algorithme de foret, non supervisée
publiée en 2008 par Liu et al (la conférence IEEE international
conference on Data Mining en Italie)
Hypothèse : Les anomalies sont rares.
16/09/2019 Détection d’anomalies 12/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
EXEMPLE D’ALGORITHME : ISOLATION FOREST
Algorithme de foret, non supervisée
publiée en 2008 par Liu et al (la conférence IEEE international
conference on Data Mining en Italie)
Hypothèse : Les anomalies sont rares.
16/09/2019 Détection d’anomalies 12/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
EXEMPLE D’ALGORITHME : ISOLATION FOREST
Algorithme de foret, non supervisée
publiée en 2008 par Liu et al (la conférence IEEE international
conference on Data Mining en Italie)
Hypothèse : Les anomalies sont rares.
16/09/2019 Détection d’anomalies 12/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
EXEMPLE D’ALGORITHME : ISOLATION FOREST
Algorithme de foret, non supervisée
publiée en 2008 par Liu et al (la conférence IEEE international
conference on Data Mining en Italie)
Hypothèse : Les anomalies sont rares.
16/09/2019 Détection d’anomalies 12/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
EXEMPLE D’ALGORITHME : ISOLATION FOREST
16/09/2019 Détection d’anomalies 13/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
EXEMPLE D’ALGORITHME : ISOLATION FOREST
16/09/2019 Détection d’anomalies 13/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
MÉTHODES STATISTIQUES
La Règle N-SIGMA classique :
Figure – Règle 3-SIGMA valide
16/09/2019 Détection d’anomalies 14/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
MÉTHODES STATISTIQUES
La Règle N-SIGMA classique :
Figure – Règle 3-SIGMA non valide
16/09/2019 Détection d’anomalies 14/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
MÉTHODES STATISTIQUES
La Règle N-SIGMA basée sur la moyenne mobile :
Figure – Règle N-SIGMA basée sur la moyenne mobile
16/09/2019 Détection d’anomalies 15/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
MÉTHODES STATISTIQUES
Prophet - bibliothèque Facebook qui se base sur :
• Effet de saisonnalité
• Série de Fourier, pour un modèle flexible
Figure – Application de Prophet
16/09/2019 Détection d’anomalies 16/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
MÉTHODES STATISTIQUES
Les points forts de Prophet :
• Simple et Robuste
• N’est pas sensible aux données manquantes
• Détecte les décalages (point de changement)
Figure – Détection d’anomalies de décalage avec Prophet
16/09/2019 Détection d’anomalies 17/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
MÉTHODES STATISTIQUES
AnomalyDetection - bibliothèque Twitter :
• Une approximation par morceaux
• Autres métriques statistiques ( médiane...)
• Inconvénient : temps d’exécution
Figure – Détection d’anomalies avec AnomalyDetection
16/09/2019 Détection d’anomalies 18/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
MÉTHODES D’APPRENTISSAGE AUTOMATIQUE
Isolation Forest :
• Implémentation de Scikit-learn
• contamination : proportion de valeurs aberrantes
• n_estimator : nombre d’estimateurs de base dans l’ensemble
• max_samples : nombres d’échantillons à tirer
• concept d’isolation sans mesure de distance ou de densité
Figure – Application de l’algorithme iForest16/09/2019 Détection d’anomalies 19/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
MÉTHODES D’APPRENTISSAGE AUTOMATIQUE
LSTM :
• Implémentation de Keras
• 70% d’entraînement et 30% pour le test
• Score : distance entre la valeur cible et la prédite
Figure – Lstm pour détecter les valeurs aberrantes
16/09/2019 Détection d’anomalies 20/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
ÉVALUATION : COURBE ROC
Jeu de données :
• Sélection de 100 Time series
• différentes variétés de TS
• Éviter les trous de données
Figure – Evaluation iForest : Matrice de confusion et courbe ROC
16/09/2019 Détection d’anomalies 21/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
ÉVALUATION : AUC
Algorithme AUC
Prophet 0.60
Moyenne mobile 0.65
Isolation Forest(.007) 0.67
Isolation Forest(.003) 0.75
16/09/2019 Détection d’anomalies 22/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
ÉVALUATION : PyOD
Bibliothèque pour évaluer les algorithmes de détection d’anomalies
Test de 11 algorithmes à la fois sur les données piezométriques
Figure – Comparaisons d’algorithmes avec PyOD
16/09/2019 Détection d’anomalies 23/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
Conclusions & Perspectives
iForest : l’algorithme le plus performant sur les données
piezométriques
Enrichir les données :
• pluviométrie
• température
• quantité d’eau prélevé
Détection d’anomalies : Temps réel
16/09/2019 Détection d’anomalies 24/27eng.smida@gmail.com
Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions
Bilan de l’alternance
Développements sur l’environnement BigData
Collecte de données Entreposage Indexation
Ingestion de données dans la zone brute
du hive
ZONE RAW
Valorisation des données
ZONE REFINED
Indexation
API
Indexation des données 
Diffusion
Figure – Chaîne simplifiée de développement des projets Big Data au BRGM
Projets : Hub’eau, Ades, Pic’eau, ZEB2WEB ..
16/09/2019 Détection d’anomalies 25/27eng.smida@gmail.com
Références
Fei Tony Liu, Kai Ming Ting and Zhi-Hua Zhou
ISOLATION FOREST
Eighth IEEE International Conference on Data Mining, Pages 413-422,2008
Sahand Hariri, Matias Carrasco Kind, Robert J. Brunner
Extended ISOLATION FOREST
Corell University 2018
Sean J. Taylor, Benjamin Letham
Prophet : Forecasting at Scale
Facebook, Menlo Park, California, United States 2017
Jordan Hochenbaum, Owen S. Vallis, Arun Kejariwal
Automatic Anomaly Detection in the Cloud Via Statistical Learning
Twitter Inc, 2017
16/09/2019 Détection d’anomalies 26/27eng.smida@gmail.com
MERCI DE VOTRE ATTENTION

Contenu connexe

En vedette

Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

En vedette (20)

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 

Présentation Master 2 BIG DATA

  • 1. Master 2 Big Data et fouille de données Université Paris 8 Vincennes-Saint Denis République Française DÉTECTION D’ANOMALIES DANS LES SÉRIES TEMPORELLES DES DONNÉES PIEZOMÉTRIQUES Mahdi SMIDA Sous la direction de: M.Vincent LABBE & M.Boubaker DAACHI
  • 2. PLAN DE LA PRÉSENTATION 1 Introduction 2 Problématiques 3 État de l’art 4 Éxpériences & Résultats 5 Conclusions 16/09/2019 Détection d’anomalies 2/27eng.smida@gmail.com
  • 3. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions INTRODUCTION GÉNÉRALE Anomalie = valeur aberrante = "outlier" Tâche indispensable en fouille de données. Divers domaines d’applications Domaine d’intérêt : l’hydrogéologie. cœur des verrous technologiques Progression de l’acquisition des données ⇒ Besoin d’avoir des traitements plus pertinent et de qualité. 16/09/2019 Détection d’anomalies 3/27eng.smida@gmail.com
  • 4. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions ENTREPRISE D’ACCUEIL BRGM : Bureau de Recherches Géologiques et Minières EPIC crée en 1959 70% des salariés : des chercheurs et des ingénieurs 16/09/2019 Détection d’anomalies 4/27eng.smida@gmail.com
  • 5. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions LES DONNÉES Système d’acquisition : un capteur piézomètre, une station et un modem Figure – Station d’acquisition des données piézomètriques Fréquence d’acquisition : journalière Environ 5000 points d’eau en France 16/09/2019 Détection d’anomalies 5/27eng.smida@gmail.com
  • 6. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions LES DONNÉES API piezo du projet Hub’eau. (https://hubeau.eaufrance.fr/) Figure – Structure des données de mesures piezométriques 16/09/2019 Détection d’anomalies 6/27eng.smida@gmail.com
  • 7. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions ENJEUX & GOUVERNANCE EAUX SOUTERRAINES : • Alimentation des milieux aquatiques et les cours d’eau • Eau potable, industrie et irrigation ALERTES : • Garantir l’alimentation en eau potable • Préserver la biodiversité FAUSSES ALERTES : • Impact sur l’économie locale • Impacter le refroidissement des centrales nucléaire 16/09/2019 Détection d’anomalies 7/27eng.smida@gmail.com
  • 8. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions EXEMPLES D’ANOMALIES ET D’ALERTES Les pics :une surexploitation, rechargement inhabituel de la nappe ou une valeur aberrante ... Figure – Pics dans une série temporelle piezométrique 16/09/2019 Détection d’anomalies 8/27eng.smida@gmail.com
  • 9. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions EXEMPLES D’ANOMALIES ET D’ALERTES Changement de comportement : sécheresse, inondation .. Figure – Changement de comportement dans une série temporelle piezométrique 16/09/2019 Détection d’anomalies 9/27eng.smida@gmail.com
  • 10. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions EXEMPLES D’ANOMALIES ET D’ALERTES Dérives : Figure – Dérive dans une série temporelle piezométrique 16/09/2019 Détection d’anomalies 10/27eng.smida@gmail.com
  • 11. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions MÉTHODES ÉTUDIÉES Méthodes statistiques : • "Sigma Rule" • L’autoregression (AR) • La moyenne mobile (MA) • Le modèle ARMA Méthodes d’apprentissage automatique : • Isolation Forest et Extended Isolation Forest • LSTM-AD 16/09/2019 Détection d’anomalies 11/27eng.smida@gmail.com
  • 12. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions EXEMPLE D’ALGORITHME : ISOLATION FOREST Algorithme de foret, non supervisée publiée en 2008 par Liu et al (la conférence IEEE international conference on Data Mining en Italie) Hypothèse : Les anomalies sont rares. 16/09/2019 Détection d’anomalies 12/27eng.smida@gmail.com
  • 13. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions EXEMPLE D’ALGORITHME : ISOLATION FOREST Algorithme de foret, non supervisée publiée en 2008 par Liu et al (la conférence IEEE international conference on Data Mining en Italie) Hypothèse : Les anomalies sont rares. 16/09/2019 Détection d’anomalies 12/27eng.smida@gmail.com
  • 14. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions EXEMPLE D’ALGORITHME : ISOLATION FOREST Algorithme de foret, non supervisée publiée en 2008 par Liu et al (la conférence IEEE international conference on Data Mining en Italie) Hypothèse : Les anomalies sont rares. 16/09/2019 Détection d’anomalies 12/27eng.smida@gmail.com
  • 15. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions EXEMPLE D’ALGORITHME : ISOLATION FOREST Algorithme de foret, non supervisée publiée en 2008 par Liu et al (la conférence IEEE international conference on Data Mining en Italie) Hypothèse : Les anomalies sont rares. 16/09/2019 Détection d’anomalies 12/27eng.smida@gmail.com
  • 16. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions EXEMPLE D’ALGORITHME : ISOLATION FOREST 16/09/2019 Détection d’anomalies 13/27eng.smida@gmail.com
  • 17. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions EXEMPLE D’ALGORITHME : ISOLATION FOREST 16/09/2019 Détection d’anomalies 13/27eng.smida@gmail.com
  • 18. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions MÉTHODES STATISTIQUES La Règle N-SIGMA classique : Figure – Règle 3-SIGMA valide 16/09/2019 Détection d’anomalies 14/27eng.smida@gmail.com
  • 19. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions MÉTHODES STATISTIQUES La Règle N-SIGMA classique : Figure – Règle 3-SIGMA non valide 16/09/2019 Détection d’anomalies 14/27eng.smida@gmail.com
  • 20. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions MÉTHODES STATISTIQUES La Règle N-SIGMA basée sur la moyenne mobile : Figure – Règle N-SIGMA basée sur la moyenne mobile 16/09/2019 Détection d’anomalies 15/27eng.smida@gmail.com
  • 21. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions MÉTHODES STATISTIQUES Prophet - bibliothèque Facebook qui se base sur : • Effet de saisonnalité • Série de Fourier, pour un modèle flexible Figure – Application de Prophet 16/09/2019 Détection d’anomalies 16/27eng.smida@gmail.com
  • 22. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions MÉTHODES STATISTIQUES Les points forts de Prophet : • Simple et Robuste • N’est pas sensible aux données manquantes • Détecte les décalages (point de changement) Figure – Détection d’anomalies de décalage avec Prophet 16/09/2019 Détection d’anomalies 17/27eng.smida@gmail.com
  • 23. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions MÉTHODES STATISTIQUES AnomalyDetection - bibliothèque Twitter : • Une approximation par morceaux • Autres métriques statistiques ( médiane...) • Inconvénient : temps d’exécution Figure – Détection d’anomalies avec AnomalyDetection 16/09/2019 Détection d’anomalies 18/27eng.smida@gmail.com
  • 24. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions MÉTHODES D’APPRENTISSAGE AUTOMATIQUE Isolation Forest : • Implémentation de Scikit-learn • contamination : proportion de valeurs aberrantes • n_estimator : nombre d’estimateurs de base dans l’ensemble • max_samples : nombres d’échantillons à tirer • concept d’isolation sans mesure de distance ou de densité Figure – Application de l’algorithme iForest16/09/2019 Détection d’anomalies 19/27eng.smida@gmail.com
  • 25. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions MÉTHODES D’APPRENTISSAGE AUTOMATIQUE LSTM : • Implémentation de Keras • 70% d’entraînement et 30% pour le test • Score : distance entre la valeur cible et la prédite Figure – Lstm pour détecter les valeurs aberrantes 16/09/2019 Détection d’anomalies 20/27eng.smida@gmail.com
  • 26. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions ÉVALUATION : COURBE ROC Jeu de données : • Sélection de 100 Time series • différentes variétés de TS • Éviter les trous de données Figure – Evaluation iForest : Matrice de confusion et courbe ROC 16/09/2019 Détection d’anomalies 21/27eng.smida@gmail.com
  • 27. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions ÉVALUATION : AUC Algorithme AUC Prophet 0.60 Moyenne mobile 0.65 Isolation Forest(.007) 0.67 Isolation Forest(.003) 0.75 16/09/2019 Détection d’anomalies 22/27eng.smida@gmail.com
  • 28. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions ÉVALUATION : PyOD Bibliothèque pour évaluer les algorithmes de détection d’anomalies Test de 11 algorithmes à la fois sur les données piezométriques Figure – Comparaisons d’algorithmes avec PyOD 16/09/2019 Détection d’anomalies 23/27eng.smida@gmail.com
  • 29. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions Conclusions & Perspectives iForest : l’algorithme le plus performant sur les données piezométriques Enrichir les données : • pluviométrie • température • quantité d’eau prélevé Détection d’anomalies : Temps réel 16/09/2019 Détection d’anomalies 24/27eng.smida@gmail.com
  • 30. Introduction Problématiques État de l’art Éxpériences & Résultats Conclusions Bilan de l’alternance Développements sur l’environnement BigData Collecte de données Entreposage Indexation Ingestion de données dans la zone brute du hive ZONE RAW Valorisation des données ZONE REFINED Indexation API Indexation des données  Diffusion Figure – Chaîne simplifiée de développement des projets Big Data au BRGM Projets : Hub’eau, Ades, Pic’eau, ZEB2WEB .. 16/09/2019 Détection d’anomalies 25/27eng.smida@gmail.com
  • 31. Références Fei Tony Liu, Kai Ming Ting and Zhi-Hua Zhou ISOLATION FOREST Eighth IEEE International Conference on Data Mining, Pages 413-422,2008 Sahand Hariri, Matias Carrasco Kind, Robert J. Brunner Extended ISOLATION FOREST Corell University 2018 Sean J. Taylor, Benjamin Letham Prophet : Forecasting at Scale Facebook, Menlo Park, California, United States 2017 Jordan Hochenbaum, Owen S. Vallis, Arun Kejariwal Automatic Anomaly Detection in the Cloud Via Statistical Learning Twitter Inc, 2017 16/09/2019 Détection d’anomalies 26/27eng.smida@gmail.com
  • 32. MERCI DE VOTRE ATTENTION