SlideShare une entreprise Scribd logo
1  sur  19
Télécharger pour lire hors ligne
LES ENJEUX DU BIG DATA
POUR LA MISE EN PLACE
DES SMART-GRIDS
EDF R&D
Marie-Luce Picard
Projet SIGMA²
16 Janvier 2014
| 2
SMART GRIDS SMART METERS SMART DATA
•Partout dans le monde des projets smart-grids voient le jour, motivés par des contraintes
économiques ou régulatoires, ou encore par des besoins environnementaux. Avec le développement
de nouveaux usages comme le véhicule électrique, avec l’augmentation des moyens de production
décentralisée, de nouvelles perspectives apparaissent pour la gestion de l’énergie. Un très grand
nombre de compteurs communicants, et plus généralement de capteurs vont être déployés: ils vont
provoquer un déluge de données auquel les compagnies énergétiques vont devoir faire face.
EDF R&D - SIGMA²
| 3
SMART METERING: A DATA DELUGE!
•En France : 35+ millions de
compteurs intelligents des
milliards d’enregistrements
•Actuellement, un projet pilote a
déployé 300K compteurs
EDF R&D - SIGMA²
| 4
DONNÉES MASSIVES DANS
LE DOMAINE DE L’ ÉNERGIE
Enjeux, challenges:
Plus de complexité dans le systèmeélectrique (production décentralisée,gestion de la
demande ….)
Multiplicationdes acteurs
Push technologique(compteurscommunicants,internetdes objets ….)
Nécessitéd’une bonne traçabilitédes actions
Le managementdes données et les nouvelles technologies vont être au cœurLe managementdes données et les nouvelles technologies vont être au cœur desdes
métiersd’EDFmétiersd’EDF
EDF R&D - SIGMA²
| 5
DONNÉES MASSIVES DANS LE DOMAINE DE
L’ ÉNERGIE
Qu’y a-t-il de nouveau ?
‘Digital utility’ : les systèmesphysiques s’accompagnent de systèmes numériques
(transport,distribution,production),entrée de nouveaux acteurs, processus de
décisionsplus rapides
Nouvellessources de données
Smart-* : données de comptage Linky, données de consommation détaillées,ou
agrégéesà des mailles fines, services, gestion de la demande,
Multiplicationdes simulations
Données issues du web (forums, blogs, tweets, mobiles …), open data
Evolutiondes contraintesrégulatoires
Attentescitoyennes(transparence,services ….)
EDF R&D - SIGMA²
| 6
DONNÉES MASSIVES DANS LE DOMAINE DE
L’ ÉNERGIE
Difficultés ….
(facile)La technologie est là (stockage,certaines analyses …), d’autant que les
volumes à gérer sont importantsmais pas colossaux(~100 To)
Ce qui est moins facile :
D’un point de vue technique :
Stockage et traitementscomplexes de SERIES TEMPORELLES
Intégrationdes données
Mise en œuvre de nombreux traitementssur des flux de données distribués
(~tempsréel, multi-échelle,apprentissageen ligne, scalabilité)
Sécurité et privacy
D’un point de vue ‘culturel’ : culture de la donnée, compétences
… et de nombreuses opportunités ….
De nombreusesopportunités(Energy / Big Data / Open Data)
EDF R&D - SIGMA²
| 7
STOCKAGE ET EXPLOITATION DE COURBES DE
CHARGE
Objectifs: montrerla faisabilité d’un stockagemassif de courbesde charges
renduesdisponiblespour un certain nombre de traitements(plus ou moins
complexes, plus ou moins concurrents,avec une latence variable selon les
besoins)
Données: courbes de charge individuelles,données météo, informationscontractuelles,
données topologieréseau
1 mesure toutesles 10 mn pour 35 millions de clients
Volume annuel : 1800 milliards de lignes, 120 TB de données brutes
“OperationalDataWareHouse”capable de :
Supporter un gros volume de données
Ingérerde nouvelles données (chargement,pré-traitement)
Autoriserdes requêtessimultanées,concurrentes: requêtestactiques,requêtes
analytiques,requêtes ad-hoc (i.e. non prévues, nouvelles)
Critèresd’évaluation: concurrence et performances (QoS, SLA), convergence et agilité
Solutionsenvisagées : VLDB traditionnels,Hadoop
EDF R&D - SIGMA²
CourboGen © pour générer les données
en masse
| 8
POC HADOOP: QUELQUES RÉSULTATS
Toutes les données sont stockéessur HDFS
Pour les données d’une journée: volumes et temps de chargement
Données brutes: 327 Go ; HDFS: 50 Go, Hive/HBase: 25-28 Go
Upload : 3 heures
Les résultatssont globalement satisfaisants; pourcertains types de traitements
on peut presque parler de résultatscompétitifsavec les approchestraditionnelles
Les requêtesunitairestactiques sont gérées par HBase (3 mois de données) : faibles
latences,avec un nombre importantde requêtes concurrentes(~500)
Les requêtesanalytiques sont gérées par Hive (11 mois de données).
La mise en place du système a nécessitéun paramétrage
important(partitionnement,taille des blocs , gestiondes tâches ….)
35M de courbes
1 semaine
EDF R&D - SIGMA²
| 9
STOCKAGE ET EXPLOITATION DE CDC
Visualisation avec Tableau SoftWare
- Projection sur une carte géographique
- Calcul de synchrones par RE (~2 à 3 mn
pour une synchrone quotidienne, pas 10’)
EDF R&D - SIGMA²
| 10
STOCKAGE ET EXPLOITATION DE CDC
EDF R&D - SIGMA²
Validation de la faisabilité de la mise en place d’un entrepôt de données opérationnel
pour le stockage et la mise à disposition des données courbes de chargeissues des
compteurscommunicants
Certaines approches VLDB répondent aux critèresde succès
Lancementd’un projet opérationnel: eRDF a choisi une appliance VLDB pour gérer
l’ensembledes données de mesure
Les résultats obtenus avec Hadoop sont plus qu’honorables (moins bon que les
meilleurs, bien meilleurs que les moins bons), surtout sur les requêtes analytiques
Hadoop peut être considéré comme une brique d’un SI global (approche ‘Total Data’)
Archivage (les données demeurent actives)
Transformationde la donnée (délégation de traitementslourds, tirer parti de la
force brute du parallélisme)
Données non structurées(texte, web)
Expérimentationsen cours (R&D) sur un SI agile
incluant VLDB + Hadoop.
| 11
ANALYSES AVANCÉES
Certainsbesoins métier nécessitent la mise en œuvre d’analyses avancées:
Segmentation,scoring,prévision de consommation,détection d’outliers….
Exploitationdes ‘nouvelles’données (courbes de charge, données non
structurées….), éventuellement volumineuses
Comment et où ?
Utilisation d’algorithmesclassiquesde fouille ou d’apprentissage,et/ou
mise au point des algorithmesspécifiques
Penser méthode et passage à l’échelle
Quand on traite de gros volumes, opter pour la mise en œuvre des
méthodes‘in data-base’
Réflexion sur où placer les données et comment y accéder : VLDB, Hadoop
– Outils de data-miningclassiquesSAS, R … ou ‘toolkits’(RHadoop,
Mahout,…)
Compétences(SQL, SAS, R, …. Hadoop/Java): ‘data-scientist’?
EDF R&D - SIGMA²
| 12
EXEMPLE - FROST (FIRST RELEASE OF TIME-
SERIES TOOLKIT)
FROST est un ensemble de fonctions utilisateurs
définiessous HIVE permettantde manipuler un
grand nombre de séries temporelles(passage à
l’échelle)
FROST.JARFROST.JAR (First Release Of time(First Release Of time SeriesSeries
ToolkitToolkit))
Example :
ADD JAR FROST.JAR;
…
SELECT ID,SAX(POWER,8,3)
FROM BIG.DATA
GROUP BY DAY;
Autres fonctions dans FROST :
PAA : PiecewiseAggregate Approximation
DFT : Discret Fourier Transform
DWT : Discret Wavelet Transform
… et d’autres méthodes « maison » …
SAX principle
(Symbolic AggregateapproXimation)
Recherchede patternsatypiques à partir des courbes
représentéesen SAX EDF R&D - SIGMA²
| 13
EXEMPLE - RECHERCHE DE COURBES
EDF R&D - SIGMA²
Objectif: rechercher des courbesde charge similaires parmi un grand nombrede
séries
Top-Kou range queries basées sur une mesure de similarité
Fenêtes glissantesou sautantes
Fonctions UDF dans Hadoop.
| 14
EXEMPLE - RECHERCHE DE COURBES (2)
EDF R&D - SIGMA²
Données: 35 millions de
courbes,1 mois
Top-5 (ou top-500),
fonctionsUDAF avec des
fenêtressautantes
~4 mn 45s
| 15
EXEMPLE : ANALYSE DE DONNÉES NON
STRUCTURÉES
Analyse de données structuréeset non structuréesavec Hadoop
Motivations:digitalisation de la relation client, vision 360 du client,
sentiment analysis
Analyse de mails, tweets, blogs, forums ….
Mise en place d’un environnement d’analyse de textes basé sur Hadoop
Ingénierie du document
Analyse linguistique(simpliste pour l’instant)
Clustering
Visualisation(graphes interactifs)
Utilise Mahout, Lucene, sigma.js
EDF R&D - SIGMA²
| 16
EXEMPLES - TRAITEMENTS DE DONNÉES A LA VOLÉE
(CEP – REAL-TIME ANALYTICS)
EDF R&D - SIGMA²
Smart Metering
Data Stream
Entrées
Données clients
(par exemple tarif)
Tarifs
statiques / dynamiques
Prévisions Météo
DatainmotionDataatrest
http://storm-project.net/
• Agrégats simples
: ex. synchrone
globale
•Agrégats ventilés
: ex. synchrones
par groupe tarifaire
•Analytics :
ex. scoring par
compteur
•Prévisions :
ex. Prévisions J+1
en Wh et en CA
Sorties
ModèlesGAM réalisés sous R
POC réalisé avec la société OCTO Technology
| 17
CONCLUSION
La donnée,un atout pour les utilities, en particulier pour la mise en place des
smart-grids
Les technologiesBig Data permettent de répondreà de nombreux cas d’usage,
parfois en ruptureavec les processustraditionnels
AppliancesVLDB pour certainsbesoins critiques
Montéeen puissancede Hadoop,brique complémentairedans le SI
permettant d’exploiter et de valoriser l’ensemble des données
Nécessité de mettreen œuvre des analyses à grande échelle (large-scale data
analytics)
Importancedes séries temporelles
On-line machine learning, automatismeet adaptativitédes modèles
(prévision de production et de consommation,gestion de la demande)
EDF R&D - SIGMA²
| 18
RÉFÉRENCES
A proof of concept with Hadoop: storage and analytics of electrical time-series.
Marie-Luce Picard, Bruno Jacquin, Hadoop Summit 2012, Californie, USA, 2012.
présentation : http://www.slideshare.net/Hadoop_Summit/proof-of-concent-with-hadoop
vidéo: http://www.youtube.com/watch?v=mjzblMBvt3Q&feature=plcp
Massive Smart Meter Data Storage and Processing on top of Hadoop.
Leeley D. P. dos Santos, Alzennyr G. da Silva, Bruno Jacquin, Marie-Luce Picard, David Worms,Charles
Bernard. Workshop Big Data 2012, Conférence VLDB (Very Large Data Bases), Istanbul, Turquie, 2012.
http://www.cse.buffalo.edu/faculty/tkosar/bigdata2012/program.php
Smart Metering x Hadoop x Frost: A Smart Elephant Enabling Massive Time Series Analysis.
Benoît Grossin, Marie-Luce Picard, Hadoop Summit Europe 2013, Amsterdam, Mars 2013
http://hadoopsummit.org/amsterdam/
Searching time-series with Hadoop in an electric power company.
Alice Bérard, Georges Hébrail, BigMine Workshop, KDD2013, Chicago, August 2013
http://bigdata-mining.org/
Simulation and forecasting electricity demand at scale
Alexis Bondu, Yannig Goude, Marie-Luce Picard, Pascal Pompey, Mathieu Sinn, European Utility Week,
Amsterdam, October 2013.
http://www.european-utility-week.com/
EDF R&D - SIGMA²
| 19
REMERCIEMENTS
RemerciementsRemerciements-- Travail réalisé avec : Alice Bérard, Alexis Bondu, Charles
Bernard, Leeley Daio-Pires-Dos-Santos, Alzennyr Gomes Da Silva, Yannig Goude,
Benoît Grossin, Georges Hébrail, Bruno Jacquin, Jiannan Liu, Vincent Nicolas,
David Worms
EDF R&D - SIGMA²

Contenu connexe

Tendances

Big Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache HadoopBig Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache Hadoophajlaoui jaleleddine
 
Data mining et data science
Data mining et data scienceData mining et data science
Data mining et data scienceRima Jamli Faidi
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 
Data Science & Big Data, réalités et perspectives.
Data Science & Big Data, réalités et perspectives.Data Science & Big Data, réalités et perspectives.
Data Science & Big Data, réalités et perspectives.Aleph Technologies
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016Julien BLAIZE
 
Big Data : Une Introduction
Big Data : Une IntroductionBig Data : Une Introduction
Big Data : Une IntroductionNicolas OGÉ
 
Big data démystifié td2014
Big data démystifié td2014Big data démystifié td2014
Big data démystifié td2014Romain Casteres
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech
 
Big data fp prez nouv. formation_datascience_15-sept
Big data fp prez nouv. formation_datascience_15-septBig data fp prez nouv. formation_datascience_15-sept
Big data fp prez nouv. formation_datascience_15-septKezhan SHI
 

Tendances (12)

Big Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache HadoopBig Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache Hadoop
 
Data mining et data science
Data mining et data scienceData mining et data science
Data mining et data science
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
Data Science & Big Data, réalités et perspectives.
Data Science & Big Data, réalités et perspectives.Data Science & Big Data, réalités et perspectives.
Data Science & Big Data, réalités et perspectives.
 
Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
 
Big Data : Une Introduction
Big Data : Une IntroductionBig Data : Une Introduction
Big Data : Une Introduction
 
Big data démystifié td2014
Big data démystifié td2014Big data démystifié td2014
Big data démystifié td2014
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
 
lean development
lean developmentlean development
lean development
 
Grille de calule
Grille de caluleGrille de calule
Grille de calule
 
Big data fp prez nouv. formation_datascience_15-sept
Big data fp prez nouv. formation_datascience_15-septBig data fp prez nouv. formation_datascience_15-sept
Big data fp prez nouv. formation_datascience_15-sept
 

En vedette

Gagner le défi de la mixité et de l'égalité professionnelle
Gagner le défi de la mixité et de l'égalité professionnelleGagner le défi de la mixité et de l'égalité professionnelle
Gagner le défi de la mixité et de l'égalité professionnelleJulien Pouget & Associés
 
Edf pdl Présentation de la politique de performance energétique pour les entr...
Edf pdl Présentation de la politique de performance energétique pour les entr...Edf pdl Présentation de la politique de performance energétique pour les entr...
Edf pdl Présentation de la politique de performance energétique pour les entr...Interconsulaire 909
 
La Süreté Nucléaire après Fukushima
La Süreté Nucléaire après FukushimaLa Süreté Nucléaire après Fukushima
La Süreté Nucléaire après FukushimaGuillaume Vaast
 
Etude solutions-itsm-2015
Etude solutions-itsm-2015Etude solutions-itsm-2015
Etude solutions-itsm-2015Renaud BROSSE
 
Mémoire Master I Pauline Duval - La QVT et la conduite du changement
Mémoire Master I  Pauline Duval - La QVT et la conduite du changementMémoire Master I  Pauline Duval - La QVT et la conduite du changement
Mémoire Master I Pauline Duval - La QVT et la conduite du changementPauline DUVAL
 
Mémoire Master 2 Pauline Duval - Conduite du changement et Communication
Mémoire Master 2 Pauline Duval - Conduite du changement et CommunicationMémoire Master 2 Pauline Duval - Conduite du changement et Communication
Mémoire Master 2 Pauline Duval - Conduite du changement et CommunicationPauline DUVAL
 
Rapport de stage complet sur la planification et la gestion budgetaire d'une ...
Rapport de stage complet sur la planification et la gestion budgetaire d'une ...Rapport de stage complet sur la planification et la gestion budgetaire d'une ...
Rapport de stage complet sur la planification et la gestion budgetaire d'une ...proviseur
 
China 2017 OECD Economic Survey More resilient and inclusive growth
China 2017 OECD Economic Survey More resilient and inclusive growthChina 2017 OECD Economic Survey More resilient and inclusive growth
China 2017 OECD Economic Survey More resilient and inclusive growthOECD, Economics Department
 
OECD Economic Survey More resilient and inclusive growth chinese
OECD Economic Survey More resilient and inclusive growth chineseOECD Economic Survey More resilient and inclusive growth chinese
OECD Economic Survey More resilient and inclusive growth chineseOECD, Economics Department
 
Le circuit des cabanes
Le circuit des cabanesLe circuit des cabanes
Le circuit des cabanesmiloo07
 
Ist die Zukunft des Bezahlens wirklich mobil?
Ist die Zukunft des Bezahlens wirklich mobil?Ist die Zukunft des Bezahlens wirklich mobil?
Ist die Zukunft des Bezahlens wirklich mobil?Connected-Blog
 
Guide des expertes 2014 - Booklet
Guide des expertes 2014 - BookletGuide des expertes 2014 - Booklet
Guide des expertes 2014 - Bookletexpertes
 
Trinité dans e.g.white
Trinité dans e.g.whiteTrinité dans e.g.white
Trinité dans e.g.whitenekman
 
Poder publico republicano
Poder publico republicanoPoder publico republicano
Poder publico republicanomariajosepts
 
Paseo museo interactivo mirador
Paseo museo interactivo miradorPaseo museo interactivo mirador
Paseo museo interactivo miradorAnahi_2003
 

En vedette (20)

Gagner le défi de la mixité et de l'égalité professionnelle
Gagner le défi de la mixité et de l'égalité professionnelleGagner le défi de la mixité et de l'égalité professionnelle
Gagner le défi de la mixité et de l'égalité professionnelle
 
Principes et concepts de la sûreté nucléaire
Principes et concepts de la sûreté nucléairePrincipes et concepts de la sûreté nucléaire
Principes et concepts de la sûreté nucléaire
 
Edf sait tout
Edf sait toutEdf sait tout
Edf sait tout
 
Edf pdl Présentation de la politique de performance energétique pour les entr...
Edf pdl Présentation de la politique de performance energétique pour les entr...Edf pdl Présentation de la politique de performance energétique pour les entr...
Edf pdl Présentation de la politique de performance energétique pour les entr...
 
La Süreté Nucléaire après Fukushima
La Süreté Nucléaire après FukushimaLa Süreté Nucléaire après Fukushima
La Süreté Nucléaire après Fukushima
 
Présentation EDF
Présentation EDFPrésentation EDF
Présentation EDF
 
EDF
EDFEDF
EDF
 
Etude solutions-itsm-2015
Etude solutions-itsm-2015Etude solutions-itsm-2015
Etude solutions-itsm-2015
 
Mémoire Master I Pauline Duval - La QVT et la conduite du changement
Mémoire Master I  Pauline Duval - La QVT et la conduite du changementMémoire Master I  Pauline Duval - La QVT et la conduite du changement
Mémoire Master I Pauline Duval - La QVT et la conduite du changement
 
Mémoire Master 2 Pauline Duval - Conduite du changement et Communication
Mémoire Master 2 Pauline Duval - Conduite du changement et CommunicationMémoire Master 2 Pauline Duval - Conduite du changement et Communication
Mémoire Master 2 Pauline Duval - Conduite du changement et Communication
 
Rapport de stage complet sur la planification et la gestion budgetaire d'une ...
Rapport de stage complet sur la planification et la gestion budgetaire d'une ...Rapport de stage complet sur la planification et la gestion budgetaire d'une ...
Rapport de stage complet sur la planification et la gestion budgetaire d'une ...
 
China 2017 OECD Economic Survey More resilient and inclusive growth
China 2017 OECD Economic Survey More resilient and inclusive growthChina 2017 OECD Economic Survey More resilient and inclusive growth
China 2017 OECD Economic Survey More resilient and inclusive growth
 
OECD Economic Survey More resilient and inclusive growth chinese
OECD Economic Survey More resilient and inclusive growth chineseOECD Economic Survey More resilient and inclusive growth chinese
OECD Economic Survey More resilient and inclusive growth chinese
 
Le circuit des cabanes
Le circuit des cabanesLe circuit des cabanes
Le circuit des cabanes
 
Ist die Zukunft des Bezahlens wirklich mobil?
Ist die Zukunft des Bezahlens wirklich mobil?Ist die Zukunft des Bezahlens wirklich mobil?
Ist die Zukunft des Bezahlens wirklich mobil?
 
Guide des expertes 2014 - Booklet
Guide des expertes 2014 - BookletGuide des expertes 2014 - Booklet
Guide des expertes 2014 - Booklet
 
Trinité dans e.g.white
Trinité dans e.g.whiteTrinité dans e.g.white
Trinité dans e.g.white
 
Poder publico republicano
Poder publico republicanoPoder publico republicano
Poder publico republicano
 
RSS
RSSRSS
RSS
 
Paseo museo interactivo mirador
Paseo museo interactivo miradorPaseo museo interactivo mirador
Paseo museo interactivo mirador
 

Similaire à Vision et poc EDFsur les enjeux big data

Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...OCTO Technology
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungenGalsungen
 
Matinale Technologique SAS
Matinale Technologique SASMatinale Technologique SAS
Matinale Technologique SASSoft Computing
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data ScienceAshraf Grioute
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
IT Customer Solution Architect
IT Customer Solution ArchitectIT Customer Solution Architect
IT Customer Solution ArchitecticVatant
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft
 
Qu'est ce que le Cloud computing ?
Qu'est ce que le Cloud computing ?Qu'est ce que le Cloud computing ?
Qu'est ce que le Cloud computing ?Olivier Schmitt
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
La Data Virtualization par Orano : cas d'usage à la Hague et démo de Denodo
La Data Virtualization par Orano : cas d'usage à la Hague et démo de DenodoLa Data Virtualization par Orano : cas d'usage à la Hague et démo de Denodo
La Data Virtualization par Orano : cas d'usage à la Hague et démo de DenodoDenodo
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec IntelRévolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec IntelMicrosoft Décideurs IT
 
Presentation BMIA
Presentation BMIAPresentation BMIA
Presentation BMIAPMarsaud
 
Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinPALO IT
 
2009-02-12 GRE302 - Développement d'applications vertes
2009-02-12 GRE302 - Développement d'applications vertes2009-02-12 GRE302 - Développement d'applications vertes
2009-02-12 GRE302 - Développement d'applications vertesPatrick Guimonet
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologyImad ALILAT
 

Similaire à Vision et poc EDFsur les enjeux big data (20)

Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
 
Hug janvier 2016 -EDF
Hug   janvier 2016 -EDFHug   janvier 2016 -EDF
Hug janvier 2016 -EDF
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
 
Matinale Technologique SAS
Matinale Technologique SASMatinale Technologique SAS
Matinale Technologique SAS
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data Science
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
IT Customer Solution Architect
IT Customer Solution ArchitectIT Customer Solution Architect
IT Customer Solution Architect
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
 
Qu'est ce que le Cloud computing ?
Qu'est ce que le Cloud computing ?Qu'est ce que le Cloud computing ?
Qu'est ce que le Cloud computing ?
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
La Data Virtualization par Orano : cas d'usage à la Hague et démo de Denodo
La Data Virtualization par Orano : cas d'usage à la Hague et démo de DenodoLa Data Virtualization par Orano : cas d'usage à la Hague et démo de Denodo
La Data Virtualization par Orano : cas d'usage à la Hague et démo de Denodo
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec IntelRévolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
 
Presentation BMIA
Presentation BMIAPresentation BMIA
Presentation BMIA
 
Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foin
 
2009-02-12 GRE302 - Développement d'applications vertes
2009-02-12 GRE302 - Développement d'applications vertes2009-02-12 GRE302 - Développement d'applications vertes
2009-02-12 GRE302 - Développement d'applications vertes
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data Technology
 

Plus de Bruno Patin

Présentation de CapitalExpertise2050
Présentation de CapitalExpertise2050Présentation de CapitalExpertise2050
Présentation de CapitalExpertise2050Bruno Patin
 
CapitalExpertise2050
CapitalExpertise2050CapitalExpertise2050
CapitalExpertise2050Bruno Patin
 
Big data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiersBig data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiersBruno Patin
 
Modèle de business plan
Modèle de business planModèle de business plan
Modèle de business planBruno Patin
 
Reseauxsociaux20132014
Reseauxsociaux20132014Reseauxsociaux20132014
Reseauxsociaux20132014Bruno Patin
 

Plus de Bruno Patin (6)

Solutions RFID
Solutions RFID Solutions RFID
Solutions RFID
 
Présentation de CapitalExpertise2050
Présentation de CapitalExpertise2050Présentation de CapitalExpertise2050
Présentation de CapitalExpertise2050
 
CapitalExpertise2050
CapitalExpertise2050CapitalExpertise2050
CapitalExpertise2050
 
Big data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiersBig data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiers
 
Modèle de business plan
Modèle de business planModèle de business plan
Modèle de business plan
 
Reseauxsociaux20132014
Reseauxsociaux20132014Reseauxsociaux20132014
Reseauxsociaux20132014
 

Vision et poc EDFsur les enjeux big data

  • 1. LES ENJEUX DU BIG DATA POUR LA MISE EN PLACE DES SMART-GRIDS EDF R&D Marie-Luce Picard Projet SIGMA² 16 Janvier 2014
  • 2. | 2 SMART GRIDS SMART METERS SMART DATA •Partout dans le monde des projets smart-grids voient le jour, motivés par des contraintes économiques ou régulatoires, ou encore par des besoins environnementaux. Avec le développement de nouveaux usages comme le véhicule électrique, avec l’augmentation des moyens de production décentralisée, de nouvelles perspectives apparaissent pour la gestion de l’énergie. Un très grand nombre de compteurs communicants, et plus généralement de capteurs vont être déployés: ils vont provoquer un déluge de données auquel les compagnies énergétiques vont devoir faire face. EDF R&D - SIGMA²
  • 3. | 3 SMART METERING: A DATA DELUGE! •En France : 35+ millions de compteurs intelligents des milliards d’enregistrements •Actuellement, un projet pilote a déployé 300K compteurs EDF R&D - SIGMA²
  • 4. | 4 DONNÉES MASSIVES DANS LE DOMAINE DE L’ ÉNERGIE Enjeux, challenges: Plus de complexité dans le systèmeélectrique (production décentralisée,gestion de la demande ….) Multiplicationdes acteurs Push technologique(compteurscommunicants,internetdes objets ….) Nécessitéd’une bonne traçabilitédes actions Le managementdes données et les nouvelles technologies vont être au cœurLe managementdes données et les nouvelles technologies vont être au cœur desdes métiersd’EDFmétiersd’EDF EDF R&D - SIGMA²
  • 5. | 5 DONNÉES MASSIVES DANS LE DOMAINE DE L’ ÉNERGIE Qu’y a-t-il de nouveau ? ‘Digital utility’ : les systèmesphysiques s’accompagnent de systèmes numériques (transport,distribution,production),entrée de nouveaux acteurs, processus de décisionsplus rapides Nouvellessources de données Smart-* : données de comptage Linky, données de consommation détaillées,ou agrégéesà des mailles fines, services, gestion de la demande, Multiplicationdes simulations Données issues du web (forums, blogs, tweets, mobiles …), open data Evolutiondes contraintesrégulatoires Attentescitoyennes(transparence,services ….) EDF R&D - SIGMA²
  • 6. | 6 DONNÉES MASSIVES DANS LE DOMAINE DE L’ ÉNERGIE Difficultés …. (facile)La technologie est là (stockage,certaines analyses …), d’autant que les volumes à gérer sont importantsmais pas colossaux(~100 To) Ce qui est moins facile : D’un point de vue technique : Stockage et traitementscomplexes de SERIES TEMPORELLES Intégrationdes données Mise en œuvre de nombreux traitementssur des flux de données distribués (~tempsréel, multi-échelle,apprentissageen ligne, scalabilité) Sécurité et privacy D’un point de vue ‘culturel’ : culture de la donnée, compétences … et de nombreuses opportunités …. De nombreusesopportunités(Energy / Big Data / Open Data) EDF R&D - SIGMA²
  • 7. | 7 STOCKAGE ET EXPLOITATION DE COURBES DE CHARGE Objectifs: montrerla faisabilité d’un stockagemassif de courbesde charges renduesdisponiblespour un certain nombre de traitements(plus ou moins complexes, plus ou moins concurrents,avec une latence variable selon les besoins) Données: courbes de charge individuelles,données météo, informationscontractuelles, données topologieréseau 1 mesure toutesles 10 mn pour 35 millions de clients Volume annuel : 1800 milliards de lignes, 120 TB de données brutes “OperationalDataWareHouse”capable de : Supporter un gros volume de données Ingérerde nouvelles données (chargement,pré-traitement) Autoriserdes requêtessimultanées,concurrentes: requêtestactiques,requêtes analytiques,requêtes ad-hoc (i.e. non prévues, nouvelles) Critèresd’évaluation: concurrence et performances (QoS, SLA), convergence et agilité Solutionsenvisagées : VLDB traditionnels,Hadoop EDF R&D - SIGMA² CourboGen © pour générer les données en masse
  • 8. | 8 POC HADOOP: QUELQUES RÉSULTATS Toutes les données sont stockéessur HDFS Pour les données d’une journée: volumes et temps de chargement Données brutes: 327 Go ; HDFS: 50 Go, Hive/HBase: 25-28 Go Upload : 3 heures Les résultatssont globalement satisfaisants; pourcertains types de traitements on peut presque parler de résultatscompétitifsavec les approchestraditionnelles Les requêtesunitairestactiques sont gérées par HBase (3 mois de données) : faibles latences,avec un nombre importantde requêtes concurrentes(~500) Les requêtesanalytiques sont gérées par Hive (11 mois de données). La mise en place du système a nécessitéun paramétrage important(partitionnement,taille des blocs , gestiondes tâches ….) 35M de courbes 1 semaine EDF R&D - SIGMA²
  • 9. | 9 STOCKAGE ET EXPLOITATION DE CDC Visualisation avec Tableau SoftWare - Projection sur une carte géographique - Calcul de synchrones par RE (~2 à 3 mn pour une synchrone quotidienne, pas 10’) EDF R&D - SIGMA²
  • 10. | 10 STOCKAGE ET EXPLOITATION DE CDC EDF R&D - SIGMA² Validation de la faisabilité de la mise en place d’un entrepôt de données opérationnel pour le stockage et la mise à disposition des données courbes de chargeissues des compteurscommunicants Certaines approches VLDB répondent aux critèresde succès Lancementd’un projet opérationnel: eRDF a choisi une appliance VLDB pour gérer l’ensembledes données de mesure Les résultats obtenus avec Hadoop sont plus qu’honorables (moins bon que les meilleurs, bien meilleurs que les moins bons), surtout sur les requêtes analytiques Hadoop peut être considéré comme une brique d’un SI global (approche ‘Total Data’) Archivage (les données demeurent actives) Transformationde la donnée (délégation de traitementslourds, tirer parti de la force brute du parallélisme) Données non structurées(texte, web) Expérimentationsen cours (R&D) sur un SI agile incluant VLDB + Hadoop.
  • 11. | 11 ANALYSES AVANCÉES Certainsbesoins métier nécessitent la mise en œuvre d’analyses avancées: Segmentation,scoring,prévision de consommation,détection d’outliers…. Exploitationdes ‘nouvelles’données (courbes de charge, données non structurées….), éventuellement volumineuses Comment et où ? Utilisation d’algorithmesclassiquesde fouille ou d’apprentissage,et/ou mise au point des algorithmesspécifiques Penser méthode et passage à l’échelle Quand on traite de gros volumes, opter pour la mise en œuvre des méthodes‘in data-base’ Réflexion sur où placer les données et comment y accéder : VLDB, Hadoop – Outils de data-miningclassiquesSAS, R … ou ‘toolkits’(RHadoop, Mahout,…) Compétences(SQL, SAS, R, …. Hadoop/Java): ‘data-scientist’? EDF R&D - SIGMA²
  • 12. | 12 EXEMPLE - FROST (FIRST RELEASE OF TIME- SERIES TOOLKIT) FROST est un ensemble de fonctions utilisateurs définiessous HIVE permettantde manipuler un grand nombre de séries temporelles(passage à l’échelle) FROST.JARFROST.JAR (First Release Of time(First Release Of time SeriesSeries ToolkitToolkit)) Example : ADD JAR FROST.JAR; … SELECT ID,SAX(POWER,8,3) FROM BIG.DATA GROUP BY DAY; Autres fonctions dans FROST : PAA : PiecewiseAggregate Approximation DFT : Discret Fourier Transform DWT : Discret Wavelet Transform … et d’autres méthodes « maison » … SAX principle (Symbolic AggregateapproXimation) Recherchede patternsatypiques à partir des courbes représentéesen SAX EDF R&D - SIGMA²
  • 13. | 13 EXEMPLE - RECHERCHE DE COURBES EDF R&D - SIGMA² Objectif: rechercher des courbesde charge similaires parmi un grand nombrede séries Top-Kou range queries basées sur une mesure de similarité Fenêtes glissantesou sautantes Fonctions UDF dans Hadoop.
  • 14. | 14 EXEMPLE - RECHERCHE DE COURBES (2) EDF R&D - SIGMA² Données: 35 millions de courbes,1 mois Top-5 (ou top-500), fonctionsUDAF avec des fenêtressautantes ~4 mn 45s
  • 15. | 15 EXEMPLE : ANALYSE DE DONNÉES NON STRUCTURÉES Analyse de données structuréeset non structuréesavec Hadoop Motivations:digitalisation de la relation client, vision 360 du client, sentiment analysis Analyse de mails, tweets, blogs, forums …. Mise en place d’un environnement d’analyse de textes basé sur Hadoop Ingénierie du document Analyse linguistique(simpliste pour l’instant) Clustering Visualisation(graphes interactifs) Utilise Mahout, Lucene, sigma.js EDF R&D - SIGMA²
  • 16. | 16 EXEMPLES - TRAITEMENTS DE DONNÉES A LA VOLÉE (CEP – REAL-TIME ANALYTICS) EDF R&D - SIGMA² Smart Metering Data Stream Entrées Données clients (par exemple tarif) Tarifs statiques / dynamiques Prévisions Météo DatainmotionDataatrest http://storm-project.net/ • Agrégats simples : ex. synchrone globale •Agrégats ventilés : ex. synchrones par groupe tarifaire •Analytics : ex. scoring par compteur •Prévisions : ex. Prévisions J+1 en Wh et en CA Sorties ModèlesGAM réalisés sous R POC réalisé avec la société OCTO Technology
  • 17. | 17 CONCLUSION La donnée,un atout pour les utilities, en particulier pour la mise en place des smart-grids Les technologiesBig Data permettent de répondreà de nombreux cas d’usage, parfois en ruptureavec les processustraditionnels AppliancesVLDB pour certainsbesoins critiques Montéeen puissancede Hadoop,brique complémentairedans le SI permettant d’exploiter et de valoriser l’ensemble des données Nécessité de mettreen œuvre des analyses à grande échelle (large-scale data analytics) Importancedes séries temporelles On-line machine learning, automatismeet adaptativitédes modèles (prévision de production et de consommation,gestion de la demande) EDF R&D - SIGMA²
  • 18. | 18 RÉFÉRENCES A proof of concept with Hadoop: storage and analytics of electrical time-series. Marie-Luce Picard, Bruno Jacquin, Hadoop Summit 2012, Californie, USA, 2012. présentation : http://www.slideshare.net/Hadoop_Summit/proof-of-concent-with-hadoop vidéo: http://www.youtube.com/watch?v=mjzblMBvt3Q&feature=plcp Massive Smart Meter Data Storage and Processing on top of Hadoop. Leeley D. P. dos Santos, Alzennyr G. da Silva, Bruno Jacquin, Marie-Luce Picard, David Worms,Charles Bernard. Workshop Big Data 2012, Conférence VLDB (Very Large Data Bases), Istanbul, Turquie, 2012. http://www.cse.buffalo.edu/faculty/tkosar/bigdata2012/program.php Smart Metering x Hadoop x Frost: A Smart Elephant Enabling Massive Time Series Analysis. Benoît Grossin, Marie-Luce Picard, Hadoop Summit Europe 2013, Amsterdam, Mars 2013 http://hadoopsummit.org/amsterdam/ Searching time-series with Hadoop in an electric power company. Alice Bérard, Georges Hébrail, BigMine Workshop, KDD2013, Chicago, August 2013 http://bigdata-mining.org/ Simulation and forecasting electricity demand at scale Alexis Bondu, Yannig Goude, Marie-Luce Picard, Pascal Pompey, Mathieu Sinn, European Utility Week, Amsterdam, October 2013. http://www.european-utility-week.com/ EDF R&D - SIGMA²
  • 19. | 19 REMERCIEMENTS RemerciementsRemerciements-- Travail réalisé avec : Alice Bérard, Alexis Bondu, Charles Bernard, Leeley Daio-Pires-Dos-Santos, Alzennyr Gomes Da Silva, Yannig Goude, Benoît Grossin, Georges Hébrail, Bruno Jacquin, Jiannan Liu, Vincent Nicolas, David Worms EDF R&D - SIGMA²