SlideShare une entreprise Scribd logo
1  sur  69
Calculez vos indicateurs en temps réel
En partenariat avec EDF R&D

1
© OCTO 2013
OCTO et le Big Data
Une offre cohérente entre technologie et analyse prédictive

DIRECTION SI
CONSEIL EN SI BIG DATA
 Etude et positionnement des solutions
en fonction de votre contexte
 Transformation de SI Décisionnel vers le
Big Data
 Cadrage de projets Big Data

ARCHITECTURE DES SYSTÈMES BIG DATA
 POC sur Hadoop et NoSQL
 Conception et réalisation de systèmes
sous Hadoop et NoSQL
 Formation Hadoop

2
© OCTO 2013

DIRECTION MÉTIER
CONSEIL EN ANALYSE DE DONNÉES AVANCÉES
 Benchmarks de projets Big Data par
secteur
 Formation des équipes de datamining
aux techniques Big Data
 Accompagnent des projets pilote
métiers

COLLECTE DE DONNÉES EXTERNES
 Identification de sources de données
 Collecte et traitements de données non
structurées
 Recherche de corrélations économiques
L’équipe OCTO Big Data Analytics
Une équipe dédiée, composée de
Experts et architectes sur les clusters de stockage et de calcul
Statisticiens et consultants en machine learning

Une R&D spécifique sur Hadoop, NoSQL et le machine learning
Des relations très approfondies avec les équipes R&D de nos
partenaires
Hortonworks
MapR
Cloudera
10Gen Mongodb
Datastax Cassandra

3
© OCTO 2013
Intervenants
Julien CABOT
Directeur Big Data Analytics
OCTO
jcabot@octo.com
Marie-Luce PICARD
Chef de projet
EDF R&D
marie-luce.picard@edf.fr

Benoît Grossin
Ingénieur Chercheur
EDF R&D
benoit.grossin@edf.fr

4
© OCTO 2013

Rémy SAISSY
Architecte
OCTO
rsaissy@octo.com
Agenda
Etat des lieux du Big Data
Les enjeux du Big Data chez EDF par EDF R&D
Questions/réponses
Retour d’expérience sur une expérimentation d’analyse
d’indicateurs en temps réel avec Storm chez EDF R&D
Questions/réponses
Bilan

5
© OCTO 2013
Etat des lieux du Big Data

6
© OCTO 2013
Big Data, une écosystème multiple

WEB
Google, Amazon,
Facebook, Twitter,
…

Management
McKinsey, BC
G, Deloitte, …

Logiciel IT
IBM, Teradata,
Vmware, EMC,
…

Un concept devenant une réalité pour les entreprises
françaises
7
© OCTO 2013
Projets Big Data en 2013-2014
Le Data mining sur signaux forts et faibles
Données exogènes
Données issues des infrastructures de production

Le dépassement du « mur capacitaire » des
appliances décisionnelles
Stocker plus pour un coût significativement inférieur
Banalisation des technologies de calculs

8
© OCTO 2013
Big Data, un univers technologique pour construire
des systèmes à haute performance
Au-delà de 10 To en ligne, les
architectures « classiques »
nécessitent des adaptations
logiques et matérielles très
importantes.

Application
orientée Flux
évènementiel

Event Stream
Processing

Au-delà de 1 000
évènements/seconde, les
architectures « classiques »
nécessitent des adaptations
logiques et matérielles très
importantes.

9
© OCTO 2013

Application orientée Au-delà de 1 000
transactions/seconde, les
Stockage
architectures « classiques » des
Stockage
adaptations logiques et
distribué
matérielles très importantes
Share
nothing

Univers
« standard »
SGBDR,
Serveur d’application,
ETL, ESB

Programmation
parallèle
Application
orientée Calculs

XTP

Application orientée
Transaction

Au-delà de 10 threads/Core
CPU, la programmation
séquentielle classique atteint
ses limites (IO).
Types de solutions
Application orientée
Stockage

Parrallel database
Stream Processing
Base de données
Application
orientée Flux
évènementiel

Application orientée
Transaction

NoSQL
NewSQL
Hadoop

Application orientée
Calculs

10
© OCTO 2013

Grid Computing
GPU
Une limite commune aux
systèmes informatique!
La racine commune à toutes ces limites est le
« throughput » des I/O

11
© OCTO 2013
Le problème : le gain en débit des
disques est très en retard par
rapport à leur capacité
70
Seagate
Barracuda
7200.10

64 MB/s
60

Gain : x100 000

Débit (MB/s)

50

40

Gain : < x100
seulement !

Seagate
Barracuda
ATA IV

30

Gain : x91
20
IBM DTTA
35010

10

0,7 MB/s
0
1991

1990
12
© OCTO 2013

1996

1998

2001

2006
Stratégies pour dépasser les
limites du troughput
Architecture InMemory

Architecture en grille

• Réduire la latence en utilisant
des supports plus rapide
(DRAM, SSD)

• Paralléliser les accès IO en
divisant les volumes (sharding)

• Bénéficier de l’évolution des
capacités des composants
• La limite structurelle n’est pas
que déplacée
• Pour évoluer, l’architecture doit
devenir une grille InMemory

• Bénéficier du différentiel de
coût entre commodity
hardware et haut de gamme
• Le réseau de la grille devient
un composant
principal, nécessitant colocalisation des données et
des traitements
• Permet de scaler à l’infini, c’est
le Warehouse scale
computing!

13
© OCTO 2013
Familles de solutions d’analyse en
streaming
Complex Event
Processing
•
•
•
•

Solution dédiée au stream
processing
Pas de capacité de
stockage
Architecture orientée
serveur
Options de streaming

Streaming Grid

In Memory

•
•
•
•

Base de données In Memory
Event triggers
Partitionnement
Le temps comme une
dimension d’analyse

HANA

•
•
•
•

Grille de traitement In memory
Event triggers, pub/sub
Share nothing sharding
Le Temps comme une partie de la
clef

STORM
STREAMS

14
© OCTO 2013
LES ENJEUX DU BIG DATA À
EDF, LE POINT DE VUE
D’EDF R&D
SMART GRIDS SMART METERS  SMART DATA

Partout dans le monde des projets smart-grids voient le jour, motivés par des contraintes
économiques ou régulatoires, ou encore par des besoins environnementaux. Avec le développement
de nouveaux usages comme le véhicule électrique, avec l’augmentation des moyens de production
décentralisée, de nouvelles perspectives apparaissent pour la gestion de l’énergie. Un très grand
nombre de compteurs communicants, et plus généralement de capteurs vont être déployés: ils vont
| 16
provoquer un déluge de données auquel les compagnies énergétiques vont devoir faire face.
•
SMART METERING: UN DELUGE DE DONNEES

En France : 35+ millions de
compteurs intelligents  des
milliards d’enregistrements
Actuellement, un projet pilote a
déployé 300K compteurs
•

•

| 17
DONNÉES MASSIVES DANS
LE DOMAINE DE L’ ÉNERGIE
 Enjeux, challenges:
 Plus de complexité dans le système électrique (production décentralisée, gestion de la
demande ….)
 Multiplication des acteurs
 Push technologique (compteurs communicants, internet des objets ….)
 Nécessité d’une bonne traçabilité des actions
 Le management des données et les nouvelles technologies vont être au cœur des
métiers d’EDF

EDF R&D SIGMA² | 18
DONNÉES MASSIVES DANS LE DOMAINE DE
L’ ÉNERGIE
 Qu’y a-t-il de nouveau ?
 Nouvelles sources de données (données de comptage, données de consommation
détaillées, services, données web, open data, …)
 ‘Digital utility’ : les systèmes physiques s’accompagnent de systèmes numériques
(transport, distribution, production), nouveaux acteurs, process de décisions plus
rapides

 Difficultés et opportunités
 (facile) La technologie est là
 (difficile) Savoir quoi faire de la donnée?
Intégration des données ; Sécurité et
privacy; Culture de la donnée; Compétences;
comment encourager l’innovation ?
 Opportunités: voir “Utility AMI analytics
for the smart grid”

•
| 19
DONNÉES MASSIVES DANS LE DOMAINE DE
L’ ÉNERGIE
 Un volume très important de données
à gérer (smart
meters, capteurs, …), mais les
volumes ne sont pourtant pas si gros
 Des traitements complexes :
 Séries temporelles

 Données distribuées, analyses
multi-échelles, niveaux local et
global (analytics, optimisation)
 Temps réel

Demain
Decision
support

Integrated
communication

AMI / smart metering

Aujourd’hui

| 20
PROJET DE RECHERCHE À EDF R&D : SIGMA²
Objectifs :
 Maîtriser les techniques associées au Big Data, assurer veille/anticipation, développer
des méthodes innovantes
 Poursuivre et renforcer la diffusion et l’intégration de ces approches au sein de
l’entreprise
• Ces objectifs passent par la réalisation de prototypes, d’études de faisabilité, d’expérimentations en réponse à
des problématiques métiers

EDF R&D SIGMA² | 21
POC STORM : ENJEUX POUR EDF R&D
Le « Proof Of Concept » (POC) Storm s’inscrit pleinement dans les objectifs de
SIGMA² , notamment la maîtrise des technologies Big Data en lien avec le
contexte EDF présent ou à venir
Les solutions Stream Processing / CEP déjà maitrisées :
StreamBase (TIBCO) et InfoSphere Streams (IBM)

Objectifs du POC :
Mieux connaître Storm et le positionner par rapport aux outils déjà maitrisés
Juger de la capacité de Storm à répondre à un scénario riche de « traitements
EDF » à la volée sur des données en provenance de compteurs communicants :
couverture fonctionnelle ? Capacité à absorber le flux ?

EDF R&D SIGMA² | 22
POC STORM : SCHEMA FONCTIONNEL GLOBAL
Data in motion

Entrées

Smart Metering
Data Stream

Sorties
• Agrégats simples
: ex. synchrone
globale

http://storm-project.net/ •Agrégats ventilés
: ex. synchrones
par groupe tarifaire

Data at rest

Prévisions Météo

Tarifs
statiques / dynamiques

•Analytics :
ex. scoring par
compteur
•Prévisions :
ex. Prévisions J+1
en Wh et en CA

Données clients
(par exemple tarif)
EDF R&D - SIGMA - FROST | 23
Focus sur 3 points clefs
Sorties
1
Smart Metering
Data Stream

DATA

• Agrégats simples
: ex. synchrone
globale

10
5
0
1
229
457
685
913
1141
1369
1597
1825
2053
2281
2509
2737
2965
3193
3421
3649
3877
4105

Data in motion

Entrées

Prévisions Météo

Data at rest

ANALYTICS

Tarifs
statiques / dynamiques

FORECASTING

•Agrégats ventilés
: ex. synchrones
par groupe tarifaire

2

•Analytics :
ex. scoring par
compteur

3

•Prévisions :
ex. Prévisions J+1
en Wh et en CA

Données clients
(par exemple tarif)
EDF R&D - SIGMA - FROST | 24
1- DATA : SIMULER MASSIVEMENT ET FIDELEMENT LES
COURBES DE CONSOMMATION ELECTIQUE
 Utilisation d’un générateur / simulateur de courbes de charges
électrique, développé par EDF R&D

Consommations
individuelles
réelles

Consommations
individuelles
simulées

Modèle
génératif
Apprentissage

Utilisations possibles :

Simulation •

CARACTERISTIQUE DU GENERATEUR :
•Conserver la diversité des comportements individuels
•Reproduire des courbes ayant une volatilité comparable aux courbes
réelles
•Conserver le comportement global de l’agrégation des courbes
individuelles
• sans paramètres utilisateurs
•Simuler rapidement de gros volumes de données

•

Tester des outils
informatiques et des
méthodes statistiques
Echanger des
données simulées

EDF R&D - SIGMA - FROST | 25
1 - DATA : EXEMPLES DE COURBES INDIVIDUELLES
GENEREES

 Performance du processus de génération :


Code JAVA



CPU 2 GHz (Xenon E5405)



360.000 tuples / seconde / CPU



1 CPU = 18 x plus rapide que le temps réel
(35 M de compteurs, au pas demi-horaire)

| 26
2 – ANALYTICS : TRAVAILLER SUR DES SERIES
TEMPORELLES SIMPLIFIEES
Les Séries temporellessont des données de forte
dimentionnalité, difficile à exploiter dans un contexte
Big Data
Notre approche ici :
SIMPLIFIER l’objet « Courbe de Charge » pour faciliter
sa manipulation et son analyse, surtout quand on
travaille avec plusieurs millions de séries temporelles
SAX : Passer d’une série de mesures à un mot plus
compact
Ensuite, nous utilisons cette forme plus simple pour
« scorer » chaque courbe selon que la forme de la
courbe est plus ou moins commun dans l’ensemble de
la population

Principe de la transformée SAX
EDF R&D - SIGMA - FROST | 27
3 – FORECASTING : LES MODELES GAM
GAM = Generalized Additive Model

Modèles étudiés depuis 2006 à EDF R&D (Dépt. OSIRIS) et à EDF depuis quelques
années
Utilisés sur de nombreux signaux : consommation Electrique au niveau agrégé et niveau
local, consommation de Gaz, …
Structure très générique:


Fonction de transferts linéaires ou non-linéaires



Effets mono ou multi-varies

Littérature scientifique sur le sujet: Hastie and Tibshirani (1986), Hastie and Tibshirani
(1990), plus récemment Wood (2006)

EDF R&D - SIGMA - FROST | 28
3 – FORECASTING : EXEMPLE DE MODÈLE GAM

•

Le Département OSIRIS utilise R pour la modélisation GAM
EDF R&D - SIGMA - FROST | 29
Questions / Réponses

30
© OCTO 2013
Retour d’expérience sur une
expérimentation d’analyse
d’indicateurs en temps réel avec
Storm chez EDF R&D

31
© OCTO 2013
Sommaire
Contexte
Présentation de Storm
Déroulement du projet
Méthodologie de travail
Choix de l’architecture
Déploiement de Storm
Fonctionnalités implémentées
Spécificités et limites d’une implémentation Storm
Tests de performances

Bilan

32
© OCTO 2013
Contexte

33
© OCTO 2013
Contexte
Durée : 3 mois, entre Juillet et Septembre 2013
Client : Le projet SIGMA² de EDF R&D
Sujet :
Etude du positionnement des solutions CEP dans un contexte Hadoop
Performance et la scalabilité de Twitter Storm

Equipe : 3 OCTOs

Traitements à réaliser :
Agrégats en temps réel par dimension géographique, tarifaire sur la base des attributs attachés aux
courbes de charges
Scoring en temps réel, basé sur des règles en partie définies à l’avance et en partie évolutives
Prévisions de charge basées sur des fonctions R développées par EDF R&D

Développement d’une interface de restitution

34
© OCTO 2013
Contexte
Les moyens logiciels et humains fournis par EDF R&D
Des moyens humains en support
2 experts système & réseaux
2 experts métiers pour le scoring et le modèle de prédiction R
L’auteur du générateur de relevés de consommation

Du logiciel fourni
Un générateur réaliste de relevés de consommation
Des modèles de prédictions fixes et adaptatifs ainsi que des codes source en R
les exploitant
Des CSV contenant des données de références
Jointures groupe tarifaire / compteur
Données météo

Des codes sources d’exemple
D’utilisation du générateur de relevés de consommation
D’implémentation de SAX

35
© OCTO 2013
Contexte
Caractéristiques du cluster

8 serveurs « commodity »
2 noeuds maître
CPU : AMD Opteron Processor 6128
Mémoire : 64Go
Réseau : 1Gb/s

6 noeuds de traitement
CPU : AMD Opteron Processor 6128
Mémoire : 32Go
Réseau : 1Gb/s

Autres caractéristiques
co-localisation sur le même rack
Livrés installés avec une distribution CentOS 64bits
Accès réseau limité en dehors du centre R&D
Accès total de l’équipe sur le cluster

36
© OCTO 2013
Présentation de Storm

37
© OCTO 2013
Présentation de Storm

Storm est une solution de traitement de données orientée flux
Caractérisques principales de Storm
Garantie de traitement des données
Scalabilité horizontale
Tolérance aux pannes et transactionnalité
Pas d’intermédiaire
Abstraction plus haut niveau que le message passing
Robustesse

Traitement de Flux
38
© OCTO 2013

RPC Distribués

Calcul en continu
Présentation de Storm
Concepts de Storm

39
© OCTO 2013
Présentation de Storm
Trident

Abstraction transactionnelle sur les bolts et les spouts
Traitement par mini-batchs de N tuples
Garantie de traitement ordonné des mini batchs
Facilite les calculs d’agrégation

40
© OCTO 2013
Déroulement du projet

41
© OCTO 2013
Méthodologie de travail
Une méthodologie itérative

Pourquoi ?
Peu de temps pour tout réaliser
3 sujets dans le projet

Comment ?

Notre storyboard

Equipe Co-localisée
Backlog priorisé
Réunion d’avancement et démo hebdomadaire

Notre lieu de débats

42
© OCTO 2013
Méthodologie de travail
Un projet varié

Backlog : 60% des tâches réalisées
55 identifiées, 33 priorisées et réalisées

43
© OCTO 2013
Choix de l’architecture
DataFlow fonctionnel

DONNÉES

• Relevés de
compteurs EDF
(générateur)
• 48 points de
mesures en KWh
par jour et par
compteur

• 6 millions de
compteurs
• Les compteurs
sont segmentés par
groupe tarifaire

44
© OCTO 2013

ACQUISITION ET
TRAITEMENT

Calcul de métriques en
continu, par jour et par
groupe tarifaire :
• Moyenne de
consommation
• CA
• Prévision pour les
métriques précédentes
à J+1
• Scoring typicité des
courbes compressées
par SAX

REQUETAGE

• Vues pré calculées
par agrégat
disponibles au
requêtage

• Agrégation des
vues en agrégats
plus grands
• Affichage en
tableaux de bords
(courbes,
histogrammes)
Choix de l’architecture
Architecture technique
Interface de
Suivi de restitution
Questionne la topologie
à la demande (DRPC)

Utilisateurs

Calculs
d’agrégats

Calcul
de scores

Calcul de
Prévisions

TridentState

TridentState

TridentState

Tables de
référence

Topologie de
calcul Storm

Générateur
42,63…2,0…24…1,0484,…

45
© OCTO 2013

Envoi du stream
aux différents
TridentStates

Les données générées sont
• regroupées par compteur et
par jour (tuple)
• ajoutées sur une liste Redis

Récupère des
mini batchs

Stockée sur
chaque serveur
en CSV

Spout

A intervalle régulier, les
Spouts lisent entre 500 et
10000 tuples chacun de
la liste Redis
Déploiement de Storm
Composants installés

Storm
Nimbus
DRPC
UI
Supervisor(s)
Zookeeper

Support
Redis
Tomcat
Outils de dev : nexus, gitolite

46
© OCTO 2013
Déploiement de Storm
Vue physique du cluster

Rack
1Gb/s intra rack

Nœud maître
•

•

Storm
•
Nimbus
•
UI
•
Drpc
Tomcat

Nœud maître
•
•
•

Storm
supervisor
Redis
Zookeeper

Nœuds de traitement
• Storm supervisor

47
© OCTO 2013

Réseau 10Gb/s

Développeurs
et
Utilisateurs
Fonctionnalités implémentées
3 traitements à implémenter

Calcul d’agrégats de consommation journalière
par groupe tarifaire et national

Calcul des scores du degré de typicité des consommations
Par compteur et par jour

Calcul des prévisions J+1 de consommation
par groupe tarifaire et national
Sur chaque agrégat disponible

48
© OCTO 2013
Fonctionnalités implémentées
Calculs d’agrégats

49
© OCTO 2013
Fonctionnalités implémentées
Calculs de scores de normalité des relevés

50
© OCTO 2013
Fonctionnalités implémentées
Calculs de prévisions pré-calibrées

51
© OCTO 2013
Fonctionnalités implémentées
Calculs de prévisions adaptatives

52
© OCTO 2013
Fonctionnalités implémentées
Interface de restitution des moyennes de consommation avec prévision

53
© OCTO 2013
Fonctionnalités implémentées
Interface de restitution du nombre de métriques collectées

54
© OCTO 2013
Spécificités d’une implémentation sur Storm
Implémentation de calculs sous une forme distribuée

La nature distribuée de Storm rend parfois des algorithmes
relativement « simples » difficiles à implémenter :
Les streams imposent de calculer de manière incrémentale
Trident, la couche transactionnelle de Storm impose primitives
particulières

Spécificités d’utilisation de R avec jRI

55
© OCTO 2013
Limites constatées de l’implémentation sur Storm
L’interface de Storm fourni les métriques de latence mais…
D’autres composants entre en jeu (Zookeeper, Redis, …)
Cela rend la mesure de performance globale et fiable
(traitements + comportement du cluster) difficile

56
© OCTO 2013
Tests de performances
Source de données

Une journée / compteur
48 relevés de consommation par compteur et par jour + identifiant compteur
300 octets de taille moyenne

Jeux de données pré-générés
Consommation de 1 million de compteurs sur 2 jours
Consommation de 6 millions de compteurs sur 2 jours

57
© OCTO 2013
Tests de performances
Performances en lecture de Redis

413 850 journées / compteur / seconde
19 864 800 relevés / seconde
En terme réseau : 120Mo / seconde (max 125Mo/s)
A titre de comparaison, un macbook pro SSD 16Go DDR3 obtient :
791 565 journées / compteur / seconde soit une augmentation de 47%

58
© OCTO 2013
Tests de performances
Calculs d’agrégats

4m5s pour traiter 576 millions de relevés
1,98 million de relevés / seconde
Les machines n’étaient pas surchargées : charge CPU < 50%

Nombre de relevés
émis

Temps de traitement

59
© OCTO 2013
Tests de performances
Calculs de scores de normalité des relevés
5m27s pour traiter 180 millions de relevés
550 458 relevés / seconde

Nombre de
relevés émis

Temps de
traitement

60
© OCTO 2013
Tests de performances
Calculs de prévisions pré-calibrées

4m23s pour traiter 576 millions de relevés
2,19 millions de relevés / seconde
Les machines du cluster n’étaient pas surchargées : charge CPU < 50%

Nombre de
relevés émis

Temps de
traitement

61
© OCTO 2013
Tests de performances
Calculs de prévisions adaptatives
6m41s pour traiter 576 millions de relevés
1,43 million de relevés / seconde
Les machines du cluster n’étaient pas surchargées : charge CPU < 50%

Nombre de
relevés émis

Temps de
traitement

62
© OCTO 2013
Questions / Réponses

63
© OCTO 2013
Conclusion

64
© OCTO 2013
Bilan
Sur Storm

Points positifs
Traitement de gros volumes au fil de l’eau
Prévisions en quasi temps réel avec R
Facile à mettre en œuvre, à configurer
Polyvalent
Jeune, pourtant bien documenté et stable

Points à creuser
Mesure de performances
Reprise sur erreur de traitements
Intégration dans Hadoop

65
© OCTO 2013
Bilan
Storm dans une perspective industrielle

Hadoop est adapté en traitements batchs mais mauvais en
temps réel
Storm est adapté en temps réel mais n’a pas de couche de
stockage de big data

66
© OCTO 2013
BILAN POC STORM PAR EDF R&D

Points positifs :
 Solution crédible, qui couvre le spectre fonctionnel du scénario proposé
Coût , renforcé par l’intégration de Storm dans Hadoop (HDP Q1 2014)
Points négatifs :
Nécessité de s’investir dans un nouvel outil, avec sa logique et sa syntaxe
NB : trident offre cependant un niveau d’abstraction intéressant
Manque d’un studio de développement (cf. Streambase)
Ex : visualiser le graphe de traitements
Suite envisagée :
Prototype STORM d’un système d’estimation temps-réel des volumes
d’effacements électrique
•

EDF R&D SIGMA² | 67
Remerciements
L’équipe côté EDF
Alexis BONDU – Ingénieur chercheur, auteur du générateur
Bruno JACQUIN – Ingénieur chercheur
Charles BERNARD – Consultant IT
Leely DAIO PIRES DOS SANTOS – Ingénieur chercheur
Yannig GOUDE – Expert prévision

L’équipe côté OCTO
Simon MABY – Consultant
Cyrille MAILLEY - Consultant

68
© OCTO 2013
Merci

69
© OCTO 2013

Contenu connexe

Tendances

Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech
 
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIPrésentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIHaShem Selmi
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012datasio
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusCHAKER ALLAOUI
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Jean-Pierre Riehl
 
Le Big Data transforme en profondeur le monde de la Banque et de l’Assurance
Le Big Data transforme en profondeur le monde de la Banque et de l’AssuranceLe Big Data transforme en profondeur le monde de la Banque et de l’Assurance
Le Big Data transforme en profondeur le monde de la Banque et de l’AssuranceAbdessatar Hammedi
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesSAS FRANCE
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech
 
Présentation PFE Hachem Selmi et Ahmed Dridi Big data
Présentation PFE Hachem Selmi et Ahmed Dridi Big data Présentation PFE Hachem Selmi et Ahmed Dridi Big data
Présentation PFE Hachem Selmi et Ahmed Dridi Big data HaShem Selmi
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesOCTO Technology Suisse
 
Présentation Big Data DFCG
Présentation Big Data DFCGPrésentation Big Data DFCG
Présentation Big Data DFCGMicropole Group
 
Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big dataRomain Jouin
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computingsenejug
 

Tendances (20)

Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
 
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIPrésentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processus
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
 
Le Big Data transforme en profondeur le monde de la Banque et de l’Assurance
Le Big Data transforme en profondeur le monde de la Banque et de l’AssuranceLe Big Data transforme en profondeur le monde de la Banque et de l’Assurance
Le Big Data transforme en profondeur le monde de la Banque et de l’Assurance
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usages
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
 
Présentation PFE Hachem Selmi et Ahmed Dridi Big data
Présentation PFE Hachem Selmi et Ahmed Dridi Big data Présentation PFE Hachem Selmi et Ahmed Dridi Big data
Présentation PFE Hachem Selmi et Ahmed Dridi Big data
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
 
I love BIG DATA
I love BIG DATAI love BIG DATA
I love BIG DATA
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Afterwork hadoop
Afterwork hadoopAfterwork hadoop
Afterwork hadoop
 
Présentation Big Data DFCG
Présentation Big Data DFCGPrésentation Big Data DFCG
Présentation Big Data DFCG
 
Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big data
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computing
 

En vedette

Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014Ippon
 
Paris stormusergroup intrudocution
Paris stormusergroup intrudocutionParis stormusergroup intrudocution
Paris stormusergroup intrudocutionParis_Storm_UG
 
Apache Storm - Introduction au traitement temps-réel avec Storm
Apache Storm - Introduction au traitement temps-réel avec StormApache Storm - Introduction au traitement temps-réel avec Storm
Apache Storm - Introduction au traitement temps-réel avec StormParis_Storm_UG
 
Big Data Paris 2015 - Cassandra chez Chronopost
Big Data Paris 2015 - Cassandra chez ChronopostBig Data Paris 2015 - Cassandra chez Chronopost
Big Data Paris 2015 - Cassandra chez ChronopostAlexander DEJANOVSKI
 
PaaS Emerging Technologies - October 2015
PaaS Emerging Technologies - October 2015PaaS Emerging Technologies - October 2015
PaaS Emerging Technologies - October 2015Krishna-Kumar
 
Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...Ippon
 
Requêtes multi-critères avec Cassandra
Requêtes multi-critères avec CassandraRequêtes multi-critères avec Cassandra
Requêtes multi-critères avec CassandraJulien Dubois
 
Analyser sa maison à l’aide de Apache Storm (Big Data en Temps Réel)
Analyser sa maison à l’aide de Apache Storm (Big Data en Temps Réel)Analyser sa maison à l’aide de Apache Storm (Big Data en Temps Réel)
Analyser sa maison à l’aide de Apache Storm (Big Data en Temps Réel)Microsoft Décideurs IT
 
Devoxx france 2014 compteurs de perf
Devoxx france 2014 compteurs de perfDevoxx france 2014 compteurs de perf
Devoxx france 2014 compteurs de perfJean-Philippe BEMPEL
 
HDFS HA : Stockage à haute disponibilité par Damien Hardy
HDFS HA : Stockage à haute disponibilité par Damien HardyHDFS HA : Stockage à haute disponibilité par Damien Hardy
HDFS HA : Stockage à haute disponibilité par Damien HardyOlivier DASINI
 
Maven c'est bien, SBT c'est mieux
Maven c'est bien, SBT c'est mieuxMaven c'est bien, SBT c'est mieux
Maven c'est bien, SBT c'est mieuxFabrice Sznajderman
 
How static analysis supports quality over 50 million lines of C++ code
How static analysis supports quality over 50 million lines of C++ codeHow static analysis supports quality over 50 million lines of C++ code
How static analysis supports quality over 50 million lines of C++ codecppfrug
 
Introduction à Scala - Michel Schinz - January 2010
Introduction à Scala - Michel Schinz - January 2010Introduction à Scala - Michel Schinz - January 2010
Introduction à Scala - Michel Schinz - January 2010JUG Lausanne
 
3 Depliant Ot Saint Malo Intra Muros
3 Depliant Ot Saint Malo Intra Muros3 Depliant Ot Saint Malo Intra Muros
3 Depliant Ot Saint Malo Intra Murosguestac44d4
 

En vedette (20)

Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
 
Paris stormusergroup intrudocution
Paris stormusergroup intrudocutionParis stormusergroup intrudocution
Paris stormusergroup intrudocution
 
Apache Storm - Introduction au traitement temps-réel avec Storm
Apache Storm - Introduction au traitement temps-réel avec StormApache Storm - Introduction au traitement temps-réel avec Storm
Apache Storm - Introduction au traitement temps-réel avec Storm
 
Big Data Paris 2015 - Cassandra chez Chronopost
Big Data Paris 2015 - Cassandra chez ChronopostBig Data Paris 2015 - Cassandra chez Chronopost
Big Data Paris 2015 - Cassandra chez Chronopost
 
PaaS Emerging Technologies - October 2015
PaaS Emerging Technologies - October 2015PaaS Emerging Technologies - October 2015
PaaS Emerging Technologies - October 2015
 
Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...
 
Requêtes multi-critères avec Cassandra
Requêtes multi-critères avec CassandraRequêtes multi-critères avec Cassandra
Requêtes multi-critères avec Cassandra
 
Analyser sa maison à l’aide de Apache Storm (Big Data en Temps Réel)
Analyser sa maison à l’aide de Apache Storm (Big Data en Temps Réel)Analyser sa maison à l’aide de Apache Storm (Big Data en Temps Réel)
Analyser sa maison à l’aide de Apache Storm (Big Data en Temps Réel)
 
Devoxx france 2014 compteurs de perf
Devoxx france 2014 compteurs de perfDevoxx france 2014 compteurs de perf
Devoxx france 2014 compteurs de perf
 
HDFS HA : Stockage à haute disponibilité par Damien Hardy
HDFS HA : Stockage à haute disponibilité par Damien HardyHDFS HA : Stockage à haute disponibilité par Damien Hardy
HDFS HA : Stockage à haute disponibilité par Damien Hardy
 
Maven c'est bien, SBT c'est mieux
Maven c'est bien, SBT c'est mieuxMaven c'est bien, SBT c'est mieux
Maven c'est bien, SBT c'est mieux
 
Universitélang scala tools
Universitélang scala toolsUniversitélang scala tools
Universitélang scala tools
 
Les monades Scala, Java 8
Les monades Scala, Java 8Les monades Scala, Java 8
Les monades Scala, Java 8
 
Université des langages scala
Université des langages   scalaUniversité des langages   scala
Université des langages scala
 
Scala Intro
Scala IntroScala Intro
Scala Intro
 
Lagom, reactive framework
Lagom, reactive frameworkLagom, reactive framework
Lagom, reactive framework
 
How static analysis supports quality over 50 million lines of C++ code
How static analysis supports quality over 50 million lines of C++ codeHow static analysis supports quality over 50 million lines of C++ code
How static analysis supports quality over 50 million lines of C++ code
 
Introduction à Scala - Michel Schinz - January 2010
Introduction à Scala - Michel Schinz - January 2010Introduction à Scala - Michel Schinz - January 2010
Introduction à Scala - Michel Schinz - January 2010
 
Avignon
AvignonAvignon
Avignon
 
3 Depliant Ot Saint Malo Intra Muros
3 Depliant Ot Saint Malo Intra Muros3 Depliant Ot Saint Malo Intra Muros
3 Depliant Ot Saint Malo Intra Muros
 

Similaire à Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel avec storm

Vision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataVision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataBruno Patin
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
Programme 2009 Opération Datacenters
Programme 2009 Opération DatacentersProgramme 2009 Opération Datacenters
Programme 2009 Opération Datacentersregionalpartner56
 
Qu'est ce que le Cloud computing ?
Qu'est ce que le Cloud computing ?Qu'est ce que le Cloud computing ?
Qu'est ce que le Cloud computing ?Olivier Schmitt
 
Edge Datacenters : préparez-vous à un monde où tout devient intelligent
Edge Datacenters : préparez-vous à un monde où tout devient intelligentEdge Datacenters : préparez-vous à un monde où tout devient intelligent
Edge Datacenters : préparez-vous à un monde où tout devient intelligentJoanna Kempa
 
Virtualisation? Convergence? Cloud? Soyons pragmatique
Virtualisation? Convergence? Cloud? Soyons pragmatique Virtualisation? Convergence? Cloud? Soyons pragmatique
Virtualisation? Convergence? Cloud? Soyons pragmatique Microsoft Ideas
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Télérelevé multifluides : Eau Gas Chaleur Elec - Conférence distributeurs mu...
Télérelevé multifluides : Eau Gas Chaleur Elec - Conférence distributeurs mu...Télérelevé multifluides : Eau Gas Chaleur Elec - Conférence distributeurs mu...
Télérelevé multifluides : Eau Gas Chaleur Elec - Conférence distributeurs mu...Benoit Cliche
 
La Data Virtualization par Orano : cas d'usage à la Hague et démo de Denodo
La Data Virtualization par Orano : cas d'usage à la Hague et démo de DenodoLa Data Virtualization par Orano : cas d'usage à la Hague et démo de Denodo
La Data Virtualization par Orano : cas d'usage à la Hague et démo de DenodoDenodo
 
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationRéinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationDenodo
 
Simalaya - IoT - enjeux, impacts et facteurs clés de succès
Simalaya - IoT - enjeux, impacts et facteurs clés de succès Simalaya - IoT - enjeux, impacts et facteurs clés de succès
Simalaya - IoT - enjeux, impacts et facteurs clés de succès Simalaya SA
 
Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec IntelRévolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec IntelMicrosoft Décideurs IT
 
MiXiT - Numérique responsable, ouvrons le capot des fournisseurs Cloud
MiXiT - Numérique responsable, ouvrons le capot des fournisseurs CloudMiXiT - Numérique responsable, ouvrons le capot des fournisseurs Cloud
MiXiT - Numérique responsable, ouvrons le capot des fournisseurs CloudClément DUFFAU
 
Iot tunisia forum 2017 le duo gagnant io t et big data un véritable levier de...
Iot tunisia forum 2017 le duo gagnant io t et big data un véritable levier de...Iot tunisia forum 2017 le duo gagnant io t et big data un véritable levier de...
Iot tunisia forum 2017 le duo gagnant io t et big data un véritable levier de...IoT Tunisia
 
IBM Technology Day 2013 Keynote Pierre Perdaems
IBM Technology Day 2013 Keynote Pierre PerdaemsIBM Technology Day 2013 Keynote Pierre Perdaems
IBM Technology Day 2013 Keynote Pierre PerdaemsIBM Switzerland
 
Cloud computing : le nouveau paradigme
Cloud computing : le nouveau paradigmeCloud computing : le nouveau paradigme
Cloud computing : le nouveau paradigmeljaquet
 
Big Data by Soft Computing - Lille
Big Data by Soft Computing - LilleBig Data by Soft Computing - Lille
Big Data by Soft Computing - LilleSoft Computing
 
Matinale Technologique SAS
Matinale Technologique SASMatinale Technologique SAS
Matinale Technologique SASSoft Computing
 
Pres azure paas tdf -rex-hager-vincent thavonekham-regional director-azug f...
Pres azure   paas tdf -rex-hager-vincent thavonekham-regional director-azug f...Pres azure   paas tdf -rex-hager-vincent thavonekham-regional director-azug f...
Pres azure paas tdf -rex-hager-vincent thavonekham-regional director-azug f...FactoVia
 
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft
 

Similaire à Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel avec storm (20)

Vision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataVision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big data
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Programme 2009 Opération Datacenters
Programme 2009 Opération DatacentersProgramme 2009 Opération Datacenters
Programme 2009 Opération Datacenters
 
Qu'est ce que le Cloud computing ?
Qu'est ce que le Cloud computing ?Qu'est ce que le Cloud computing ?
Qu'est ce que le Cloud computing ?
 
Edge Datacenters : préparez-vous à un monde où tout devient intelligent
Edge Datacenters : préparez-vous à un monde où tout devient intelligentEdge Datacenters : préparez-vous à un monde où tout devient intelligent
Edge Datacenters : préparez-vous à un monde où tout devient intelligent
 
Virtualisation? Convergence? Cloud? Soyons pragmatique
Virtualisation? Convergence? Cloud? Soyons pragmatique Virtualisation? Convergence? Cloud? Soyons pragmatique
Virtualisation? Convergence? Cloud? Soyons pragmatique
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Télérelevé multifluides : Eau Gas Chaleur Elec - Conférence distributeurs mu...
Télérelevé multifluides : Eau Gas Chaleur Elec - Conférence distributeurs mu...Télérelevé multifluides : Eau Gas Chaleur Elec - Conférence distributeurs mu...
Télérelevé multifluides : Eau Gas Chaleur Elec - Conférence distributeurs mu...
 
La Data Virtualization par Orano : cas d'usage à la Hague et démo de Denodo
La Data Virtualization par Orano : cas d'usage à la Hague et démo de DenodoLa Data Virtualization par Orano : cas d'usage à la Hague et démo de Denodo
La Data Virtualization par Orano : cas d'usage à la Hague et démo de Denodo
 
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationRéinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
 
Simalaya - IoT - enjeux, impacts et facteurs clés de succès
Simalaya - IoT - enjeux, impacts et facteurs clés de succès Simalaya - IoT - enjeux, impacts et facteurs clés de succès
Simalaya - IoT - enjeux, impacts et facteurs clés de succès
 
Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec IntelRévolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
 
MiXiT - Numérique responsable, ouvrons le capot des fournisseurs Cloud
MiXiT - Numérique responsable, ouvrons le capot des fournisseurs CloudMiXiT - Numérique responsable, ouvrons le capot des fournisseurs Cloud
MiXiT - Numérique responsable, ouvrons le capot des fournisseurs Cloud
 
Iot tunisia forum 2017 le duo gagnant io t et big data un véritable levier de...
Iot tunisia forum 2017 le duo gagnant io t et big data un véritable levier de...Iot tunisia forum 2017 le duo gagnant io t et big data un véritable levier de...
Iot tunisia forum 2017 le duo gagnant io t et big data un véritable levier de...
 
IBM Technology Day 2013 Keynote Pierre Perdaems
IBM Technology Day 2013 Keynote Pierre PerdaemsIBM Technology Day 2013 Keynote Pierre Perdaems
IBM Technology Day 2013 Keynote Pierre Perdaems
 
Cloud computing : le nouveau paradigme
Cloud computing : le nouveau paradigmeCloud computing : le nouveau paradigme
Cloud computing : le nouveau paradigme
 
Big Data by Soft Computing - Lille
Big Data by Soft Computing - LilleBig Data by Soft Computing - Lille
Big Data by Soft Computing - Lille
 
Matinale Technologique SAS
Matinale Technologique SASMatinale Technologique SAS
Matinale Technologique SAS
 
Pres azure paas tdf -rex-hager-vincent thavonekham-regional director-azug f...
Pres azure   paas tdf -rex-hager-vincent thavonekham-regional director-azug f...Pres azure   paas tdf -rex-hager-vincent thavonekham-regional director-azug f...
Pres azure paas tdf -rex-hager-vincent thavonekham-regional director-azug f...
 
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
 

Plus de OCTO Technology

Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonné
Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonnéLe Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonné
Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonnéOCTO Technology
 
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloudLe Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloudOCTO Technology
 
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...OCTO Technology
 
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...OCTO Technology
 
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...OCTO Technology
 
OCTO Talks - Les IA s'invitent au chevet des développeurs
OCTO Talks - Les IA s'invitent au chevet des développeursOCTO Talks - Les IA s'invitent au chevet des développeurs
OCTO Talks - Les IA s'invitent au chevet des développeursOCTO Technology
 
OCTO Talks - Lancement du livre Culture Test
OCTO Talks - Lancement du livre Culture TestOCTO Talks - Lancement du livre Culture Test
OCTO Talks - Lancement du livre Culture TestOCTO Technology
 
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...OCTO Technology
 
OCTO Talks - State of the art Architecture dans les frontend web
OCTO Talks - State of the art Architecture dans les frontend webOCTO Talks - State of the art Architecture dans les frontend web
OCTO Talks - State of the art Architecture dans les frontend webOCTO Technology
 
Comptoir OCTO ALD Automotive/Leaseplan
Comptoir OCTO ALD Automotive/LeaseplanComptoir OCTO ALD Automotive/Leaseplan
Comptoir OCTO ALD Automotive/LeaseplanOCTO Technology
 
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ? Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ? OCTO Technology
 
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...OCTO Technology
 
Le Comptoir OCTO - Affinez vos forecasts avec la planification distribuée et...
Le Comptoir OCTO -  Affinez vos forecasts avec la planification distribuée et...Le Comptoir OCTO -  Affinez vos forecasts avec la planification distribuée et...
Le Comptoir OCTO - Affinez vos forecasts avec la planification distribuée et...OCTO Technology
 
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conceptionLe Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conceptionOCTO Technology
 
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...OCTO Technology
 
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone : les solutions E...
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone :  les solutions E...Le Comptoir OCTO - L'avenir de la gestion du bilan carbone :  les solutions E...
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone : les solutions E...OCTO Technology
 
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...OCTO Technology
 
RefCard Tests sur tous les fronts
RefCard Tests sur tous les frontsRefCard Tests sur tous les fronts
RefCard Tests sur tous les frontsOCTO Technology
 
RefCard RESTful API Design
RefCard RESTful API DesignRefCard RESTful API Design
RefCard RESTful API DesignOCTO Technology
 

Plus de OCTO Technology (20)

Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonné
Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonnéLe Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonné
Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonné
 
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloudLe Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
 
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
 
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
 
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...
 
OCTO Talks - Les IA s'invitent au chevet des développeurs
OCTO Talks - Les IA s'invitent au chevet des développeursOCTO Talks - Les IA s'invitent au chevet des développeurs
OCTO Talks - Les IA s'invitent au chevet des développeurs
 
OCTO Talks - Lancement du livre Culture Test
OCTO Talks - Lancement du livre Culture TestOCTO Talks - Lancement du livre Culture Test
OCTO Talks - Lancement du livre Culture Test
 
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
 
OCTO Talks - State of the art Architecture dans les frontend web
OCTO Talks - State of the art Architecture dans les frontend webOCTO Talks - State of the art Architecture dans les frontend web
OCTO Talks - State of the art Architecture dans les frontend web
 
Refcard GraphQL
Refcard GraphQLRefcard GraphQL
Refcard GraphQL
 
Comptoir OCTO ALD Automotive/Leaseplan
Comptoir OCTO ALD Automotive/LeaseplanComptoir OCTO ALD Automotive/Leaseplan
Comptoir OCTO ALD Automotive/Leaseplan
 
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ? Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
 
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
 
Le Comptoir OCTO - Affinez vos forecasts avec la planification distribuée et...
Le Comptoir OCTO -  Affinez vos forecasts avec la planification distribuée et...Le Comptoir OCTO -  Affinez vos forecasts avec la planification distribuée et...
Le Comptoir OCTO - Affinez vos forecasts avec la planification distribuée et...
 
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conceptionLe Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
 
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...
 
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone : les solutions E...
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone :  les solutions E...Le Comptoir OCTO - L'avenir de la gestion du bilan carbone :  les solutions E...
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone : les solutions E...
 
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...
 
RefCard Tests sur tous les fronts
RefCard Tests sur tous les frontsRefCard Tests sur tous les fronts
RefCard Tests sur tous les fronts
 
RefCard RESTful API Design
RefCard RESTful API DesignRefCard RESTful API Design
RefCard RESTful API Design
 

Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel avec storm

  • 1. Calculez vos indicateurs en temps réel En partenariat avec EDF R&D 1 © OCTO 2013
  • 2. OCTO et le Big Data Une offre cohérente entre technologie et analyse prédictive DIRECTION SI CONSEIL EN SI BIG DATA  Etude et positionnement des solutions en fonction de votre contexte  Transformation de SI Décisionnel vers le Big Data  Cadrage de projets Big Data ARCHITECTURE DES SYSTÈMES BIG DATA  POC sur Hadoop et NoSQL  Conception et réalisation de systèmes sous Hadoop et NoSQL  Formation Hadoop 2 © OCTO 2013 DIRECTION MÉTIER CONSEIL EN ANALYSE DE DONNÉES AVANCÉES  Benchmarks de projets Big Data par secteur  Formation des équipes de datamining aux techniques Big Data  Accompagnent des projets pilote métiers COLLECTE DE DONNÉES EXTERNES  Identification de sources de données  Collecte et traitements de données non structurées  Recherche de corrélations économiques
  • 3. L’équipe OCTO Big Data Analytics Une équipe dédiée, composée de Experts et architectes sur les clusters de stockage et de calcul Statisticiens et consultants en machine learning Une R&D spécifique sur Hadoop, NoSQL et le machine learning Des relations très approfondies avec les équipes R&D de nos partenaires Hortonworks MapR Cloudera 10Gen Mongodb Datastax Cassandra 3 © OCTO 2013
  • 4. Intervenants Julien CABOT Directeur Big Data Analytics OCTO jcabot@octo.com Marie-Luce PICARD Chef de projet EDF R&D marie-luce.picard@edf.fr Benoît Grossin Ingénieur Chercheur EDF R&D benoit.grossin@edf.fr 4 © OCTO 2013 Rémy SAISSY Architecte OCTO rsaissy@octo.com
  • 5. Agenda Etat des lieux du Big Data Les enjeux du Big Data chez EDF par EDF R&D Questions/réponses Retour d’expérience sur une expérimentation d’analyse d’indicateurs en temps réel avec Storm chez EDF R&D Questions/réponses Bilan 5 © OCTO 2013
  • 6. Etat des lieux du Big Data 6 © OCTO 2013
  • 7. Big Data, une écosystème multiple WEB Google, Amazon, Facebook, Twitter, … Management McKinsey, BC G, Deloitte, … Logiciel IT IBM, Teradata, Vmware, EMC, … Un concept devenant une réalité pour les entreprises françaises 7 © OCTO 2013
  • 8. Projets Big Data en 2013-2014 Le Data mining sur signaux forts et faibles Données exogènes Données issues des infrastructures de production Le dépassement du « mur capacitaire » des appliances décisionnelles Stocker plus pour un coût significativement inférieur Banalisation des technologies de calculs 8 © OCTO 2013
  • 9. Big Data, un univers technologique pour construire des systèmes à haute performance Au-delà de 10 To en ligne, les architectures « classiques » nécessitent des adaptations logiques et matérielles très importantes. Application orientée Flux évènementiel Event Stream Processing Au-delà de 1 000 évènements/seconde, les architectures « classiques » nécessitent des adaptations logiques et matérielles très importantes. 9 © OCTO 2013 Application orientée Au-delà de 1 000 transactions/seconde, les Stockage architectures « classiques » des Stockage adaptations logiques et distribué matérielles très importantes Share nothing Univers « standard » SGBDR, Serveur d’application, ETL, ESB Programmation parallèle Application orientée Calculs XTP Application orientée Transaction Au-delà de 10 threads/Core CPU, la programmation séquentielle classique atteint ses limites (IO).
  • 10. Types de solutions Application orientée Stockage Parrallel database Stream Processing Base de données Application orientée Flux évènementiel Application orientée Transaction NoSQL NewSQL Hadoop Application orientée Calculs 10 © OCTO 2013 Grid Computing GPU
  • 11. Une limite commune aux systèmes informatique! La racine commune à toutes ces limites est le « throughput » des I/O 11 © OCTO 2013
  • 12. Le problème : le gain en débit des disques est très en retard par rapport à leur capacité 70 Seagate Barracuda 7200.10 64 MB/s 60 Gain : x100 000 Débit (MB/s) 50 40 Gain : < x100 seulement ! Seagate Barracuda ATA IV 30 Gain : x91 20 IBM DTTA 35010 10 0,7 MB/s 0 1991 1990 12 © OCTO 2013 1996 1998 2001 2006
  • 13. Stratégies pour dépasser les limites du troughput Architecture InMemory Architecture en grille • Réduire la latence en utilisant des supports plus rapide (DRAM, SSD) • Paralléliser les accès IO en divisant les volumes (sharding) • Bénéficier de l’évolution des capacités des composants • La limite structurelle n’est pas que déplacée • Pour évoluer, l’architecture doit devenir une grille InMemory • Bénéficier du différentiel de coût entre commodity hardware et haut de gamme • Le réseau de la grille devient un composant principal, nécessitant colocalisation des données et des traitements • Permet de scaler à l’infini, c’est le Warehouse scale computing! 13 © OCTO 2013
  • 14. Familles de solutions d’analyse en streaming Complex Event Processing • • • • Solution dédiée au stream processing Pas de capacité de stockage Architecture orientée serveur Options de streaming Streaming Grid In Memory • • • • Base de données In Memory Event triggers Partitionnement Le temps comme une dimension d’analyse HANA • • • • Grille de traitement In memory Event triggers, pub/sub Share nothing sharding Le Temps comme une partie de la clef STORM STREAMS 14 © OCTO 2013
  • 15. LES ENJEUX DU BIG DATA À EDF, LE POINT DE VUE D’EDF R&D
  • 16. SMART GRIDS SMART METERS  SMART DATA Partout dans le monde des projets smart-grids voient le jour, motivés par des contraintes économiques ou régulatoires, ou encore par des besoins environnementaux. Avec le développement de nouveaux usages comme le véhicule électrique, avec l’augmentation des moyens de production décentralisée, de nouvelles perspectives apparaissent pour la gestion de l’énergie. Un très grand nombre de compteurs communicants, et plus généralement de capteurs vont être déployés: ils vont | 16 provoquer un déluge de données auquel les compagnies énergétiques vont devoir faire face. •
  • 17. SMART METERING: UN DELUGE DE DONNEES En France : 35+ millions de compteurs intelligents  des milliards d’enregistrements Actuellement, un projet pilote a déployé 300K compteurs • • | 17
  • 18. DONNÉES MASSIVES DANS LE DOMAINE DE L’ ÉNERGIE  Enjeux, challenges:  Plus de complexité dans le système électrique (production décentralisée, gestion de la demande ….)  Multiplication des acteurs  Push technologique (compteurs communicants, internet des objets ….)  Nécessité d’une bonne traçabilité des actions  Le management des données et les nouvelles technologies vont être au cœur des métiers d’EDF EDF R&D SIGMA² | 18
  • 19. DONNÉES MASSIVES DANS LE DOMAINE DE L’ ÉNERGIE  Qu’y a-t-il de nouveau ?  Nouvelles sources de données (données de comptage, données de consommation détaillées, services, données web, open data, …)  ‘Digital utility’ : les systèmes physiques s’accompagnent de systèmes numériques (transport, distribution, production), nouveaux acteurs, process de décisions plus rapides  Difficultés et opportunités  (facile) La technologie est là  (difficile) Savoir quoi faire de la donnée? Intégration des données ; Sécurité et privacy; Culture de la donnée; Compétences; comment encourager l’innovation ?  Opportunités: voir “Utility AMI analytics for the smart grid” • | 19
  • 20. DONNÉES MASSIVES DANS LE DOMAINE DE L’ ÉNERGIE  Un volume très important de données à gérer (smart meters, capteurs, …), mais les volumes ne sont pourtant pas si gros  Des traitements complexes :  Séries temporelles  Données distribuées, analyses multi-échelles, niveaux local et global (analytics, optimisation)  Temps réel Demain Decision support Integrated communication AMI / smart metering Aujourd’hui | 20
  • 21. PROJET DE RECHERCHE À EDF R&D : SIGMA² Objectifs :  Maîtriser les techniques associées au Big Data, assurer veille/anticipation, développer des méthodes innovantes  Poursuivre et renforcer la diffusion et l’intégration de ces approches au sein de l’entreprise • Ces objectifs passent par la réalisation de prototypes, d’études de faisabilité, d’expérimentations en réponse à des problématiques métiers EDF R&D SIGMA² | 21
  • 22. POC STORM : ENJEUX POUR EDF R&D Le « Proof Of Concept » (POC) Storm s’inscrit pleinement dans les objectifs de SIGMA² , notamment la maîtrise des technologies Big Data en lien avec le contexte EDF présent ou à venir Les solutions Stream Processing / CEP déjà maitrisées : StreamBase (TIBCO) et InfoSphere Streams (IBM) Objectifs du POC : Mieux connaître Storm et le positionner par rapport aux outils déjà maitrisés Juger de la capacité de Storm à répondre à un scénario riche de « traitements EDF » à la volée sur des données en provenance de compteurs communicants : couverture fonctionnelle ? Capacité à absorber le flux ? EDF R&D SIGMA² | 22
  • 23. POC STORM : SCHEMA FONCTIONNEL GLOBAL Data in motion Entrées Smart Metering Data Stream Sorties • Agrégats simples : ex. synchrone globale http://storm-project.net/ •Agrégats ventilés : ex. synchrones par groupe tarifaire Data at rest Prévisions Météo Tarifs statiques / dynamiques •Analytics : ex. scoring par compteur •Prévisions : ex. Prévisions J+1 en Wh et en CA Données clients (par exemple tarif) EDF R&D - SIGMA - FROST | 23
  • 24. Focus sur 3 points clefs Sorties 1 Smart Metering Data Stream DATA • Agrégats simples : ex. synchrone globale 10 5 0 1 229 457 685 913 1141 1369 1597 1825 2053 2281 2509 2737 2965 3193 3421 3649 3877 4105 Data in motion Entrées Prévisions Météo Data at rest ANALYTICS Tarifs statiques / dynamiques FORECASTING •Agrégats ventilés : ex. synchrones par groupe tarifaire 2 •Analytics : ex. scoring par compteur 3 •Prévisions : ex. Prévisions J+1 en Wh et en CA Données clients (par exemple tarif) EDF R&D - SIGMA - FROST | 24
  • 25. 1- DATA : SIMULER MASSIVEMENT ET FIDELEMENT LES COURBES DE CONSOMMATION ELECTIQUE  Utilisation d’un générateur / simulateur de courbes de charges électrique, développé par EDF R&D Consommations individuelles réelles Consommations individuelles simulées Modèle génératif Apprentissage Utilisations possibles : Simulation • CARACTERISTIQUE DU GENERATEUR : •Conserver la diversité des comportements individuels •Reproduire des courbes ayant une volatilité comparable aux courbes réelles •Conserver le comportement global de l’agrégation des courbes individuelles • sans paramètres utilisateurs •Simuler rapidement de gros volumes de données • Tester des outils informatiques et des méthodes statistiques Echanger des données simulées EDF R&D - SIGMA - FROST | 25
  • 26. 1 - DATA : EXEMPLES DE COURBES INDIVIDUELLES GENEREES  Performance du processus de génération :  Code JAVA  CPU 2 GHz (Xenon E5405)  360.000 tuples / seconde / CPU  1 CPU = 18 x plus rapide que le temps réel (35 M de compteurs, au pas demi-horaire) | 26
  • 27. 2 – ANALYTICS : TRAVAILLER SUR DES SERIES TEMPORELLES SIMPLIFIEES Les Séries temporellessont des données de forte dimentionnalité, difficile à exploiter dans un contexte Big Data Notre approche ici : SIMPLIFIER l’objet « Courbe de Charge » pour faciliter sa manipulation et son analyse, surtout quand on travaille avec plusieurs millions de séries temporelles SAX : Passer d’une série de mesures à un mot plus compact Ensuite, nous utilisons cette forme plus simple pour « scorer » chaque courbe selon que la forme de la courbe est plus ou moins commun dans l’ensemble de la population Principe de la transformée SAX EDF R&D - SIGMA - FROST | 27
  • 28. 3 – FORECASTING : LES MODELES GAM GAM = Generalized Additive Model Modèles étudiés depuis 2006 à EDF R&D (Dépt. OSIRIS) et à EDF depuis quelques années Utilisés sur de nombreux signaux : consommation Electrique au niveau agrégé et niveau local, consommation de Gaz, … Structure très générique:  Fonction de transferts linéaires ou non-linéaires  Effets mono ou multi-varies Littérature scientifique sur le sujet: Hastie and Tibshirani (1986), Hastie and Tibshirani (1990), plus récemment Wood (2006) EDF R&D - SIGMA - FROST | 28
  • 29. 3 – FORECASTING : EXEMPLE DE MODÈLE GAM • Le Département OSIRIS utilise R pour la modélisation GAM EDF R&D - SIGMA - FROST | 29
  • 31. Retour d’expérience sur une expérimentation d’analyse d’indicateurs en temps réel avec Storm chez EDF R&D 31 © OCTO 2013
  • 32. Sommaire Contexte Présentation de Storm Déroulement du projet Méthodologie de travail Choix de l’architecture Déploiement de Storm Fonctionnalités implémentées Spécificités et limites d’une implémentation Storm Tests de performances Bilan 32 © OCTO 2013
  • 34. Contexte Durée : 3 mois, entre Juillet et Septembre 2013 Client : Le projet SIGMA² de EDF R&D Sujet : Etude du positionnement des solutions CEP dans un contexte Hadoop Performance et la scalabilité de Twitter Storm Equipe : 3 OCTOs Traitements à réaliser : Agrégats en temps réel par dimension géographique, tarifaire sur la base des attributs attachés aux courbes de charges Scoring en temps réel, basé sur des règles en partie définies à l’avance et en partie évolutives Prévisions de charge basées sur des fonctions R développées par EDF R&D Développement d’une interface de restitution 34 © OCTO 2013
  • 35. Contexte Les moyens logiciels et humains fournis par EDF R&D Des moyens humains en support 2 experts système & réseaux 2 experts métiers pour le scoring et le modèle de prédiction R L’auteur du générateur de relevés de consommation Du logiciel fourni Un générateur réaliste de relevés de consommation Des modèles de prédictions fixes et adaptatifs ainsi que des codes source en R les exploitant Des CSV contenant des données de références Jointures groupe tarifaire / compteur Données météo Des codes sources d’exemple D’utilisation du générateur de relevés de consommation D’implémentation de SAX 35 © OCTO 2013
  • 36. Contexte Caractéristiques du cluster 8 serveurs « commodity » 2 noeuds maître CPU : AMD Opteron Processor 6128 Mémoire : 64Go Réseau : 1Gb/s 6 noeuds de traitement CPU : AMD Opteron Processor 6128 Mémoire : 32Go Réseau : 1Gb/s Autres caractéristiques co-localisation sur le même rack Livrés installés avec une distribution CentOS 64bits Accès réseau limité en dehors du centre R&D Accès total de l’équipe sur le cluster 36 © OCTO 2013
  • 38. Présentation de Storm Storm est une solution de traitement de données orientée flux Caractérisques principales de Storm Garantie de traitement des données Scalabilité horizontale Tolérance aux pannes et transactionnalité Pas d’intermédiaire Abstraction plus haut niveau que le message passing Robustesse Traitement de Flux 38 © OCTO 2013 RPC Distribués Calcul en continu
  • 39. Présentation de Storm Concepts de Storm 39 © OCTO 2013
  • 40. Présentation de Storm Trident Abstraction transactionnelle sur les bolts et les spouts Traitement par mini-batchs de N tuples Garantie de traitement ordonné des mini batchs Facilite les calculs d’agrégation 40 © OCTO 2013
  • 42. Méthodologie de travail Une méthodologie itérative Pourquoi ? Peu de temps pour tout réaliser 3 sujets dans le projet Comment ? Notre storyboard Equipe Co-localisée Backlog priorisé Réunion d’avancement et démo hebdomadaire Notre lieu de débats 42 © OCTO 2013
  • 43. Méthodologie de travail Un projet varié Backlog : 60% des tâches réalisées 55 identifiées, 33 priorisées et réalisées 43 © OCTO 2013
  • 44. Choix de l’architecture DataFlow fonctionnel DONNÉES • Relevés de compteurs EDF (générateur) • 48 points de mesures en KWh par jour et par compteur • 6 millions de compteurs • Les compteurs sont segmentés par groupe tarifaire 44 © OCTO 2013 ACQUISITION ET TRAITEMENT Calcul de métriques en continu, par jour et par groupe tarifaire : • Moyenne de consommation • CA • Prévision pour les métriques précédentes à J+1 • Scoring typicité des courbes compressées par SAX REQUETAGE • Vues pré calculées par agrégat disponibles au requêtage • Agrégation des vues en agrégats plus grands • Affichage en tableaux de bords (courbes, histogrammes)
  • 45. Choix de l’architecture Architecture technique Interface de Suivi de restitution Questionne la topologie à la demande (DRPC) Utilisateurs Calculs d’agrégats Calcul de scores Calcul de Prévisions TridentState TridentState TridentState Tables de référence Topologie de calcul Storm Générateur 42,63…2,0…24…1,0484,… 45 © OCTO 2013 Envoi du stream aux différents TridentStates Les données générées sont • regroupées par compteur et par jour (tuple) • ajoutées sur une liste Redis Récupère des mini batchs Stockée sur chaque serveur en CSV Spout A intervalle régulier, les Spouts lisent entre 500 et 10000 tuples chacun de la liste Redis
  • 46. Déploiement de Storm Composants installés Storm Nimbus DRPC UI Supervisor(s) Zookeeper Support Redis Tomcat Outils de dev : nexus, gitolite 46 © OCTO 2013
  • 47. Déploiement de Storm Vue physique du cluster Rack 1Gb/s intra rack Nœud maître • • Storm • Nimbus • UI • Drpc Tomcat Nœud maître • • • Storm supervisor Redis Zookeeper Nœuds de traitement • Storm supervisor 47 © OCTO 2013 Réseau 10Gb/s Développeurs et Utilisateurs
  • 48. Fonctionnalités implémentées 3 traitements à implémenter Calcul d’agrégats de consommation journalière par groupe tarifaire et national Calcul des scores du degré de typicité des consommations Par compteur et par jour Calcul des prévisions J+1 de consommation par groupe tarifaire et national Sur chaque agrégat disponible 48 © OCTO 2013
  • 50. Fonctionnalités implémentées Calculs de scores de normalité des relevés 50 © OCTO 2013
  • 51. Fonctionnalités implémentées Calculs de prévisions pré-calibrées 51 © OCTO 2013
  • 52. Fonctionnalités implémentées Calculs de prévisions adaptatives 52 © OCTO 2013
  • 53. Fonctionnalités implémentées Interface de restitution des moyennes de consommation avec prévision 53 © OCTO 2013
  • 54. Fonctionnalités implémentées Interface de restitution du nombre de métriques collectées 54 © OCTO 2013
  • 55. Spécificités d’une implémentation sur Storm Implémentation de calculs sous une forme distribuée La nature distribuée de Storm rend parfois des algorithmes relativement « simples » difficiles à implémenter : Les streams imposent de calculer de manière incrémentale Trident, la couche transactionnelle de Storm impose primitives particulières Spécificités d’utilisation de R avec jRI 55 © OCTO 2013
  • 56. Limites constatées de l’implémentation sur Storm L’interface de Storm fourni les métriques de latence mais… D’autres composants entre en jeu (Zookeeper, Redis, …) Cela rend la mesure de performance globale et fiable (traitements + comportement du cluster) difficile 56 © OCTO 2013
  • 57. Tests de performances Source de données Une journée / compteur 48 relevés de consommation par compteur et par jour + identifiant compteur 300 octets de taille moyenne Jeux de données pré-générés Consommation de 1 million de compteurs sur 2 jours Consommation de 6 millions de compteurs sur 2 jours 57 © OCTO 2013
  • 58. Tests de performances Performances en lecture de Redis 413 850 journées / compteur / seconde 19 864 800 relevés / seconde En terme réseau : 120Mo / seconde (max 125Mo/s) A titre de comparaison, un macbook pro SSD 16Go DDR3 obtient : 791 565 journées / compteur / seconde soit une augmentation de 47% 58 © OCTO 2013
  • 59. Tests de performances Calculs d’agrégats 4m5s pour traiter 576 millions de relevés 1,98 million de relevés / seconde Les machines n’étaient pas surchargées : charge CPU < 50% Nombre de relevés émis Temps de traitement 59 © OCTO 2013
  • 60. Tests de performances Calculs de scores de normalité des relevés 5m27s pour traiter 180 millions de relevés 550 458 relevés / seconde Nombre de relevés émis Temps de traitement 60 © OCTO 2013
  • 61. Tests de performances Calculs de prévisions pré-calibrées 4m23s pour traiter 576 millions de relevés 2,19 millions de relevés / seconde Les machines du cluster n’étaient pas surchargées : charge CPU < 50% Nombre de relevés émis Temps de traitement 61 © OCTO 2013
  • 62. Tests de performances Calculs de prévisions adaptatives 6m41s pour traiter 576 millions de relevés 1,43 million de relevés / seconde Les machines du cluster n’étaient pas surchargées : charge CPU < 50% Nombre de relevés émis Temps de traitement 62 © OCTO 2013
  • 65. Bilan Sur Storm Points positifs Traitement de gros volumes au fil de l’eau Prévisions en quasi temps réel avec R Facile à mettre en œuvre, à configurer Polyvalent Jeune, pourtant bien documenté et stable Points à creuser Mesure de performances Reprise sur erreur de traitements Intégration dans Hadoop 65 © OCTO 2013
  • 66. Bilan Storm dans une perspective industrielle Hadoop est adapté en traitements batchs mais mauvais en temps réel Storm est adapté en temps réel mais n’a pas de couche de stockage de big data 66 © OCTO 2013
  • 67. BILAN POC STORM PAR EDF R&D Points positifs :  Solution crédible, qui couvre le spectre fonctionnel du scénario proposé Coût , renforcé par l’intégration de Storm dans Hadoop (HDP Q1 2014) Points négatifs : Nécessité de s’investir dans un nouvel outil, avec sa logique et sa syntaxe NB : trident offre cependant un niveau d’abstraction intéressant Manque d’un studio de développement (cf. Streambase) Ex : visualiser le graphe de traitements Suite envisagée : Prototype STORM d’un système d’estimation temps-réel des volumes d’effacements électrique • EDF R&D SIGMA² | 67
  • 68. Remerciements L’équipe côté EDF Alexis BONDU – Ingénieur chercheur, auteur du générateur Bruno JACQUIN – Ingénieur chercheur Charles BERNARD – Consultant IT Leely DAIO PIRES DOS SANTOS – Ingénieur chercheur Yannig GOUDE – Expert prévision L’équipe côté OCTO Simon MABY – Consultant Cyrille MAILLEY - Consultant 68 © OCTO 2013

Notes de l'éditeur

  1. 3 sujets :Infra : Mise en place du clusterBackend : développement des analyses en StormFrontend : développement d’une interface de restitutionComment ?Co-localisation de l’équipeManagement visuel, Proximité avec les experts EDFMise au point et priorisation d’un backlogRéunion d’avancement et démo hebdomadaireOn y aborde les réussites et les points bloquantsOn y valide le travail réaliséOn y ajuste le backlog pour la semaine suivanteObjectifsPermettre à EDF de suivre facilement l’avancementFavoriser les échanges en directEviter les blocages, les non ditsApprendre à marcher ensembleToute l’équipe s’approprie le projet et en comprend mieux les tenants et aboutissantsGarde la motivation !
  2. Calcul d’agrégats de consommation journalière Agrégats calculés-Synchrones-Moyennes de consommation-CA-Nombre de compteurs acquisCalcul des scores de normalité des compteursAlgorithme SAX fourni par EDFCalcul des prévisions de consommation Modèle GAM pré-calibréModèle GAM adaptatif-Visualisation dans l’interface de suivi -Par groupe tarifaire et national -Par compteur -Entre deux dates