SlideShare une entreprise Scribd logo
1  sur  18
Télécharger pour lire hors ligne
Paris Open Source Summit - 10 Décembre 2019
De la multiplicité et la complexité des données à
la gouvernance technique des données
Retour d’Expérience RTE
Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Charly CLAIRMONT
CTO, Synaltic
Arnaud Renard
Responsable Big Data, RTE
2
Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Heterogeneous
data sources
Data Warehouse
Data Lake
Data Hub
Expertise
Data Analysis
Data Science
Data Strategy
15 years old
35 #SynalTeam
members
Datavisualisation
#DataIntelligence , #DataOps
On Premise,
Cloud,
Hybrid cloud !
Synaltic
API
Data
Engineering
Ingest
ETL
Streaming
Scheduler
3
Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Deequ
Architecture hétérogène pour répondre aux nombreux besoins de
l’organisation
Nombreux formats, nombreux cas d’usage… Comment s’y retrouve-t-on ?
4
Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Expert DWH Analyste Data Scientist Utilisateur
Métier
Direction Expert ETL,
Développeur
Etude,
Expérimentation
Plateforme de données
La donnée accessible à tous
Quelle donnée ? Qui a accès ? Où est la donnée ?
5
Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Dremio, un broker de données chez RTE
Synaltic apporte son expertise Dremio dans la chaîne de la gouvernance technique
des données chez RTE
6
Paris Open Source Summit - 10 Décembre 2019
Key figures (2017)
7
Paris Open Source Summit - 10 Décembre 2019
8
LATE 2017, RTE TOOK THE DECISION TO EMBRACE OPEN SOURCE AS A PILLAR
OF THE GRID DIGITALIZATION STRATEGY
• Expecting high benefits from a leveraged development model, improved
modularity and interoperability and accelerated innovation
RTE IS FOUNDING MEMBER OF LF ENERGY (WWW.LFENERGY.ORG)
• Initiator of the initiative, together with The Linux Foundation
RTE ALSO JOINED THE TOSIT ASSOCIATION (HTTPS://TOSIT.FR/)
Open Source @ RTE (1)
Paris Open Source Summit - 10 Décembre 2019
9
AN OPEN SOURCE PROGRAM OFFICE (OSPO) HAS BEEN SET UP IN ORDER TO
EXECUTE THE O/S STRATEGY AND PROMOTE BEST PRACTICES ACROSS THE
COMPANY
• Addressing compliance, community management, software architecture, procurement
• Involving more than10 core-business software development projects
WE ARE ACTIVELY INVITING OUR ECOSYSTEM TO JOIN THE COLLABORATION:
• Webinar - Europe's Two Largest TSOs Discuss the Call to Open Source:
https://youtu.be/h3R5j5G200o
• Procuring Open Source Software in European Public Sector:
https://www.lfenergy.org/wp-content/uploads/sites/67/2019/10/Note_OpenSource_Competitio
nLaw_EN-1.1.pdf
9
Open Source @ RTE (2)
Paris Open Source Summit - 10 Décembre 2019
10
DataLake - Quels enjeux techniques liés aux données ?
(vision SI)
Diversité des données et augmentation des volumes
- Données mesurées, corrigées, réalisées, prévisions, configurations,
publications, différentielles …
- Nature des données différentes : Séries temporelles, Géographiques,
Événementielles …
- Besoin de faire plus d’études : volume issue des simulations (modèles,
corrections …)
Les technologies évoluent ainsi que les pratiques des
utilisateurs
• Langages : R, python, spark …
• Technos et Outils : BigData, NoSql, Datavisualisation, …
L’importance des formats et des types
• CSV, XML, JSON, … HDF5, GeoJson, … binaires
• Mode de consommation et de production des données (APIsation, )
Obligation de respecter les réglementations
• RGPD, CNIL, Inspire, accords commerciaux …
2016 : Création d’un DataLake interne
couplé à la fourniture de divers outils
afin de créer un DataLab
Augmentation
des volumes
Diversité
des
données
Evolution
des
technos
Paris Open Source Summit - 10 Décembre 2019
11
Quel positionnement pour ce service ?
Besoin de différencier le service du datalab par rapport au reste du SI
Définir une gouvernance technique au sein du datalab au service des cas d’usages
- Gestion de la confidentialité (selon gouvernance métiers)
- Gestion de la consommation des ressources (agilité, traçabilité, capacité des datacenters …)
Proposer des outils communs et des
données ‘identiques’
Les grandes fonctions nécessaires
• Catalogage : pour référencer les bases de données, jeux de données, métadonnées
• Data Broker : pour centraliser l’accès aux données (logique connect et collect)
• Centralisation des logs : pour faciliter l’analyse des consommations et assurer la
conformité
• Wiki pour la gestion de la connaissance utilisateurs, use case, métiers …
Paris Open Source Summit - 10 Décembre 2019
12
Quelle architecture ?
Une culture d’équipe open source, pionniers avec des compétences Dev, Sec, Data et Ops.
Produits Open Source
utilisés:
- Elastic Search
- Rstudio
- Dremio
- XWiki
- …
Produits maison
développés en :
- R
- Python
- Scala
- Java
- …
Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Stratégie
Gouvernance
Architecture Exploitation
Qualité
Données
Officielles
Processus Métier
Besoin en données
Règles de qualité
Critères de qualité
Infrastructure de données
Alignement
DSI
Supervision
infrastructure
Supervision
implémentation :
communication,
coordination
Supervision
metadata
Alignement
partie
prenante
Profilage des données
Accès au données
Traçabilité traitements
La Data Gouvernance, un projet d’entreprise à construire sur le long terme
1. Etablir un référentiel de données de
confiance,
2. Promouvoir une culture de la diversité
qui inclut les utilisateurs, les données et
réduit les biais dans les algorithmes,
3. Maîtriser la complexité des projets de
transformation digitale,
4. Construire une culture de données
Intéressons nous déjà à la Gouvernance Technique !
13
Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Les analystes et data scientists passe un
⅓ de leur temps à découvrir la données.
Eviter le “select *” : trop de ressources
utilisées, trop de colonnes à comprendre
Faciliter la découverte des données
Rechercher
Tracer les
changements
Construire
un réseau agile
Où est la table, le tableau de de
bord ? Quel en est le contenue ?
J’ai changé un schéma d’une table
qui est le responsable et quels
sont les utilisateurs ?
Je voudrais suivre un utilisateur
clé de mon équipe
Est-ce que cette analyse existe
déjà ?
La livraison du jeu de données est
en retard. Je voudrais notifier tout
le monde
Je voudrais mettre en favoris une
table et être notifié Des
modifications de schémas, Des
nouvelles données, des incidents.
Efficacité à trouver les jeux de
données utiles aux analyses.
⇒ Augmenter la productivité
14
Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Gouvernance des données, les solutions
Alation Where
Hows
Airbnb
Data
Portal
Cloudera
Navigator
Apache
Atlas
Dremio Netflix
Metacat
Lyft
Amudsen
...
Classification /
Taxonomie
Recherche /
Découverte
Requêtage /
Echantillon
Traçabilité / lineage
Graphe / Network
Hive / Presto support
SGBD support
Cloud SGBD support
Cloud Storage
Sécurité
Data Virtualisation
Format tiers (HDF5)
Open Source
15
Paris Open Source Summit - 10 Décembre 2019
16
La Data Gouvernance technique des données chez RTE
Découverte des données “universelle”
- Centralisation de “tous” les jeux de données
- Centralisation de toute la documentation des jeux de données
Exécution centralisée des traitements
- Tous les traitements quels qu’ils soient sont exécutés depuis un même et unique point (distribué,
tolérance à la panne…)
- Suivi global de la plate-forme
Valorisation des données selon To Utile
Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Quelle est la feuille de route aujourd’hui chez RTE ?
Comment partagez-vous cette culture de gouvernance technique au sein de
RTE ?
Quels regards sur cette gouvernance technique ?
17
Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Merci !
Questions?
@Synaltic / @RTE_France
18

Contenu connexe

Similaire à #OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalake RTE - CHARLY CLAIRMONT, Synaltic & ARNAUD RENARD, RTE

CDAP, la boîte à outil pour concevoir vos applications Big Data
CDAP,  la boîte à outil pour concevoir vos applications Big DataCDAP,  la boîte à outil pour concevoir vos applications Big Data
CDAP, la boîte à outil pour concevoir vos applications Big DataSynaltic Group
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationDenodo
 
Datalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériencesDatalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériencesSemWebPro
 
aOS Monaco 2019 - B2 - Intégrer la Power Platform avec SharePoint - Patrick G...
aOS Monaco 2019 - B2 - Intégrer la Power Platform avec SharePoint - Patrick G...aOS Monaco 2019 - B2 - Intégrer la Power Platform avec SharePoint - Patrick G...
aOS Monaco 2019 - B2 - Intégrer la Power Platform avec SharePoint - Patrick G...aOS Community
 
2019 09-26 aOS Monaco Intégrer la Power Platform avec SharePoint
2019 09-26 aOS Monaco Intégrer la Power Platform avec SharePoint 2019 09-26 aOS Monaco Intégrer la Power Platform avec SharePoint
2019 09-26 aOS Monaco Intégrer la Power Platform avec SharePoint Patrick Guimonet
 
Open Data : valorisation et réutilisation des données
Open Data : valorisation et réutilisation des donnéesOpen Data : valorisation et réutilisation des données
Open Data : valorisation et réutilisation des donnéesAntidot
 
Zenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika
 
2019-06-12 aOS Aix Marseille Integrer la Power Platform avec SharePoint
2019-06-12 aOS Aix Marseille Integrer la Power Platform avec SharePoint2019-06-12 aOS Aix Marseille Integrer la Power Platform avec SharePoint
2019-06-12 aOS Aix Marseille Integrer la Power Platform avec SharePointPatrick Guimonet
 
2019-06-12 aOS Aix Marseille - A1 integrer la Power Platform avec SharePoint ...
2019-06-12 aOS Aix Marseille - A1 integrer la Power Platform avec SharePoint ...2019-06-12 aOS Aix Marseille - A1 integrer la Power Platform avec SharePoint ...
2019-06-12 aOS Aix Marseille - A1 integrer la Power Platform avec SharePoint ...aOS Community
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Open Data Ready ! Libérez vos données avec OData et le Cloud
Open Data Ready ! Libérez vos données avec OData et le CloudOpen Data Ready ! Libérez vos données avec OData et le Cloud
Open Data Ready ! Libérez vos données avec OData et le CloudMicrosoft
 
Webinaire Starxpert : Ged transverse avec alfresco
Webinaire Starxpert : Ged transverse avec alfrescoWebinaire Starxpert : Ged transverse avec alfresco
Webinaire Starxpert : Ged transverse avec alfrescoJean Francois DONIKIAN
 
2019-06-12 aOS Aix Marseille - Integrer la Power Platform avec SharePoint
2019-06-12 aOS Aix Marseille - Integrer la Power Platform avec SharePoint2019-06-12 aOS Aix Marseille - Integrer la Power Platform avec SharePoint
2019-06-12 aOS Aix Marseille - Integrer la Power Platform avec SharePointPatrick Guimonet
 
BigData en France par Excelerate Systems
BigData en France par Excelerate Systems BigData en France par Excelerate Systems
BigData en France par Excelerate Systems Excelerate Systems
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesConverteo
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Meito workshop api - 6 fev 2012 - compilation.
Meito   workshop api - 6 fev 2012 - compilation.Meito   workshop api - 6 fev 2012 - compilation.
Meito workshop api - 6 fev 2012 - compilation.Yann Dieulangard
 
i-expo 2013 : présentation du Linked Enterprise Data par Antidot avec témoign...
i-expo 2013 : présentation du Linked Enterprise Data par Antidot avec témoign...i-expo 2013 : présentation du Linked Enterprise Data par Antidot avec témoign...
i-expo 2013 : présentation du Linked Enterprise Data par Antidot avec témoign...Antidot
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Denodo
 

Similaire à #OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalake RTE - CHARLY CLAIRMONT, Synaltic & ARNAUD RENARD, RTE (20)

CDAP, la boîte à outil pour concevoir vos applications Big Data
CDAP,  la boîte à outil pour concevoir vos applications Big DataCDAP,  la boîte à outil pour concevoir vos applications Big Data
CDAP, la boîte à outil pour concevoir vos applications Big Data
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
 
Datalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériencesDatalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériences
 
aOS Monaco 2019 - B2 - Intégrer la Power Platform avec SharePoint - Patrick G...
aOS Monaco 2019 - B2 - Intégrer la Power Platform avec SharePoint - Patrick G...aOS Monaco 2019 - B2 - Intégrer la Power Platform avec SharePoint - Patrick G...
aOS Monaco 2019 - B2 - Intégrer la Power Platform avec SharePoint - Patrick G...
 
2019 09-26 aOS Monaco Intégrer la Power Platform avec SharePoint
2019 09-26 aOS Monaco Intégrer la Power Platform avec SharePoint 2019 09-26 aOS Monaco Intégrer la Power Platform avec SharePoint
2019 09-26 aOS Monaco Intégrer la Power Platform avec SharePoint
 
Open Data : valorisation et réutilisation des données
Open Data : valorisation et réutilisation des donnéesOpen Data : valorisation et réutilisation des données
Open Data : valorisation et réutilisation des données
 
Zenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_ml
 
2019-06-12 aOS Aix Marseille Integrer la Power Platform avec SharePoint
2019-06-12 aOS Aix Marseille Integrer la Power Platform avec SharePoint2019-06-12 aOS Aix Marseille Integrer la Power Platform avec SharePoint
2019-06-12 aOS Aix Marseille Integrer la Power Platform avec SharePoint
 
2019-06-12 aOS Aix Marseille - A1 integrer la Power Platform avec SharePoint ...
2019-06-12 aOS Aix Marseille - A1 integrer la Power Platform avec SharePoint ...2019-06-12 aOS Aix Marseille - A1 integrer la Power Platform avec SharePoint ...
2019-06-12 aOS Aix Marseille - A1 integrer la Power Platform avec SharePoint ...
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Open Data Ready ! Libérez vos données avec OData et le Cloud
Open Data Ready ! Libérez vos données avec OData et le CloudOpen Data Ready ! Libérez vos données avec OData et le Cloud
Open Data Ready ! Libérez vos données avec OData et le Cloud
 
Webinaire Starxpert : Ged transverse avec alfresco
Webinaire Starxpert : Ged transverse avec alfrescoWebinaire Starxpert : Ged transverse avec alfresco
Webinaire Starxpert : Ged transverse avec alfresco
 
2019-06-12 aOS Aix Marseille - Integrer la Power Platform avec SharePoint
2019-06-12 aOS Aix Marseille - Integrer la Power Platform avec SharePoint2019-06-12 aOS Aix Marseille - Integrer la Power Platform avec SharePoint
2019-06-12 aOS Aix Marseille - Integrer la Power Platform avec SharePoint
 
BigData en France par Excelerate Systems
BigData en France par Excelerate Systems BigData en France par Excelerate Systems
BigData en France par Excelerate Systems
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Meito workshop api - 6 fev 2012 - compilation.
Meito   workshop api - 6 fev 2012 - compilation.Meito   workshop api - 6 fev 2012 - compilation.
Meito workshop api - 6 fev 2012 - compilation.
 
i-expo 2013 : présentation du Linked Enterprise Data par Antidot avec témoign...
i-expo 2013 : présentation du Linked Enterprise Data par Antidot avec témoign...i-expo 2013 : présentation du Linked Enterprise Data par Antidot avec témoign...
i-expo 2013 : présentation du Linked Enterprise Data par Antidot avec témoign...
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
 

Plus de Paris Open Source Summit

#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...
#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...
#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...Paris Open Source Summit
 
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...Paris Open Source Summit
 
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...Paris Open Source Summit
 
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, ArduinoParis Open Source Summit
 
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...Paris Open Source Summit
 
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...Paris Open Source Summit
 
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, ZabbixParis Open Source Summit
 
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, InriaParis Open Source Summit
 
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...Paris Open Source Summit
 
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches ...
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches  ...#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches  ...
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches ...Paris Open Source Summit
 
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...Paris Open Source Summit
 
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...Paris Open Source Summit
 
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...Paris Open Source Summit
 
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...Paris Open Source Summit
 
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...Paris Open Source Summit
 
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...Paris Open Source Summit
 
#OSSPARIS19 - Table ronde : souveraineté des données
#OSSPARIS19 - Table ronde : souveraineté des données #OSSPARIS19 - Table ronde : souveraineté des données
#OSSPARIS19 - Table ronde : souveraineté des données Paris Open Source Summit
 
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...Paris Open Source Summit
 
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...Paris Open Source Summit
 
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...Paris Open Source Summit
 

Plus de Paris Open Source Summit (20)

#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...
#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...
#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...
 
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...
 
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...
 
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino
 
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...
 
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...
 
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix
 
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria
 
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...
 
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches ...
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches  ...#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches  ...
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches ...
 
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...
 
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...
 
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...
 
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...
 
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...
 
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...
 
#OSSPARIS19 - Table ronde : souveraineté des données
#OSSPARIS19 - Table ronde : souveraineté des données #OSSPARIS19 - Table ronde : souveraineté des données
#OSSPARIS19 - Table ronde : souveraineté des données
 
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
 
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...
 
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
 

#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalake RTE - CHARLY CLAIRMONT, Synaltic & ARNAUD RENARD, RTE

  • 1. Paris Open Source Summit - 10 Décembre 2019 De la multiplicité et la complexité des données à la gouvernance technique des données Retour d’Expérience RTE
  • 2. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019 Charly CLAIRMONT CTO, Synaltic Arnaud Renard Responsable Big Data, RTE 2
  • 3. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019 Heterogeneous data sources Data Warehouse Data Lake Data Hub Expertise Data Analysis Data Science Data Strategy 15 years old 35 #SynalTeam members Datavisualisation #DataIntelligence , #DataOps On Premise, Cloud, Hybrid cloud ! Synaltic API Data Engineering Ingest ETL Streaming Scheduler 3
  • 4. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019 Deequ Architecture hétérogène pour répondre aux nombreux besoins de l’organisation Nombreux formats, nombreux cas d’usage… Comment s’y retrouve-t-on ? 4
  • 5. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019 Expert DWH Analyste Data Scientist Utilisateur Métier Direction Expert ETL, Développeur Etude, Expérimentation Plateforme de données La donnée accessible à tous Quelle donnée ? Qui a accès ? Où est la donnée ? 5
  • 6. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019 Dremio, un broker de données chez RTE Synaltic apporte son expertise Dremio dans la chaîne de la gouvernance technique des données chez RTE 6
  • 7. Paris Open Source Summit - 10 Décembre 2019 Key figures (2017) 7
  • 8. Paris Open Source Summit - 10 Décembre 2019 8 LATE 2017, RTE TOOK THE DECISION TO EMBRACE OPEN SOURCE AS A PILLAR OF THE GRID DIGITALIZATION STRATEGY • Expecting high benefits from a leveraged development model, improved modularity and interoperability and accelerated innovation RTE IS FOUNDING MEMBER OF LF ENERGY (WWW.LFENERGY.ORG) • Initiator of the initiative, together with The Linux Foundation RTE ALSO JOINED THE TOSIT ASSOCIATION (HTTPS://TOSIT.FR/) Open Source @ RTE (1)
  • 9. Paris Open Source Summit - 10 Décembre 2019 9 AN OPEN SOURCE PROGRAM OFFICE (OSPO) HAS BEEN SET UP IN ORDER TO EXECUTE THE O/S STRATEGY AND PROMOTE BEST PRACTICES ACROSS THE COMPANY • Addressing compliance, community management, software architecture, procurement • Involving more than10 core-business software development projects WE ARE ACTIVELY INVITING OUR ECOSYSTEM TO JOIN THE COLLABORATION: • Webinar - Europe's Two Largest TSOs Discuss the Call to Open Source: https://youtu.be/h3R5j5G200o • Procuring Open Source Software in European Public Sector: https://www.lfenergy.org/wp-content/uploads/sites/67/2019/10/Note_OpenSource_Competitio nLaw_EN-1.1.pdf 9 Open Source @ RTE (2)
  • 10. Paris Open Source Summit - 10 Décembre 2019 10 DataLake - Quels enjeux techniques liés aux données ? (vision SI) Diversité des données et augmentation des volumes - Données mesurées, corrigées, réalisées, prévisions, configurations, publications, différentielles … - Nature des données différentes : Séries temporelles, Géographiques, Événementielles … - Besoin de faire plus d’études : volume issue des simulations (modèles, corrections …) Les technologies évoluent ainsi que les pratiques des utilisateurs • Langages : R, python, spark … • Technos et Outils : BigData, NoSql, Datavisualisation, … L’importance des formats et des types • CSV, XML, JSON, … HDF5, GeoJson, … binaires • Mode de consommation et de production des données (APIsation, ) Obligation de respecter les réglementations • RGPD, CNIL, Inspire, accords commerciaux … 2016 : Création d’un DataLake interne couplé à la fourniture de divers outils afin de créer un DataLab Augmentation des volumes Diversité des données Evolution des technos
  • 11. Paris Open Source Summit - 10 Décembre 2019 11 Quel positionnement pour ce service ? Besoin de différencier le service du datalab par rapport au reste du SI Définir une gouvernance technique au sein du datalab au service des cas d’usages - Gestion de la confidentialité (selon gouvernance métiers) - Gestion de la consommation des ressources (agilité, traçabilité, capacité des datacenters …) Proposer des outils communs et des données ‘identiques’ Les grandes fonctions nécessaires • Catalogage : pour référencer les bases de données, jeux de données, métadonnées • Data Broker : pour centraliser l’accès aux données (logique connect et collect) • Centralisation des logs : pour faciliter l’analyse des consommations et assurer la conformité • Wiki pour la gestion de la connaissance utilisateurs, use case, métiers …
  • 12. Paris Open Source Summit - 10 Décembre 2019 12 Quelle architecture ? Une culture d’équipe open source, pionniers avec des compétences Dev, Sec, Data et Ops. Produits Open Source utilisés: - Elastic Search - Rstudio - Dremio - XWiki - … Produits maison développés en : - R - Python - Scala - Java - …
  • 13. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019 Stratégie Gouvernance Architecture Exploitation Qualité Données Officielles Processus Métier Besoin en données Règles de qualité Critères de qualité Infrastructure de données Alignement DSI Supervision infrastructure Supervision implémentation : communication, coordination Supervision metadata Alignement partie prenante Profilage des données Accès au données Traçabilité traitements La Data Gouvernance, un projet d’entreprise à construire sur le long terme 1. Etablir un référentiel de données de confiance, 2. Promouvoir une culture de la diversité qui inclut les utilisateurs, les données et réduit les biais dans les algorithmes, 3. Maîtriser la complexité des projets de transformation digitale, 4. Construire une culture de données Intéressons nous déjà à la Gouvernance Technique ! 13
  • 14. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019 Les analystes et data scientists passe un ⅓ de leur temps à découvrir la données. Eviter le “select *” : trop de ressources utilisées, trop de colonnes à comprendre Faciliter la découverte des données Rechercher Tracer les changements Construire un réseau agile Où est la table, le tableau de de bord ? Quel en est le contenue ? J’ai changé un schéma d’une table qui est le responsable et quels sont les utilisateurs ? Je voudrais suivre un utilisateur clé de mon équipe Est-ce que cette analyse existe déjà ? La livraison du jeu de données est en retard. Je voudrais notifier tout le monde Je voudrais mettre en favoris une table et être notifié Des modifications de schémas, Des nouvelles données, des incidents. Efficacité à trouver les jeux de données utiles aux analyses. ⇒ Augmenter la productivité 14
  • 15. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019 Gouvernance des données, les solutions Alation Where Hows Airbnb Data Portal Cloudera Navigator Apache Atlas Dremio Netflix Metacat Lyft Amudsen ... Classification / Taxonomie Recherche / Découverte Requêtage / Echantillon Traçabilité / lineage Graphe / Network Hive / Presto support SGBD support Cloud SGBD support Cloud Storage Sécurité Data Virtualisation Format tiers (HDF5) Open Source 15
  • 16. Paris Open Source Summit - 10 Décembre 2019 16 La Data Gouvernance technique des données chez RTE Découverte des données “universelle” - Centralisation de “tous” les jeux de données - Centralisation de toute la documentation des jeux de données Exécution centralisée des traitements - Tous les traitements quels qu’ils soient sont exécutés depuis un même et unique point (distribué, tolérance à la panne…) - Suivi global de la plate-forme Valorisation des données selon To Utile
  • 17. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019 Quelle est la feuille de route aujourd’hui chez RTE ? Comment partagez-vous cette culture de gouvernance technique au sein de RTE ? Quels regards sur cette gouvernance technique ? 17
  • 18. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019 Merci ! Questions? @Synaltic / @RTE_France 18