#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalake RTE - CHARLY CLAIRMONT, Synaltic & ARNAUD RENARD, RTE
1. Paris Open Source Summit - 10 Décembre 2019
De la multiplicité et la complexité des données à
la gouvernance technique des données
Retour d’Expérience RTE
2. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Charly CLAIRMONT
CTO, Synaltic
Arnaud Renard
Responsable Big Data, RTE
2
3. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Heterogeneous
data sources
Data Warehouse
Data Lake
Data Hub
Expertise
Data Analysis
Data Science
Data Strategy
15 years old
35 #SynalTeam
members
Datavisualisation
#DataIntelligence , #DataOps
On Premise,
Cloud,
Hybrid cloud !
Synaltic
API
Data
Engineering
Ingest
ETL
Streaming
Scheduler
3
4. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Deequ
Architecture hétérogène pour répondre aux nombreux besoins de
l’organisation
Nombreux formats, nombreux cas d’usage… Comment s’y retrouve-t-on ?
4
5. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Expert DWH Analyste Data Scientist Utilisateur
Métier
Direction Expert ETL,
Développeur
Etude,
Expérimentation
Plateforme de données
La donnée accessible à tous
Quelle donnée ? Qui a accès ? Où est la donnée ?
5
6. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Dremio, un broker de données chez RTE
Synaltic apporte son expertise Dremio dans la chaîne de la gouvernance technique
des données chez RTE
6
8. Paris Open Source Summit - 10 Décembre 2019
8
LATE 2017, RTE TOOK THE DECISION TO EMBRACE OPEN SOURCE AS A PILLAR
OF THE GRID DIGITALIZATION STRATEGY
• Expecting high benefits from a leveraged development model, improved
modularity and interoperability and accelerated innovation
RTE IS FOUNDING MEMBER OF LF ENERGY (WWW.LFENERGY.ORG)
• Initiator of the initiative, together with The Linux Foundation
RTE ALSO JOINED THE TOSIT ASSOCIATION (HTTPS://TOSIT.FR/)
Open Source @ RTE (1)
9. Paris Open Source Summit - 10 Décembre 2019
9
AN OPEN SOURCE PROGRAM OFFICE (OSPO) HAS BEEN SET UP IN ORDER TO
EXECUTE THE O/S STRATEGY AND PROMOTE BEST PRACTICES ACROSS THE
COMPANY
• Addressing compliance, community management, software architecture, procurement
• Involving more than10 core-business software development projects
WE ARE ACTIVELY INVITING OUR ECOSYSTEM TO JOIN THE COLLABORATION:
• Webinar - Europe's Two Largest TSOs Discuss the Call to Open Source:
https://youtu.be/h3R5j5G200o
• Procuring Open Source Software in European Public Sector:
https://www.lfenergy.org/wp-content/uploads/sites/67/2019/10/Note_OpenSource_Competitio
nLaw_EN-1.1.pdf
9
Open Source @ RTE (2)
10. Paris Open Source Summit - 10 Décembre 2019
10
DataLake - Quels enjeux techniques liés aux données ?
(vision SI)
Diversité des données et augmentation des volumes
- Données mesurées, corrigées, réalisées, prévisions, configurations,
publications, différentielles …
- Nature des données différentes : Séries temporelles, Géographiques,
Événementielles …
- Besoin de faire plus d’études : volume issue des simulations (modèles,
corrections …)
Les technologies évoluent ainsi que les pratiques des
utilisateurs
• Langages : R, python, spark …
• Technos et Outils : BigData, NoSql, Datavisualisation, …
L’importance des formats et des types
• CSV, XML, JSON, … HDF5, GeoJson, … binaires
• Mode de consommation et de production des données (APIsation, )
Obligation de respecter les réglementations
• RGPD, CNIL, Inspire, accords commerciaux …
2016 : Création d’un DataLake interne
couplé à la fourniture de divers outils
afin de créer un DataLab
Augmentation
des volumes
Diversité
des
données
Evolution
des
technos
11. Paris Open Source Summit - 10 Décembre 2019
11
Quel positionnement pour ce service ?
Besoin de différencier le service du datalab par rapport au reste du SI
Définir une gouvernance technique au sein du datalab au service des cas d’usages
- Gestion de la confidentialité (selon gouvernance métiers)
- Gestion de la consommation des ressources (agilité, traçabilité, capacité des datacenters …)
Proposer des outils communs et des
données ‘identiques’
Les grandes fonctions nécessaires
• Catalogage : pour référencer les bases de données, jeux de données, métadonnées
• Data Broker : pour centraliser l’accès aux données (logique connect et collect)
• Centralisation des logs : pour faciliter l’analyse des consommations et assurer la
conformité
• Wiki pour la gestion de la connaissance utilisateurs, use case, métiers …
12. Paris Open Source Summit - 10 Décembre 2019
12
Quelle architecture ?
Une culture d’équipe open source, pionniers avec des compétences Dev, Sec, Data et Ops.
Produits Open Source
utilisés:
- Elastic Search
- Rstudio
- Dremio
- XWiki
- …
Produits maison
développés en :
- R
- Python
- Scala
- Java
- …
13. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Stratégie
Gouvernance
Architecture Exploitation
Qualité
Données
Officielles
Processus Métier
Besoin en données
Règles de qualité
Critères de qualité
Infrastructure de données
Alignement
DSI
Supervision
infrastructure
Supervision
implémentation :
communication,
coordination
Supervision
metadata
Alignement
partie
prenante
Profilage des données
Accès au données
Traçabilité traitements
La Data Gouvernance, un projet d’entreprise à construire sur le long terme
1. Etablir un référentiel de données de
confiance,
2. Promouvoir une culture de la diversité
qui inclut les utilisateurs, les données et
réduit les biais dans les algorithmes,
3. Maîtriser la complexité des projets de
transformation digitale,
4. Construire une culture de données
Intéressons nous déjà à la Gouvernance Technique !
13
14. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Les analystes et data scientists passe un
⅓ de leur temps à découvrir la données.
Eviter le “select *” : trop de ressources
utilisées, trop de colonnes à comprendre
Faciliter la découverte des données
Rechercher
Tracer les
changements
Construire
un réseau agile
Où est la table, le tableau de de
bord ? Quel en est le contenue ?
J’ai changé un schéma d’une table
qui est le responsable et quels
sont les utilisateurs ?
Je voudrais suivre un utilisateur
clé de mon équipe
Est-ce que cette analyse existe
déjà ?
La livraison du jeu de données est
en retard. Je voudrais notifier tout
le monde
Je voudrais mettre en favoris une
table et être notifié Des
modifications de schémas, Des
nouvelles données, des incidents.
Efficacité à trouver les jeux de
données utiles aux analyses.
⇒ Augmenter la productivité
14
15. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Gouvernance des données, les solutions
Alation Where
Hows
Airbnb
Data
Portal
Cloudera
Navigator
Apache
Atlas
Dremio Netflix
Metacat
Lyft
Amudsen
...
Classification /
Taxonomie
Recherche /
Découverte
Requêtage /
Echantillon
Traçabilité / lineage
Graphe / Network
Hive / Presto support
SGBD support
Cloud SGBD support
Cloud Storage
Sécurité
Data Virtualisation
Format tiers (HDF5)
Open Source
15
16. Paris Open Source Summit - 10 Décembre 2019
16
La Data Gouvernance technique des données chez RTE
Découverte des données “universelle”
- Centralisation de “tous” les jeux de données
- Centralisation de toute la documentation des jeux de données
Exécution centralisée des traitements
- Tous les traitements quels qu’ils soient sont exécutés depuis un même et unique point (distribué,
tolérance à la panne…)
- Suivi global de la plate-forme
Valorisation des données selon To Utile
17. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Quelle est la feuille de route aujourd’hui chez RTE ?
Comment partagez-vous cette culture de gouvernance technique au sein de
RTE ?
Quels regards sur cette gouvernance technique ?
17
18. Paris Open Source Summit - 10 Décembre 2019Paris Open Source Summit - 10 Décembre 2019
Merci !
Questions?
@Synaltic / @RTE_France
18