SlideShare une entreprise Scribd logo
1  sur  7
Télécharger pour lire hors ligne
Data Lake
lac de donnée
Qu'est-ce un data lake ?
Un lac de données (en anglais data lake)
est une méthode de stockage de données
importante utilisée par le big data
(mégadonnée/donnée massive français).
Une Donnée 🤔 ?
Ce qui est connu ou admis comme tel,
sur lequel on peut fonder un
raisonnement, qui sert de point de
départ pour une recherche
Source: La Rousse
L'architecture Data
Lake et ses composants
• Il doit être flexible pour fonctionner en ponctuel ou en
temps réel, et il doit prendre en charge tous les types
de données
• Un système de stockage de données hautement
évolutif doit être capable de stocker et de traiter des
données brutes et de prendre en charge le cryptage et
la compression tout en restant rentable
• Quel que soit le type de données traitées, les lacs de
données doivent être hautement sécurisés grâce à
l'utilisation de l'authentification multifactorielle, de
l'autorisation, de l'accès basé sur les rôles, de la
protection des données
• Une fois les données saisies, elles doivent être analysées rapidement et efficacement à l'aide d'outils d'analyse des
données et d'apprentissage automatique pour en tirer des informations précieuses et transférer les données
vérifiées dans un entrepôt de données
• L'ensemble du processus d'ingestion, de préparation, de catalogage, d'intégration et d'accélération des requêtes
des données doit être rationalisé pour produire une qualité de données au niveau de l'entreprise. Il est également
important de suivre les modifications apportées aux éléments de données clés pour un audit des données
Quelques avantages
• une capacité de stockage de grosses volumétries de données,
• une rapidité de stockage sans pré-traitement des données brutes,
• une souplesse et polyvalence pour stocker différents formats et sources de données,
• une rationalisation du stockage des données,
• une réduction des coûts de stockage,
• une réduction du temps passé et du coût liés à la préparation des données avant leur stockage, puisque leur
format d’origine est conservé
Quelques inconvenients
• La difficulté à organiser et maintenir une gouvernance des données efficace.
• Le temps nécessaire à traiter et analyser les données stockées à l'état brut.
• L'expertise requise pour rechercher, analyser et traiter les données de manière pertinente et créatrice de valeur,
souvent confiées aux Data Scientists .
• La sécurité, la confidentialité et les problématiques liées aux données personnelles
• La difficulté à conserver un lac de données propre et organisé.

Contenu connexe

Similaire à Présentation Datalake.pdf

Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Denodo
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Denodo
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
Ludovic Piot
 
Présentation de Philippe Prat et Lorène Béchard
Présentation de Philippe Prat et Lorène BéchardPrésentation de Philippe Prat et Lorène Béchard
Présentation de Philippe Prat et Lorène Béchard
AssociationAF
 

Similaire à Présentation Datalake.pdf (20)

BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
introduction bigdata
introduction bigdataintroduction bigdata
introduction bigdata
 
Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
 
AOS mtl-qc ged SharePoint pourquoi pas
AOS  mtl-qc ged SharePoint pourquoi pasAOS  mtl-qc ged SharePoint pourquoi pas
AOS mtl-qc ged SharePoint pourquoi pas
 
Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
Webséminaire DBaaS (Novembre 2014)
Webséminaire DBaaS (Novembre 2014)Webséminaire DBaaS (Novembre 2014)
Webséminaire DBaaS (Novembre 2014)
 
BD_Decisionnel_fin-2020tjtgenieindustriel.ppt
BD_Decisionnel_fin-2020tjtgenieindustriel.pptBD_Decisionnel_fin-2020tjtgenieindustriel.ppt
BD_Decisionnel_fin-2020tjtgenieindustriel.ppt
 
Stockage sur site et dans le Cloud: témoignage d'implémentation StorSimple
Stockage sur site et dans le Cloud: témoignage d'implémentation StorSimple Stockage sur site et dans le Cloud: témoignage d'implémentation StorSimple
Stockage sur site et dans le Cloud: témoignage d'implémentation StorSimple
 
Les entrepôts de données ou comment rendre les données trouvables accessibles...
Les entrepôts de données ou comment rendre les données trouvables accessibles...Les entrepôts de données ou comment rendre les données trouvables accessibles...
Les entrepôts de données ou comment rendre les données trouvables accessibles...
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
 
Big data
Big dataBig data
Big data
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Hibernate
HibernateHibernate
Hibernate
 
Webinar : Reprenez le contrôle de votre capital informationnel avec Everteam
Webinar : Reprenez le contrôle de votre capital informationnel avec EverteamWebinar : Reprenez le contrôle de votre capital informationnel avec Everteam
Webinar : Reprenez le contrôle de votre capital informationnel avec Everteam
 
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache CassandraDataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
 
Gm archivage bdd
Gm archivage bddGm archivage bdd
Gm archivage bdd
 
Présentation de Philippe Prat et Lorène Béchard
Présentation de Philippe Prat et Lorène BéchardPrésentation de Philippe Prat et Lorène Béchard
Présentation de Philippe Prat et Lorène Béchard
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 

Présentation Datalake.pdf

  • 2. Qu'est-ce un data lake ? Un lac de données (en anglais data lake) est une méthode de stockage de données importante utilisée par le big data (mégadonnée/donnée massive français).
  • 3. Une Donnée 🤔 ? Ce qui est connu ou admis comme tel, sur lequel on peut fonder un raisonnement, qui sert de point de départ pour une recherche Source: La Rousse
  • 4. L'architecture Data Lake et ses composants • Il doit être flexible pour fonctionner en ponctuel ou en temps réel, et il doit prendre en charge tous les types de données • Un système de stockage de données hautement évolutif doit être capable de stocker et de traiter des données brutes et de prendre en charge le cryptage et la compression tout en restant rentable • Quel que soit le type de données traitées, les lacs de données doivent être hautement sécurisés grâce à l'utilisation de l'authentification multifactorielle, de l'autorisation, de l'accès basé sur les rôles, de la protection des données
  • 5. • Une fois les données saisies, elles doivent être analysées rapidement et efficacement à l'aide d'outils d'analyse des données et d'apprentissage automatique pour en tirer des informations précieuses et transférer les données vérifiées dans un entrepôt de données • L'ensemble du processus d'ingestion, de préparation, de catalogage, d'intégration et d'accélération des requêtes des données doit être rationalisé pour produire une qualité de données au niveau de l'entreprise. Il est également important de suivre les modifications apportées aux éléments de données clés pour un audit des données
  • 6. Quelques avantages • une capacité de stockage de grosses volumétries de données, • une rapidité de stockage sans pré-traitement des données brutes, • une souplesse et polyvalence pour stocker différents formats et sources de données, • une rationalisation du stockage des données, • une réduction des coûts de stockage, • une réduction du temps passé et du coût liés à la préparation des données avant leur stockage, puisque leur format d’origine est conservé
  • 7. Quelques inconvenients • La difficulté à organiser et maintenir une gouvernance des données efficace. • Le temps nécessaire à traiter et analyser les données stockées à l'état brut. • L'expertise requise pour rechercher, analyser et traiter les données de manière pertinente et créatrice de valeur, souvent confiées aux Data Scientists . • La sécurité, la confidentialité et les problématiques liées aux données personnelles • La difficulté à conserver un lac de données propre et organisé.