Présentation Datalake.pdf

•

0 j'aime•5 vues

B

datalake presentation

Données & analyses

Data Lake
lac de donnée

Qu'est-ce un data lake ?
Un lac de données (en anglais data lake)
est une méthode de stockage de données
importante utilisée par le big data
(mégadonnée/donnée massive français).

Une Donnée 🤔 ?
Ce qui est connu ou admis comme tel,
sur lequel on peut fonder un
raisonnement, qui sert de point de
départ pour une recherche
Source: La Rousse

L'architecture Data
Lake et ses composants
• Il doit être flexible pour fonctionner en ponctuel ou en
temps réel, et il doit prendre en charge tous les types
de données
• Un système de stockage de données hautement
évolutif doit être capable de stocker et de traiter des
données brutes et de prendre en charge le cryptage et
la compression tout en restant rentable
• Quel que soit le type de données traitées, les lacs de
données doivent être hautement sécurisés grâce à
l'utilisation de l'authentification multifactorielle, de
l'autorisation, de l'accès basé sur les rôles, de la
protection des données

• Une fois les données saisies, elles doivent être analysées rapidement et efficacement à l'aide d'outils d'analyse des
données et d'apprentissage automatique pour en tirer des informations précieuses et transférer les données
vérifiées dans un entrepôt de données
• L'ensemble du processus d'ingestion, de préparation, de catalogage, d'intégration et d'accélération des requêtes
des données doit être rationalisé pour produire une qualité de données au niveau de l'entreprise. Il est également
important de suivre les modifications apportées aux éléments de données clés pour un audit des données

Quelques avantages
• une capacité de stockage de grosses volumétries de données,
• une rapidité de stockage sans pré-traitement des données brutes,
• une souplesse et polyvalence pour stocker différents formats et sources de données,
• une rationalisation du stockage des données,
• une réduction des coûts de stockage,
• une réduction du temps passé et du coût liés à la préparation des données avant leur stockage, puisque leur
format d’origine est conservé

Quelques inconvenients
• La difficulté à organiser et maintenir une gouvernance des données efficace.
• Le temps nécessaire à traiter et analyser les données stockées à l'état brut.
• L'expertise requise pour rechercher, analyser et traiter les données de manière pertinente et créatrice de valeur,
souvent confiées aux Data Scientists .
• La sécurité, la confidentialité et les problématiques liées aux données personnelles
• La difficulté à conserver un lac de données propre et organisé.

Contenu connexe

Similaire à Présentation Datalake.pdf

BigData_Chp1: Introduction à la Big Data

BigData_Chp1: Introduction à la Big Data

BigData_Chp1: Introduction à la Big Data

introduction bigdata

introduction bigdata

introduction bigdata

Watch full webinar here: https://bit.ly/3pjyzRY Une initiative de self-service réussie signifie que les utilisateurs métiers ont accès à une vue complète et cohérente des données, indépendamment de leur emplacement, de leur source ou de leur type. Toutefois, les entreprises doivent également veiller à ce que, tout en exploitant le plein potentiel des données pour les utilisateurs métiers, elles respectent les exigences de sécurité. La virtualisation des données en tant que couche de service de données gouvernée peut non seulement aider les organisations à mettre en place une couche d'accès aux données unifiée qui fournit des vues intégrées des données aux utilisateurs métiers en temps réel, mais permet également à l'organisation d'établir des protocoles de gouvernance et de spécifier des sources faisant autorité. Les points clés du webinar: - Les défis auxquels sont confrontés les utilisateurs métiers - Comment la virtualisation des données permet l’analytique self-service - Une démo live - Des études de cas client

Réussissez vos projets d’analytique self-service avec une couche de services ...

Réussissez vos projets d’analytique self-service avec une couche de services ...

Réussissez vos projets d’analytique self-service avec une couche de services ...

Watch full webinar here: https://buff.ly/47gqTVV Une session découverte de Denodo Platform pour les professionnels de la data D'après la dernière étude du cabinet Forrester The Total Economic Impact™️ of Data Virtualization Using The Denodo Platform, l’impact de la Data Virtualization avec Denodo permet un ROI de 408% et inférieur à 6 mois, une réduction de 65 % des délais de livraison des données par rapport à l'ETL, de 83 % du time-to-revenue et de 67 % du temps alloué à la préparation des données. Découvrez lors de cette session en ligne de 1h30 en quoi la Logical Data Fabric et la data virtualization révolutionnent l'approche métier & IT dans l’accès, la livraison, la consommation, la gouvernance et la sécurisation de vos données, quel que soit l'âge de votre technologie, le format de la donnée ou son emplacement. Avec plus de 1000 clients à travers le monde, Denodo est heureux de vous inviter à cette session en ligne le 14 novembre 2023 de 9h30 à 11h. Si vous êtes un IT Manager, architecte, DSI, Data Scientist ou Data Analyst, cet atelier est pour vous! CONTENU Au programme : une introduction à ce qu'est la virtualisation des données, les cas d'usages, des études de cas clients réels et une démo guidée pas à pas des fonctionnalités de Denodo Platform avec notre version gratuite sur le cloud, Denodo Test Drive. Vous apprendrez comment: - Intégrer et livrer vos données rapidement et facilement à l'aide de Denodo Platform - L'optimiseur de requêtes de Denodo fournit des données en temps réel, à la demande, même lorsqu'il s'agit de jeux de données très volumineux - Exposer les données en tant que «services de données» en vue d’être consommées par une variété d'utilisateurs et d'outils - La virtualisation des données joue un rôle essentiel dans la gouvernance et la sécurité des données au sein de votre organisation

Session en ligne: Découverte du Logical Data Fabric & Data Virtualization

Session en ligne: Découverte du Logical Data Fabric & Data Virtualization

Session en ligne: Découverte du Logical Data Fabric & Data Virtualization

AOS mtl-qc ged SharePoint pourquoi pas

AOS mtl-qc ged SharePoint pourquoi pas

AOS mtl-qc ged SharePoint pourquoi pas

Converteo renouvelle son panorama sur les opportunités liées à une infrastructure Data-Lakes. Cette technologie a démontré ses capacités d’exploitation et de valorisation des datas des entreprises et, dans un contexte de mise en conformité RGPD, révèle encore plus son agilité. Mieux comprendre le Data-Lake : Littéralement traduit par lac de données, il s’agit d’un espace de stockage permettant le traitement d’informations de plusieurs sources et ce, de manière quasi illimitée et en un temps record. Le Data-Lake est donc une réelle opportunité et doit être considéré en amont de toute démarche data-driven, que ce soit dans le domaine : - Du marketing : pour alimenter des campagnes, choisir un lieu d’implantation d’un nouveau magasin ; - De l’expérience client : pour personnaliser une offre, recommander les produits adéquats ; - De la business Intelligence : pour créer une vision 360° de ses clients, piloter la pression publicitaire ; - De la performance opérationnelle : pour réduire ses coûts informatiques, adapter ses ressources en fonction de l’activité. Infrastructure flexible, elle permet donc un large champ d’analyse qualitative avec des données activables à tout moment en fonction des besoins business.

Livre blanc data-lakes converteo 2018

Livre blanc data-lakes converteo 2018

Livre blanc data-lakes converteo 2018

Morning Tech#1 BigData - Oxalide Academy

Morning Tech#1 BigData - Oxalide Academy

Morning Tech#1 BigData - Oxalide Academy

Webséminaire DBaaS (Novembre 2014)

Webséminaire DBaaS (Novembre 2014)

Webséminaire DBaaS (Novembre 2014)

Jean-Philippe PINTE

BD_Decisionnel_fin-2020tjtgenieindustriel.ppt

BD_Decisionnel_fin-2020tjtgenieindustriel.ppt

BD_Decisionnel_fin-2020tjtgenieindustriel.ppt

La solution StorSimple consolide le stockage primaire, l'archivage, la sauvegarde et reprise sur incident au sein d'une appliance connectée à nos centres de données européens Windows Azure. Quel que soit votre projet de stockage (serveurs de fichiers, données SharePoint, Exchange, sauvegarde, restauration, archivage, reprise sur incident), StorSimple présente des avantages considérables en termes de coûts et d'agilité. Venez découvrir lors de cette session les premiers retours d'expérience d'implémentation de cette solution récemment acquise par Microsoft. Speakers : Grégory Laroche (Memodis), Philippe Berthot (Microsoft France)

Stockage sur site et dans le Cloud: témoignage d'implémentation StorSimple

Stockage sur site et dans le Cloud: témoignage d'implémentation StorSimple

Stockage sur site et dans le Cloud: témoignage d'implémentation StorSimple

Microsoft Technet France

Les entrepôts de données ou comment rendre les données trouvables accessibles...

Les entrepôts de données ou comment rendre les données trouvables accessibles...

Les entrepôts de données ou comment rendre les données trouvables accessibles...

Desconnets Jean-Christophe

Watch full webinar here: https://buff.ly/46fhGwK A l’ère où l’adoption de nouvelles technologies et la modernisation des infrastructures de données s’accélèrent, la sécurité des données reste une priorité absolue. Les entreprises sont confrontées à un volume de plus en plus important de données et l’éclatement de ces dernières est une quasi-constante dans toutes les organisations : piloter cet ensemble peut donc s’avérer difficile. C’est pour cette raison que la mise en place d’une gouvernance efficace des données prend un rôle fondamental pour tirer le meilleur parti de toutes ces informations. Dans ce webinar, nous vous proposons de discuter des technologies à adopter pour mettre en place une gouvernance des données efficace. Nous verrons notamment comment Denodo Platform, basée sur la technologie de data virtualization, peut jouer un rôle essentiel en matière de gouvernance et de sécurité des données, en permettant un niveau élevé de sécurité et d’auditabilité, du masquage en temps réel, du lignage, la détection des changements concernant les sources de données et le contrôle de l’impact sur les consommateurs, ainsi qu’une intégration aux systèmes externes de gestion d’entreprise des métadonnées. Rejoignez ce webinar pour découvrir : - Pourquoi la Denodo Platform représente une technologie essentielle dans la mise en place d'une gouvernance efficace de vos données, - Comment Denodo Platform simplifie l’accès aux données de l'entreprise grâce à un point unique d’accès à la donnée tout en fournissant une couche de sécurité et de gouvernance, - Comment Denodo Platform permet aux utilisateurs métiers un accès contrôlé à toutes les données, quel que soit leur emplacement, rapidement et facilement, - Une démo live de certaines des capacités clés de la plateforme Denodo permettant d'illustrer ce webinar.

Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...

Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...

Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...

Big data

Oxalide MorningTech #1 - BigData 1er MorningTech @Oxalide, animé par Ludovic Piot (@lpiot), le 15 décembre 2016. Pour cette 1ère édition du Morning Tech nous vous proposons une overview sur un des thèmes du moment : le Big Data. Au delà de ce buzz word nous aborderons : Les grands concepts Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …) Les enjeux des architectures Big Data (architecture lambda, …) L'intelligence artificielle (machine learning, deep learning, …) Et nous finirons par un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles Subject: Oxalide's 1st MorningTech talk about BigData. Date: 15-dec-2016 Speakers: Ludovic Piot (@lpiot, @oxalide) Language: french Lien SpeakerDeck : https://speakerdeck.com/lpiot/oxalide-morningtech-number-1-bigdata Lien SlideShare : https://www.slideshare.net/LudovicPiot/oxalide-morningtech-1-bigdata YouTube Video capture: https://youtu.be/7O85lRzvMY0 Main topics: * Les grands enjeux du BigData ** les 3 V du Gartner : volume, variété, vélocité * Le stockage des données ** datalake ** les technos * L'ingestion des données ** ETL ** datastream ** les technos * Les enjeux du compute ** map-reduce ** spark ** lambda architecture * Démo d'une plateforme BigData sur AWS * L'intelligence artificielle ** datascience exploratoire et notebooks, ** machine learning, ** deep learning, ** data pipeline ** les technos * Pour aller plus loin ** La gouvernance des données ** La dataviz

Oxalide MorningTech #1 - BigData

Oxalide MorningTech #1 - BigData

Oxalide MorningTech #1 - BigData

Hibernate

Xavier Carpentier

File Analysis, RGPD & Gouvernance de l'Information avec Bassam Zarkout et Noureddine Lamriri. Vous connaîtrez tous les enjeux actuels liés à la gouvernance de l'information et vous apprendrez comment : - Assurer la maîtrise de votre patrimoine informationnel - Garantir la conformité réglementaire - Réduire les coûts de gestion de l'information - Mettre en oeuvre la gouvernance de l'informatio - Gagner du temps dans la recherche et l'identification de votre information

Webinar : Reprenez le contrôle de votre capital informationnel avec Everteam

Webinar : Reprenez le contrôle de votre capital informationnel avec Everteam

Webinar : Reprenez le contrôle de votre capital informationnel avec Everteam

DataStax Enterprise et Cas d'utilisation de Apache Cassandra

DataStax Enterprise et Cas d'utilisation de Apache Cassandra

DataStax Enterprise et Cas d'utilisation de Apache Cassandra

Victor Coustenoble

Gm archivage bdd

Gm archivage bdd

Gm archivage bdd

Présentation de Philippe Prat et Lorène Béchard

Présentation de Philippe Prat et Lorène Béchard

Présentation de Philippe Prat et Lorène Béchard

Data warehouse

Dimassi Khoulouda

Similaire à Présentation Datalake.pdf (20)

BigData_Chp1: Introduction à la Big Data

BigData_Chp1: Introduction à la Big Data

BigData_Chp1: Introduction à la Big Data

introduction bigdata

introduction bigdata

introduction bigdata

Réussissez vos projets d’analytique self-service avec une couche de services ...

Réussissez vos projets d’analytique self-service avec une couche de services ...

Réussissez vos projets d’analytique self-service avec une couche de services ...

Session en ligne: Découverte du Logical Data Fabric & Data Virtualization

Session en ligne: Découverte du Logical Data Fabric & Data Virtualization

Session en ligne: Découverte du Logical Data Fabric & Data Virtualization

AOS mtl-qc ged SharePoint pourquoi pas

AOS mtl-qc ged SharePoint pourquoi pas

AOS mtl-qc ged SharePoint pourquoi pas

Livre blanc data-lakes converteo 2018

Livre blanc data-lakes converteo 2018

Livre blanc data-lakes converteo 2018

Morning Tech#1 BigData - Oxalide Academy

Morning Tech#1 BigData - Oxalide Academy

Morning Tech#1 BigData - Oxalide Academy

Webséminaire DBaaS (Novembre 2014)

Webséminaire DBaaS (Novembre 2014)

Webséminaire DBaaS (Novembre 2014)

BD_Decisionnel_fin-2020tjtgenieindustriel.ppt

BD_Decisionnel_fin-2020tjtgenieindustriel.ppt

BD_Decisionnel_fin-2020tjtgenieindustriel.ppt

Stockage sur site et dans le Cloud: témoignage d'implémentation StorSimple

Stockage sur site et dans le Cloud: témoignage d'implémentation StorSimple

Stockage sur site et dans le Cloud: témoignage d'implémentation StorSimple

Les entrepôts de données ou comment rendre les données trouvables accessibles...

Les entrepôts de données ou comment rendre les données trouvables accessibles...

Les entrepôts de données ou comment rendre les données trouvables accessibles...

Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...

Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...

Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...

Big data

Oxalide MorningTech #1 - BigData

Oxalide MorningTech #1 - BigData

Oxalide MorningTech #1 - BigData

Hibernate

Webinar : Reprenez le contrôle de votre capital informationnel avec Everteam

Webinar : Reprenez le contrôle de votre capital informationnel avec Everteam

Webinar : Reprenez le contrôle de votre capital informationnel avec Everteam

DataStax Enterprise et Cas d'utilisation de Apache Cassandra

DataStax Enterprise et Cas d'utilisation de Apache Cassandra

DataStax Enterprise et Cas d'utilisation de Apache Cassandra

Gm archivage bdd

Gm archivage bdd

Gm archivage bdd

Présentation de Philippe Prat et Lorène Béchard

Présentation de Philippe Prat et Lorène Béchard

Présentation de Philippe Prat et Lorène Béchard

Data warehouse

Présentation Datalake.pdf

1. Data Lake lac de donnée

2. Qu'est-ce un data lake ? Un lac de données (en anglais data lake) est une méthode de stockage de données importante utilisée par le big data (mégadonnée/donnée massive français).

3. Une Donnée 🤔 ? Ce qui est connu ou admis comme tel, sur lequel on peut fonder un raisonnement, qui sert de point de départ pour une recherche Source: La Rousse

4. L'architecture Data Lake et ses composants • Il doit être flexible pour fonctionner en ponctuel ou en temps réel, et il doit prendre en charge tous les types de données • Un système de stockage de données hautement évolutif doit être capable de stocker et de traiter des données brutes et de prendre en charge le cryptage et la compression tout en restant rentable • Quel que soit le type de données traitées, les lacs de données doivent être hautement sécurisés grâce à l'utilisation de l'authentification multifactorielle, de l'autorisation, de l'accès basé sur les rôles, de la protection des données

5. • Une fois les données saisies, elles doivent être analysées rapidement et efficacement à l'aide d'outils d'analyse des données et d'apprentissage automatique pour en tirer des informations précieuses et transférer les données vérifiées dans un entrepôt de données • L'ensemble du processus d'ingestion, de préparation, de catalogage, d'intégration et d'accélération des requêtes des données doit être rationalisé pour produire une qualité de données au niveau de l'entreprise. Il est également important de suivre les modifications apportées aux éléments de données clés pour un audit des données

6. Quelques avantages • une capacité de stockage de grosses volumétries de données, • une rapidité de stockage sans pré-traitement des données brutes, • une souplesse et polyvalence pour stocker différents formats et sources de données, • une rationalisation du stockage des données, • une réduction des coûts de stockage, • une réduction du temps passé et du coût liés à la préparation des données avant leur stockage, puisque leur format d’origine est conservé

7. Quelques inconvenients • La difficulté à organiser et maintenir une gouvernance des données efficace. • Le temps nécessaire à traiter et analyser les données stockées à l'état brut. • L'expertise requise pour rechercher, analyser et traiter les données de manière pertinente et créatrice de valeur, souvent confiées aux Data Scientists . • La sécurité, la confidentialité et les problématiques liées aux données personnelles • La difficulté à conserver un lac de données propre et organisé.