2. Qu'est-ce un data lake ?
Un lac de données (en anglais data lake)
est une méthode de stockage de données
importante utilisée par le big data
(mégadonnée/donnée massive français).
3. Une Donnée 🤔 ?
Ce qui est connu ou admis comme tel,
sur lequel on peut fonder un
raisonnement, qui sert de point de
départ pour une recherche
Source: La Rousse
4. L'architecture Data
Lake et ses composants
• Il doit être flexible pour fonctionner en ponctuel ou en
temps réel, et il doit prendre en charge tous les types
de données
• Un système de stockage de données hautement
évolutif doit être capable de stocker et de traiter des
données brutes et de prendre en charge le cryptage et
la compression tout en restant rentable
• Quel que soit le type de données traitées, les lacs de
données doivent être hautement sécurisés grâce à
l'utilisation de l'authentification multifactorielle, de
l'autorisation, de l'accès basé sur les rôles, de la
protection des données
5. • Une fois les données saisies, elles doivent être analysées rapidement et efficacement à l'aide d'outils d'analyse des
données et d'apprentissage automatique pour en tirer des informations précieuses et transférer les données
vérifiées dans un entrepôt de données
• L'ensemble du processus d'ingestion, de préparation, de catalogage, d'intégration et d'accélération des requêtes
des données doit être rationalisé pour produire une qualité de données au niveau de l'entreprise. Il est également
important de suivre les modifications apportées aux éléments de données clés pour un audit des données
6. Quelques avantages
• une capacité de stockage de grosses volumétries de données,
• une rapidité de stockage sans pré-traitement des données brutes,
• une souplesse et polyvalence pour stocker différents formats et sources de données,
• une rationalisation du stockage des données,
• une réduction des coûts de stockage,
• une réduction du temps passé et du coût liés à la préparation des données avant leur stockage, puisque leur
format d’origine est conservé
7. Quelques inconvenients
• La difficulté à organiser et maintenir une gouvernance des données efficace.
• Le temps nécessaire à traiter et analyser les données stockées à l'état brut.
• L'expertise requise pour rechercher, analyser et traiter les données de manière pertinente et créatrice de valeur,
souvent confiées aux Data Scientists .
• La sécurité, la confidentialité et les problématiques liées aux données personnelles
• La difficulté à conserver un lac de données propre et organisé.