La promesse du data lake est simple : tirer profit de la puissance et de la souplesse des technologies Big Data pour stocker en vrac, c’est-à-dire avec très peu de transformation, de gouvernance ou de sémantique, toutes les données structurées ou non sans préjuger des traitements qui leur seront appliqués, afin de les exposer à des outils de visualisation et d’analyse pour démultiplier l’autonomie et l’agilité des data scientists.
Au-delà de la promesse marketing, qu’en est-il réellement du data lake ? Que contient-il en pratique ? Où se situent réellement les gisements de création de valeur ? Data lake et data warehouse, complémentarité, redondance ou compétition ? Comment palier au manque de méta-données et à la faible qualité des données ? Jusqu’à quel point le data lake d’entreprise est-il gérable, quand doit-on basculer sur un niveau départemental ? Quelles fonctions supportent le data lake, avec quel outillage technique, avec quelles compétences ? Quelle organisation mettre en place autour d’un data lake ? Quelle gouvernance des données sur un data lake ? Le data lake est-il compatible avec des exigences de sécurité, de pseudonymisation et de respect de la vie privée ?
Le séminaire conclura sur un cas pratique de mise en place d’un data lake d’une dizaine de téra-octets avec des outils de visualisation et d’analyse opérationnel en moins d’un mois. Ce cas permettra de mieux appréhender les enjeux de coûts, de planning, de choix techniques, d’organisation et de modélisation du retour sur investissement.