OBJECTIFS
Comprendre les types
dedonnées et les
modes de traitement
Explorer l’évolution
des plateformes de
données
Expliquer pourquoi
ces évolutions sont
nécessaires
TRAITEMENT DE DONNÉES
•BatchProcessing :Traitement en lots à intervalles
réguliers .
•Real-time Processing : Analyse immédiate des données
au moment de leur arrivée
5.
DATA WAREHOUSING
• Stockagestructuré
des données,
• Optimisé pour
l'analyse et les
rapports
• Nécessite une
modélisation
rigoureuse
6.
DATA WAREHOUSING
-Données
centralisées et
structuréespour
l'analyse et le
reporting.
Optimisé pour les
requêtes SQL et les
tableaux de bord
BI.
-Ne supporte pas
bien les données
non structurées.
-Pas adapté au
traitement en
temps réel, grand
volume.
avantages
limites
DATA LAKEHOUSE
Une seuleplatform pour unifier toutes les
données, analytics et IA workloads
source unique de verité
12.
DATA LAKEHOUSE
Une seuleplatform pour unifier toutes les
données, analytics et IA workloads
✅ Support des transactions :
✅ Contrôle des schémas et gouvernance
✅ Gouvernance des données : Respecte les réglementations sur la
confidentialité et fournit des métriques sur l’utilisation des données.
✅ Optimisation pour la BI
✅ Stockage et calcul indépendants : Permet d’ajuster séparément les capacités
de stockage et de calcul selon les besoins spécifiques.
✅ Formats de stockage ouverts
✅ Support des données hétérogènes
✅ Exécution de charges de travail diversifiées
✅ Gestion du streaming de bout en bout
Le data lakehouse permet ainsi aux analystes de données, data engineer et
data scientists de travailler dans un environnement unifié.
RÉSUMÉ ET DISCUSSION
•- Différents types de données
• - Plateforme unifiée
• Discussion : Qu'en pensez-vous ? Comment voyez-vous
l'intégration de vos données actuelles dans un data lakehouse
pour améliorer l'analyse et la prise de décision au sein de
votre entreprise ?
#1 La numérisation exponentielle de notre économie, les avancées technologiques majeures récentes et les possibilités de valorisation offertes par les outils d’analyse et d’Intelligence Artificielle sont des facteurs qui renforcent l’importance de la data, considérée comme l’un des actifs les plus importants d’une organisation. Il devient urgent pour les entreprises d’apprendre à maîtriser et exploiter ce capital data
#2 Comprendre les types de données et les modes de traitement (structurées, semi-structurées, non structurées, batch vs real-time).
Explorer l’évolution des plateformes de données (Data Warehouse, Data Lake, Data Lakehouse) et leurs rôles respectifs.
Expliquer pourquoi ces évolutions sont nécessaires en fonction des besoins des entreprises (scalabilité, flexibilité, gouvernance).
#3 Avant d'aborder l'évolution des plateformes de données, il est essentiel de comprendre les types de données et les modes de traitement qui influencent leur gestion.
📊 Types de Données
Données structurées : Bases de données relationnelles (SQL), organisées en tableaux avec schéma défini (ex : ERP, CRM, transactions bancaires).
Données semi-structurées : JSON, XML, CSV – données ayant une structure partielle mais flexibles.
Données non structurées : Images, vidéos, audios, emails, documents PDF – ne suivent pas un format prédéfini.
#4 Batch Processing : Traitement en lots à intervalles réguliers (ex : génération de rapports nocturnes).
Real-time Processing : Analyse immédiate des données au moment de leur arrivée (ex : détection de fraude en temps réel).
Transactions bancaires : Vérification et validation instantanée des paiements.
Surveillance des réseaux sociaux : Analyse des tendances Twitter en direct.
Systèmes IoT : Capteurs de température dans une usine transmettant des données en continu.
Bourse : Cours des actions mis à jour instantanément.
Navigation GPS : Ajustement du trajet en fonction du trafic en direct.
Exemples de données en batch
Rapports financiers mensuels : Consolidation des revenus et dépenses.
Traitement des commandes e-commerce : Regroupement et analyse des ventes chaque nuit.
Mise à jour des bases de données clients : Nettoyage et enrichissement des informations une fois par semaine.
Analyse des tendances de vente : Extraction et agrégation des données historiques.
Traitement des logs système : Analyse des erreurs et performances des serveurs chaque jour.
#5 0:40 - Les data warehouses ont été conçus pour collecter, consolider et structurer ces grandes quantités de données afin de soutenir l'intelligence d'affaires et l'analyse des données.
0:48 - Dans un data warehouse, les données sont structurées et nettoyées avec des schémas prédéfinis.
0:52 - Cependant, les data warehouses n'ont pas été conçus pour gérer des données semi-structurées ou non structurées.
0:55 - Leur stockage et leur analyse devenaient très coûteux dès qu'ils devaient traiter des données ne correspondant pas à un schéma rigide.
1:03 - Avec la croissance des entreprises et la transformation numérique, la quantité, la vitesse et la diversité des données ont explosé.
1:10 - Cette augmentation a rendu les data warehouses obsolètes, car ils prenaient trop de temps à traiter les données et à fournir des résultats.
1:18 - De plus, leur capacité à gérer la variété et la rapidité des données était très limitée.
Centraliser les données structurées pour l'analyse et le reporting.
Optimisé pour les requêtes SQL et les tableaux de bord BI.
#6 0:40 - Les data warehouses ont été conçus pour collecter, consolider et structurer ces grandes quantités de données afin de soutenir l'intelligence d'affaires et l'analyse des données.
0:48 - Dans un data warehouse, les données sont structurées et nettoyées avec des schémas prédéfinis.
0:52 - Cependant, les data warehouses n'ont pas été conçus pour gérer des données semi-structurées ou non structurées.
0:55 - Leur stockage et leur analyse devenaient très coûteux dès qu'ils devaient traiter des données ne correspondant pas à un schéma rigide.
1:03 - Avec la croissance des entreprises et la transformation numérique, la quantité, la vitesse et la diversité des données ont explosé.
1:10 - Cette augmentation a rendu les data warehouses obsolètes, car ils prenaient trop de temps à traiter les données et à fournir des résultats.
1:18 - De plus, leur capacité à gérer la variété et la rapidité des données était très limitée.
Centraliser les données structurées pour l'analyse et le reporting.
Optimisé pour les requêtes SQL et les tableaux de bord BI.
Stockage structuré des données
• Optimisé pour l'analyse et les rapports
• Nécessite une modélisation rigoureuse
Cependant, les data warehouses n'ont pas été conçus pour gérer des données semi-structurées ou non structurées.
0:55 - Leur stockage et leur analyse devenaient très coûteux dès qu'ils devaient traiter des données ne correspondant pas à un schéma rigide.
Avec la croissance des entreprises et la transformation numérique, la quantité, la vitesse et la diversité des données ont explosé.
- Cette augmentation a rendu les data warehouses obsolètes, car ils prenaient trop de temps à traiter les données et à fournir des résultats.
De plus, leur capacité à gérer la variété et la rapidité des données était très limitée.
#7 Introduction
Le data lakehouse est une évolution des architectures de gestion des données qui vise à surmonter les limites des solutions traditionnelles. Pour comprendre son rôle et son importance, il est essentiel d’explorer l’histoire de la gestion des données et les défis posés par le Big Data.
L'histoire de la gestion des données
À la fin des années 1980, les entreprises ont commencé à exploiter les données pour prendre des décisions stratégiques et stimuler l’innovation. Les bases de données relationnelles classiques étant insuffisantes face à la croissance des volumes et à l'accélération de la génération de données, il a fallu développer de nouvelles approches capables de stocker, gérer et analyser ces informations plus efficacement.
Le Data Warehouse : une première solution structurée
Les data warehouses (entrepôts de données) ont été créés pour collecter, consolider et structurer ces grandes quantités de données afin de soutenir l’intelligence d’affaires et l’analyse des données. Ces systèmes permettaient de traiter des données structurées et nettoyées avec des schémas prédéfinis, garantissant ainsi la fiabilité et la qualité des analyses.
Cependant, les data warehouses ont rapidement montré leurs limites :
Ils n’étaient pas conçus pour gérer des données semi-structurées ou non structurées (ex. : vidéos, images, logs, documents texte).
Leur coût de stockage et d’analyse devenait prohibitif dès qu’ils devaient traiter des données ne respectant pas un schéma rigide.
Avec la croissance exponentielle des données en termes de volume, variété et vélocité, ils peinaient à répondre aux besoins des entreprises en temps réel.
Les défis du Big Data et la nécessité d'une nouvelle approche
Avec la transformation numérique, les entreprises ont vu exploser la quantité de données générées par divers canaux (web, IoT, réseaux sociaux, transactions, etc.). Cette augmentation a mis en évidence les faiblesses des data warehouses, notamment :
Le temps de traitement trop long pour produire des insights exploitables.
L’incapacité à gérer la diversité des données (structurées, semi-structurées et non structurées).
Le manque de flexibilité et de scalabilité pour répondre aux nouveaux besoins analytiques.
Face à ces défis, une nouvelle génération d’architectures de gestion des données a émergé : le data lake et, plus récemment, le data lakehouse, combinant les avantages du data warehouse et du data lake pour offrir une solution plus flexible, évolutive et performante.
#8 0:40 - Les data warehouses ont été conçus pour collecter, consolider et structurer ces grandes quantités de données afin de soutenir l'intelligence d'affaires et l'analyse des données.
0:48 - Dans un data warehouse, les données sont structurées et nettoyées avec des schémas prédéfinis.
0:52 - Cependant, les data warehouses n'ont pas été conçus pour gérer des données semi-structurées ou non structurées.
0:55 - Leur stockage et leur analyse devenaient très coûteux dès qu'ils devaient traiter des données ne correspondant pas à un schéma rigide.
1:03 - Avec la croissance des entreprises et la transformation numérique, la quantité, la vitesse et la diversité des données ont explosé.
1:10 - Cette augmentation a rendu les data warehouses obsolètes, car ils prenaient trop de temps à traiter les données et à fournir des résultats.
1:18 - De plus, leur capacité à gérer la variété et la rapidité des données était très limitée.
Centraliser les données structurées pour l'analyse et le reporting.
Optimisé pour les requêtes SQL et les tableaux de bord BI.
Stockage structuré des données
• Optimisé pour l'analyse et les rapports
• Nécessite une modélisation rigoureuse
Cependant, les data warehouses n'ont pas été conçus pour gérer des données semi-structurées ou non structurées.
0:55 - Leur stockage et leur analyse devenaient très coûteux dès qu'ils devaient traiter des données ne correspondant pas à un schéma rigide.
Avec la croissance des entreprises et la transformation numérique, la quantité, la vitesse et la diversité des données ont explosé.
- Cette augmentation a rendu les data warehouses obsolètes, car ils prenaient trop de temps à traiter les données et à fournir des résultats.
De plus, leur capacité à gérer la variété et la rapidité des données était très limitée.
#9 Parce que les data lakes n'ont pas totalement remplacé les data warehouses pour fournir des insights BI fiables, les entreprises ont mis en place des environnements technologiques complexes, combinant data lakes, data warehouses et d'autres systèmes spécialisés pour la gestion des données en streaming, des séries temporelles, des graphes et des images.
Cependant, cette approche a introduit une grande complexité et des délais importants. Les équipes data se sont retrouvées isolées dans des tâches fragmentées et déconnectées. Les données devaient être copiées d’un système à un autre, et parfois même répliquées en sens inverse, ce qui a entraîné des problèmes de gouvernance, de contrôle et des coûts élevés dus au stockage dupliqué de l’information.
Avec ces systèmes cloisonnés, la mise en œuvre efficace de l’intelligence artificielle (IA) est devenue un défi majeur, car l’obtention d’insights exploitables nécessitait d’agréger des données provenant de multiples sources.
Une étude récente d'Accenture a révélé que seulement 32 % des entreprises obtenaient une valeur mesurable de leurs données. Il était donc nécessaire de changer d’approche.
Les entreprises avaient besoin d’un système unique, flexible et performant, capable de répondre à la croissance des cas d’usage des données, tels que :
L’exploration des données
La modélisation prédictive
L’analyse prédictive
Les équipes data avaient également besoin de plateformes prenant en charge des applications analytiques avancées, notamment :
L’analyse SQL
L’analyse en temps réel
La science des données
Le machine learning
Ces défis ont mené à l’évolution vers le data lakehouse, qui combine le meilleur du data warehouse et du data lake pour fournir une solution plus intégrée, efficace et évolutive.
#10 Parce que les data lakes n'ont pas totalement remplacé les data warehouses pour fournir des insights BI fiables, les entreprises ont mis en place des environnements technologiques complexes, combinant data lakes, data warehouses et d'autres systèmes spécialisés pour la gestion des données en streaming, des séries temporelles, des graphes et des images.
Cependant, cette approche a introduit une grande complexité et des délais importants. Les équipes data se sont retrouvées isolées dans des tâches fragmentées et déconnectées. Les données devaient être copiées d’un système à un autre, et parfois même répliquées en sens inverse, ce qui a entraîné des problèmes de gouvernance, de contrôle et des coûts élevés dus au stockage dupliqué de l’information.
Avec ces systèmes cloisonnés, la mise en œuvre efficace de l’intelligence artificielle (IA) est devenue un défi majeur, car l’obtention d’insights exploitables nécessitait d’agréger des données provenant de multiples sources.
Une étude récente d'Accenture a révélé que seulement 32 % des entreprises obtenaient une valeur mesurable de leurs données. Il était donc nécessaire de changer d’approche.
Les entreprises avaient besoin d’un système unique, flexible et performant, capable de répondre à la croissance des cas d’usage des données, tels que :
L’exploration des données
La modélisation prédictive
L’analyse prédictive
Les équipes data avaient également besoin de plateformes prenant en charge des applications analytiques avancées, notamment :
L’analyse SQL
L’analyse en temps réel
La science des données
Le machine learning
Ces défis ont mené à l’évolution vers le data lakehouse, qui combine le meilleur du data warehouse et du data lake pour fournir une solution plus intégrée, efficace et évolutive.
#11 Pour répondre à ces besoins et relever ces défis, une nouvelle architecture de gestion des données a émergé : le data lakehouse.
Le data lakehouse est une architecture ouverte, combinant les avantages du data lake avec la puissance analytique et les contrôles d’un data warehouse.
Construit sur la base d’un data lake, il permet de stocker tous types de données dans un seul emplacement fiable, servant de source unique de vérité pour l’intelligence artificielle (IA) et la business intelligence (BI).
#12 ✅ Support des transactions : Gestion des transactions ACID pour des interactions simultanées de lecture et d’écriture.
✅ Contrôle des schémas et gouvernance : Garantit l’intégrité des données et permet un suivi rigoureux via des audits.
✅ Gouvernance des données : Respecte les réglementations sur la confidentialité et fournit des métriques sur l’utilisation des données.
✅ Optimisation pour la BI : Réduit la latence entre la collecte des données et l’obtention d’insights exploitables.
✅ Stockage et calcul indépendants : Permet d’ajuster séparément les capacités de stockage et de calcul selon les besoins spécifiques.
✅ Formats de stockage ouverts : Utilise des standards comme Apache Parquet, permettant une interopérabilité avec divers outils et moteurs d’analyse.
✅ Support des données hétérogènes : Gère aussi bien des données structurées, semi-structurées et non structurées en un seul endroit.
✅ Exécution de charges de travail diversifiées : Une même infrastructure peut être utilisée pour la science des données, le machine learning et l’analyse SQL.
✅ Gestion du streaming de bout en bout : Fournit des rapports en temps réel, éliminant le besoin d’un système distinct dédié aux applications temps réel.
Le data lakehouse permet ainsi aux analystes de données, ingénieurs data et data scientists de travailler dans un environnement unifié.
En résumé, il représente une version modernisée du data warehouse, offrant tous ses avantages sans compromettre la flexibilité et la capacité de stockage étendue d’un data lake.