ÉVOLUTION DES
PLATEFORMES DE
DONNÉES
Leading with Advanced Analytics & AI – Séance 2
De Data Warehousing à Data Lakehouse
OBJECTIFS
Comprendre les types
de données et les
modes de traitement
Explorer l’évolution
des plateformes de
données
Expliquer pourquoi
ces évolutions sont
nécessaires
TYPE DE DONNÉES
TRAITEMENT DE DONNÉES
•Batch Processing :Traitement en lots à intervalles
réguliers .
•Real-time Processing : Analyse immédiate des données
au moment de leur arrivée
DATA WAREHOUSING
• Stockage structuré
des données,
• Optimisé pour
l'analyse et les
rapports
• Nécessite une
modélisation
rigoureuse
DATA WAREHOUSING
-Données
centralisées et
structurées pour
l'analyse et le
reporting.
Optimisé pour les
requêtes SQL et les
tableaux de bord
BI.
-Ne supporte pas
bien les données
non structurées.
-Pas adapté au
traitement en
temps réel, grand
volume.
avantages
limites
DATA LAKE
Explosion
du Big
Data 2000s
-Flexible
-Support
streaming
-Cost-efficient
- Support
Machine
Learning et Big
Data
DATA LAKE
-Ne supporte pas les
données
transactionnelles.
-Données peu fiables
-Difficile à gouverner
-DataWarehouse
encore nécessaire
limites
CCOMPLEX TECHNOLOGY
STACK
COMPLEX TECHNOLOGY STACK
seulement 32 % des entreprises
obtenaient une valeur mesurable
DATA LAKEHOUSE
Une seule platform pour unifier toutes les
données, analytics et IA workloads
source unique de verité
DATA LAKEHOUSE
Une seule platform pour unifier toutes les
données, analytics et IA workloads
✅ Support des transactions :
✅ Contrôle des schémas et gouvernance
✅ Gouvernance des données : Respecte les réglementations sur la
confidentialité et fournit des métriques sur l’utilisation des données.
✅ Optimisation pour la BI
✅ Stockage et calcul indépendants : Permet d’ajuster séparément les capacités
de stockage et de calcul selon les besoins spécifiques.
✅ Formats de stockage ouverts
✅ Support des données hétérogènes
✅ Exécution de charges de travail diversifiées
✅ Gestion du streaming de bout en bout
Le data lakehouse permet ainsi aux analystes de données, data engineer et
data scientists de travailler dans un environnement unifié.
UNIFIED DATA PLATFORM
UNIFIED DATA PLATFORM
UNIFIED DATA PLATFORM
DATA INTELLIGENCE PLATFORM
RÉSUMÉ ET DISCUSSION
• - Différents types de données
• - Plateforme unifiée
• Discussion : Qu'en pensez-vous ? Comment voyez-vous
l'intégration de vos données actuelles dans un data lakehouse
pour améliorer l'analyse et la prise de décision au sein de
votre entreprise ?
PROCHAINE SÉANCE
Projet data et IA : les étapes
cruciales"

leading_advanced analytics_IA_seance3.pptx

  • 1.
    ÉVOLUTION DES PLATEFORMES DE DONNÉES Leadingwith Advanced Analytics & AI – Séance 2 De Data Warehousing à Data Lakehouse
  • 2.
    OBJECTIFS Comprendre les types dedonnées et les modes de traitement Explorer l’évolution des plateformes de données Expliquer pourquoi ces évolutions sont nécessaires
  • 3.
  • 4.
    TRAITEMENT DE DONNÉES •BatchProcessing :Traitement en lots à intervalles réguliers . •Real-time Processing : Analyse immédiate des données au moment de leur arrivée
  • 5.
    DATA WAREHOUSING • Stockagestructuré des données, • Optimisé pour l'analyse et les rapports • Nécessite une modélisation rigoureuse
  • 6.
    DATA WAREHOUSING -Données centralisées et structuréespour l'analyse et le reporting. Optimisé pour les requêtes SQL et les tableaux de bord BI. -Ne supporte pas bien les données non structurées. -Pas adapté au traitement en temps réel, grand volume. avantages limites
  • 7.
    DATA LAKE Explosion du Big Data2000s -Flexible -Support streaming -Cost-efficient - Support Machine Learning et Big Data
  • 8.
    DATA LAKE -Ne supportepas les données transactionnelles. -Données peu fiables -Difficile à gouverner -DataWarehouse encore nécessaire limites
  • 9.
  • 10.
    COMPLEX TECHNOLOGY STACK seulement32 % des entreprises obtenaient une valeur mesurable
  • 11.
    DATA LAKEHOUSE Une seuleplatform pour unifier toutes les données, analytics et IA workloads source unique de verité
  • 12.
    DATA LAKEHOUSE Une seuleplatform pour unifier toutes les données, analytics et IA workloads ✅ Support des transactions : ✅ Contrôle des schémas et gouvernance ✅ Gouvernance des données : Respecte les réglementations sur la confidentialité et fournit des métriques sur l’utilisation des données. ✅ Optimisation pour la BI ✅ Stockage et calcul indépendants : Permet d’ajuster séparément les capacités de stockage et de calcul selon les besoins spécifiques. ✅ Formats de stockage ouverts ✅ Support des données hétérogènes ✅ Exécution de charges de travail diversifiées ✅ Gestion du streaming de bout en bout Le data lakehouse permet ainsi aux analystes de données, data engineer et data scientists de travailler dans un environnement unifié.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
    RÉSUMÉ ET DISCUSSION •- Différents types de données • - Plateforme unifiée • Discussion : Qu'en pensez-vous ? Comment voyez-vous l'intégration de vos données actuelles dans un data lakehouse pour améliorer l'analyse et la prise de décision au sein de votre entreprise ?
  • 18.
    PROCHAINE SÉANCE Projet dataet IA : les étapes cruciales"

Notes de l'éditeur

  • #1 La numérisation exponentielle de notre économie, les avancées technologiques majeures récentes et les possibilités de valorisation offertes par les outils d’analyse et d’Intelligence Artificielle sont des facteurs qui renforcent l’importance de la data, considérée comme l’un des actifs les plus importants d’une organisation. Il devient urgent pour les entreprises d’apprendre à maîtriser et exploiter ce capital data
  • #2 Comprendre les types de données et les modes de traitement (structurées, semi-structurées, non structurées, batch vs real-time). Explorer l’évolution des plateformes de données (Data Warehouse, Data Lake, Data Lakehouse) et leurs rôles respectifs. Expliquer pourquoi ces évolutions sont nécessaires en fonction des besoins des entreprises (scalabilité, flexibilité, gouvernance).
  • #3 Avant d'aborder l'évolution des plateformes de données, il est essentiel de comprendre les types de données et les modes de traitement qui influencent leur gestion. 📊 Types de Données Données structurées : Bases de données relationnelles (SQL), organisées en tableaux avec schéma défini (ex : ERP, CRM, transactions bancaires). Données semi-structurées : JSON, XML, CSV – données ayant une structure partielle mais flexibles. Données non structurées : Images, vidéos, audios, emails, documents PDF – ne suivent pas un format prédéfini.
  • #4 Batch Processing : Traitement en lots à intervalles réguliers (ex : génération de rapports nocturnes). Real-time Processing : Analyse immédiate des données au moment de leur arrivée (ex : détection de fraude en temps réel). Transactions bancaires : Vérification et validation instantanée des paiements. Surveillance des réseaux sociaux : Analyse des tendances Twitter en direct. Systèmes IoT : Capteurs de température dans une usine transmettant des données en continu. Bourse : Cours des actions mis à jour instantanément. Navigation GPS : Ajustement du trajet en fonction du trafic en direct. Exemples de données en batch Rapports financiers mensuels : Consolidation des revenus et dépenses. Traitement des commandes e-commerce : Regroupement et analyse des ventes chaque nuit. Mise à jour des bases de données clients : Nettoyage et enrichissement des informations une fois par semaine. Analyse des tendances de vente : Extraction et agrégation des données historiques. Traitement des logs système : Analyse des erreurs et performances des serveurs chaque jour.
  • #5 0:40 - Les data warehouses ont été conçus pour collecter, consolider et structurer ces grandes quantités de données afin de soutenir l'intelligence d'affaires et l'analyse des données. 0:48 - Dans un data warehouse, les données sont structurées et nettoyées avec des schémas prédéfinis. 0:52 - Cependant, les data warehouses n'ont pas été conçus pour gérer des données semi-structurées ou non structurées. 0:55 - Leur stockage et leur analyse devenaient très coûteux dès qu'ils devaient traiter des données ne correspondant pas à un schéma rigide. 1:03 - Avec la croissance des entreprises et la transformation numérique, la quantité, la vitesse et la diversité des données ont explosé. 1:10 - Cette augmentation a rendu les data warehouses obsolètes, car ils prenaient trop de temps à traiter les données et à fournir des résultats. 1:18 - De plus, leur capacité à gérer la variété et la rapidité des données était très limitée. Centraliser les données structurées pour l'analyse et le reporting. Optimisé pour les requêtes SQL et les tableaux de bord BI.
  • #6 0:40 - Les data warehouses ont été conçus pour collecter, consolider et structurer ces grandes quantités de données afin de soutenir l'intelligence d'affaires et l'analyse des données. 0:48 - Dans un data warehouse, les données sont structurées et nettoyées avec des schémas prédéfinis. 0:52 - Cependant, les data warehouses n'ont pas été conçus pour gérer des données semi-structurées ou non structurées. 0:55 - Leur stockage et leur analyse devenaient très coûteux dès qu'ils devaient traiter des données ne correspondant pas à un schéma rigide. 1:03 - Avec la croissance des entreprises et la transformation numérique, la quantité, la vitesse et la diversité des données ont explosé. 1:10 - Cette augmentation a rendu les data warehouses obsolètes, car ils prenaient trop de temps à traiter les données et à fournir des résultats. 1:18 - De plus, leur capacité à gérer la variété et la rapidité des données était très limitée. Centraliser les données structurées pour l'analyse et le reporting. Optimisé pour les requêtes SQL et les tableaux de bord BI. Stockage structuré des données • Optimisé pour l'analyse et les rapports • Nécessite une modélisation rigoureuse Cependant, les data warehouses n'ont pas été conçus pour gérer des données semi-structurées ou non structurées. 0:55 - Leur stockage et leur analyse devenaient très coûteux dès qu'ils devaient traiter des données ne correspondant pas à un schéma rigide. Avec la croissance des entreprises et la transformation numérique, la quantité, la vitesse et la diversité des données ont explosé. - Cette augmentation a rendu les data warehouses obsolètes, car ils prenaient trop de temps à traiter les données et à fournir des résultats. De plus, leur capacité à gérer la variété et la rapidité des données était très limitée.
  • #7 Introduction Le data lakehouse est une évolution des architectures de gestion des données qui vise à surmonter les limites des solutions traditionnelles. Pour comprendre son rôle et son importance, il est essentiel d’explorer l’histoire de la gestion des données et les défis posés par le Big Data. L'histoire de la gestion des données À la fin des années 1980, les entreprises ont commencé à exploiter les données pour prendre des décisions stratégiques et stimuler l’innovation. Les bases de données relationnelles classiques étant insuffisantes face à la croissance des volumes et à l'accélération de la génération de données, il a fallu développer de nouvelles approches capables de stocker, gérer et analyser ces informations plus efficacement. Le Data Warehouse : une première solution structurée Les data warehouses (entrepôts de données) ont été créés pour collecter, consolider et structurer ces grandes quantités de données afin de soutenir l’intelligence d’affaires et l’analyse des données. Ces systèmes permettaient de traiter des données structurées et nettoyées avec des schémas prédéfinis, garantissant ainsi la fiabilité et la qualité des analyses. Cependant, les data warehouses ont rapidement montré leurs limites : Ils n’étaient pas conçus pour gérer des données semi-structurées ou non structurées (ex. : vidéos, images, logs, documents texte). Leur coût de stockage et d’analyse devenait prohibitif dès qu’ils devaient traiter des données ne respectant pas un schéma rigide. Avec la croissance exponentielle des données en termes de volume, variété et vélocité, ils peinaient à répondre aux besoins des entreprises en temps réel. Les défis du Big Data et la nécessité d'une nouvelle approche Avec la transformation numérique, les entreprises ont vu exploser la quantité de données générées par divers canaux (web, IoT, réseaux sociaux, transactions, etc.). Cette augmentation a mis en évidence les faiblesses des data warehouses, notamment : Le temps de traitement trop long pour produire des insights exploitables. L’incapacité à gérer la diversité des données (structurées, semi-structurées et non structurées). Le manque de flexibilité et de scalabilité pour répondre aux nouveaux besoins analytiques. Face à ces défis, une nouvelle génération d’architectures de gestion des données a émergé : le data lake et, plus récemment, le data lakehouse, combinant les avantages du data warehouse et du data lake pour offrir une solution plus flexible, évolutive et performante.
  • #8 0:40 - Les data warehouses ont été conçus pour collecter, consolider et structurer ces grandes quantités de données afin de soutenir l'intelligence d'affaires et l'analyse des données. 0:48 - Dans un data warehouse, les données sont structurées et nettoyées avec des schémas prédéfinis. 0:52 - Cependant, les data warehouses n'ont pas été conçus pour gérer des données semi-structurées ou non structurées. 0:55 - Leur stockage et leur analyse devenaient très coûteux dès qu'ils devaient traiter des données ne correspondant pas à un schéma rigide. 1:03 - Avec la croissance des entreprises et la transformation numérique, la quantité, la vitesse et la diversité des données ont explosé. 1:10 - Cette augmentation a rendu les data warehouses obsolètes, car ils prenaient trop de temps à traiter les données et à fournir des résultats. 1:18 - De plus, leur capacité à gérer la variété et la rapidité des données était très limitée. Centraliser les données structurées pour l'analyse et le reporting. Optimisé pour les requêtes SQL et les tableaux de bord BI. Stockage structuré des données • Optimisé pour l'analyse et les rapports • Nécessite une modélisation rigoureuse Cependant, les data warehouses n'ont pas été conçus pour gérer des données semi-structurées ou non structurées. 0:55 - Leur stockage et leur analyse devenaient très coûteux dès qu'ils devaient traiter des données ne correspondant pas à un schéma rigide. Avec la croissance des entreprises et la transformation numérique, la quantité, la vitesse et la diversité des données ont explosé. - Cette augmentation a rendu les data warehouses obsolètes, car ils prenaient trop de temps à traiter les données et à fournir des résultats. De plus, leur capacité à gérer la variété et la rapidité des données était très limitée.
  • #9 Parce que les data lakes n'ont pas totalement remplacé les data warehouses pour fournir des insights BI fiables, les entreprises ont mis en place des environnements technologiques complexes, combinant data lakes, data warehouses et d'autres systèmes spécialisés pour la gestion des données en streaming, des séries temporelles, des graphes et des images. Cependant, cette approche a introduit une grande complexité et des délais importants. Les équipes data se sont retrouvées isolées dans des tâches fragmentées et déconnectées. Les données devaient être copiées d’un système à un autre, et parfois même répliquées en sens inverse, ce qui a entraîné des problèmes de gouvernance, de contrôle et des coûts élevés dus au stockage dupliqué de l’information. Avec ces systèmes cloisonnés, la mise en œuvre efficace de l’intelligence artificielle (IA) est devenue un défi majeur, car l’obtention d’insights exploitables nécessitait d’agréger des données provenant de multiples sources. Une étude récente d'Accenture a révélé que seulement 32 % des entreprises obtenaient une valeur mesurable de leurs données. Il était donc nécessaire de changer d’approche. Les entreprises avaient besoin d’un système unique, flexible et performant, capable de répondre à la croissance des cas d’usage des données, tels que : L’exploration des données La modélisation prédictive L’analyse prédictive Les équipes data avaient également besoin de plateformes prenant en charge des applications analytiques avancées, notamment : L’analyse SQL L’analyse en temps réel La science des données Le machine learning Ces défis ont mené à l’évolution vers le data lakehouse, qui combine le meilleur du data warehouse et du data lake pour fournir une solution plus intégrée, efficace et évolutive.
  • #10 Parce que les data lakes n'ont pas totalement remplacé les data warehouses pour fournir des insights BI fiables, les entreprises ont mis en place des environnements technologiques complexes, combinant data lakes, data warehouses et d'autres systèmes spécialisés pour la gestion des données en streaming, des séries temporelles, des graphes et des images. Cependant, cette approche a introduit une grande complexité et des délais importants. Les équipes data se sont retrouvées isolées dans des tâches fragmentées et déconnectées. Les données devaient être copiées d’un système à un autre, et parfois même répliquées en sens inverse, ce qui a entraîné des problèmes de gouvernance, de contrôle et des coûts élevés dus au stockage dupliqué de l’information. Avec ces systèmes cloisonnés, la mise en œuvre efficace de l’intelligence artificielle (IA) est devenue un défi majeur, car l’obtention d’insights exploitables nécessitait d’agréger des données provenant de multiples sources. Une étude récente d'Accenture a révélé que seulement 32 % des entreprises obtenaient une valeur mesurable de leurs données. Il était donc nécessaire de changer d’approche. Les entreprises avaient besoin d’un système unique, flexible et performant, capable de répondre à la croissance des cas d’usage des données, tels que : L’exploration des données La modélisation prédictive L’analyse prédictive Les équipes data avaient également besoin de plateformes prenant en charge des applications analytiques avancées, notamment : L’analyse SQL L’analyse en temps réel La science des données Le machine learning Ces défis ont mené à l’évolution vers le data lakehouse, qui combine le meilleur du data warehouse et du data lake pour fournir une solution plus intégrée, efficace et évolutive.
  • #11 Pour répondre à ces besoins et relever ces défis, une nouvelle architecture de gestion des données a émergé : le data lakehouse. Le data lakehouse est une architecture ouverte, combinant les avantages du data lake avec la puissance analytique et les contrôles d’un data warehouse. Construit sur la base d’un data lake, il permet de stocker tous types de données dans un seul emplacement fiable, servant de source unique de vérité pour l’intelligence artificielle (IA) et la business intelligence (BI).
  • #12 ✅ Support des transactions : Gestion des transactions ACID pour des interactions simultanées de lecture et d’écriture. ✅ Contrôle des schémas et gouvernance : Garantit l’intégrité des données et permet un suivi rigoureux via des audits. ✅ Gouvernance des données : Respecte les réglementations sur la confidentialité et fournit des métriques sur l’utilisation des données. ✅ Optimisation pour la BI : Réduit la latence entre la collecte des données et l’obtention d’insights exploitables. ✅ Stockage et calcul indépendants : Permet d’ajuster séparément les capacités de stockage et de calcul selon les besoins spécifiques. ✅ Formats de stockage ouverts : Utilise des standards comme Apache Parquet, permettant une interopérabilité avec divers outils et moteurs d’analyse. ✅ Support des données hétérogènes : Gère aussi bien des données structurées, semi-structurées et non structurées en un seul endroit. ✅ Exécution de charges de travail diversifiées : Une même infrastructure peut être utilisée pour la science des données, le machine learning et l’analyse SQL. ✅ Gestion du streaming de bout en bout : Fournit des rapports en temps réel, éliminant le besoin d’un système distinct dédié aux applications temps réel. Le data lakehouse permet ainsi aux analystes de données, ingénieurs data et data scientists de travailler dans un environnement unifié. En résumé, il représente une version modernisée du data warehouse, offrant tous ses avantages sans compromettre la flexibilité et la capacité de stockage étendue d’un data lake.