ETL (Extract,Transform and Load)
Extraction, Transformation et
Chargement

BENTALBA
Salah Eddine
«Consultant IT »
Le Processus

Source de données

ETL

Entrepôt de données

Staging

DataWareHouse

DataMarts
Extraction

 Méthodes de Chargement : Chargement initial (Full) et les
chargements incrémentiels (Delta).

Données Sources

Full Load

Delta Load

Données dans le staging
Extraction

 Etudier les sources pour définir sa stratégie de chargement.

Push

Staging

Pull
Source de
données

ETL
Push- Pull
Extraction

Les questions à se poser selon la stratégie choisie pour définir les
caractéristiques de votre système :
 Quelle est la disponibilité de mes sources de données ?
 Comment y accéder ?
 Comment faire des chargements incrémentiels ?
 Quel est le temps d'un chargement incrémentiel moyen, ai-je la
possibilité de recharger des données dans le cas où mon processus de
chargement échoue ?
 Quelle politique vais-je utiliser dans le cas d'échec de chargement ?
Transformation

Les questions à se poser avant de commencer cette étape :
 Quels sont les champs les plus sujets à erreurs ?
 Ai-je les moyens de corriger les erreurs automatiquement ?

 Comment permettre à un utilisateur de corriger les erreurs ?
 Quelle politique vais-je utiliser pour le traitement des erreurs
(fichier log, table dans BD) ?
 Comment montrer à l'utilisateur final que des données n'ont pas
été totalement chargées à cause d'erreurs ?
Transformation

Les données d’entrepôt doivent être :

Dé-normalisées

Nettoyées

Contextualisées

Chargées en DW
 Etape Critique.

Load

 Chargement des données dans l’entrepôt cible.
 Utiliser une requête Insert SQL ou bien une insertion en bloc
massif (bulk insert).
 Des questions qu'il faut se poser lors de cette étape :





Que faire si un chargement échoue ?
Ai-je les moyens de revenir à l'état avant le chargement ?
Puis-je revenir dans le temps d'un chargement donné ?
Comment valider mon chargement, comment détecter les erreurs ?
Métadonnées

 Données décrivant l’environnement décisionnel.
 Clé de réussite de tout projet décisionnel.
 Assurent l'interopérabilité entre les systèmes.
Quel Outil ?

Les éléments à prendre en compte dans le choix de votre ETL :

Taille de
l'entreprise

Taille de la
structure
informatique

Culture
d'entreprise

Maturité des
solutions
Facebook.com/bentalba.Salaheddine

Me Suivre

Twitter.com/salahBentalba
slideshare.com/salahBentalba

About.me/salaheddine.bentalba

Ma.linkedin.com/in/salaheddinebentalba

Le processus ETL (Extraction, Transformation, Chargement)

  • 1.
    ETL (Extract,Transform andLoad) Extraction, Transformation et Chargement BENTALBA Salah Eddine «Consultant IT »
  • 2.
    Le Processus Source dedonnées ETL Entrepôt de données Staging DataWareHouse DataMarts
  • 3.
    Extraction  Méthodes deChargement : Chargement initial (Full) et les chargements incrémentiels (Delta). Données Sources Full Load Delta Load Données dans le staging
  • 4.
    Extraction  Etudier lessources pour définir sa stratégie de chargement. Push Staging Pull Source de données ETL Push- Pull
  • 5.
    Extraction Les questions àse poser selon la stratégie choisie pour définir les caractéristiques de votre système :  Quelle est la disponibilité de mes sources de données ?  Comment y accéder ?  Comment faire des chargements incrémentiels ?  Quel est le temps d'un chargement incrémentiel moyen, ai-je la possibilité de recharger des données dans le cas où mon processus de chargement échoue ?  Quelle politique vais-je utiliser dans le cas d'échec de chargement ?
  • 6.
    Transformation Les questions àse poser avant de commencer cette étape :  Quels sont les champs les plus sujets à erreurs ?  Ai-je les moyens de corriger les erreurs automatiquement ?  Comment permettre à un utilisateur de corriger les erreurs ?  Quelle politique vais-je utiliser pour le traitement des erreurs (fichier log, table dans BD) ?  Comment montrer à l'utilisateur final que des données n'ont pas été totalement chargées à cause d'erreurs ?
  • 7.
    Transformation Les données d’entrepôtdoivent être : Dé-normalisées Nettoyées Contextualisées Chargées en DW
  • 8.
     Etape Critique. Load Chargement des données dans l’entrepôt cible.  Utiliser une requête Insert SQL ou bien une insertion en bloc massif (bulk insert).  Des questions qu'il faut se poser lors de cette étape :     Que faire si un chargement échoue ? Ai-je les moyens de revenir à l'état avant le chargement ? Puis-je revenir dans le temps d'un chargement donné ? Comment valider mon chargement, comment détecter les erreurs ?
  • 9.
    Métadonnées  Données décrivantl’environnement décisionnel.  Clé de réussite de tout projet décisionnel.  Assurent l'interopérabilité entre les systèmes.
  • 10.
    Quel Outil ? Leséléments à prendre en compte dans le choix de votre ETL : Taille de l'entreprise Taille de la structure informatique Culture d'entreprise Maturité des solutions
  • 11.