Intégration de données avec    les ETL open sources               Présenté par :               Horacio LASSEY-ASSIAKOLEY  ...
AgendaContexteQu’est ce qu’un ETLAvantages des ETLInconvenients des ETLPrésentation de Talend Open SourceCritères de...
Contexte (1/3)      • Les systèmes de production sont         pas intégrés. Il faut s’assurer que         les données soit...
Contexte (2/3)• Les systèmes décisionnelles et de production sont  séparées.• Il faut des routines qui alimentent les sour...
Contexte (3/3)• Ces routines doivent être automatiques et alimentent  le système décisionnel de façon quotidienne ( de  pr...
Qu’est ce qu’un ETL• ETL est l’acronyme de Extract Transform Load. Un ETL  combine en elle seule trois fonctionnalités : e...
Avantages des ETL• Dans un environnement décisionnel une partie des  besoins ne survient qu’après la mise en production. I...
Avantages des ETL (suite)• Accès à des sources de données très diversifiées et  intégration des fonctions de filtre, agrég...
Inconvénient d’un ETL• Il faut apprendre un nouvel outil ou concept. Cela  peut dérouter un programmeur classique• Il y’a ...
Présentation de Talend                Open Studio•   TOS est un ETL de la société Talend•   C’est un projet open source•  ...
Présentation de TalendOpen Studio ( suite )                         11
Critère de sélection d’un                ETL• Type d’ETL : code generator, database-  embedded, engine based• Connecteur n...
DémoJob step1 ( Présentation )                             13
DémoJob step2 ( Mappage des données )                                    14
DémoJob step3 ( Orchestration et gestion de flow)                                                15
DémoJob step4 ( gestion des erreurs et deploiement)                                                  16
ConclusionLe choix d’un etl est très influencé par le projet que l’on fait et le contexteMais pour faire son choix il fa...
Référenceswww.talend.com pour vos prémiers pasThe Data Warehouse ETL Toolkit, Ralph Kimball & Joe Caserta ( pour toute l...
Prochain SlideShare
Chargement dans…5
×

Integration de donnees_etl

4 856 vues

Publié le

C'est une presentation sur les ETL. On explique pourquoi il faut utiliser un ETL et non créer des routines à la main. On présente Talend Open Studio qui est un projet open source et quelques exemples

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
4 856
Sur SlideShare
0
Issues des intégrations
0
Intégrations
997
Actions
Partages
0
Téléchargements
263
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Integration de donnees_etl

  1. 1. Intégration de données avec les ETL open sources Présenté par : Horacio LASSEY-ASSIAKOLEY Twitter : @horalass 1
  2. 2. AgendaContexteQu’est ce qu’un ETLAvantages des ETLInconvenients des ETLPrésentation de Talend Open SourceCritères de sélection des ETLDémo : création de job TalendConclusion 2
  3. 3. Contexte (1/3) • Les systèmes de production sont pas intégrés. Il faut s’assurer que les données soit disponibles dans tous les systèmes. • Les administrateurs définissent des routines manuellement pour synchroniser les données • Ces routines sont difficiles à maintenir si elles sont programmées 3
  4. 4. Contexte (2/3)• Les systèmes décisionnelles et de production sont séparées.• Il faut des routines qui alimentent les sources de données décisionnelles. 4
  5. 5. Contexte (3/3)• Ces routines doivent être automatiques et alimentent le système décisionnel de façon quotidienne ( de préférence la nuit pour que les rapports soient disponible le lendemain matin pour les décideurs) 5
  6. 6. Qu’est ce qu’un ETL• ETL est l’acronyme de Extract Transform Load. Un ETL combine en elle seule trois fonctionnalités : extraction depuis une source de données , la transformation des données issues de l’étape précédente et enfin le load (chargement) dans une nouvelle source de données.• On utilise les ETL pour les projets d’intégration de données (structure BI), de synchronisation de sources de données, migration de données etc… 6
  7. 7. Avantages des ETL• Dans un environnement décisionnel une partie des besoins ne survient qu’après la mise en production. Il faut pouvoir adapter rapidement son code ETL au nouveau des utilisateurs tout en gardant une bonne qualité du code• Nécessité de transformer certains données opérationnelles sans avoir à programmer.• Il faut pouvoir stocker les metadatas des transformations• La plupart des solutions ETL propose des exécutions en parallèle et du multi-threading ce qui les rend plus performants qu’un code simple 7
  8. 8. Avantages des ETL (suite)• Accès à des sources de données très diversifiées et intégration des fonctions de filtre, agrégation etc.• Gestion centralisée des metadata• Utilisation d’interface graphique conviviale pour exécuter les tâches ETL 8
  9. 9. Inconvénient d’un ETL• Il faut apprendre un nouvel outil ou concept. Cela peut dérouter un programmeur classique• Il y’a un temps d’apprentissage donc un temps d’adaption 9
  10. 10. Présentation de Talend Open Studio• TOS est un ETL de la société Talend• C’est un projet open source• C’est une application Eclipse plateforme• Première version en 2005• C’est un ETL générateur de code (Java, Perl ) 10
  11. 11. Présentation de TalendOpen Studio ( suite ) 11
  12. 12. Critère de sélection d’un ETL• Type d’ETL : code generator, database- embedded, engine based• Connecteur natif : SAP, salesforce, XML, etc• Les temps d’exécution.• Type de déclencheur ( temps réel , sur évènement , batch) 12
  13. 13. DémoJob step1 ( Présentation ) 13
  14. 14. DémoJob step2 ( Mappage des données ) 14
  15. 15. DémoJob step3 ( Orchestration et gestion de flow) 15
  16. 16. DémoJob step4 ( gestion des erreurs et deploiement) 16
  17. 17. ConclusionLe choix d’un etl est très influencé par le projet que l’on fait et le contexteMais pour faire son choix il faut tenir compte :  Connecteurs natifs  du temps de traitements  du type d’etl ( générateur de code, moteur de transformation, etc)  du type de déclencheurIl existe plusieurs ETL open source : Talend , Pentaho data Integration etc pour s’essayer et faire la preuve du concept 17
  18. 18. Référenceswww.talend.com pour vos prémiers pasThe Data Warehouse ETL Toolkit, Ralph Kimball & Joe Caserta ( pour toute la théorie des ETL en environnement décisionnel)www.horalass.blogspot.com ( mon blog où je donne quelques conseils d’utilisation de Talend ) 18

×