Talend

6 213 vues

Publié le

Présentation de l'ETL Talend Open Studio.

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
6 213
Sur SlideShare
0
Issues des intégrations
0
Intégrations
80
Actions
Partages
0
Téléchargements
288
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Talend

  1. 1. Prez Flash :: Talend Open Studio<br />Auteur : Thibault Chassagnette – Pierre Antoine Schaeffer<br />
  2. 2. Sommaire<br />Contexte<br />Pourquoi utiliser un ETL ?<br />Présentation ETL<br />Qu’est ce qu’un ETL ?<br />Talend Open Studio <br />Présentation, Utilisation<br />Scénarios d’utilisation<br />Charger, exporter, configurer<br />Retours d’expérience<br />Avantages, inconvénients<br />
  3. 3. Contexte : intégration dans un SI<br />Projets au cœur d’un écosystème <br />Différents besoins = différentes applications<br />Architectures et technologies différentes<br />Besoin de communiquer avec les autres applications<br />Mise à jour de référentiels<br />Reprises de données<br />
  4. 4. Comment communiquer ?<br /> Directement entre deux applications<br />Solution simple<br />Performances dégradées en cas d’appels trop nombreux<br />Création d’une dépendance entre les applications<br />Difficile à mettre en œuvre avec des progiciels<br /> Application 2 <br />(serveur)<br /> Application 1 <br />(client)<br />HTTP, SOAP, TCP, etc.<br />
  5. 5. Bus de données<br /> Application 2 <br /> Application 1 <br /> Application 3 <br />Comment communiquer ?<br />Via un bus de données<br />Solution type EAI complexe à mettre en œuvre<br />Performances dégradées en cas d’appels trop nombreux<br />Pas de dépendances directes entre les applications<br />Difficile à mettre en œuvre avec des progiciels<br />Nécessite un connecteur pour chaque application<br />
  6. 6. Par duplication de données<br />Fonctionne avec tous les logiciels (échange de fichier ou accès direct aux bases de données)<br />Fonctionne avec de gros volumes de données<br />Les applications sont totalement indépendantes<br /> Application 2 <br />(destination)<br /> Application 1 <br />(source)<br />Extraction<br />Chargement<br />Transformation<br />Comment communiquer ?<br />
  7. 7. Sommaire<br />Contexte<br />Pourquoi utiliser un ETL ?<br />Présentation ETL<br />Qu’est ce qu’un ETL ?<br />Talend Open Studio <br />Présentation, Utilisation<br />Scénarios d’utilisation<br />Charger, exporter, configurer<br />Retours d’expérience<br />Avantages, inconvénients<br />
  8. 8. Définition<br />ETL : Extract, Transform, Load<br />Recouvre à la fois :<br />Le processus d’alimentation<br />Les outils permettant de mettre en œuvre ce processus<br />Utilisé principalement dans les domaines :<br />Du DataWareHousing <br />De la Business Intelligence<br />
  9. 9. Utilisations possibles<br />Consolidation de données dans le S.I.<br />Exemple : la reconstruction quotidienne d’un DataWareHouse<br />Propagation de données entre bases<br />Exemple : l’alimentation des bases applicatives à partir des référentiels<br />Chargement ou export de données (fichiers)<br />Exemple : export du chiffre d’affaire de la journée<br />Reprise de données<br />Constitution de jeux de données de tests<br />
  10. 10. Principe général d’utilisation<br />Le paramétrage se fait via une interface graphique<br />Un graphe décrit les traitements à réaliser<br />Un nœud reprend les données du nœud précédent<br />
  11. 11. Fonctionnement en 3 étapes<br />La collecte des données (Extract)<br />Depuis une ou plusieurs applications<br />La préparation et la transformation (Transform)<br />Contrôle des données sources<br />Agrégation de plusieurs informations<br />Transformation des informations<br />Le chargement des données (Load)<br />Vers une ou plusieurs applications<br />
  12. 12. Sources de données (entrée ou sortie)<br />Fichiers :<br />plats : taille fixe, séparateur<br />XML : utilisation d’une transformation XSLT<br />propriétaires : Excel<br />Bases de données :<br />Relationnelles : Oracle, Sybase, SQL Server, …<br />Multidimensionnelles<br />Progiciels :<br />ERP : SAP, Oracle, People Soft, …<br />BI : Business Objects, Cognos, …<br />
  13. 13. Transformations<br />Transformations sur une ligne<br />Formatage, Copie de colonnes, Conversions, Application de fonctions<br />Transformations sur un ensemble de ligne<br />Agrégation, tri, pivot, échantillonage, tableaux croisés<br />Transformations sur plusieurs sources de données<br />Jointure, union, filtre conditionnel, multicast<br />Vérification de la qualité des données<br />Fuzzy matching, remplacement de valeurs, vérification d’intervalles<br />
  14. 14. Sommaire<br />Contexte<br />Pourquoi utiliser un ETL ?<br />Présentation ETL<br />Qu’est ce qu’un ETL ?<br />Talend Open Studio <br />Présentation, Utilisation<br />Scénarios d’utilisation<br />Charger, exporter, configurer<br />Retours d’expérience<br />Avantages, inconvénients<br />
  15. 15. Talend : présentation générale<br />Open Source <br />Version gratuite : Talend Open Studio<br />Versions payantes (outils de supervision, ordonnancement, …)<br />Fonctionnement<br />Génération de code JAVA (ou Perl)<br />Création d’un jar à exécuter<br />
  16. 16. Talend : les possibilités<br />Sources de données<br />Bases de données (Oracle, Postgre, MySQL, SQL Server, …)<br />Fichiers (CSV, XML, possibilité de définir un schéma ligne à ligne)<br />WebServices<br />Flux RSS, FTP, CVS, SVN, SSH, …<br />Transformations possibles<br />Filtre, tri, …<br />Ajout de code JAVA compilé puis exécuté par Talend<br />
  17. 17. Talend : l’interface<br />
  18. 18. Sommaire<br />Contexte<br />Pourquoi utiliser un ETL ?<br />Présentation ETL<br />Qu’est ce qu’un ETL ?<br />Talend Open Studio <br />Présentation, Utilisation<br />Scénarios d’utilisation<br />Charger, exporter, configurer<br />Retours d’expérience<br />Avantages, inconvénients<br />
  19. 19. Scénario : chargement de données<br />Chargement d’un fichier CSV<br />Log des lignes traitées<br />Envoi en base de données<br />
  20. 20. Scénario : extraction de données<br />Chargement de données depuis une base<br />Agrégation de données<br />Filtre des données<br />Extraction CSV et XML<br />
  21. 21. Scénario : configuration et exploitation<br />Configuration d’un job<br />Découpage en sous-job<br />Chargement d’un fichier normé<br />Transformations<br />Export dans une base<br />Envoi d’un mail<br />
  22. 22. Sommaire<br />Contexte<br />Pourquoi utiliser un ETL ?<br />Présentation ETL<br />Qu’est ce qu’un ETL ?<br />Talend Open Studio <br />Présentation, Utilisation<br />Scénarios d’utilisation<br />Charger, exporter, configurer<br />Retours d’expérience<br />Avantages, inconvénients<br />
  23. 23. Avantages<br />Rapidité et facilité de développement<br />Performances d’exécution<br />Communauté active<br />Réactivité Talend<br />
  24. 24. Inconvénients<br />Mauvaise gestion CVS<br />Pas de génération automatisée des exécutables (payant)<br />Attention aux évolutions des composants<br />Nécessite une machine « musclée »<br />
  25. 25. Questions ?<br />Retrouvez nous sur le blog technique de Klee<br />http://blog.kleegroup.com/teknics<br />teKnics@kleegroup.com<br />@teKnics_Klee<br />

×