1. Prez Flash :: Talend Open Studio Auteur : Thibault Chassagnette – Pierre Antoine Schaeffer
2. Sommaire Contexte Pourquoi utiliser un ETL ? Présentation ETL Qu’est ce qu’un ETL ? Talend Open Studio Présentation, Utilisation Scénarios d’utilisation Charger, exporter, configurer Retours d’expérience Avantages, inconvénients
3. Contexte : intégration dans un SI Projets au cœur d’un écosystème Différents besoins = différentes applications Architectures et technologies différentes Besoin de communiquer avec les autres applications Mise à jour de référentiels Reprises de données
4. Comment communiquer ? Directement entre deux applications Solution simple Performances dégradées en cas d’appels trop nombreux Création d’une dépendance entre les applications Difficile à mettre en œuvre avec des progiciels Application 2 (serveur) Application 1 (client) HTTP, SOAP, TCP, etc.
5. Bus de données Application 2 Application 1 Application 3 Comment communiquer ? Via un bus de données Solution type EAI complexe à mettre en œuvre Performances dégradées en cas d’appels trop nombreux Pas de dépendances directes entre les applications Difficile à mettre en œuvre avec des progiciels Nécessite un connecteur pour chaque application
6. Par duplication de données Fonctionne avec tous les logiciels (échange de fichier ou accès direct aux bases de données) Fonctionne avec de gros volumes de données Les applications sont totalement indépendantes Application 2 (destination) Application 1 (source) Extraction Chargement Transformation Comment communiquer ?
7. Sommaire Contexte Pourquoi utiliser un ETL ? Présentation ETL Qu’est ce qu’un ETL ? Talend Open Studio Présentation, Utilisation Scénarios d’utilisation Charger, exporter, configurer Retours d’expérience Avantages, inconvénients
8. Définition ETL : Extract, Transform, Load Recouvre à la fois : Le processus d’alimentation Les outils permettant de mettre en œuvre ce processus Utilisé principalement dans les domaines : Du DataWareHousing De la Business Intelligence
9. Utilisations possibles Consolidation de données dans le S.I. Exemple : la reconstruction quotidienne d’un DataWareHouse Propagation de données entre bases Exemple : l’alimentation des bases applicatives à partir des référentiels Chargement ou export de données (fichiers) Exemple : export du chiffre d’affaire de la journée Reprise de données Constitution de jeux de données de tests
10. Principe général d’utilisation Le paramétrage se fait via une interface graphique Un graphe décrit les traitements à réaliser Un nœud reprend les données du nœud précédent
11. Fonctionnement en 3 étapes La collecte des données (Extract) Depuis une ou plusieurs applications La préparation et la transformation (Transform) Contrôle des données sources Agrégation de plusieurs informations Transformation des informations Le chargement des données (Load) Vers une ou plusieurs applications
12. Sources de données (entrée ou sortie) Fichiers : plats : taille fixe, séparateur XML : utilisation d’une transformation XSLT propriétaires : Excel Bases de données : Relationnelles : Oracle, Sybase, SQL Server, … Multidimensionnelles Progiciels : ERP : SAP, Oracle, People Soft, … BI : Business Objects, Cognos, …
13. Transformations Transformations sur une ligne Formatage, Copie de colonnes, Conversions, Application de fonctions Transformations sur un ensemble de ligne Agrégation, tri, pivot, échantillonage, tableaux croisés Transformations sur plusieurs sources de données Jointure, union, filtre conditionnel, multicast Vérification de la qualité des données Fuzzy matching, remplacement de valeurs, vérification d’intervalles
14. Sommaire Contexte Pourquoi utiliser un ETL ? Présentation ETL Qu’est ce qu’un ETL ? Talend Open Studio Présentation, Utilisation Scénarios d’utilisation Charger, exporter, configurer Retours d’expérience Avantages, inconvénients
15. Talend : présentation générale Open Source Version gratuite : Talend Open Studio Versions payantes (outils de supervision, ordonnancement, …) Fonctionnement Génération de code JAVA (ou Perl) Création d’un jar à exécuter
16. Talend : les possibilités Sources de données Bases de données (Oracle, Postgre, MySQL, SQL Server, …) Fichiers (CSV, XML, possibilité de définir un schéma ligne à ligne) WebServices Flux RSS, FTP, CVS, SVN, SSH, … Transformations possibles Filtre, tri, … Ajout de code JAVA compilé puis exécuté par Talend
18. Sommaire Contexte Pourquoi utiliser un ETL ? Présentation ETL Qu’est ce qu’un ETL ? Talend Open Studio Présentation, Utilisation Scénarios d’utilisation Charger, exporter, configurer Retours d’expérience Avantages, inconvénients
19. Scénario : chargement de données Chargement d’un fichier CSV Log des lignes traitées Envoi en base de données
20. Scénario : extraction de données Chargement de données depuis une base Agrégation de données Filtre des données Extraction CSV et XML
21. Scénario : configuration et exploitation Configuration d’un job Découpage en sous-job Chargement d’un fichier normé Transformations Export dans une base Envoi d’un mail
22. Sommaire Contexte Pourquoi utiliser un ETL ? Présentation ETL Qu’est ce qu’un ETL ? Talend Open Studio Présentation, Utilisation Scénarios d’utilisation Charger, exporter, configurer Retours d’expérience Avantages, inconvénients
23. Avantages Rapidité et facilité de développement Performances d’exécution Communauté active Réactivité Talend
24. Inconvénients Mauvaise gestion CVS Pas de génération automatisée des exécutables (payant) Attention aux évolutions des composants Nécessite une machine « musclée »
25. Questions ? Retrouvez nous sur le blog technique de Klee http://blog.kleegroup.com/teknics teKnics@kleegroup.com @teKnics_Klee