Intégration des données avec Talend ETL

Lilia Sfaxi
Lilia SfaxiDocteur-Ingénieur en Informatique - Assistante à l'INSAT

Visitez http://liliasfaxi.wix.com/liliasfaxi

Institut National des Sciences Appliquées et de Technologie Tunisie

Business Intelligence
2013-2014

TP2- I NTEGRATION DES
DONNEES AVEC T ALEND
Dr. Lilia SFAXI
Objectifs du TP : Utilisation de « Talend Open Studio for Data
Integration » pour l’extraction et la transformation de données à
partir et vers des sources différentes.
TP2 : Intégration des données avec Talend

I. Talend Open Studio
« Talend Open Studio

1

» est un ensemble de produits open source pour le

développement, test, déploiement et administration des projets d’intégration de
données et d’applications. Talend fournit une plateforme unifiée qui rend la gestion et
l’intégration des données et applications plus facile, en fournissant un environnement
unifié pour la gestion de tout leur cycle de vie.
Il existe plusieurs solutions offertes par Talend :
-­‐
-­‐

-­‐
-­‐

Big Data : Environnement qui facilite la gestion des données volumineuses.
Data Integration : Ensemble d’outils pour l’intégration de données pour accéder,
transformer et intégrer les données à partir d’un système en temps réel pour
remplir les besoins d’intégration des données.
Data Quality : Permet d’assurer le profiling et monitoring des données pour
identifier des anomalies et assurer la qualité des données.
ESB : Permet la création, la connexion, la médiation et la gestion des services et
leurs interactions.

Pour les besoins de notre TP, nous utilisons « Talend Data Integration » pour la
transformation des données et leur intégration. Il est possible de télécharger toutes les
solutions de Talend Open Studio sur http://fr.talend.com/products/talend-open-studio

I.1

Installation et Démarrage
-­‐

Après avoir installé Talend sur votre machine, le démarrer et créer un nouveau
projet intitulé : Intégration_données.

Remarque : Veiller à ce que votre workspace soit à un emplacement accessible en
lecture et en écriture (comme vos documents ou votre bureau) : Éviter de le créer
directement dans le répertoire d’installation de Talend.
Après la fermeture de la page de Bienvenue, la fenêtre qui s’affiche aura la forme
suivante :

1

Talend: http://fr.talend.com

Page 2
TP2 : Intégration des données avec Talend
2

1

4

3

1

Panneau représentant la structure de votre projet.

2

Panneau affichant l’architecture des Jobs et le code

3

Onglets contenant les propriétés des composants, la
console d’exécution, les problèmes…

4

Palette des différents composants disponibles.

II. Manipulation des Documents
II.1 Préparation des sources de données
Dans ce TP, nous allons manipuler plusieurs sources de données (fichier CSV, fichier texte
et base de données) pour en extraire les données, les transformer et les sauvegarder
dans d’autres supports. La première étape à réaliser est de définir ces sources de
données dans le Repository pour pouvoir générer leurs schémas et les utiliser dans les
activités suivantes.
Remarque : Les fichiers que nous allons ajouter (client.csv et etats.txt) vous ont été fournis
avec le support de TP.
Pour faire cela, suivre les étapes suivantes :

Page 3
TP2 : Intégration des données avec Talend
Dans le panneau (1) représentant le Repository,
développer la section Métadonnées.
Pour définir des sources sous forme de champs séparés
par des délimiteurs (comme des fichiers csv ou texte),
choisir : Créer un fichier délimité.
Entrer le nom du fichier dans la fenêtre qui apparaît :
client (dans notre cas, nous allons ajouter le fichier
client.csv)
Choisir ensuite le fichier que vous désirez ajouter.
Naviguer pour cela vers le fichier client.csv qui vous a
été fournis. Le visualiseur de fichier vous permet d’avoir
une idée sur le contenu de ce fichier.
Cliquer sur suivant.

Dans la fenêtre suivante, cliquer sur la case Définir les
lignes d’en-tête comme nom de colonne. Cliquer
ensuite sur Rafraîchir l’aperçu. L’aperçu du fichier
extrait sera mis à jour, de manière à ce que la
première ligne du fichier représente les noms des
champs.
Cliquer sur suivant.

Modifier le nom du schéma du fichier délimité (client),
et observer la composition des champs dans le
panneau Description du schéma. Vous pourrez ainsi
modifier les données du schéma à votre guise.
Dans notre cas, ne pas oublier de cocher la case Clé
pour le champ id.
Vous pourrez également modifier les longueurs des
champs (les valeurs par défaut ont été calculées par
Talend selon les données déjà présentes dans le
fichier).
Cliquer sur terminer.
Vous avez ainsi ajouté un fichier source, dont le schéma pourra être utilisé dans toute
l’application.

Page 4
TP2 : Intégration des données avec Talend
Activité 1.
-­‐ Générer de même le schéma du fichier état.txt qui vous est fourni.
-­‐ Dans le SGBD de votre choix, créer une base de données client_bd, contenant
une table appelée client. La structure de cette table n’a pas d’importance, elle
sera écrasée plus tard.
-­‐ Ajouter la base de données comme source dans la partie Métadonnées, et
ajouter la table client aux schémas des tables.

II.2 Tri de documents
Dans cette première activité, on se propose de trier le contenu du fichier client.csv de
manière automatique, en utilisant les composants Talend. Pour cela, suivre les étapes
suivantes :
Créer un nouveau Job que vous appellerez
Tri_fichiers
Glisser le fichier délimité client 0.1, que vous
avez créé précédemment, dans le panneau
(2). Indiquer dans la fenêtre qui apparaît que
c’est un tFileInputDelimited.
Cliquer sur OK.

Dans le panneau (4), représentant la palette, choisir
le composant tSortRow dans la catégorie
Transformation. Ce composant permet, comme son
nom l’indique, de faire le tri d’un ensemble de
données, selon une colonne particulière.
Faire glisser ce composant dans la fenêtre
principale.

Page 5
TP2 : Intégration des données avec Talend
Pour représenter le fichier de sortie, faire glisser le
composant tFileOutputDelimited dans la fenêtre
principale. Il se trouve sous la catégorie Fichier ->
Ecriture.

Relier les trois éléments pour représenter la chaîne
d’exécution. Pour cela, faire un clic droit sur le
composant client, maintenir enfoncé, et glisser vers
le composant de tri.
Faire de même entre le composant de tri et le fichier
de sortie.

Nous allons maintenant configurer les trois
composants. Nous allons d’abord définir le nom du
client comme critère de tri, par ordre alphabétique,
du fichier source.
Cliquer sur le composant de tri. Sous l’onglet
Composant du panneau (3), cliquer sur (+). Modifier
la valeur des champs insérés, pour faire le tri selon le
nom de client, par ordre alphabétique ascendant.
Cliquer ensuite sur le composant de sortie.
-­‐ Choisir
l’emplacement
où
on
désire
sauvegarder le fichier de sortie
-­‐ Cocher la case : Inclure l’en-tête pour que l’entête des colonnes s’affiche dans le fichier de
sortie
-­‐ Devant la case Schéma, changer le type de
schéma vers Référentiel, puis cliquer sur […] à
côté de Editer le schéma. Cela permettra de
définir la structure des champs du fichier de
sortie.
-­‐ Dans la fenêtre affichée, choisir le schéma client
du fichier délimité que vous avez créé.

Une fois ces étapes terminées, enregistrer le projet. Pour exécuter le processus, Cliquer sur
l’onglet Exécuter du panneau (3), puis cliquer sur Exécuter. Ou alors taper F6. A la fin de
l’exécution, la trace suivante est affichée sur la fenêtre principale:

Page 6
TP2 : Intégration des données avec Talend

Vérifier que le fichier trié a bien été créé dans le répertoire que vous avez spécifié plus tôt.
Activité 2.
-­‐ Dupliquer le job Tri_fichiers et le nommer Tri_fichier_dans_base
-­‐ Copier les données générées dans le fichier délimité de sortie dans la base de
données client_bd que vous avez créé dans l’activité précédente (au lieu d’un
fichier CSV). A la création, la table cible sera écrasée et remplacée par la table
contenant les données triées.

II.3 Jointure de fichiers
Le fichier etat.txt permet d’associer l’identifiant d’un état américain avec le nom de cet
état. On se propose de faire la jointure des fichiers client.csv et etat.txt pour remplacer
l’identifiant de l’état dans les données du client par son nom.
Pour faire cela, créer un nouveau Job Jointure_fichiers et suivre les étapes suivantes :
Glisser les deux fichiers délimités
client et etat dans le panneau
principal.
Glisser le composant tMap, de la
catégorie Transformation dans le
panneau principal. Ce composant
permet de transformer et diriger les
données à partir d’une ou plusieurs
sources vers une ou plusieurs
destinations.
Enfin, faire glisser un fichier délimité

Page 7
TP2 : Intégration des données avec Talend
de sortie.
Relier les différents composants.
Relier le fichier d’entrée client
d’abord à la tMap, puis le fichier
etats. Relier enfin le la tMap vers le
fichier de sortie. Appeler la sortie
jointure.

Double cliquer sur la tMap pour la
configurer. Une fenêtre s’ouvre.
Commencer par relier le champ
idEtat de la première table row1, au
champ idEtat de la table row2.
Faire glisser ensuite les champs id,
nomClient, et adresseClient de row1,
puis nomEtat de row2 vers la table
de destination jointure.

Configurer ensuite le fichier de sortie en précisant son chemin , et en incluant l’en-tête.
Exécuter le Job, et vérifier le fichier de sortie.
Activité 3.
-­‐ Créer un nouveau Job Jointure_Tri_fichiers_de_base
-­‐ Ce job permet de :
o faire la jointure entre la table client créée dans l’activité 2 et le fichier
etat.txt pour obtenir les champs id, nomClient, adresseClient et nomEtat.
o trier ces données jointes par nom d’état, avant de les stocker dans un
fichier texte clients-etat.txt dont les champs sont délimités par le caractère
« | ».

II.4 Sélection des données
Il est possible de filtrer les données, en rejetant par exemple les entrées erronées. On peut
remarquer dans les données du fichier client.csv que certaines entrées ne comportent
pas de nom d’état. On désire filtrer ces données, et n’enregistrer dans le fichier de sortie
que les données comportant un nom d’état. Les autres données pourront être affichées
dans la console.

Page 8
TP2 : Intégration des données avec Talend
Dupliquer le Job Jointure_fichiers et
le renommer Selection_fichiers.
Double-cliquer sur le composant
tMap pour en modifier les propriétés.
Activer le filtre des données, en
cliquant sur la flèche
de la table
jointure. Entrer ensuite le critère de
sélection des données (en Java)
suivant :
row2.nomEtat !=null
&& !row2.nomEtat.isEmpty()
Créer une deuxième sortie appelée
rejets en cliquant sur (+) au dessus
de jointure.
Faire glisser les champs nomClient et
nomEtat dans la table rejets.

Indiquer que cette table contient les
données rejetées par la sortie
principale en cliquant sur le
tournevis sur la table rejets, et en
mettant le champ catch output
reject à true.
Cliquer sur OK.
Faire glisser le composant tLogRow
de la catégorie Logs et Erreurs dans
la fenêtre principale.
Clic-droit sur la tMap, choisir Ligne>rejet et cliquer sur le composant de
Log pour relier ces deux
composants, et envoyer la sortie
rejet vers le log.
Exécuter le Job et observer le résultat.

III. Homework
A partir des fichiers client.csv et etat.txt, réaliser les opérations suivantes :
1. Stocker dans une nouvelle table de la base de données les données jointes de
ces deux fichiers, en respectant les règles suivantes :

Page 9
TP2 : Intégration des données avec Talend
Les champs de la table seront : id, nomClient, adresseClient, nomEtat,
somme1, somme2, total (où total est calculé en faisant la somme entre
somme1 et somme2)
o Stocker uniquement les clients dont l’état est Alabama
2. Stocker le reste des enregistrements dans un fichier reste.csv dont la structure
contient uniquement le nomClient et l’état.
3. Générer automatiquement un JasperReport à partir de la base créée dans 1.
o

Date de remise du travail : prochaine séance de TP.

Page 10

Recommandé

Chp1 - Introduction à l'Informatique Décisionnelle par
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleLilia Sfaxi
44K vues38 diapositives
Le processus ETL (Extraction, Transformation, Chargement) par
Le processus ETL (Extraction, Transformation, Chargement)Le processus ETL (Extraction, Transformation, Chargement)
Le processus ETL (Extraction, Transformation, Chargement)Salah Eddine BENTALBA (+15K Connections)
13K vues11 diapositives
Chp3 - Modélisation Multidimensionnelle par
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleLilia Sfaxi
33.4K vues74 diapositives
Talend par
TalendTalend
TalendKlee Group
5.6K vues25 diapositives
Business Intelligence : Transformer les données en information. par
Business Intelligence : Transformer les données en information.Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.arnaudm
15K vues16 diapositives
Reporting avec JasperServer & iReport par
Reporting avec JasperServer & iReportReporting avec JasperServer & iReport
Reporting avec JasperServer & iReportLilia Sfaxi
11.5K vues6 diapositives

Contenu connexe

Tendances

Projet BI - 2 - Conception base de données par
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesJean-Marc Dupont
16.1K vues22 diapositives
Big Data, Hadoop & Spark par
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
3.1K vues63 diapositives
Integration de donnees_etl par
Integration de donnees_etlIntegration de donnees_etl
Integration de donnees_etlhoracio lassey
5.3K vues18 diapositives
Projet BI - 1 - Analyse des besoins par
Projet BI - 1 - Analyse des besoinsProjet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoinsJean-Marc Dupont
77.8K vues21 diapositives
Création de Services et Configuration du ESB avec TalendESB par
Création de Services et Configuration du ESB avec TalendESBCréation de Services et Configuration du ESB avec TalendESB
Création de Services et Configuration du ESB avec TalendESBLilia Sfaxi
9.8K vues12 diapositives
Conception datawarehouse par
Conception datawarehouseConception datawarehouse
Conception datawarehouseHassane Dkhissi
10.2K vues16 diapositives

Tendances(20)

Projet BI - 2 - Conception base de données par Jean-Marc Dupont
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de données
Jean-Marc Dupont16.1K vues
Projet BI - 1 - Analyse des besoins par Jean-Marc Dupont
Projet BI - 1 - Analyse des besoinsProjet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoins
Jean-Marc Dupont77.8K vues
Création de Services et Configuration du ESB avec TalendESB par Lilia Sfaxi
Création de Services et Configuration du ESB avec TalendESBCréation de Services et Configuration du ESB avec TalendESB
Création de Services et Configuration du ESB avec TalendESB
Lilia Sfaxi9.8K vues
Cours Big Data Chap2 par Amal Abid
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
Amal Abid10.7K vues
Etat de l’art approche et outils BI par Said Sadik
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BI
Said Sadik9.2K vues
BigData_Chp4: NOSQL par Lilia Sfaxi
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
Lilia Sfaxi41.3K vues
Cours data warehouse par khlifi z
Cours data warehouseCours data warehouse
Cours data warehouse
khlifi z566 vues
Business Intelligence par Lilia Sfaxi
Business IntelligenceBusiness Intelligence
Business Intelligence
Lilia Sfaxi9.3K vues
Cours Big Data Chap1 par Amal Abid
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
Amal Abid15.6K vues
BI : Analyse des Données avec Mondrian par Lilia Sfaxi
BI : Analyse des Données avec Mondrian BI : Analyse des Données avec Mondrian
BI : Analyse des Données avec Mondrian
Lilia Sfaxi9.7K vues
Présentation Talend Open Studio par horacio lassey
Présentation Talend Open StudioPrésentation Talend Open Studio
Présentation Talend Open Studio
horacio lassey8.9K vues
Resume de BI par zeroweddou
Resume de BIResume de BI
Resume de BI
zeroweddou11.4K vues
Rapport de stage: mastère ISIC (Business Intelligence) par Ines Ben Kahla
Rapport de stage: mastère ISIC (Business Intelligence)Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)
Ines Ben Kahla10.5K vues

En vedette

Rapport De PFE par
Rapport De PFERapport De PFE
Rapport De PFENadir Haouari
192.2K vues99 diapositives
Qu'est-ce qu'un ETL ? par
Qu'est-ce qu'un ETL ?Qu'est-ce qu'un ETL ?
Qu'est-ce qu'un ETL ?Mathieu Lahaye
5.2K vues11 diapositives
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’... par
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...Jean-Pierre Riehl
3.2K vues22 diapositives
exercices business intelligence par
exercices business intelligence exercices business intelligence
exercices business intelligence Yassine Badri
28.6K vues8 diapositives
PFE BI - INPT par
PFE BI - INPTPFE BI - INPT
PFE BI - INPTriyadadva
31.7K vues90 diapositives
Rapport Projet de fin d’études par
Rapport Projet de fin d’étudesRapport Projet de fin d’études
Rapport Projet de fin d’étudesSalah Eddine BENTALBA (+15K Connections)
26.1K vues79 diapositives

En vedette(20)

MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’... par Jean-Pierre Riehl
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
Jean-Pierre Riehl3.2K vues
exercices business intelligence par Yassine Badri
exercices business intelligence exercices business intelligence
exercices business intelligence
Yassine Badri28.6K vues
PFE BI - INPT par riyadadva
PFE BI - INPTPFE BI - INPT
PFE BI - INPT
riyadadva31.7K vues
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de... par HAFID Ait Bihi
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...
HAFID Ait Bihi64.3K vues
Webinar Smile et Talend : Faites communiquer vos applications en temps réel par Smile I.T is open
Webinar Smile et Talend  : Faites communiquer vos applications en temps réelWebinar Smile et Talend  : Faites communiquer vos applications en temps réel
Webinar Smile et Talend : Faites communiquer vos applications en temps réel
Alphorm.com Formation RDS Windows Server 2008 R2 - Guide du consultant par Alphorm
Alphorm.com Formation  RDS Windows Server 2008 R2 - Guide du consultantAlphorm.com Formation  RDS Windows Server 2008 R2 - Guide du consultant
Alphorm.com Formation RDS Windows Server 2008 R2 - Guide du consultant
Alphorm28.7K vues
Alphorm.com formation-GNS3 par Alphorm
Alphorm.com formation-GNS3Alphorm.com formation-GNS3
Alphorm.com formation-GNS3
Alphorm82.3K vues
Alphorm.com Formation le langage SQL par Alphorm
Alphorm.com  Formation le langage SQLAlphorm.com  Formation le langage SQL
Alphorm.com Formation le langage SQL
Alphorm164.1K vues
alphorm.com - Formation PostgreSQL administration par Alphorm
alphorm.com - Formation PostgreSQL administrationalphorm.com - Formation PostgreSQL administration
alphorm.com - Formation PostgreSQL administration
Alphorm37.4K vues
alphorm.com - Formation SQL Server 2012 (70-462) par Alphorm
alphorm.com - Formation SQL Server 2012 (70-462)alphorm.com - Formation SQL Server 2012 (70-462)
alphorm.com - Formation SQL Server 2012 (70-462)
Alphorm98.2K vues
Alphorm.com Formation PL/SQL par Alphorm
Alphorm.com Formation PL/SQLAlphorm.com Formation PL/SQL
Alphorm.com Formation PL/SQL
Alphorm65.7K vues

Similaire à Intégration des données avec Talend ETL

Guidetalendd par
GuidetalenddGuidetalendd
GuidetalenddAlahyane Ahmed
452 vues34 diapositives
Mop export-dataloader-salesforce-en-ligne-commande par
Mop export-dataloader-salesforce-en-ligne-commandeMop export-dataloader-salesforce-en-ligne-commande
Mop export-dataloader-salesforce-en-ligne-commandeCyrille Coeurjoly
474 vues4 diapositives
Crystal Report avec Microsoft Visual Studio 2010 par
Crystal Report avec Microsoft Visual Studio 2010Crystal Report avec Microsoft Visual Studio 2010
Crystal Report avec Microsoft Visual Studio 2010Wiki Info Systeme
8K vues14 diapositives
atam guide de developpement v1.3 par
atam guide de developpement v1.3atam guide de developpement v1.3
atam guide de developpement v1.3Abdessamad Hamouch
899 vues28 diapositives
Cours 01.pptx par
Cours 01.pptxCours 01.pptx
Cours 01.pptxazzazrachid1
30 vues23 diapositives
Jet Reports Pour Microsoft Dynamics NAV par
Jet Reports Pour Microsoft Dynamics NAVJet Reports Pour Microsoft Dynamics NAV
Jet Reports Pour Microsoft Dynamics NAVMaroua Bouhachem
2.3K vues16 diapositives

Similaire à Intégration des données avec Talend ETL(20)

Mop export-dataloader-salesforce-en-ligne-commande par Cyrille Coeurjoly
Mop export-dataloader-salesforce-en-ligne-commandeMop export-dataloader-salesforce-en-ligne-commande
Mop export-dataloader-salesforce-en-ligne-commande
Crystal Report avec Microsoft Visual Studio 2010 par Wiki Info Systeme
Crystal Report avec Microsoft Visual Studio 2010Crystal Report avec Microsoft Visual Studio 2010
Crystal Report avec Microsoft Visual Studio 2010
Jet Reports Pour Microsoft Dynamics NAV par Maroua Bouhachem
Jet Reports Pour Microsoft Dynamics NAVJet Reports Pour Microsoft Dynamics NAV
Jet Reports Pour Microsoft Dynamics NAV
Maroua Bouhachem2.3K vues
Framework Hibernate par Ines Ouaz
Framework HibernateFramework Hibernate
Framework Hibernate
Ines Ouaz1.8K vues
Salesforce Einstein analytics - Formation sur les-bases - By iMalka par Ilan Malka
Salesforce Einstein analytics - Formation sur les-bases - By iMalkaSalesforce Einstein analytics - Formation sur les-bases - By iMalka
Salesforce Einstein analytics - Formation sur les-bases - By iMalka
Ilan Malka1.1K vues
Cours BASE de DONNES.pdf par ManelHamdi7
Cours BASE de DONNES.pdfCours BASE de DONNES.pdf
Cours BASE de DONNES.pdf
ManelHamdi726 vues
Stratégie et veille : Extraire et trier des données en ligne par Erwan Tanguy
Stratégie et veille : Extraire et trier des données en ligneStratégie et veille : Extraire et trier des données en ligne
Stratégie et veille : Extraire et trier des données en ligne
Erwan Tanguy2.8K vues
Alfresco Meetup - ETL Connector & Talend par Marc Dutoo
Alfresco Meetup - ETL Connector & TalendAlfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & Talend
Marc Dutoo2.1K vues
Workshop angular2 par sihemhcine
Workshop angular2 Workshop angular2
Workshop angular2
sihemhcine48 vues

Plus de Lilia Sfaxi

chp1-Intro à l'urbanisation des SI.pdf par
chp1-Intro à l'urbanisation des SI.pdfchp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfLilia Sfaxi
431 vues58 diapositives
Plan d'études_INSAT_2022_2023.pdf par
Plan d'études_INSAT_2022_2023.pdfPlan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfLilia Sfaxi
1.8K vues28 diapositives
Lab3-DB_Neo4j par
Lab3-DB_Neo4jLab3-DB_Neo4j
Lab3-DB_Neo4jLilia Sfaxi
1.8K vues8 diapositives
Lab2-DB-Mongodb par
Lab2-DB-MongodbLab2-DB-Mongodb
Lab2-DB-MongodbLilia Sfaxi
989 vues4 diapositives
Lab1-DB-Cassandra par
Lab1-DB-CassandraLab1-DB-Cassandra
Lab1-DB-CassandraLilia Sfaxi
957 vues4 diapositives
TP2-UML-Correction par
TP2-UML-CorrectionTP2-UML-Correction
TP2-UML-CorrectionLilia Sfaxi
10.3K vues6 diapositives

Plus de Lilia Sfaxi(20)

chp1-Intro à l'urbanisation des SI.pdf par Lilia Sfaxi
chp1-Intro à l'urbanisation des SI.pdfchp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdf
Lilia Sfaxi431 vues
Plan d'études_INSAT_2022_2023.pdf par Lilia Sfaxi
Plan d'études_INSAT_2022_2023.pdfPlan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdf
Lilia Sfaxi1.8K vues
TP2-UML-Correction par Lilia Sfaxi
TP2-UML-CorrectionTP2-UML-Correction
TP2-UML-Correction
Lilia Sfaxi10.3K vues
TP1-UML-Correction par Lilia Sfaxi
TP1-UML-CorrectionTP1-UML-Correction
TP1-UML-Correction
Lilia Sfaxi1.8K vues
TD3-UML-Correction par Lilia Sfaxi
TD3-UML-CorrectionTD3-UML-Correction
TD3-UML-Correction
Lilia Sfaxi1.2K vues
TD2 - UML - Correction par Lilia Sfaxi
TD2 - UML - CorrectionTD2 - UML - Correction
TD2 - UML - Correction
Lilia Sfaxi22.1K vues
TD1-UML-correction par Lilia Sfaxi
TD1-UML-correctionTD1-UML-correction
TD1-UML-correction
Lilia Sfaxi1.6K vues
Android - Tp1 - installation et démarrage par Lilia Sfaxi
Android - Tp1 -   installation et démarrageAndroid - Tp1 -   installation et démarrage
Android - Tp1 - installation et démarrage
Lilia Sfaxi185 vues
Android - Tp2 - Elements graphiques par Lilia Sfaxi
Android - Tp2 - Elements graphiques Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques
Lilia Sfaxi55 vues
Android - Tp3 - intents par Lilia Sfaxi
Android - Tp3 -  intentsAndroid - Tp3 -  intents
Android - Tp3 - intents
Lilia Sfaxi159 vues
Android - TPBonus - web services par Lilia Sfaxi
Android - TPBonus - web servicesAndroid - TPBonus - web services
Android - TPBonus - web services
Lilia Sfaxi88 vues

Intégration des données avec Talend ETL

  • 1. Institut National des Sciences Appliquées et de Technologie Tunisie Business Intelligence 2013-2014 TP2- I NTEGRATION DES DONNEES AVEC T ALEND Dr. Lilia SFAXI Objectifs du TP : Utilisation de « Talend Open Studio for Data Integration » pour l’extraction et la transformation de données à partir et vers des sources différentes.
  • 2. TP2 : Intégration des données avec Talend I. Talend Open Studio « Talend Open Studio 1 » est un ensemble de produits open source pour le développement, test, déploiement et administration des projets d’intégration de données et d’applications. Talend fournit une plateforme unifiée qui rend la gestion et l’intégration des données et applications plus facile, en fournissant un environnement unifié pour la gestion de tout leur cycle de vie. Il existe plusieurs solutions offertes par Talend : -­‐ -­‐ -­‐ -­‐ Big Data : Environnement qui facilite la gestion des données volumineuses. Data Integration : Ensemble d’outils pour l’intégration de données pour accéder, transformer et intégrer les données à partir d’un système en temps réel pour remplir les besoins d’intégration des données. Data Quality : Permet d’assurer le profiling et monitoring des données pour identifier des anomalies et assurer la qualité des données. ESB : Permet la création, la connexion, la médiation et la gestion des services et leurs interactions. Pour les besoins de notre TP, nous utilisons « Talend Data Integration » pour la transformation des données et leur intégration. Il est possible de télécharger toutes les solutions de Talend Open Studio sur http://fr.talend.com/products/talend-open-studio I.1 Installation et Démarrage -­‐ Après avoir installé Talend sur votre machine, le démarrer et créer un nouveau projet intitulé : Intégration_données. Remarque : Veiller à ce que votre workspace soit à un emplacement accessible en lecture et en écriture (comme vos documents ou votre bureau) : Éviter de le créer directement dans le répertoire d’installation de Talend. Après la fermeture de la page de Bienvenue, la fenêtre qui s’affiche aura la forme suivante : 1 Talend: http://fr.talend.com Page 2
  • 3. TP2 : Intégration des données avec Talend 2 1 4 3 1 Panneau représentant la structure de votre projet. 2 Panneau affichant l’architecture des Jobs et le code 3 Onglets contenant les propriétés des composants, la console d’exécution, les problèmes… 4 Palette des différents composants disponibles. II. Manipulation des Documents II.1 Préparation des sources de données Dans ce TP, nous allons manipuler plusieurs sources de données (fichier CSV, fichier texte et base de données) pour en extraire les données, les transformer et les sauvegarder dans d’autres supports. La première étape à réaliser est de définir ces sources de données dans le Repository pour pouvoir générer leurs schémas et les utiliser dans les activités suivantes. Remarque : Les fichiers que nous allons ajouter (client.csv et etats.txt) vous ont été fournis avec le support de TP. Pour faire cela, suivre les étapes suivantes : Page 3
  • 4. TP2 : Intégration des données avec Talend Dans le panneau (1) représentant le Repository, développer la section Métadonnées. Pour définir des sources sous forme de champs séparés par des délimiteurs (comme des fichiers csv ou texte), choisir : Créer un fichier délimité. Entrer le nom du fichier dans la fenêtre qui apparaît : client (dans notre cas, nous allons ajouter le fichier client.csv) Choisir ensuite le fichier que vous désirez ajouter. Naviguer pour cela vers le fichier client.csv qui vous a été fournis. Le visualiseur de fichier vous permet d’avoir une idée sur le contenu de ce fichier. Cliquer sur suivant. Dans la fenêtre suivante, cliquer sur la case Définir les lignes d’en-tête comme nom de colonne. Cliquer ensuite sur Rafraîchir l’aperçu. L’aperçu du fichier extrait sera mis à jour, de manière à ce que la première ligne du fichier représente les noms des champs. Cliquer sur suivant. Modifier le nom du schéma du fichier délimité (client), et observer la composition des champs dans le panneau Description du schéma. Vous pourrez ainsi modifier les données du schéma à votre guise. Dans notre cas, ne pas oublier de cocher la case Clé pour le champ id. Vous pourrez également modifier les longueurs des champs (les valeurs par défaut ont été calculées par Talend selon les données déjà présentes dans le fichier). Cliquer sur terminer. Vous avez ainsi ajouté un fichier source, dont le schéma pourra être utilisé dans toute l’application. Page 4
  • 5. TP2 : Intégration des données avec Talend Activité 1. -­‐ Générer de même le schéma du fichier état.txt qui vous est fourni. -­‐ Dans le SGBD de votre choix, créer une base de données client_bd, contenant une table appelée client. La structure de cette table n’a pas d’importance, elle sera écrasée plus tard. -­‐ Ajouter la base de données comme source dans la partie Métadonnées, et ajouter la table client aux schémas des tables. II.2 Tri de documents Dans cette première activité, on se propose de trier le contenu du fichier client.csv de manière automatique, en utilisant les composants Talend. Pour cela, suivre les étapes suivantes : Créer un nouveau Job que vous appellerez Tri_fichiers Glisser le fichier délimité client 0.1, que vous avez créé précédemment, dans le panneau (2). Indiquer dans la fenêtre qui apparaît que c’est un tFileInputDelimited. Cliquer sur OK. Dans le panneau (4), représentant la palette, choisir le composant tSortRow dans la catégorie Transformation. Ce composant permet, comme son nom l’indique, de faire le tri d’un ensemble de données, selon une colonne particulière. Faire glisser ce composant dans la fenêtre principale. Page 5
  • 6. TP2 : Intégration des données avec Talend Pour représenter le fichier de sortie, faire glisser le composant tFileOutputDelimited dans la fenêtre principale. Il se trouve sous la catégorie Fichier -> Ecriture. Relier les trois éléments pour représenter la chaîne d’exécution. Pour cela, faire un clic droit sur le composant client, maintenir enfoncé, et glisser vers le composant de tri. Faire de même entre le composant de tri et le fichier de sortie. Nous allons maintenant configurer les trois composants. Nous allons d’abord définir le nom du client comme critère de tri, par ordre alphabétique, du fichier source. Cliquer sur le composant de tri. Sous l’onglet Composant du panneau (3), cliquer sur (+). Modifier la valeur des champs insérés, pour faire le tri selon le nom de client, par ordre alphabétique ascendant. Cliquer ensuite sur le composant de sortie. -­‐ Choisir l’emplacement où on désire sauvegarder le fichier de sortie -­‐ Cocher la case : Inclure l’en-tête pour que l’entête des colonnes s’affiche dans le fichier de sortie -­‐ Devant la case Schéma, changer le type de schéma vers Référentiel, puis cliquer sur […] à côté de Editer le schéma. Cela permettra de définir la structure des champs du fichier de sortie. -­‐ Dans la fenêtre affichée, choisir le schéma client du fichier délimité que vous avez créé. Une fois ces étapes terminées, enregistrer le projet. Pour exécuter le processus, Cliquer sur l’onglet Exécuter du panneau (3), puis cliquer sur Exécuter. Ou alors taper F6. A la fin de l’exécution, la trace suivante est affichée sur la fenêtre principale: Page 6
  • 7. TP2 : Intégration des données avec Talend Vérifier que le fichier trié a bien été créé dans le répertoire que vous avez spécifié plus tôt. Activité 2. -­‐ Dupliquer le job Tri_fichiers et le nommer Tri_fichier_dans_base -­‐ Copier les données générées dans le fichier délimité de sortie dans la base de données client_bd que vous avez créé dans l’activité précédente (au lieu d’un fichier CSV). A la création, la table cible sera écrasée et remplacée par la table contenant les données triées. II.3 Jointure de fichiers Le fichier etat.txt permet d’associer l’identifiant d’un état américain avec le nom de cet état. On se propose de faire la jointure des fichiers client.csv et etat.txt pour remplacer l’identifiant de l’état dans les données du client par son nom. Pour faire cela, créer un nouveau Job Jointure_fichiers et suivre les étapes suivantes : Glisser les deux fichiers délimités client et etat dans le panneau principal. Glisser le composant tMap, de la catégorie Transformation dans le panneau principal. Ce composant permet de transformer et diriger les données à partir d’une ou plusieurs sources vers une ou plusieurs destinations. Enfin, faire glisser un fichier délimité Page 7
  • 8. TP2 : Intégration des données avec Talend de sortie. Relier les différents composants. Relier le fichier d’entrée client d’abord à la tMap, puis le fichier etats. Relier enfin le la tMap vers le fichier de sortie. Appeler la sortie jointure. Double cliquer sur la tMap pour la configurer. Une fenêtre s’ouvre. Commencer par relier le champ idEtat de la première table row1, au champ idEtat de la table row2. Faire glisser ensuite les champs id, nomClient, et adresseClient de row1, puis nomEtat de row2 vers la table de destination jointure. Configurer ensuite le fichier de sortie en précisant son chemin , et en incluant l’en-tête. Exécuter le Job, et vérifier le fichier de sortie. Activité 3. -­‐ Créer un nouveau Job Jointure_Tri_fichiers_de_base -­‐ Ce job permet de : o faire la jointure entre la table client créée dans l’activité 2 et le fichier etat.txt pour obtenir les champs id, nomClient, adresseClient et nomEtat. o trier ces données jointes par nom d’état, avant de les stocker dans un fichier texte clients-etat.txt dont les champs sont délimités par le caractère « | ». II.4 Sélection des données Il est possible de filtrer les données, en rejetant par exemple les entrées erronées. On peut remarquer dans les données du fichier client.csv que certaines entrées ne comportent pas de nom d’état. On désire filtrer ces données, et n’enregistrer dans le fichier de sortie que les données comportant un nom d’état. Les autres données pourront être affichées dans la console. Page 8
  • 9. TP2 : Intégration des données avec Talend Dupliquer le Job Jointure_fichiers et le renommer Selection_fichiers. Double-cliquer sur le composant tMap pour en modifier les propriétés. Activer le filtre des données, en cliquant sur la flèche de la table jointure. Entrer ensuite le critère de sélection des données (en Java) suivant : row2.nomEtat !=null && !row2.nomEtat.isEmpty() Créer une deuxième sortie appelée rejets en cliquant sur (+) au dessus de jointure. Faire glisser les champs nomClient et nomEtat dans la table rejets. Indiquer que cette table contient les données rejetées par la sortie principale en cliquant sur le tournevis sur la table rejets, et en mettant le champ catch output reject à true. Cliquer sur OK. Faire glisser le composant tLogRow de la catégorie Logs et Erreurs dans la fenêtre principale. Clic-droit sur la tMap, choisir Ligne>rejet et cliquer sur le composant de Log pour relier ces deux composants, et envoyer la sortie rejet vers le log. Exécuter le Job et observer le résultat. III. Homework A partir des fichiers client.csv et etat.txt, réaliser les opérations suivantes : 1. Stocker dans une nouvelle table de la base de données les données jointes de ces deux fichiers, en respectant les règles suivantes : Page 9
  • 10. TP2 : Intégration des données avec Talend Les champs de la table seront : id, nomClient, adresseClient, nomEtat, somme1, somme2, total (où total est calculé en faisant la somme entre somme1 et somme2) o Stocker uniquement les clients dont l’état est Alabama 2. Stocker le reste des enregistrements dans un fichier reste.csv dont la structure contient uniquement le nomClient et l’état. 3. Générer automatiquement un JasperReport à partir de la base créée dans 1. o Date de remise du travail : prochaine séance de TP. Page 10