Présentation général des étapes du processus ETL (Extract,Transform, Load) d'un projet décisionnel.
ETL, acronyme de Extraction, Transformation, Loading, est un système de chargement de données depuis les différentes sources d'information de l'entreprise (hétérogènes) jusqu'à l'entrepôt de données (modèles multidimensionnels).
Alphorm.com Formation ETL Talend Open Studio (1/2) - Les fondamentauxAlphorm
Formation complète ici:
http://www.alphorm.com/tutoriel/formation-en-ligne-etl-talend-open-studio-1-2-les-fondamentaux
Talend Open Studio for Data Integration est un outil libre de type ETL qui permet de traiter les données volumineuses à partir de données en entrée appelées source vers des destinations SGBD ou fichiers (csv, txt, xml …) appelées cibles.
La formation a pour but de vous aider à prendre en main l’ETL Talend Open Studio for Data Integration d’une manière rapide afin que vous soyez autonome.
Vous allez apprendre à gérer les données de différentes sources (Base données, fichiers), les extraire, les manipuler, les transformer et les intégrer à des cibles.
La formation vous permettra de réaliser les tâches de conception, modélisation et de développement des jobs Talend.
C'est une presentation sur les ETL. On explique pourquoi il faut utiliser un ETL et non créer des routines à la main. On présente Talend Open Studio qui est un projet open source et quelques exemples
Présentation général des étapes du processus ETL (Extract,Transform, Load) d'un projet décisionnel.
ETL, acronyme de Extraction, Transformation, Loading, est un système de chargement de données depuis les différentes sources d'information de l'entreprise (hétérogènes) jusqu'à l'entrepôt de données (modèles multidimensionnels).
Alphorm.com Formation ETL Talend Open Studio (1/2) - Les fondamentauxAlphorm
Formation complète ici:
http://www.alphorm.com/tutoriel/formation-en-ligne-etl-talend-open-studio-1-2-les-fondamentaux
Talend Open Studio for Data Integration est un outil libre de type ETL qui permet de traiter les données volumineuses à partir de données en entrée appelées source vers des destinations SGBD ou fichiers (csv, txt, xml …) appelées cibles.
La formation a pour but de vous aider à prendre en main l’ETL Talend Open Studio for Data Integration d’une manière rapide afin que vous soyez autonome.
Vous allez apprendre à gérer les données de différentes sources (Base données, fichiers), les extraire, les manipuler, les transformer et les intégrer à des cibles.
La formation vous permettra de réaliser les tâches de conception, modélisation et de développement des jobs Talend.
C'est une presentation sur les ETL. On explique pourquoi il faut utiliser un ETL et non créer des routines à la main. On présente Talend Open Studio qui est un projet open source et quelques exemples
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Les entreprises d’aujourd’hui doivent de plus en plus composer avec l’infobésité.
C'est pourquoi elles ont besoin d’une façon efficace d’analyser leurs données afin de prendre de meilleures décisions d’affaires.
Les bases de données standard ne peuvent pas toujours répondre à ces questions parce que cela nécessite de croiser de multiples sources d’informations ensemble.
C’est ici que le processus ETL (Extract – Transform – Load) entre en jeu. L’ETL est un programme qui accède à de multiples sources de données disparates, en fait l’extraction, les manipule et les intègre dans un référentiel commun – l’entrepôt de données ou data warehouse.
Business Intelligence Reporting Solution Imad ALILAT
This presentation will help you understand the basic building blocks of Business Intelligence. Learn how decisions are triggered, the complete decision process and who makes decisions in the corporate world.
More importantly, understand core components of a Business Intelligence architecture such as a data warehouse, data mining, ETL Process (Extract-Transform-Load) and data reporting. Each component plays an integral part which enables today's managers and decision makers collect, analyze and interpret data to make it actionable for decision making.
Business intelligence has become an integral part that needs to be incorporated to ensure business survival. It is a tool that helps analyze historical data and forecast future so that your are always one step ahead in your business.
Please feel free to like, share and comment as you please!
On entend de plus en plus parler de « cloud computing ». Cette présentation représente une introduction à cette technologie. A la fin de la présentation, vous serez en mesure de définir le « cloud » et de présenter ses types et ses formes.
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Les entreprises d’aujourd’hui doivent de plus en plus composer avec l’infobésité.
C'est pourquoi elles ont besoin d’une façon efficace d’analyser leurs données afin de prendre de meilleures décisions d’affaires.
Les bases de données standard ne peuvent pas toujours répondre à ces questions parce que cela nécessite de croiser de multiples sources d’informations ensemble.
C’est ici que le processus ETL (Extract – Transform – Load) entre en jeu. L’ETL est un programme qui accède à de multiples sources de données disparates, en fait l’extraction, les manipule et les intègre dans un référentiel commun – l’entrepôt de données ou data warehouse.
Business Intelligence Reporting Solution Imad ALILAT
This presentation will help you understand the basic building blocks of Business Intelligence. Learn how decisions are triggered, the complete decision process and who makes decisions in the corporate world.
More importantly, understand core components of a Business Intelligence architecture such as a data warehouse, data mining, ETL Process (Extract-Transform-Load) and data reporting. Each component plays an integral part which enables today's managers and decision makers collect, analyze and interpret data to make it actionable for decision making.
Business intelligence has become an integral part that needs to be incorporated to ensure business survival. It is a tool that helps analyze historical data and forecast future so that your are always one step ahead in your business.
Please feel free to like, share and comment as you please!
On entend de plus en plus parler de « cloud computing ». Cette présentation représente une introduction à cette technologie. A la fin de la présentation, vous serez en mesure de définir le « cloud » et de présenter ses types et ses formes.
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
Webinar Smile et Talend : Faites communiquer vos applications en temps réelSmile I.T is open
L'ESB est la clé pour interconnecter vos applications et leur permettre l’échange d’information en temps réel. Talend et Smile vous invitent à ce webinar afin de vous faire découvrir la solution Talend Platform for Data Services appliquée à deux des plus importantes entreprises de la grande distribution.
Au programme :
Un expert Talend vous présentera la seule plateforme unifiée open source associant des outils d'ETL et d'ESB
Smile vous fera découvrir deux cas d’utilisations réels :
- Un exemple concret d'implémentation de cette solution pour gérer les flux pour la synchronisation du référentiel produit / de l'ERP central groupe / des ERP magasins chez un leader de la distribution d'articles de jardinage.
- Talend au cœur du SI grâce à la mise en place d'une véritable architecture orientée service e-business chez un leader de la grande distribution.
Formation complète ici:
http://www.alphorm.com/tutoriel/formation-en-ligne-gns3
Cette formation GNS3 vous permettra de simuler vos équipements Cisco, Juniper et Huawei avec une grande facilité et maîtrise. Vous allez pouvoir préparer vos maquettes de POC ou se préparer à des examens de certifications sans devoir débloquer un budget lourd pour s'acheter les équipements réseaux.
A travers cette formation GNS3 détaillée et complète, vous allez découvrir l'outil GNS3 d'une manière simple, pratique et surtout pédagogique, avec des études de cas avancés sous Windows et Linux : Framerelay point-to-point/multipoint/inverse arp, ATM, Juniper, Huawei, IOU, Etherchannel, VTP, Cisco ASA, VoIP et Kali
Evidemment vous allez apprendre aussi comment installer GNS3 sur Linux et Windows, Configurer les images IOS, découvrir l'interface, gérer les préférences.
La maîtrise de GNS3 est un must si vous souhaitez devenir un expert des réseaux. Donc profitez bien de cette formation GNS3 rare sur Internet.
Alphorm.com Formation RDS Windows Server 2008 R2 - Guide du consultantAlphorm
La formation complète est disponible ici:
http://www.alphorm.com/tutoriel/formation-en-ligne-rds-windows-server-2008-r2
Cette formation permet d’acquérir les connaissances et compétences nécessaires pour concevoir, planifier, déployer, configurer et gérer une infrastructure Remote Desktop Services (RDS) 2008 R2.
Vous découvrez comment déployer une ferme RDS composée de plusieurs serveurs Hôtes de session Bureau à distance, comment publier et distribuer les programmes RemoteApp et Connexions Bureau à distance via fichier .rdp ou package .msi, et les rendre accessibles via le portail Accès Bureau à distance par le Web mais aussi depuis un réseau externe via la Passerelle RDS.
De plus, les options d’équilibrage de charge permettant de rendre une infrastructure RDS hautement disponible sont détaillées : Round Robin DNS (Ferme RDS) – Clustering avec basculement (Service Broker) – NLB du Serveur Accès bureau à distance par Web.
Vous apprenez également comment gérer une infrastructure RDS via des outils en ligne de commande (documentation technique complète fournit par Alphorm) et via un certain nombre de scripts développé par votre formateur Hicham KADIRI.
La formation complète est disponible ici:
http://www.alphorm.com/tutoriel/formation-en-ligne-postgresql-administration
PostgreSQL est un système de gestion de base de données relationnelle OpenSource, développé à l'origine par l'université de Berkeley. Avec sa grande maturité actuelle, il présente une très bonne alternative aux SGBDR commerciaux.
Durant cette formation, notre expert base de données Noureddine DRISSI va vous accompagner pour installer et administrer au quotidien votre serveur de base de données PostgreSQL. Il vous expliquera aussi comment manipuler les données, comment gérer une base et vous apprendra à maîtriser les principales techniques et outils d'administration.
Vous trouverez la formation complète ici:
http://www.alphorm.com/tutoriel/formation-en-ligne-le-langage-sql
Cette formation vous apprendra à comprendre et à maîtriser le langage SQL en environnement SGBDR.
Durant cette formation vous apprendrez à extraire, insérer, modifier et supprimer des données. Construire et comprendre des requêtes simples et complexes.
Cette formation permettra également aux administrateurs et développeurs de bases de données d'exploiter les informations de l'entreprise et de créer des objets, quel que soit le SGBDR qui les héberge.
A la fin de cette formation, le langage SQL n'aura plus de secrets pour vous !
alphorm.com - Formation SQL Server 2012 (70-462)Alphorm
La formation complète est disponible ici:
http://www.alphorm.com/tutoriel/formation-en-ligne-sql-server-2012-70-462
La certification MOS « Microsoft Office Specialist » Word 2013 (77-418) est un examen du premier niveau qui vous permet d'obtenir une certification valorisante et reconnue par Microsoft sur Microsoft Word 2013. Cette certification garantit votre niveau de compétence et favorisera l'évolution de votre carrière professionnelle car elle prouve que vous savez manipuler et exploiter l'ensemble des fonctionnalités de Microsoft Word 2013 et offrir ainsi un niveau de productivité élevé à votre employeur.
Cette formation vous prépare à passer le niveau "Spécialiste" de la certification Word 2013 MOS, elle couvre l'ensemble des objectifs de l'examen officiel.
Des travaux pratiques sont à réaliser à la fin de chaque chapitre pour évaluer et valider les connaissances et compétences acquises tout au long de celui-ci.
Alphorm.com Formation MySQL Administration(1Z0-883)Alphorm
La formation complète est disponible ici:
http://www.alphorm.com/tutoriel/formation-en-ligne-mysql-1z0-883
MySQL est devenu le serveur de bases de données issu du monde libre le plus largement adopté par les entreprises.
A l'issue de cette formation, vous saurez installer et administrer MySQL au quotidien, d'une manière efficace et sécurisée.
Cette formation traite aussi des notions avancées de MySQL : réplication, sécurité, sauvegarde, performances et optimisation.
Alphorm.com Formation PostgreSQL, la Haute DisponibilitéAlphorm
Vous trouverez la formation ici:
http://www.alphorm.com/tutoriel/formation-en-ligne-postgresql-la-haute-disponibilite
Après la formation d'administration de PostgreSQL, voilà la formation qui traite La Haute Disponibilité sous PostgreSQL.
Noureddine DRISSI vous montre les différentes méthodes de la mise de la HD sous PostgreSQL : Le Warm Standby ou Log Shipping, Le Hot Standby, Streaming Replication, pgPool-II, La réplication avec Slony.
Pour suivre cette formation vous devez avoir des connaissances solides sur Linux (vous avez déjà la formation LPIC-1 et LPIC-2 sur alphorm) et aussi d'avoir suivi la formation PostgreSQL et la formation SQL.
Alphorm.com Formation Microsoft SQL Server 2016 Business Intelligence (SSIS)Alphorm
Formation complète ici:
http://www.alphorm.com/tutoriel/formation-en-ligne-microsoft-sql-server-2016-ssis-implementer-une-solution-etl
Afin d'améliorer les capacités de BI, les entreprises doivent gérer de façon sécurisée la migration des données à travers de nombreuses plateformes. Dans cette formation SSIS, vous obtiendrez les compétences pour automatiser les tâches de migration complexes et contrôler la réussite ou l'échec des processus de migration.
SQL Server Integration Services (SSIS) est un puissant outil ETL utilisé dans le cadre de projets d'intégration ou de BI. Grâce à cette formation SSIS pratique, vous apprendrez à implémenter une solution ETL évoluée avec SSIS 2016. Vous découvrirez le traitement et l'alimentation des données, la sécurisation et l'optimisation des flux.
Cette formation SSIS vous apprendra à concevoir et à déployer une solution de Business Intelligence avec SQL Server 2016. A l'issue de cette formation SSIS, vous aurez acquis les connaissances et compétences nécessaires pour mettre en œuvre les méthodes de base de l’ETL, implémenter un flux de contrôles et de données dans Intégration Services, déboguer et implémenter la gestion d'erreurs dans Intégration Services, gérer et sécuriser des packages …
Formation complète ici:
http://www.alphorm.com/tutoriel/formation-en-ligne-le-langage-pl-sql
Cette formation vous apprendra à comprendre et à maîtriser les différents concepts de développement du langage PL/SQL avec les bases de données Oracle.
Durant cette formation vous apprendrez les bases du langage PL/SQL, à utiliser d'une manière efficace les variables, à utiliser les curseurs et tous les éléments de traitement conditionnel.
Vous apprendrez également à développer et a utiliser les procédures stockées, les fonctions, les packages et les triggers.
Une base de données, pourquoi faire ? Le SQL, c’est quoi ce langage ? Un DBA, ça sert à quoi ? Cette session est là pour démystifier la base de données du point de vue des développeurs. Au programme : des bonnes pratiques, de la méthodologie, quelques tips techniques… De quoi rapprocher les développeurs et les DBA.
Qu'est ce que Java et JEE ?
Comment se fait l'évolution de Java ?
Les architectures SOA.
Les technologies (JSR).
Les frameworks.
Le middleware.
Les outils.
Les micro orm, alternatives à entity frameworkMSDEVMTL
L'arrivée il y 10 ans d'Entity Framework a permis de manipuler une base de données sans écrire une seule ligne de SQL.Entity Framework a apporté son lot d'avantages mais aussi d'inconvénients.
Aujourd'hui il existe différentes alternatives à ce dernier, les micro ORM.Nous allons voir en quoi ils sont intéressants : leur compatibilité avec les différentes bases de données, leur simplicité, leur performance, la communauté autour de ces derniers.
La prochaine version du framework .NET (.NET 4.5) apporte plusieurs innovations. Les performances ont été améliorées, les appels asynchrones ont été introduits dans de nombreuses API et le support au niveau de C# 5 des instructions async/await facilite leur usage. Le traitement parallèle a aussi été étendu avec le support des cœurs multiples et l'introduction des dataflow. Parmi les nouveautés on notera également le support étendu de MEF, des améliorations au niveau de WCF, de Workflow Foundation et de ASP.NET pour ne citer que ceux-ci.
Talend, Leading Open Source DataIntegration plateform. Cedric CarboneCedric CARBONE
Slides corporate de la société Talend (Oct08) et ses 4 plateformes Open Source :
-Talend Open Studio
-Talend Integration Suite
-Talend Open Profiler
-Talend Data Quality
Plus d'info à http://www.talend.com
Durant cette session, on va vous montrer les différentes fonctions de la Tooling API avec des cas d'utilisations concrets.
Et vous présentera quelques requêtes SOQL en Tooling API utilisable au quotidien ( Dev ou Admin)
Introduction à la programmation aspect, présentation générique des enjeux puis déclinaison en dotNet au travers de deux outils : Unity 2.1 et PostSharp
Présentation générale d'une architecture orientée service :
- Définition des différents acteurs
- Notion de service
- Définition d'une plateforme SOA
- Implémentation WCF
L'IA connaît une croissance rapide et son intégration dans le domaine éducatif soulève de nombreuses questions. Aujourd'hui, nous explorerons comment les étudiants utilisent l'IA, les perceptions des enseignants à ce sujet, et les mesures possibles pour encadrer ces usages.
Constat Actuel
L'IA est de plus en plus présente dans notre quotidien, y compris dans l'éducation. Certaines universités, comme Science Po en janvier 2023, ont interdit l'utilisation de l'IA, tandis que d'autres, comme l'Université de Prague, la considèrent comme du plagiat. Cette diversité de positions souligne la nécessité urgente d'une réponse institutionnelle pour encadrer ces usages et prévenir les risques de triche et de plagiat.
Enquête Nationale
Pour mieux comprendre ces dynamiques, une enquête nationale intitulée "L'IA dans l'enseignement" a été réalisée. Les auteurs de cette enquête sont Le Sphynx (sondage) et Compilatio (fraude académique). Elle a été diffusée dans les universités de Lyon et d'Aix-Marseille entre le 21 juin et le 15 août 2023, touchant 1242 enseignants et 4443 étudiants. Les questionnaires, conçus pour étudier les usages de l'IA et les représentations de ces usages, abordaient des thèmes comme les craintes, les opportunités et l'acceptabilité.
Résultats de l'Enquête
Les résultats montrent que 55 % des étudiants utilisent l'IA de manière occasionnelle ou fréquente, contre 34 % des enseignants. Cependant, 88 % des enseignants pensent que leurs étudiants utilisent l'IA, ce qui pourrait indiquer une surestimation des usages. Les usages identifiés incluent la recherche d'informations et la rédaction de textes, bien que ces réponses ne puissent pas être cumulées dans les choix proposés.
Analyse Critique
Une analyse plus approfondie révèle que les enseignants peinent à percevoir les bénéfices de l'IA pour l'apprentissage, contrairement aux étudiants. La question de savoir si l'IA améliore les notes sans développer les compétences reste débattue. Est-ce un dopage académique ou une opportunité pour un apprentissage plus efficace ?
Acceptabilité et Éthique
L'enquête révèle que beaucoup d'étudiants jugent acceptable d'utiliser l'IA pour rédiger leurs devoirs, et même un quart des enseignants partagent cet avis. Cela pose des questions éthiques cruciales : copier-coller est-il tricher ? Utiliser l'IA sous supervision ou pour des traductions est-il acceptable ? La réponse n'est pas simple et nécessite un débat ouvert.
Propositions et Solutions
Pour encadrer ces usages, plusieurs solutions sont proposées. Plutôt que d'interdire l'IA, il est suggéré de fixer des règles pour une utilisation responsable. Des innovations pédagogiques peuvent également être explorées, comme la création de situations de concurrence professionnelle ou l'utilisation de détecteurs d'IA.
Conclusion
En conclusion, bien que l'étude présente des limites, elle souligne un besoin urgent de régulation. Une charte institutionnelle pourrait fournir un cadre pour une utilisation éthique.
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...Horgix
This is the slide deck of a talk by Alexis "Horgix" Chotard and Laurentiu Capatina presented at the MongoDB Paris User Group in June 2024 about the feedback on how PayFit move away from a monolithic hell of a self-hosted MongoDB cluster to managed alternatives. Pitch below.
March 15, 2023, 6:59 AM: a MongoDB cluster collapses. Tough luck, this cluster contains 95% of user data and is absolutely vital for even minimal operation of our application. To worsen matters, this cluster is 7 years behind on versions, is not scalable, and barely observable. Furthermore, even the data model would quickly raise eyebrows: applications communicating with each other by reading/writing in the same MongoDB documents, documents reaching the maximum limit of 16MiB with hundreds of levels of nesting, and so forth. The incident will last several days and result in the loss of many users. We've seen better scenarios.
Let's explore how PayFit found itself in this hellish situation and, more importantly, how we managed to overcome it!
On the agenda: technical stabilization, untangling data models, breaking apart a Single Point of Failure (SPOF) into several elements with a more restricted blast radius, transitioning to managed services, improving internal accesses, regaining control over risky operations, and ultimately, approaching a technical migration when it impacts all development teams.
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...OCTO Technology
Par Nicolas Bordier (Consultant numérique responsable @OCTO Technology) et Alaric Rougnon-Glasson (Sustainable Tech Consultant @OCTO Technology)
Sur un exemple très concret d’audit d’éco-conception de l’outil de bilan carbone C’Bilan développé par ICDC (Caisse des dépôts et consignations) nous allons expliquer en quoi l’ACV (analyse de cycle de vie) a été déterminante pour identifier les pistes d’actions pour réduire jusqu'à 82% de l’empreinte environnementale du service.
Vidéo Youtube : https://www.youtube.com/watch?v=7R8oL2P_DkU
Compte-rendu :
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Laurent Speyser
(Conférence dessinée)
Vous êtes certainement à l’origine, ou impliqué, dans un changement au sein de votre organisation. Et peut être que cela ne se passe pas aussi bien qu’attendu…
Depuis plusieurs années, je fais régulièrement le constat de l’échec de l’adoption de l’Agilité, et plus globalement de grands changements, dans les organisations. Je vais tenter de vous expliquer pourquoi ils suscitent peu d'adhésion, peu d’engagement, et ils ne tiennent pas dans le temps.
Heureusement, il existe un autre chemin. Pour l'emprunter il s'agira de cultiver l'invitation, l'intelligence collective , la mécanique des jeux, les rites de passages, .... afin que l'agilité prenne racine.
Vous repartirez de cette conférence en ayant pris du recul sur le changement tel qu‘il est généralement opéré aujourd’hui, et en ayant découvert (ou redécouvert) le seul guide valable à suivre, à mon sens, pour un changement authentique, durable, et respectueux des individus! Et en bonus, 2 ou 3 trucs pratiques!
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Talend
1. Prez Flash :: Talend Open Studio Auteur : Thibault Chassagnette – Pierre Antoine Schaeffer
2. Sommaire Contexte Pourquoi utiliser un ETL ? Présentation ETL Qu’est ce qu’un ETL ? Talend Open Studio Présentation, Utilisation Scénarios d’utilisation Charger, exporter, configurer Retours d’expérience Avantages, inconvénients
3. Contexte : intégration dans un SI Projets au cœur d’un écosystème Différents besoins = différentes applications Architectures et technologies différentes Besoin de communiquer avec les autres applications Mise à jour de référentiels Reprises de données
4. Comment communiquer ? Directement entre deux applications Solution simple Performances dégradées en cas d’appels trop nombreux Création d’une dépendance entre les applications Difficile à mettre en œuvre avec des progiciels Application 2 (serveur) Application 1 (client) HTTP, SOAP, TCP, etc.
5. Bus de données Application 2 Application 1 Application 3 Comment communiquer ? Via un bus de données Solution type EAI complexe à mettre en œuvre Performances dégradées en cas d’appels trop nombreux Pas de dépendances directes entre les applications Difficile à mettre en œuvre avec des progiciels Nécessite un connecteur pour chaque application
6. Par duplication de données Fonctionne avec tous les logiciels (échange de fichier ou accès direct aux bases de données) Fonctionne avec de gros volumes de données Les applications sont totalement indépendantes Application 2 (destination) Application 1 (source) Extraction Chargement Transformation Comment communiquer ?
7. Sommaire Contexte Pourquoi utiliser un ETL ? Présentation ETL Qu’est ce qu’un ETL ? Talend Open Studio Présentation, Utilisation Scénarios d’utilisation Charger, exporter, configurer Retours d’expérience Avantages, inconvénients
8. Définition ETL : Extract, Transform, Load Recouvre à la fois : Le processus d’alimentation Les outils permettant de mettre en œuvre ce processus Utilisé principalement dans les domaines : Du DataWareHousing De la Business Intelligence
9. Utilisations possibles Consolidation de données dans le S.I. Exemple : la reconstruction quotidienne d’un DataWareHouse Propagation de données entre bases Exemple : l’alimentation des bases applicatives à partir des référentiels Chargement ou export de données (fichiers) Exemple : export du chiffre d’affaire de la journée Reprise de données Constitution de jeux de données de tests
10. Principe général d’utilisation Le paramétrage se fait via une interface graphique Un graphe décrit les traitements à réaliser Un nœud reprend les données du nœud précédent
11. Fonctionnement en 3 étapes La collecte des données (Extract) Depuis une ou plusieurs applications La préparation et la transformation (Transform) Contrôle des données sources Agrégation de plusieurs informations Transformation des informations Le chargement des données (Load) Vers une ou plusieurs applications
12. Sources de données (entrée ou sortie) Fichiers : plats : taille fixe, séparateur XML : utilisation d’une transformation XSLT propriétaires : Excel Bases de données : Relationnelles : Oracle, Sybase, SQL Server, … Multidimensionnelles Progiciels : ERP : SAP, Oracle, People Soft, … BI : Business Objects, Cognos, …
13. Transformations Transformations sur une ligne Formatage, Copie de colonnes, Conversions, Application de fonctions Transformations sur un ensemble de ligne Agrégation, tri, pivot, échantillonage, tableaux croisés Transformations sur plusieurs sources de données Jointure, union, filtre conditionnel, multicast Vérification de la qualité des données Fuzzy matching, remplacement de valeurs, vérification d’intervalles
14. Sommaire Contexte Pourquoi utiliser un ETL ? Présentation ETL Qu’est ce qu’un ETL ? Talend Open Studio Présentation, Utilisation Scénarios d’utilisation Charger, exporter, configurer Retours d’expérience Avantages, inconvénients
15. Talend : présentation générale Open Source Version gratuite : Talend Open Studio Versions payantes (outils de supervision, ordonnancement, …) Fonctionnement Génération de code JAVA (ou Perl) Création d’un jar à exécuter
16. Talend : les possibilités Sources de données Bases de données (Oracle, Postgre, MySQL, SQL Server, …) Fichiers (CSV, XML, possibilité de définir un schéma ligne à ligne) WebServices Flux RSS, FTP, CVS, SVN, SSH, … Transformations possibles Filtre, tri, … Ajout de code JAVA compilé puis exécuté par Talend
18. Sommaire Contexte Pourquoi utiliser un ETL ? Présentation ETL Qu’est ce qu’un ETL ? Talend Open Studio Présentation, Utilisation Scénarios d’utilisation Charger, exporter, configurer Retours d’expérience Avantages, inconvénients
19. Scénario : chargement de données Chargement d’un fichier CSV Log des lignes traitées Envoi en base de données
20. Scénario : extraction de données Chargement de données depuis une base Agrégation de données Filtre des données Extraction CSV et XML
21. Scénario : configuration et exploitation Configuration d’un job Découpage en sous-job Chargement d’un fichier normé Transformations Export dans une base Envoi d’un mail
22. Sommaire Contexte Pourquoi utiliser un ETL ? Présentation ETL Qu’est ce qu’un ETL ? Talend Open Studio Présentation, Utilisation Scénarios d’utilisation Charger, exporter, configurer Retours d’expérience Avantages, inconvénients
23. Avantages Rapidité et facilité de développement Performances d’exécution Communauté active Réactivité Talend
24. Inconvénients Mauvaise gestion CVS Pas de génération automatisée des exécutables (payant) Attention aux évolutions des composants Nécessite une machine « musclée »
25. Questions ? Retrouvez nous sur le blog technique de Klee http://blog.kleegroup.com/teknics teKnics@kleegroup.com @teKnics_Klee