© Talend 2014© Talend 2014
Data centric
Une plate forme centrée sur les données au service de votre organisation
Benjamin ...
© Talend 2014© Talend 2014
Agenda
1. Talend en bref
2. MDM et Data Gouvernance : pourquoi ?
3. MDM et Data Gouvernance : c...
© Talend 2014© Talend 2014
EN BREF
• Fondée en 2006
• 400 employés
dans 7 pays
• Deux sièges : Los Altos, en
Californie et...
© Talend 2014© Talend 2014
La Plateforme Talend
GESTION DES
DONNEES
USAGE DE
L’INFORMATION
© Talend 2014© Talend 2014
Data centric ? L’exemple d’Amazon
Connaître
son client
Elargir son offre
produits & services
Va...
© Talend 2014© Talend 2014
Talend
MDM
Client
Four-
nisseur
Produit
Actif
(Asset)
Agence
Magasins
Organisa
tions et
codifi-...
© Talend 2014© Talend 2014
Fonctionnalités clés d’un MDM
Alimentation
Capture
• Audit des
sources
• Chargement
initial
• I...
© Talend 2014© Talend 2014
1) Intégration des sources
Alimentation
Capture
• Audit des
sources
• Chargement
initial
• Inse...
© Talend 2014© Talend 2014
Six dimensions de la qualité de données
© Talend 2014© Talend 2014
Complétude
• Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PA...
© Talend 2014© Talend 2014
La Conformité
Complétude
Conformité
• Complétude : le type n’est pas renseigné pour DUPONT PIER...
© Talend 2014© Talend 2014
La Cohérence
Complétude
Conformité
Cohérence
• Complétude : le type n’est pas renseigné pour DU...
© Talend 2014© Talend 2014
L’exactitude…
Complétude
Conformité
Cohérence
Exactitude
• Complétude : le type n’est pas rense...
© Talend 2014© Talend 2014
La Duplication
Complétude
Conformité
Cohérence
Duplication
Exactitude
• Complétude : le type n’...
© Talend 2014© Talend 2014
L’intégrité
Complétude
Conformité
Cohérence
Duplication
Intégrité
Exactitude
• Complétude : le ...
© Talend 2014© Talend 2014
2) Nettoyage & alignement des données
Alimentation
Capture
• Audit des
sources
• Chargement
ini...
© Talend 2014© Talend 2014
3) Rapprochement (« Entity Resolution », « Record Linkage »…)
Alimentation
Capture
• Audit des
...
© Talend 2014© Talend 2014
4) Consolidation, « Survivorship »
Alimentation
Capture
• Audit des
sources
• Chargement
initia...
© Talend 2014© Talend 2014
5) Améliorations, enrichissement
Alimentation
Capture
• Audit des
sources
• Chargement
initial
...
© Talend 2014© Talend 2014
6) Publication, mise à disposition
Alimentation
Capture
• Audit des
sources
• Chargement
initia...
© Talend 2014© Talend 2014
Client
Quelques clients MDM
Produit
Autres
domaines
Employés, Founisseurs, Site
& Meta-Data Man...
© Talend 2014© Talend 2014
Etude de cas : Veolia
➜ L’entreprise :
• Veolia Propreté est la division de Veolia Environnemen...
© Talend 2014© Talend 2014
Pourquoi le Big Data a-t-il besoin du MDM et de la
data quality ?
23
Extraction du contenu
Gest...
© Talend 2014© Talend 2014
Pourquoi le Big Data a t’il besoin du MDM et de la DQ ?
Ex: Du MDM client au « client augmenté ...
© Talend 2014© Talend 2014
RUNTIME PLATFORM (JAVA, Hadoop, SQL, etc.)
La plate-forme Talend pour le Big Data
Talend Platfo...
© Talend 2014© Talend 2014
Conclusion – Talend MDM et Data Quality
Rapide à implémenter
Plateforme avec tous les composan...
© Talend 2014© Talend 2014
Des questions ?
Prochain SlideShare
Chargement dans…5
×

Data centric : une plate-forme orientée donnée au coeur de votre organisation

2 335 vues

Publié le

Présentation des enjeux et cas d'usage de la data gouvernance, qualité de données et Master Data Management ; présentation de la plate-forme Talend

Publié dans : Technologie
  • Soyez le premier à commenter

Data centric : une plate-forme orientée donnée au coeur de votre organisation

  1. 1. © Talend 2014© Talend 2014 Data centric Une plate forme centrée sur les données au service de votre organisation Benjamin Boutros et Jean-Michel Franco bboutros@talend.com jfranco@talend.com (@jmichel_franco)
  2. 2. © Talend 2014© Talend 2014 Agenda 1. Talend en bref 2. MDM et Data Gouvernance : pourquoi ? 3. MDM et Data Gouvernance : comment ? 4. Références et cas d’usage 5. MDM et Big Data : l’association gagnante
  3. 3. © Talend 2014© Talend 2014 EN BREF • Fondée en 2006 • 400 employés dans 7 pays • Deux sièges : Los Altos, en Californie et Paris, en France • Modèle Open Core • Licence (souscription) • Services et formations Solutions  Solutions d’intégration évolutives pour le Big Data, l’intégration de données et d’applications, la qualité de données, le MDM et BPM.  Classé Leader Visionnaire par Gartner et Forrester sur le marché de l’intégration Présentation de Talend Modèle de déploiement-croissance 2007 2008 2009 2010 2011 2012 VISIBILITE 1,6 million de téléchargements COMMUNAUTÉ DYNAMIQUE 100 000 utilisateurs enregistrés MONÉTISATION 1 800 souscripteurs actifs FIDELITE DES CLIENTS Taux de renouvellement de 86%
  4. 4. © Talend 2014© Talend 2014 La Plateforme Talend GESTION DES DONNEES USAGE DE L’INFORMATION
  5. 5. © Talend 2014© Talend 2014 Data centric ? L’exemple d’Amazon Connaître son client Elargir son offre produits & services Valoriser tout l’écosystème
  6. 6. © Talend 2014© Talend 2014 Talend MDM Client Four- nisseur Produit Actif (Asset) Agence Magasins Organisa tions et codifi- cations Employé MDM et data gouvernance ? Maîtriser le « qui, quoi, comment et où » de vos activités Quoi ? (44%) Comptes Géolocalisation Contrat Nomenclatures Attributs Prix Catalogue Profil Comportement Adresse Identité Qui ? (33%) Territoires Comment ? (21%) Où ? (3%) Standards Compliance Sources : Gartner
  7. 7. © Talend 2014© Talend 2014 Fonctionnalités clés d’un MDM Alimentation Capture • Audit des sources • Chargement initial • Insertions / mises à jour, batch et fil de l’eau Rapproche- ments Consolida- tions Enrichisse- ments Distribution Publication • Trouve et relie les doublons potentiels • Algorithmes et arbitrages manuels • Fusionne les doublons avec des règles automatiques et des processus manuels Nettoyage • Corrections (erreurs de saisies, formats…) • Alignement sur un standard • Validation d’adresses postales • Ajoute des informations transverses • Sources externes • Enrichisse- ments et arbitrages manuels • Met les Master Data à disposition de tout le système d’information Le processus MDM
  8. 8. © Talend 2014© Talend 2014 1) Intégration des sources Alimentation Capture • Audit des sources • Chargement initial • Insertions / mises à jour, batch et fil de l’eau Rapproche- ments Consolida- tions Enrichisse- ments Distribution Publication • Trouve et relie les doublons potentiels • Algorithmes et arbitrages manuels • Fusionne les doublons avec des règles automatiques et des processus manuels Nettoyage • Corrections (erreurs de saisies, formats…) • Alignement sur un standard • Validation d’adresses postales • Ajoute des informations transverses • Sources externes • Enrichisse- ments et arbitrages manuels • Met les Master Data à disposition de tout le système d’information Le processus MDM Plateforme Talend • Data Profiling: > 100 indicateurs, rapports d’audit, suivi dans le temps • Active Data Model: tous domaines, validation synchrone ou asynchrone • Data Integration: > 500 connecteurs (dans l’ADN de Talend !) • Application Integration: services, messages, routing, mediation…
  9. 9. © Talend 2014© Talend 2014 Six dimensions de la qualité de données
  10. 10. © Talend 2014© Talend 2014 Complétude • Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut La Complétude
  11. 11. © Talend 2014© Talend 2014 La Conformité Complétude Conformité • Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut • Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE
  12. 12. © Talend 2014© Talend 2014 La Cohérence Complétude Conformité Cohérence • Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut • Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE • Cohérence : YAHOO n’est pas une personne et BOUTROS BENJAMIN n’est pas une entreprise
  13. 13. © Talend 2014© Talend 2014 L’exactitude… Complétude Conformité Cohérence Exactitude • Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut • Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE • Cohérence : YAHOO n’est pas une personne et BOUTROS BENJAMIN n’est pas une entreprise • Exactitude : l’information POIDS n’est pas applicable aux entreprises
  14. 14. © Talend 2014© Talend 2014 La Duplication Complétude Conformité Cohérence Duplication Exactitude • Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut • Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE • Cohérence : YAHOO n’est pas une personne et BOUTROS BENJAMIN n’est pas une entreprise • Exactitude : l’information POIDS n’est pas applicable aux entreprises • Duplication : J BLANC et MR JACQUES BLANC sont la même personne
  15. 15. © Talend 2014© Talend 2014 L’intégrité Complétude Conformité Cohérence Duplication Intégrité Exactitude • Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut • Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE • Cohérence : YAHOO n’est pas une personne et BOUTROS BENJAMIN n’est pas une entreprise • Exactitude : l’information POIDS n’est pas applicable aux entreprises • Duplication : J BLANC et MR JACQUES BLANC sont la même personne • Intégrité : le lien qui unit ces deux personnes n’est pas établie dans le fichier
  16. 16. © Talend 2014© Talend 2014 2) Nettoyage & alignement des données Alimentation Capture • Audit des sources • Chargement initial • Insertions / mises à jour, batch et fil de l’eau Rapproche- ments Consolida- tions Enrichisse- ments Distribution Publication • Trouve et relie les doublons potentiels • Algorithmes et arbitrages manuels • Fusionne les doublons avec des règles automatiques et des processus manuels Nettoyage • Corrections (erreurs de saisies, formats…) • Alignement sur un standard • Validation d’adresses postales • Ajoute des informations transverses • Sources externes • Enrichisse- ments et arbitrages manuels • Met les Master Data à disposition de tout le système d’information Le processus MDM Plateforme Talend • Data Quality: parsing, synonymes, correspondances, standardisation • Composants specialisés: prenoms, nicknames, telephones… • Composants de validation d’adresses: Google, Uniserv, Loqate…
  17. 17. © Talend 2014© Talend 2014 3) Rapprochement (« Entity Resolution », « Record Linkage »…) Alimentation Capture • Audit des sources • Chargement initial • Insertions / mises à jour, batch et fil de l’eau Rapproche- ments Consolida- tions Enrichisse- ments Distribution Publication • Trouve et relie les doublons potentiels • Algorithmes et arbitrages manuels • Fusionne les doublons avec des règles automatiques et des processus manuels Nettoyage • Corrections (erreurs de saisies, formats…) • Alignement sur un standard • Validation d’adresses postales • Ajoute des informations transverses • Sources externes • Enrichisse- ments et arbitrages manuels • Met les Master Data à disposition de tout le système d’information Le processus MDM Plateforme Talend • Algorithmes de matching: détection des similaires, scoring, seuils d’incertitude… • Stewardship Console: visualisation graphique des rapprochements
  18. 18. © Talend 2014© Talend 2014 4) Consolidation, « Survivorship » Alimentation Capture • Audit des sources • Chargement initial • Insertions / mises à jour, batch et fil de l’eau Rapproche- ments Consolida- tions Enrichisse- ments Distribution Publication • Trouve et relie les doublons potentiels • Algorithmes et arbitrages manuels • Fusionne les doublons avec des règles automatiques et des processus manuels Nettoyage • Corrections (erreurs de saisies, formats…) • Alignement sur un standard • Validation d’adresses postales • Ajoute des informations transverses • Sources externes • Enrichisse- ments et arbitrages manuels • Met les Master Data à disposition de tout le système d’information Le processus MDM Plateforme Talend • Algorithmes de survivorship: fonctions intégrées et règles personnalisées • Stewardship Console: arbitrage / correction manuelle de la fusion
  19. 19. © Talend 2014© Talend 2014 5) Améliorations, enrichissement Alimentation Capture • Audit des sources • Chargement initial • Insertions / mises à jour, batch et fil de l’eau Rapproche- ments Consolida- tions Enrichisse- ments Distribution Publication • Trouve et relie les doublons potentiels • Algorithmes et arbitrages manuels • Fusionne les doublons avec des règles automatiques et des processus manuels Nettoyage • Corrections (erreurs de saisies, formats…) • Alignement sur un standard • Validation d’adresses postales • Ajoute des informations transverses • Sources externes • Enrichisse- ments et arbitrages manuels • Met les Master Data à disposition de tout le système d’information Le processus MDM Plateforme Talend • Formulaires Web: auto-générés sur le modèle, vues dépendantes du rôle, droits d’accès • Workflow: moteur de BPM complet (designer de formulaires métier, rôles, assignations, délégations, deadlines, notifications…)
  20. 20. © Talend 2014© Talend 2014 6) Publication, mise à disposition Alimentation Capture • Audit des sources • Chargement initial • Insertions / mises à jour, batch et fil de l’eau Rapproche- ments Consolida- tions Enrichisse- ments Distribution Publication • Trouve et relie les doublons potentiels • Algorithmes et arbitrages manuels • Fusionne les doublons avec des règles automatiques et des processus manuels Nettoyage • Corrections (erreurs de saisies, formats…) • Alignement sur un standard • Validation d’adresses postales • Ajoute des informations transverses • Sources externes • Enrichisse- ments et arbitrages manuels • Met les Master Data à disposition de tout le système d’information Le processus MDM Plateforme Talend • Data Integration: export dans virtuellement n’importe quel format vers n’importe quelle cible • ESB: publication dans le bus de service Talend
  21. 21. © Talend 2014© Talend 2014 Client Quelques clients MDM Produit Autres domaines Employés, Founisseurs, Site & Meta-Data Management Reference Data Management Multi-Domaine
  22. 22. © Talend 2014© Talend 2014 Etude de cas : Veolia ➜ L’entreprise : • Veolia Propreté est la division de Veolia Environnement spécialisée dans la gestion et la valorisation des déchets.. • Plus de 47 millions d'habitants desservis, 64 291 collaborateurs, 686 unités de traitement, 575000 clients, flotte de 10000 véhicules ➜ L’enjeu: • Produire, de façon automatisée, des indicateurs clés de performance pour la DG et tous les niveaux de l’organisation • Unifier la gestion de l’activité aux travers des organisations et des systèmes d’information ➜ Solution: • Un référentiel des matériels pour les 1200 catégories de déchets traités • Un référentiel véhicules pour les 10000 véhicules de la flotte • Une organisation associée pour le data stewardship ➜ Résultats : • Des processus rationalisé grâce à une élimination des incohérences et doublons (exemple : évolution de 10000 à 1200 codes matériel après la phase de collecte et dédoublonnage. • La capacité à déployer rapidement de nouveaux domaines et l’organisation de gouvernance associée : déploiement de chaque nouveau modèle en 6 à 8 semaines
  23. 23. © Talend 2014© Talend 2014 Pourquoi le Big Data a-t-il besoin du MDM et de la data quality ? 23 Extraction du contenu Gestion de la qualité Réconciliation avec les master data Enrichissement Id_Client Prénom Nom Produit Fournisseur Date Montant 92584789 Anne B. TXF98 Dell 24/12/2013 650 € 92584789 Anne B. AXC54 Maped 24/12/2013 2,44 € 92584789 Anne B. TRE56 Playmobil 24/12/2013 129,36 € …. Exemple : la dématérialisation du Père Noël
  24. 24. © Talend 2014© Talend 2014 Pourquoi le Big Data a t’il besoin du MDM et de la DQ ? Ex: Du MDM client au « client augmenté » et la recommandation temps réel 24 Customer Data Platform Données de parcours, sentiments et interactions Données décisionnelles Données transactionnelles Centre de contacts Face à face (Boutique, agence…) SMS/Mail/Chat… Service après vente Applications mobiles et Web MDM, Data Quality
  25. 25. © Talend 2014© Talend 2014 RUNTIME PLATFORM (JAVA, Hadoop, SQL, etc.) La plate-forme Talend pour le Big Data Talend Platform for Big Data TALEND UNIFIED PLATFORM Studio Repository Deployment Execution Monitoring DATA INTEGRATION Data Access ETL / ELT Version Control Business Rules Change Data Capture Scheduler Parallel Processing High Availability Big DATA QUALITY Hive Data Profiling Drill-down to Values DQ Portal, Monitoring Data Stewardship Report Design Address Validation Custom Analysis M/R Parsing, Matching BIG DATA Hadoop 2.0 MapReduce ETL/ELT Hcatalog/ meta-data Pig, Sqoop, Hive Hadoop Job Scheduler Google Big Query NoSQL SupportHDFS
  26. 26. © Talend 2014© Talend 2014 Conclusion – Talend MDM et Data Quality Rapide à implémenter Plateforme avec tous les composants pour le MDM Se prête à l’implémentation incrémentale Approche simple et intuitive Modélisation, configuration, design Pas de programmation, réutilisation des composants Talend VOTRE domaine, VOS règles Modélisation ultra flexible basée sur XML Système évènementiel pour validations & corrections auto Rejoignez la communauté Open Source Basé sur les standards et frameworks Open Source Ouvert et extensible Prêt à embarquer le Big Data Gestion des 4V (volume, variété, vitesse et véracité) Capacité à traiter les données là où elles sont Rapide Simple Flexible Open Extensible
  27. 27. © Talend 2014© Talend 2014 Des questions ?

×