SlideShare une entreprise Scribd logo
Disposer d'informations fiables, à l'instant voulu, pour prendre de meilleures décisions Matthieu Maurice Dan Benouaisch
Agenda ,[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],La vision IBM InfoSphere  deplacer à la fin
Solution IBM InfoSphere – End to End Cognos Data Integration  Data Quality  Data Delivery Operational Source Systems Structured/ Unstructured Data InfoSphere MDM Server COMMON METADATA Data Glossary Spreadsheets Applications Information Server Federated Data Cubing Services Industry Models Data Repository Multidimensional Analysis  Data Mining Data Definition Glossary SOA Web  Service InfoSphere Warehouse Common  Definition Management Deployment
Les enjeux de la qualité de donnée ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],(KRC Research)
Pourquoi analyser ces données ? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
La qualité de l’information ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Vos problématiques de qualité … ,[object Object]
CONSTRUIRE OU ACHETER : LES CONSTATS Construire, à condition de pouvoir le justifier Acheter, mais en trouvant le bon compromis Un impact sur les temps de mise en œuvre et sur les coûts Un impact sur l’ouverture et la flexibilité «  Il coûte 7 à 10 fois plus cher de développer en  spécifique une fonction plutôt que d’utiliser son équivalent dans un progiciel  »  GIGA GROUP «  Nos études montrent que les coûts de possession du spécifique dépassent de 40% ceux du Progiciel  » GARTNER Progiciel par défaut Au cas par cas en fonction du projet Progiciel systématiquement Selon le coût NSP Progiciel adapté aux processus Progiciel adapté aux métiers Approche mixte Source Forrester (Étude Sur 25 grands comptes Européens), AMR et Gartner Plus facile avec un progiciel Plus facile avec un spécifique Équivalent NSP Spécifique plus cher Équivalent Logiciel plus cher NSP
Une méthodologie adaptée à vos enjeux métiers Time To Value Est-ce que vos sources de données contiennent l’information que vous pensez y trouver? Quelles sont les sources à utiliser pour ce projet? Est-ce que le sens de vos données est celui que vous croyez? Découvrir Comment rapprocher  les enregistrements de même signification? Pouvez-vous corriger et améliorer la qualité de vos données? Standardiser Pouvez-vous affecter un sens aux données à destination des utilisateurs ? Pouvez-vous apporter une synchronisation des données entre les systèmes? Pouvez-vous délivrer & mettre à jour les données en temps réel? Vos données peuvent-elles être délivrées sur la base d’évènements ou selon leur contenu? Transformer  & Délivrer Fédérer Comment accéder de manière transparente, efficace et simple à des données provenant de sources hétérogènes ?
Vos projets d’intégration de l’information … Exécution performante quelque soit la volumétrie Une seule plateforme, un seul outil : le Serveur d’Information Connectivité étendue aux applications, données et contenu Comprendre Cartographier, définir, découvrir et modéliser et maîtriser qualité et structure de l’information Nettoyer Standardiser, fusionner et corriger l’information Transformer Transformer, enrichir, déplacer et synchroniser l’information Fédérer Virtualiser et simplifier l’accès à l’information Déployer la logique d’intégration sous forme de Service Gérer de façon unique et simple toutes vos métadonnées
Plus de 500 Références en France ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Industries Secteur Public
IBM Information Server Delivering information you can trust Comprendre Nettoyer Transformer Fédérer QualityStage Information Analyzer Federation Server DataStage Business Glossary Information Services Director Metadata Server Exécution parallélisée Connectivité aux applications, données et contenu Information Server Metadata Workbench
Comprendre ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Canaux externes Sources Exogènes Filiales Liste externe Distribution Référentiels Contacts Protocoles @
Comprendre vos données - Information Analyzer ,[object Object],[object Object],[object Object],Business  Glossary IBM Information Analyzer Analyse de colonnes Analyse de Table Analyse Inter-Table Fréquences de distribution Analyse des Classe, propriétés,  format, domaine/complétude Annotations & Marquage pour revue Analyse des dépendances Analyse de clé primaire Validation de règles Rapports
Vision globale et unifiée des sources de données ,[object Object],[object Object],[object Object]
Analyse de la table  EMPL: Élément employeur chèques emploi service ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],Exemple : rapports pour documenter les analyses
Points de valeur de la Solution : IBM Information Analyzer ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
IBM Information Server Delivering information you can trust Comprendre Nettoyer Transformer Fédérer QualityStage Information Analyzer Federation Server DataStage Business Glossary Information Services Director Metadata Server Exécution parallélisée Connectivité aux applications, données et contenu Information Server Metadata Workbench
IBM QualityStage Garantir la qualité et la pertinence de vos données Nettoyer ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Standardisation des données et mise en correspondance avec toutes les autres sources afin de définir une information unique Experts Sujets Analystes
La démarche Qualité
Le processus de Nettoyage des données Vues Consolidées 1. Standardiser 2. Rapprocher 3. Consolider Clients Transactions Vendeurs / Fournisseurs Cible Produits / Matériels
Un exemple de données “non propres” Comment identifier et consolider des données quand le nombre d’enregistrement s’élève a plusieurs millions/milliards d’enregiqtrement ?  90328574 IBM 187 N.Pk. Str. Salem NH 01456 8,494.00 90328575 I.B.M. Inc. 187 N.Pk. St. Salem NH 01456 3,432.00 90238495 Int. Bus. Machines  187 No. Park St Salem NH 04156 2,243.00 90233479 International Bus. M.  187  Park Ave Salem NH 04156 5,900.00 90233489 Inter-Nation Consults 15 Main Street Andover MA 02341 6,800.00 90234889 Int. Bus. Consultants  PO Box 9 Boston MA 02210 10,243.00 90345672 I.B. Manufacturing  Park Blvd. Bostno MA  04106 15,999.00 Pas de clés communes Anomalies Erreurs de traduction Pas de standard
Étape 1 : La standardisation (exemple    adresses) Analyse lexicale: Détermination de la signification métier de chaque composant Mise en contexte: Identification de la structure variable des données et de leur signification ^  Repetition  Street  Common  + Index  Type  Word 3 | BIS | RUE | DE | PARIS melle Morognier Françoise 3 bis, r. de Paris 72000 Le Mans House  Repetition  Street  Street Number  Index  Type  Name 3  | B  | RUE | DE PARIS 3 | BIS | R. | DE | PARIS Décomposition: Détermination de la signification métier de chaque composant FRADDR
Étape 1 : La standardisation (exemple    produits) Pneu Energy Serie Audi A4 TDI 115ch 2.0 2.0 Pneu Pilot Primacy 205/55R16 Audi A4 91/H Pneu Exalto Option AudiA4 130ch 2.2 Pneu Pilot Sport Serie Audi A4 TDi quattro 2.5 2.3 91/Y Audi A4 TDI Quatro Audi A4 TDI 130ch Audi A4 TDI Audi A4 TDI 115ch Type Voiture 2.5  2.3 2.2  2.2 2.2  2.2 2.0  2.0 Pression AV  AR Serie 91/Y 225/45ZR17 Pneu Pilot Sport Option 91/V 205/55R16 Pneu Pilot Exalto Option 91/H 205/55R16 Pneu Pilot Primacy Ssérie 91/H 195/65R15 Pneu Energy Monte IC/IV Dimension Description
Étape 2 : Le Rapprochement Prénom   2ème Prénom   Nom   Fonction ALEXANDRE J DEMARIA DG ALEXANDRE JEAN DEMARA DG + 7 +1   + 1 0 +5 =  23   Le s  CUTOFF  sont  le s  score s   au dessus  et en dessous  d es quel s  un rapprochement est considéré comme bon ou non Le score d’un poids est une mesure relative de probabilité de match 0 500 1000 1500 2000 2500 3000 3500 4000 -50 -40 -30 -20 -10 0 10 20 30 40 50 60 Nbre  Paires Non rapprochées Rapprochées
Le scoring probabiliste améliore la qualité Les Tables de Décisions de la méthode classique (déterministe) appliquent les même règles quel que soit le contenu intrinsèque. Par contre, la méthode probabiliste tient compte de la différence intrinsèque des valeurs.  Un nom rare (« YUSKA ») et des chaînes plus longues compensent les champs manquants ou litigieux. Illustration dans cette détection de foyer : la pattern déterministe « ABBCB » est un non-match, alors que l’algorithme probabiliste donne 24 > 21 = match non oui non (erreur !) L-Name Hse# Street Apt# Zip Rec-1 SMITH 123 BEECH 18A 02112 Rec-2 SMITH 132 BEACH 18 02111 Pattern A B B C B ABBCB Weight 5 2 7 1 4 19 Rec-3 YUSKA 5401 VETCH 818A 02112 Rec-4 YUSKA 5410 VEECH 81A 02111 Pattern A B B C B ABBCB Weight 7 3 8 2 4 24
Étape 2 : Le Rapprochement ,[object Object],[object Object],36,10 C  IBM  29  RUE DU CHAMOINE DE MOREL  13000  MARSEILLE 26,85 C  I.B.M  29  RUE DU MOINE DE MOREL  16000  MARSEILLE 15,32  MLE   MIR EI LLE  BARBIERA LE PERCHOIR 119  AV  DE LA BASTIDE  06130  GRASSE  10,59  MME   MIR IE LLE  BARBIERA  42  CHEMIN  DU BAMBOU  06130  GRASSE ,[object Object],[object Object],36,36  C  IBM SOFTWARE  PARIS LA DEFENSE CEDEX  14,09  C  IBM SOFTWARE  CORP.  BOSTON MASSACHUSSET
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],555   36,36  MME  Isabelle DURAND 3 RUE  DE LA BERGERIE  34000  MONTPELLIER  23976 555   14,09  M  Robert DURAND 3 RUE  DE LA BERGERIE  34000  MONTPELLIER  23830 Groupe  Legacy 555  23976 555  23830 Étape 3 : La consolidation Groupe  Nom  No  Type  Nom  Code  Ville Rue  Rue  Postal 555  DURAND 3 RUE  DE LA BERGERIE   34000  MONTPELLIER
Que faire des résultats des enregistrements rapprochés ? ,[object Object],[object Object],[object Object],[object Object],Référence croisée ? =
Développer avec QualityStage ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Gestion de la qualité de donnée : Performance & Scalabilté
Plus de 500 clients en France Banque &  Assurance Communications  & Services Industries Secteur Public Distribution Majeurs SAP
VSC Technologies – Filiale de la Sncf  :   Fournisseur de solutions technologiques de Voyages-SNCF  : 1ère agence de voyages en ligne française, 2,5 millions de réservations par mois, 300 TGV remplis par jour, jusqu’à 3 réservations par seconde ,[object Object],[object Object],[object Object],[object Object],[object Object],Problème Solution Résultat VSC Technlogies – « Aujourd'hui, nos clients attendent de recevoir des informations qui répondent précisément à leurs besoins, qu'il s'agisse de vacances sur mesure ou de bonnes affaires de dernière minute, »  souligne Frédéric Falkoff, responsable décisionnel de VSC Technologies . « IBM Information Server nous garantit que les informations que nous utilisons sont précises, fiables et complètes. Cela nous permet d'apporter à nos clients des contenus pertinents pour une meilleure personnalisation de nos services. » InfoSphere ®  QualityStage™  simplifie les initiatives d’e-commerce et de publication de l'entreprise en rapprochant les informations clients, qui sont nettoyées et tenues à jour pour améliorer les ventes et le marketing
MasterFoods  |   Entité opérationnelle du groupe Mars, Alimentation rapide, Alimentation animale,  Plats cuisinés, Boissons non-alcolisées. 39,000 employés dans le monde . €  1,4 milliards. InfoSphere ®  QualityStage™. Une solution unique de validation d’adresses au lieu d’une solution par pays (15 pays). Un processus d’intégration  homogène de bout en bout Un rapprochement de meilleure qualité (approche probabiliste) . Des caractéristiques produit extraites de façon automatique. ,[object Object],[object Object],[object Object],[object Object],Marketing direct Le processus d’intégration existant n’était pas intégré et reposait sur une comparaison exacte des enregistrements en entrée. Master Data Management Le processus de migration des pièces détachées était en grande partie manuel entre les applications historiques et SAP. Problème Solution Résultat MasterFoods
Mapping Solution de chargement RDP Rapid Deployment Package Ateliers – Préparation des données Découverte & Analyse ,[object Object],[object Object],[object Object],Services Logique de chargement et qualité SIF Systèmes Source Source #1 Source #2
Implémentation rapide avec le MDM Source Systems MDM Business Services MDM SERVER Duplicate Suspect Processing User Interface & Reporting ,[object Object],[object Object],[object Object],[object Object],[object Object],ETL MDM Database History Source #N Source #1 Source #2 Information Server Load Process  DS jobs QS DataStage SIF
Des questions ?
Etape Suivante ? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Démarche proposée : DQA (Data Quality Assesment) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Thank You Merci Grazie Gracias Obrigado Danke Japanese French Russian German Italian Spanish Brazilian Portuguese Arabic Traditional Chinese Simplified Chinese Hindi Tamil Thai Korean
Techniques d’implémentation ,[object Object],[object Object],[object Object]
L’analyse des besoins ,[object Object],[object Object],[object Object],[object Object],[object Object],Phase 1 Phase 2 Phase 3 Phase 4 Spécifications techniques, Architecture Développements Intégration, recette Mise en production, support Transfert de connaissance
Le chargement initial ,[object Object],[object Object]
Le chargement incrémental ,[object Object],[object Object],[object Object]
Le chargement incrémental ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Le chargement incrémental ,[object Object],[object Object],[object Object],[object Object]

Contenu connexe

En vedette

Metadata matters
Metadata mattersMetadata matters
Metadata matters
Rob Hanna, ECMs
Document Imaging Initiatives in Government of Canada - PWGSC - October 27, 20...
Document Imaging Initiatives in Government of Canada - PWGSC - October 27, 20...Document Imaging Initiatives in Government of Canada - PWGSC - October 27, 20...
Document Imaging Initiatives in Government of Canada - PWGSC - October 27, 20...
Cheryl McKinnon
Information Management : de l’excellence opérationnelle à l’excellence inform...
Information Management : de l’excellence opérationnelle à l’excellence inform...Information Management : de l’excellence opérationnelle à l’excellence inform...
Information Management : de l’excellence opérationnelle à l’excellence inform...
Jean-Michel Franco
Information Management Loves Enterprise 2 0
Information Management Loves Enterprise 2 0Information Management Loves Enterprise 2 0
Information Management Loves Enterprise 2 0
Acando Consulting
United Airlines Best Practices Conference 2013 presentation
United Airlines Best Practices Conference 2013 presentationUnited Airlines Best Practices Conference 2013 presentation
United Airlines Best Practices Conference 2013 presentation
Denise Wilson
DataWerhouse : Données de qualité
DataWerhouse : Données de qualitéDataWerhouse : Données de qualité
DataWerhouse : Données de qualité
Nassim Bahri
Determining What Information to Keep in a File Shares Cleanup - 6 Key Questio...
Determining What Information to Keep in a File Shares Cleanup - 6 Key Questio...Determining What Information to Keep in a File Shares Cleanup - 6 Key Questio...
Determining What Information to Keep in a File Shares Cleanup - 6 Key Questio...
AIIM International
AIIM Training Brochure
AIIM Training BrochureAIIM Training Brochure
AIIM Training Brochure
AIIM International
[Webinar Slides] Finding the Right Information in Your Stockpiled Content
[Webinar Slides] Finding the Right Information in Your Stockpiled Content[Webinar Slides] Finding the Right Information in Your Stockpiled Content
[Webinar Slides] Finding the Right Information in Your Stockpiled Content
AIIM International
[Webinar Slides] How to Plan Your Information Management Strategy in 2017
[Webinar Slides] How to Plan Your Information Management Strategy in 2017[Webinar Slides] How to Plan Your Information Management Strategy in 2017
[Webinar Slides] How to Plan Your Information Management Strategy in 2017
AIIM International
[Webinar Slides] 7 Key ECM Changes - A Look Ahead to 2017
[Webinar Slides] 7 Key ECM Changes - A Look Ahead to 2017 [Webinar Slides] 7 Key ECM Changes - A Look Ahead to 2017
[Webinar Slides] 7 Key ECM Changes - A Look Ahead to 2017
AIIM International
Electronic records management
Electronic records managementElectronic records management
Electronic records management
Kirti Joshi
Learning English as a second language - the myths, facts and realities
Learning English as a second language - the myths, facts  and realitiesLearning English as a second language - the myths, facts  and realities
Learning English as a second language - the myths, facts and realities
Nalaka Gamage
Information Management aaS AIIM First Canadian presentation
Information Management aaS AIIM First Canadian presentationInformation Management aaS AIIM First Canadian presentation
Information Management aaS AIIM First Canadian presentation
Christopher Wynder
What is Electronic Records Management?
What is Electronic Records Management?What is Electronic Records Management?
What is Electronic Records Management?
Atle Skjekkeland

En vedette (15)

Metadata matters
Metadata mattersMetadata matters
Metadata matters
Document Imaging Initiatives in Government of Canada - PWGSC - October 27, 20...
Document Imaging Initiatives in Government of Canada - PWGSC - October 27, 20...Document Imaging Initiatives in Government of Canada - PWGSC - October 27, 20...
Document Imaging Initiatives in Government of Canada - PWGSC - October 27, 20...
Information Management : de l’excellence opérationnelle à l’excellence inform...
Information Management : de l’excellence opérationnelle à l’excellence inform...Information Management : de l’excellence opérationnelle à l’excellence inform...
Information Management : de l’excellence opérationnelle à l’excellence inform...
Information Management Loves Enterprise 2 0
Information Management Loves Enterprise 2 0Information Management Loves Enterprise 2 0
Information Management Loves Enterprise 2 0
United Airlines Best Practices Conference 2013 presentation
United Airlines Best Practices Conference 2013 presentationUnited Airlines Best Practices Conference 2013 presentation
United Airlines Best Practices Conference 2013 presentation
DataWerhouse : Données de qualité
DataWerhouse : Données de qualitéDataWerhouse : Données de qualité
DataWerhouse : Données de qualité
Determining What Information to Keep in a File Shares Cleanup - 6 Key Questio...
Determining What Information to Keep in a File Shares Cleanup - 6 Key Questio...Determining What Information to Keep in a File Shares Cleanup - 6 Key Questio...
Determining What Information to Keep in a File Shares Cleanup - 6 Key Questio...
AIIM Training Brochure
AIIM Training BrochureAIIM Training Brochure
AIIM Training Brochure
[Webinar Slides] Finding the Right Information in Your Stockpiled Content
[Webinar Slides] Finding the Right Information in Your Stockpiled Content[Webinar Slides] Finding the Right Information in Your Stockpiled Content
[Webinar Slides] Finding the Right Information in Your Stockpiled Content
[Webinar Slides] How to Plan Your Information Management Strategy in 2017
[Webinar Slides] How to Plan Your Information Management Strategy in 2017[Webinar Slides] How to Plan Your Information Management Strategy in 2017
[Webinar Slides] How to Plan Your Information Management Strategy in 2017
[Webinar Slides] 7 Key ECM Changes - A Look Ahead to 2017
[Webinar Slides] 7 Key ECM Changes - A Look Ahead to 2017 [Webinar Slides] 7 Key ECM Changes - A Look Ahead to 2017
[Webinar Slides] 7 Key ECM Changes - A Look Ahead to 2017
Electronic records management
Electronic records managementElectronic records management
Electronic records management
Learning English as a second language - the myths, facts and realities
Learning English as a second language - the myths, facts  and realitiesLearning English as a second language - the myths, facts  and realities
Learning English as a second language - the myths, facts and realities
Information Management aaS AIIM First Canadian presentation
Information Management aaS AIIM First Canadian presentationInformation Management aaS AIIM First Canadian presentation
Information Management aaS AIIM First Canadian presentation
What is Electronic Records Management?
What is Electronic Records Management?What is Electronic Records Management?
What is Electronic Records Management?

Similaire à IBM Information Management - Pas de décision de qualité sans informations de qualité

INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
Micropole Group
Search Based Application: Facilitez vous le MDM !
Search Based Application: Facilitez vous le MDM !Search Based Application: Facilitez vous le MDM !
Search Based Application: Facilitez vous le MDM !
Jean-François Caenen
Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire] Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire]
Technologia Formation
Talend, Leading Open Source DataIntegration plateform. Cedric Carbone
Talend, Leading Open Source DataIntegration plateform. Cedric CarboneTalend, Leading Open Source DataIntegration plateform. Cedric Carbone
Talend, Leading Open Source DataIntegration plateform. Cedric Carbone
Présentation OCARA
Présentation OCARAPrésentation OCARA
Présentation OCARA
Michel Lalieu
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Atelier relation client 2011
Atelier relation client 2011Atelier relation client 2011
Atelier relation client 2011
Informatica 9 pervasive dq
Informatica 9 pervasive dqInformatica 9 pervasive dq
Informatica 9 pervasive dq
Informatica Day Paris
Data Management - PramaTALK
Data Management - PramaTALKData Management - PramaTALK
Data Management - PramaTALK
IBM Data lake
IBM Data lakeIBM Data lake
IBM Data lake
Generic Bi Landscape 2010 02 11
Generic Bi Landscape 2010 02 11Generic Bi Landscape 2010 02 11
Generic Bi Landscape 2010 02 11
Alain Charpentier
Presentation 2009 offre Social Computing
Presentation 2009 offre Social ComputingPresentation 2009 offre Social Computing
Presentation 2009 offre Social Computing
Social Computing
Big data et assurance
Big data et assuranceBig data et assurance
Big data et assurance
Man Manur
Microsoft Power Business Intelligence
Microsoft Power Business IntelligenceMicrosoft Power Business Intelligence
Microsoft Power Business Intelligence
Mario-Charly TOBOSSOU
Windows azure
Windows azureWindows azure
Windows azurewafa_ay
Matinale du MDM 2011
Matinale du MDM 2011Matinale du MDM 2011
Matinale du MDM 2011
Business & Decision
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Analytics Cloud : boostez l’analyse de vos données
Analytics Cloud : boostez l’analyse de vos donnéesAnalytics Cloud : boostez l’analyse de vos données
Analytics Cloud : boostez l’analyse de vos données
Salesforce France
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic  2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization

Similaire à IBM Information Management - Pas de décision de qualité sans informations de qualité (20)

INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
Search Based Application: Facilitez vous le MDM !
Search Based Application: Facilitez vous le MDM !Search Based Application: Facilitez vous le MDM !
Search Based Application: Facilitez vous le MDM !
Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire] Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire]
Talend, Leading Open Source DataIntegration plateform. Cedric Carbone
Talend, Leading Open Source DataIntegration plateform. Cedric CarboneTalend, Leading Open Source DataIntegration plateform. Cedric Carbone
Talend, Leading Open Source DataIntegration plateform. Cedric Carbone
Présentation OCARA
Présentation OCARAPrésentation OCARA
Présentation OCARA
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Atelier relation client 2011
Atelier relation client 2011Atelier relation client 2011
Atelier relation client 2011
Informatica 9 pervasive dq
Informatica 9 pervasive dqInformatica 9 pervasive dq
Informatica 9 pervasive dq
Data Management - PramaTALK
Data Management - PramaTALKData Management - PramaTALK
Data Management - PramaTALK
IBM Data lake
IBM Data lakeIBM Data lake
IBM Data lake
Generic Bi Landscape 2010 02 11
Generic Bi Landscape 2010 02 11Generic Bi Landscape 2010 02 11
Generic Bi Landscape 2010 02 11
Presentation 2009 offre Social Computing
Presentation 2009 offre Social ComputingPresentation 2009 offre Social Computing
Presentation 2009 offre Social Computing
Big data et assurance
Big data et assuranceBig data et assurance
Big data et assurance
Microsoft Power Business Intelligence
Microsoft Power Business IntelligenceMicrosoft Power Business Intelligence
Microsoft Power Business Intelligence
Windows azure
Windows azureWindows azure
Windows azure
Matinale du MDM 2011
Matinale du MDM 2011Matinale du MDM 2011
Matinale du MDM 2011
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Analytics Cloud : boostez l’analyse de vos données
Analytics Cloud : boostez l’analyse de vos donnéesAnalytics Cloud : boostez l’analyse de vos données
Analytics Cloud : boostez l’analyse de vos données
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic  2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization

Plus de Nicolas Desachy

Informix User Group France - 30/11/2010 - Securisation des données
Informix User Group France - 30/11/2010 - Securisation des donnéesInformix User Group France - 30/11/2010 - Securisation des données
Informix User Group France - 30/11/2010 - Securisation des donnéesNicolas Desachy
Informix User Group France - 30/11/2010 - Fonctionalités IDS 11.7
Informix User Group France - 30/11/2010 - Fonctionalités IDS 11.7Informix User Group France - 30/11/2010 - Fonctionalités IDS 11.7
Informix User Group France - 30/11/2010 - Fonctionalités IDS 11.7
Nicolas Desachy
Informix User Group France - 30/11/2010 - IDS les nouvelles fonctionnalités s...
Informix User Group France - 30/11/2010 - IDS les nouvelles fonctionnalités s...Informix User Group France - 30/11/2010 - IDS les nouvelles fonctionnalités s...
Informix User Group France - 30/11/2010 - IDS les nouvelles fonctionnalités s...
Nicolas Desachy
Informix User Group France - 30/11/2010 - Nouveautés IDS 11.10 & 11.50
Informix User Group France - 30/11/2010 - Nouveautés IDS 11.10 & 11.50Informix User Group France - 30/11/2010 - Nouveautés IDS 11.10 & 11.50
Informix User Group France - 30/11/2010 - Nouveautés IDS 11.10 & 11.50
Nicolas Desachy
Informix User Group France - 30/11/2010 - Optim Development Studio
Informix User Group France - 30/11/2010 - Optim Development StudioInformix User Group France - 30/11/2010 - Optim Development Studio
Informix User Group France - 30/11/2010 - Optim Development StudioNicolas Desachy
Informix User Group France - 30/11/2010 - Informix & Open Source - J Roy
Informix User Group France - 30/11/2010 - Informix & Open Source - J RoyInformix User Group France - 30/11/2010 - Informix & Open Source - J Roy
Informix User Group France - 30/11/2010 - Informix & Open Source - J Roy
Nicolas Desachy
IBM Software & Information Management - Décembre 2010
IBM Software & Information Management - Décembre 2010IBM Software & Information Management - Décembre 2010
IBM Software & Information Management - Décembre 2010
Nicolas Desachy
Forrester - Etude d\'impact économique serveur de base de données IBM Informix
Forrester - Etude d\'impact économique  serveur de base de données IBM InformixForrester - Etude d\'impact économique  serveur de base de données IBM Informix
Forrester - Etude d\'impact économique serveur de base de données IBM Informix
Nicolas Desachy
Le whiteboard IBM Information Management en français
Le whiteboard IBM Information Management en françaisLe whiteboard IBM Information Management en français
Le whiteboard IBM Information Management en français
Nicolas Desachy
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvre
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvreIBM : Gouvernance de l\'Information - Principes & Mise en oeuvre
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvre
Nicolas Desachy
OSA03 Pourquoi choisir IBM pour vos projets BPM ?
OSA03 Pourquoi choisir IBM pour vos projets BPM ?OSA03 Pourquoi choisir IBM pour vos projets BPM ?
OSA03 Pourquoi choisir IBM pour vos projets BPM ?
Nicolas Desachy
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
Nicolas Desachy

Plus de Nicolas Desachy (12)

Informix User Group France - 30/11/2010 - Securisation des données
Informix User Group France - 30/11/2010 - Securisation des donnéesInformix User Group France - 30/11/2010 - Securisation des données
Informix User Group France - 30/11/2010 - Securisation des données
Informix User Group France - 30/11/2010 - Fonctionalités IDS 11.7
Informix User Group France - 30/11/2010 - Fonctionalités IDS 11.7Informix User Group France - 30/11/2010 - Fonctionalités IDS 11.7
Informix User Group France - 30/11/2010 - Fonctionalités IDS 11.7
Informix User Group France - 30/11/2010 - IDS les nouvelles fonctionnalités s...
Informix User Group France - 30/11/2010 - IDS les nouvelles fonctionnalités s...Informix User Group France - 30/11/2010 - IDS les nouvelles fonctionnalités s...
Informix User Group France - 30/11/2010 - IDS les nouvelles fonctionnalités s...
Informix User Group France - 30/11/2010 - Nouveautés IDS 11.10 & 11.50
Informix User Group France - 30/11/2010 - Nouveautés IDS 11.10 & 11.50Informix User Group France - 30/11/2010 - Nouveautés IDS 11.10 & 11.50
Informix User Group France - 30/11/2010 - Nouveautés IDS 11.10 & 11.50
Informix User Group France - 30/11/2010 - Optim Development Studio
Informix User Group France - 30/11/2010 - Optim Development StudioInformix User Group France - 30/11/2010 - Optim Development Studio
Informix User Group France - 30/11/2010 - Optim Development Studio
Informix User Group France - 30/11/2010 - Informix & Open Source - J Roy
Informix User Group France - 30/11/2010 - Informix & Open Source - J RoyInformix User Group France - 30/11/2010 - Informix & Open Source - J Roy
Informix User Group France - 30/11/2010 - Informix & Open Source - J Roy
IBM Software & Information Management - Décembre 2010
IBM Software & Information Management - Décembre 2010IBM Software & Information Management - Décembre 2010
IBM Software & Information Management - Décembre 2010
Forrester - Etude d\'impact économique serveur de base de données IBM Informix
Forrester - Etude d\'impact économique  serveur de base de données IBM InformixForrester - Etude d\'impact économique  serveur de base de données IBM Informix
Forrester - Etude d\'impact économique serveur de base de données IBM Informix
Le whiteboard IBM Information Management en français
Le whiteboard IBM Information Management en françaisLe whiteboard IBM Information Management en français
Le whiteboard IBM Information Management en français
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvre
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvreIBM : Gouvernance de l\'Information - Principes & Mise en oeuvre
IBM : Gouvernance de l\'Information - Principes & Mise en oeuvre
OSA03 Pourquoi choisir IBM pour vos projets BPM ?
OSA03 Pourquoi choisir IBM pour vos projets BPM ?OSA03 Pourquoi choisir IBM pour vos projets BPM ?
OSA03 Pourquoi choisir IBM pour vos projets BPM ?
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...


Les écrans informatiques au fil du temps.pptx
Les écrans informatiques au fil du temps.pptxLes écrans informatiques au fil du temps.pptx
Les écrans informatiques au fil du temps.pptx
Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
OCTO Technology
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
OCTO Technology
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Laurent Speyser
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'universitéDe l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
Université de Franche-Comté

Dernier (9)

Les écrans informatiques au fil du temps.pptx
Les écrans informatiques au fil du temps.pptxLes écrans informatiques au fil du temps.pptx
Les écrans informatiques au fil du temps.pptx
Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'universitéDe l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université

IBM Information Management - Pas de décision de qualité sans informations de qualité

  • 1. Disposer d'informations fiables, à l'instant voulu, pour prendre de meilleures décisions Matthieu Maurice Dan Benouaisch
  • 2.
  • 3.
  • 4. Solution IBM InfoSphere – End to End Cognos Data Integration Data Quality Data Delivery Operational Source Systems Structured/ Unstructured Data InfoSphere MDM Server COMMON METADATA Data Glossary Spreadsheets Applications Information Server Federated Data Cubing Services Industry Models Data Repository Multidimensional Analysis Data Mining Data Definition Glossary SOA Web Service InfoSphere Warehouse Common Definition Management Deployment
  • 5.
  • 6.
  • 7.
  • 8.
  • 9. CONSTRUIRE OU ACHETER : LES CONSTATS Construire, à condition de pouvoir le justifier Acheter, mais en trouvant le bon compromis Un impact sur les temps de mise en œuvre et sur les coûts Un impact sur l’ouverture et la flexibilité «  Il coûte 7 à 10 fois plus cher de développer en spécifique une fonction plutôt que d’utiliser son équivalent dans un progiciel  » GIGA GROUP «  Nos études montrent que les coûts de possession du spécifique dépassent de 40% ceux du Progiciel  » GARTNER Progiciel par défaut Au cas par cas en fonction du projet Progiciel systématiquement Selon le coût NSP Progiciel adapté aux processus Progiciel adapté aux métiers Approche mixte Source Forrester (Étude Sur 25 grands comptes Européens), AMR et Gartner Plus facile avec un progiciel Plus facile avec un spécifique Équivalent NSP Spécifique plus cher Équivalent Logiciel plus cher NSP
  • 10. Une méthodologie adaptée à vos enjeux métiers Time To Value Est-ce que vos sources de données contiennent l’information que vous pensez y trouver? Quelles sont les sources à utiliser pour ce projet? Est-ce que le sens de vos données est celui que vous croyez? Découvrir Comment rapprocher les enregistrements de même signification? Pouvez-vous corriger et améliorer la qualité de vos données? Standardiser Pouvez-vous affecter un sens aux données à destination des utilisateurs ? Pouvez-vous apporter une synchronisation des données entre les systèmes? Pouvez-vous délivrer & mettre à jour les données en temps réel? Vos données peuvent-elles être délivrées sur la base d’évènements ou selon leur contenu? Transformer & Délivrer Fédérer Comment accéder de manière transparente, efficace et simple à des données provenant de sources hétérogènes ?
  • 11. Vos projets d’intégration de l’information … Exécution performante quelque soit la volumétrie Une seule plateforme, un seul outil : le Serveur d’Information Connectivité étendue aux applications, données et contenu Comprendre Cartographier, définir, découvrir et modéliser et maîtriser qualité et structure de l’information Nettoyer Standardiser, fusionner et corriger l’information Transformer Transformer, enrichir, déplacer et synchroniser l’information Fédérer Virtualiser et simplifier l’accès à l’information Déployer la logique d’intégration sous forme de Service Gérer de façon unique et simple toutes vos métadonnées
  • 12.
  • 13. IBM Information Server Delivering information you can trust Comprendre Nettoyer Transformer Fédérer QualityStage Information Analyzer Federation Server DataStage Business Glossary Information Services Director Metadata Server Exécution parallélisée Connectivité aux applications, données et contenu Information Server Metadata Workbench
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20. IBM Information Server Delivering information you can trust Comprendre Nettoyer Transformer Fédérer QualityStage Information Analyzer Federation Server DataStage Business Glossary Information Services Director Metadata Server Exécution parallélisée Connectivité aux applications, données et contenu Information Server Metadata Workbench
  • 21.
  • 23. Le processus de Nettoyage des données Vues Consolidées 1. Standardiser 2. Rapprocher 3. Consolider Clients Transactions Vendeurs / Fournisseurs Cible Produits / Matériels
  • 24. Un exemple de données “non propres” Comment identifier et consolider des données quand le nombre d’enregistrement s’élève a plusieurs millions/milliards d’enregiqtrement ? 90328574 IBM 187 N.Pk. Str. Salem NH 01456 8,494.00 90328575 I.B.M. Inc. 187 N.Pk. St. Salem NH 01456 3,432.00 90238495 Int. Bus. Machines 187 No. Park St Salem NH 04156 2,243.00 90233479 International Bus. M. 187 Park Ave Salem NH 04156 5,900.00 90233489 Inter-Nation Consults 15 Main Street Andover MA 02341 6,800.00 90234889 Int. Bus. Consultants PO Box 9 Boston MA 02210 10,243.00 90345672 I.B. Manufacturing Park Blvd. Bostno MA 04106 15,999.00 Pas de clés communes Anomalies Erreurs de traduction Pas de standard
  • 25. Étape 1 : La standardisation (exemple  adresses) Analyse lexicale: Détermination de la signification métier de chaque composant Mise en contexte: Identification de la structure variable des données et de leur signification ^ Repetition Street Common + Index Type Word 3 | BIS | RUE | DE | PARIS melle Morognier Françoise 3 bis, r. de Paris 72000 Le Mans House Repetition Street Street Number Index Type Name 3 | B | RUE | DE PARIS 3 | BIS | R. | DE | PARIS Décomposition: Détermination de la signification métier de chaque composant FRADDR
  • 26. Étape 1 : La standardisation (exemple  produits) Pneu Energy Serie Audi A4 TDI 115ch 2.0 2.0 Pneu Pilot Primacy 205/55R16 Audi A4 91/H Pneu Exalto Option AudiA4 130ch 2.2 Pneu Pilot Sport Serie Audi A4 TDi quattro 2.5 2.3 91/Y Audi A4 TDI Quatro Audi A4 TDI 130ch Audi A4 TDI Audi A4 TDI 115ch Type Voiture 2.5 2.3 2.2 2.2 2.2 2.2 2.0 2.0 Pression AV AR Serie 91/Y 225/45ZR17 Pneu Pilot Sport Option 91/V 205/55R16 Pneu Pilot Exalto Option 91/H 205/55R16 Pneu Pilot Primacy Ssérie 91/H 195/65R15 Pneu Energy Monte IC/IV Dimension Description
  • 27. Étape 2 : Le Rapprochement Prénom 2ème Prénom Nom Fonction ALEXANDRE J DEMARIA DG ALEXANDRE JEAN DEMARA DG + 7 +1 + 1 0 +5 = 23 Le s CUTOFF sont le s score s au dessus et en dessous d es quel s un rapprochement est considéré comme bon ou non Le score d’un poids est une mesure relative de probabilité de match 0 500 1000 1500 2000 2500 3000 3500 4000 -50 -40 -30 -20 -10 0 10 20 30 40 50 60 Nbre Paires Non rapprochées Rapprochées
  • 28. Le scoring probabiliste améliore la qualité Les Tables de Décisions de la méthode classique (déterministe) appliquent les même règles quel que soit le contenu intrinsèque. Par contre, la méthode probabiliste tient compte de la différence intrinsèque des valeurs. Un nom rare (« YUSKA ») et des chaînes plus longues compensent les champs manquants ou litigieux. Illustration dans cette détection de foyer : la pattern déterministe « ABBCB » est un non-match, alors que l’algorithme probabiliste donne 24 > 21 = match non oui non (erreur !) L-Name Hse# Street Apt# Zip Rec-1 SMITH 123 BEECH 18A 02112 Rec-2 SMITH 132 BEACH 18 02111 Pattern A B B C B ABBCB Weight 5 2 7 1 4 19 Rec-3 YUSKA 5401 VETCH 818A 02112 Rec-4 YUSKA 5410 VEECH 81A 02111 Pattern A B B C B ABBCB Weight 7 3 8 2 4 24
  • 29.
  • 30.
  • 32.
  • 33.
  • 34. Gestion de la qualité de donnée : Performance & Scalabilté
  • 35. Plus de 500 clients en France Banque & Assurance Communications & Services Industries Secteur Public Distribution Majeurs SAP
  • 36.
  • 37.
  • 38.
  • 39.
  • 41.
  • 42.
  • 43. Thank You Merci Grazie Gracias Obrigado Danke Japanese French Russian German Italian Spanish Brazilian Portuguese Arabic Traditional Chinese Simplified Chinese Hindi Tamil Thai Korean
  • 45.
  • 46.
  • 47.
  • 48.
  • 49.
  • 50.

Notes de l'éditeur

  1. IBM has assembled a portfolio specific designed to help organizations deal with the challenges of fragmented information. This portfolio, called InfoSphere, accelerates the delivery of trusted information throughout an organization. The portfolio accelerates client value and reduces risk in critical information projects. There are four primary parts to the portfolio. At the foundation is the InfoSphere Information Server, which specializes in integrating data across a heterogeneous landscape and delivering complete and accurate information when and where it is needed. A common target of this data is InfoSphere MDM, which manages a master view of key data elements like customer, product, account, and location over time. InfoSphere Warehouse provides a foundation for enormously scalable data warehouses, with key partitioning, mining, and cubing features to maximize the value of information. And providing acceleration for all of these are the IBM Industry Models, which contain industry-centric domain knowledge to help organizations achieve better results faster. Each part of the portfolio enjoys a market leadership position and stands alone in its value, but IBM is also investing in making the pieces work better together – helping companies who choose multiple parts to leverage deep synergies to further accelerate value.
  2. TDWI – The Data Warehousing Institute has done some recent studies regarding data quality problems. It’s often easier to understand bad data if you identify the source – how it got into the system in the first place. Based upon 266 respondents who were able to select multuple items – they found that…
  3. IBM recognized this challenge – which is why we’ve created the WebSphere Information Integration Platform. The IBM WebSphere Information Integration platform enables businesses to perform 5 integration functions: Connect to any data or content, wherever it resides Understand and analyze that information, including its meanings, relationships, and lineage Cleanse it to assure its quality and consistency Transform it to provide enriched and tailored information Federate it to make it accessible to people, processes, and applications Underlying these functions is a common metadata and parallel processing infrastructure that provides leverage and automation across the platform. Each product in the portfolio also provides connections to many data and content sources, and the ability to deliver information through a variety of mechanisms. Additionally, these functions can be leveraged in a service oriented architecture through easily published shared services. The IBM WebSphere Information Integration platform provides: access to the broadest range of information sources the broadest range of integration functionality, including federation, ETL, in-line transformation, replication, and event publishing the most flexibility in how these functions are used, including support for service-oriented architectures, event-driven processing, scheduled batch processing, and even standard APIs like SQL and Java. The breadth and flexibility of the platform enable it to address many types of business problems and meet the requirements of many types of projects. This optimizes the opportunities for reuse, leading to faster project cycles, better information consistency, and stronger information governance. How does Information Integration fit into an SOA? Regarding Service-Oriented Architectures, information integration enables information to be made available as a service , publishing consistent, reusable services for information that make it easier for processes to get the information they need from across a heterogeneous landscape.
  4. IBM recognized this challenge – which is why we’ve created the WebSphere Information Integration Platform. The IBM WebSphere Information Integration platform enables businesses to perform 5 integration functions: Connect to any data or content, wherever it resides Understand and analyze that information, including its meanings, relationships, and lineage Cleanse it to assure its quality and consistency Transform it to provide enriched and tailored information Federate it to make it accessible to people, processes, and applications Underlying these functions is a common metadata and parallel processing infrastructure that provides leverage and automation across the platform. Each product in the portfolio also provides connections to many data and content sources, and the ability to deliver information through a variety of mechanisms. Additionally, these functions can be leveraged in a service oriented architecture through easily published shared services. The IBM WebSphere Information Integration platform provides: access to the broadest range of information sources the broadest range of integration functionality, including federation, ETL, in-line transformation, replication, and event publishing the most flexibility in how these functions are used, including support for service-oriented architectures, event-driven processing, scheduled batch processing, and even standard APIs like SQL and Java. The breadth and flexibility of the platform enable it to address many types of business problems and meet the requirements of many types of projects. This optimizes the opportunities for reuse, leading to faster project cycles, better information consistency, and stronger information governance. How does Information Integration fit into an SOA? Regarding Service-Oriented Architectures, information integration enables information to be made available as a service , publishing consistent, reusable services for information that make it easier for processes to get the information they need from across a heterogeneous landscape.
  5. IBM recognized this challenge – which is why we’ve created the WebSphere Information Integration Platform. The IBM WebSphere Information Integration platform enables businesses to perform 5 integration functions: Connect to any data or content, wherever it resides Understand and analyze that information, including its meanings, relationships, and lineage Cleanse it to assure its quality and consistency Transform it to provide enriched and tailored information Federate it to make it accessible to people, processes, and applications Underlying these functions is a common metadata and parallel processing infrastructure that provides leverage and automation across the platform. Each product in the portfolio also provides connections to many data and content sources, and the ability to deliver information through a variety of mechanisms. Additionally, these functions can be leveraged in a service oriented architecture through easily published shared services. The IBM WebSphere Information Integration platform provides: access to the broadest range of information sources the broadest range of integration functionality, including federation, ETL, in-line transformation, replication, and event publishing the most flexibility in how these functions are used, including support for service-oriented architectures, event-driven processing, scheduled batch processing, and even standard APIs like SQL and Java. The breadth and flexibility of the platform enable it to address many types of business problems and meet the requirements of many types of projects. This optimizes the opportunities for reuse, leading to faster project cycles, better information consistency, and stronger information governance. How does Information Integration fit into an SOA? Regarding Service-Oriented Architectures, information integration enables information to be made available as a service , publishing consistent, reusable services for information that make it easier for processes to get the information they need from across a heterogeneous landscape.
  6. Cleansing is the process of cleaning up these sorts of problems. Within IBM Information Server, WebSphere QualityStage is a product module that helps to identify and resolve all five of those types of issues, for any type of data. It provides data quality functions on an easy-to-use, design-as-you-think flow diagram. This allows data quality to be embedded in any information integration process. The quality functions include: free-form text investigation - allowing you to recognize and parse out individual fields of data from free-form text, standardization – allowing individual fields to be made uniform according to your own standards, address verification and correction – which uses postal information to standardize, validate, and enrich address data, matching – which allows duplicates to be removed from individual sources, and common records across sources to be identified and linked, and lastly, survivorship – which allows the best data from across different systems to be merged into a consolidated record. The true power of QualityStage is in its ability to match data from different records, even when it appears very different. The design of these matching rules is very important, since it determines which records will be brought together. These match rules are designed using a visual, business-centric interface, providing instant feedback on match rule changes to allow the rules to be fine tuned quickly and easily. Because of this ability to match records, QualityStage is a key enabler of creating a single view of customers or products. Silver Bullets: Provides the most intuitive and productive visual quality design capability on the market, allowing quality logic to be fine-tuned with actual data samples and incorporated as a seamless component of data flows (single engine, single user interface, single meta-model across ETL and Quality) Works across any data type (including product and customer data) Uses probabilistic matching to ensure a 2-4% better match result Allows quality logic to be easily deployed as shared services within a SOA to ensure consistent enterprise reuse of quality logic Leverages the scalability of the platform parallel processing services
  7. So once records are matched together, what you decide to do with that information is completely up to the business. We discussed clerical review. Some organizations like every potential match to be reviewed (particularly for things like bank accounts). However, in most cases the automated match results can be employed. When a match is found, records can be linked together, using a cross-reference table that stores the identifiers of each record, and potentially enough additional information to allow that table to act as a matching base for future records. When record linkage is employed, a merged record is not stored anywhere, but it is rather assembled from the various sources when needed. Survivorship can be employed when a complete master record is desired. Survivorship uses business-defined rules to determine how to build a record that merges the best information from each source. For example, you may have a natural preference for one source, since it is typically more reliable, so by default its data should be used, unless it is missing data elements, in which case alternative sources could be used. Survivorship creates a complete, merged, “gold copy” of data across systems – this is often used to load master data management systems like WebSphere Customer Center or WebSphere Product Center. Whichever mechanism you choose, you may wish to go back and correct source systems with information from other linked records that are more complete, or from the gold copy. In some cases, organizations don’t like to change the original values, so they append this new information in additional fields. All of this is dependent on the business requirements and can be adjusted according to the need.
  8. Able to alter the number of processors without altering the code