Comment intégrer les Big Data à votre Système d’Information
et gérer leur qualité ?
Jeudi 1er décembre 2016
Fateh Naili
Enterprise Solutions Manager, Information Builders
Agenda
02 03
Intégrez les Big Data Gérez la qualité
des données
Information Builders
01
Agenda
02 03
Intégrez les Big Data Gérez la qualité
des données
Information Builders
01
90%Of all the data in the
world has been generated
over the last 2 years
Data Output is growing rapidly
2009 2010 2011 2012 2013 2014 2015
A quelle vitesse vos données augmentent ?
Avec les réseaux sociaux…
5
Cisco Systems
D’ici 2020, le traffic
généré sur le web
667 ExaBytes / an
Google
+1 mille milliards
de pages indéxées
24 PetaBytes / jour
Facebook
2,7 milliards
de “J’aime”
+500 TB / jour
Twitter
400 millions
de tweets
12 TB / jour
… mais pas seulement !
6
Transactions
D’ici 2020, les transactions
B2B et B2C sur le web
450 milliards / jour
NASA
Les données météo et
climatiques stockées
32 PetaBytes
Boeing
Un Boeing 737
génère en moyenne
240 TeraBytes / vol
Walmart
+1 million
de transactions
2,5 PetaBytes / heure
Les 4V
7
Volume
Variété
Véracité
Vélocité
Volumes plus importants de transactions issues d’Internet,
des machines...
Impact sur l’ensemble des technologies et déploiements
• Cloud, Business Intelligence, Data Warehouse
• Faire toujours plus, plus rapidement et à moindre coût
Ensembles de données volumineux, difficiles à gérer en
utilisant des bases de données relationnelles:
• Stockage/Coût
• Recherche/Performance
• Analyse et visualisation
Traitements parallèles sur des centaines de machines qui ne
peuvent pas être réalisés dans un délai raisonnable
• Outils traditionnels (ETL,...)
Les enjeux du Big Data
Transition vers des technologies innovantes
9
Données d’entreprise et données non structurées
Fewer
use cases
More
use cases
ModernTraditional
OLTP
OLAP
Data warehouses
Data marts
Point-to-point
Integration
EII
Architecture Big Data de Information Builders
10
Sqoop,Flume…
Avro,JSON…
Applications
traditionnelles
et data stores
iWay Big Data Integrator
Intégration native, innovante
et simplifiée à Hadoop
Big Data Apache Hadoop
Toute distribution,
tout type de données
BI &
Analytics Plateforme de BI & Analytique WebFOCUS
Self-service for Everyone
WebFOCUS access,
ETL, metadata
WebFOCUS access,
ETL, metadata
1. Data Hub/Data Lake.
2. Augmentation du Data Warehouse.
3. Archives de données/
Capacité de stockage supplémentaire.
4. Qualité des données.
5. Data Discovery.
6. Business Intelligence.
7. Optimisation.
8. Modèles prédictifs.
11
Interface
Simplifiée
Génération native
de script Hadoop
Gouvernance et
gestion des processus
Sqoop,Flume…
Avro,JSON…
Data Sources
Big Data
Native: Runs in Hadoop cluster
Purpose-built: Fully Exploits all Hadoop Services
Simple: Replaces coding with mapping
Simplified, easy-to-use interface
to integrate in Hadoop
Marshals Hadoop resources
and standards
Takes advantage of performance
and resource negotiation
Includes sophisticated process
management & governance
iWay Big Data Integrator
iWay Big Data Integrator
12
• Interface Utilisateur basée sur Eclipse.
• Ingestion des données utilisant l’abstraction au-dessus de Sqoop, Flume, Hive, Spark,
et tout contenu de canal de streaming propriétaire.
• Transformation & Mapping – MapReduce et Spark.
• Nettoyage, mise en correspondance et fusion.
• Publication aux sources de données non-Hadoop.
• Scripts auto-générés/Tâches et code compilés pour soumission de tâches.
• Déploiement d’intégration, tests, création Spark de bout-en-bout.
• Adapté à Kerberos.
• Sécurité basée sur la gestion des rôles via l’intégration de Apache Sentry.
Agenda
02 03
Intégrez les Big Data Gérez la qualité
des données
Information Builders
01
L’impact de la qualité des données sur votre business
14
Faits et chiffres
• La mauvaise qualité des données coûte aux entreprises au moins 10% de leur chiffre d'affaires;
20% est probablement une meilleure estimation. DM Review
• Pour les assurances, le coût (des mauvaises données) est estimé entre 15 et 20% de leur
revenu d'exploitation. Insurance Data Management Association
• Gartner estime que plus de 25% des données critiques au sein des grandes entreprises sont
inexactes ou incomplètes. InformationWeek
• 50% des projets de Data Warehouse échoueront pour ne pas avoir traité de façon proactive les
problèmes de qualité des données. Thomas Redman – Data-Driven
Avec le Big Data, le problème ne va pas disparaître mais s’amplifier ...
Qu’est ce que la qualité des données?
15
Des données exactes, complètes, cohérentes, uniques, à jour, valides...
Sur cette base, une stratégie de qualité des données doit être définie et appliquée!
Exacte
Complète
Cohérente
Unique
A jour
Valide
Solution iWay Data Quality Edition
Une solution conçue pour optimiser
l’intégrité de l’information au sein
de l’entreprise ou d’un département.
Mise à disposition de règles
de gestion entièrement
personnalisées et d’un portfolio
de dictionnaires de données.
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
Règles de validation
Analyses statistiques
Minimum
Maximum
Moyenne
Nombre d’occurrences
Rapport et recommandations:
Rapport statistique
détaillé sur la qualité de vos données
Actions nécessaires à mettre en place.
Etape 1: Profilage de la qualité des données
Parsing des données
Validation des règles métier.
Fonctions de Scoring et d’explication
des traitements natifs.
Traitements en temps réel et en différé.
Dictionnaires intégrés.
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
Etape 2: Nettoyage des données
Etape 3: Enrichissement des données
Utilisation de librairies prêtes a l’emploi
Utilisation de librairies personnalisées
Utilisation de référentiels (Look up)
Référentiel de société
Nom standard de la société
Numéro SIREN
Adresse officielle
Compte bancaire
Classification
Loqate
Référentiel et validation d’adresse
Ajout d’informations manquantes:
Rue
Code Postal
Ville
Validation d’adresses existantes
Ajout de noms, prénoms, titres…
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
Etape 4: Réconciliation et Fusion des données
Objectif
Identifier des groupes
d’enregistrements de nature
identique provenant de
différentes sources
pour homogénéiser les données.
Remarque
Exercice assez complexe.
Gestion des données manquantes,
erronées, en conflit.
Solution
Le Matching est un algorithme
en deux étapes:
Groupes Candidats
Tous les enregistrements sont assemblés
en groupes selon des règles au sens large.
Groupes Clients
Consiste à diviser les groupes candidats
en utilisant des règles à granularité
plus fine.
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
Réconciliation
Etape 4: Réconciliation et Fusion des données
Fusion
Utilisation des règles métier pour déterminer
le meilleur champ ou enregistrement.
Exemples
Enregistrement provenant d’un système de référence.
Enregistrement le plus récent.
Enregistrement de meilleure qualité (Scoring).
Utilisation de fonctions d’agrégation.
SQL-like: count, sum, minimum, maximum, average.
L’objectif… Créer le Golden Record!
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
Etape 5: Suivi et contrôle de la qualité de l’information
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
La qualité des données dans le contexte Big Data
Data Preparation
Unstructured
Semi-
Structured
Structured
External
23
Data Lake
Raw Data
Data Ponds
BI Apps
Raw Data Actionable Data World Class Analytics
Data Marts
Operational
System
Operational
System
Data Marts
Profile,
cleanse,
master, etc.
Profile,
cleanse,
master, etc.
Ingest
without
coding
Ingest
without
coding
Create
w/relevant
data
Create
w/relevant
data
Data Swamp
Architecture Technique
Data in Motion
Data at Rest
Flume
Other Process
Sqoop
Agent 2
Agent 1
Agent 3
Producers Data
Preparation
Data
Quality
HDFS
Hive
RDBMS
Data
Kafka
Topics
0 1 2
0 1 2
0 1 2
Job 1
Job 2
Job 3
Streaming
Content, IoT,
Application Data
Spark Processing
Data
Storing
Agenda
02 03
Intégrez les Big Data Gérez la qualité
des données
Information Builders
01
Information Builders, en quelques chiffres
41
ans d’innovation
60
bureaux
1 400
collaborateurs
30 000
clients
Aider nos clients à développer leur activité,
grâce à la puissance de l’information !
Gerry Cohen, Président Fondateur, Information Builders Inc.
Aider nos clients à développer leur activité,
grâce à la puissance de l’information !
Gerry Cohen, Président Fondateur, Information Builders Inc.
Plateforme 3i complète et modulaire
Portal Embedded InfoApps™
ApplicationsLegacy Systems Relational/Cubes Big Data Columnar/In Memory Unstructured Social Media Web Services Trading Partners
Intégration
Mobile Write-Back
Data Discovery Reporting Dashboards
High-Performance
Data Store
Data
Quality
Data
Governance
Master Data
Management
Batch
ETL
Real-Time
ESB
Intégrité
Intelligence
Location
Analytics
In-Document
Analytics
Casting
and Archiving
SearchPredictive
Analytics
Sentiment and
Word Analytics
Performance
Management
SSSSocialocialocialocial
HotHotHotHot
BBBBadadadad
FFFFeedbackeedbackeedbackeedback
Big Data
Integrator
Une expertise reconnue
En conclusion
Une intégration des Big Data:
Rapide, facile, sécurisée.
Capitalisant sur les technologies Hadoop.
Certifiée par les acteurs majeurs Big Data.
Gestion de la qualité des données de bout-en-bout:
Analyse et profilage des données.
Validation, enrichissement et fusion.
Monitoring.
Architecture et processus intégrés à la plateforme Hadoop.
29
Questions / Réponses
30
Merci pour votre attention
Fateh Naili
Enterprise Solutions Manager, Information Builders
Tél : +33 (0)1 49 00 66 11 | fateh_naili@ibi.com

INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data forum MICROPOLE 2016

  • 1.
    Comment intégrer lesBig Data à votre Système d’Information et gérer leur qualité ? Jeudi 1er décembre 2016 Fateh Naili Enterprise Solutions Manager, Information Builders
  • 2.
    Agenda 02 03 Intégrez lesBig Data Gérez la qualité des données Information Builders 01
  • 3.
    Agenda 02 03 Intégrez lesBig Data Gérez la qualité des données Information Builders 01
  • 4.
    90%Of all thedata in the world has been generated over the last 2 years Data Output is growing rapidly 2009 2010 2011 2012 2013 2014 2015 A quelle vitesse vos données augmentent ?
  • 5.
    Avec les réseauxsociaux… 5 Cisco Systems D’ici 2020, le traffic généré sur le web 667 ExaBytes / an Google +1 mille milliards de pages indéxées 24 PetaBytes / jour Facebook 2,7 milliards de “J’aime” +500 TB / jour Twitter 400 millions de tweets 12 TB / jour
  • 6.
    … mais passeulement ! 6 Transactions D’ici 2020, les transactions B2B et B2C sur le web 450 milliards / jour NASA Les données météo et climatiques stockées 32 PetaBytes Boeing Un Boeing 737 génère en moyenne 240 TeraBytes / vol Walmart +1 million de transactions 2,5 PetaBytes / heure
  • 7.
  • 8.
    Volumes plus importantsde transactions issues d’Internet, des machines... Impact sur l’ensemble des technologies et déploiements • Cloud, Business Intelligence, Data Warehouse • Faire toujours plus, plus rapidement et à moindre coût Ensembles de données volumineux, difficiles à gérer en utilisant des bases de données relationnelles: • Stockage/Coût • Recherche/Performance • Analyse et visualisation Traitements parallèles sur des centaines de machines qui ne peuvent pas être réalisés dans un délai raisonnable • Outils traditionnels (ETL,...) Les enjeux du Big Data
  • 9.
    Transition vers destechnologies innovantes 9 Données d’entreprise et données non structurées Fewer use cases More use cases ModernTraditional OLTP OLAP Data warehouses Data marts Point-to-point Integration EII
  • 10.
    Architecture Big Datade Information Builders 10 Sqoop,Flume… Avro,JSON… Applications traditionnelles et data stores iWay Big Data Integrator Intégration native, innovante et simplifiée à Hadoop Big Data Apache Hadoop Toute distribution, tout type de données BI & Analytics Plateforme de BI & Analytique WebFOCUS Self-service for Everyone WebFOCUS access, ETL, metadata WebFOCUS access, ETL, metadata 1. Data Hub/Data Lake. 2. Augmentation du Data Warehouse. 3. Archives de données/ Capacité de stockage supplémentaire. 4. Qualité des données. 5. Data Discovery. 6. Business Intelligence. 7. Optimisation. 8. Modèles prédictifs.
  • 11.
    11 Interface Simplifiée Génération native de scriptHadoop Gouvernance et gestion des processus Sqoop,Flume… Avro,JSON… Data Sources Big Data Native: Runs in Hadoop cluster Purpose-built: Fully Exploits all Hadoop Services Simple: Replaces coding with mapping Simplified, easy-to-use interface to integrate in Hadoop Marshals Hadoop resources and standards Takes advantage of performance and resource negotiation Includes sophisticated process management & governance iWay Big Data Integrator
  • 12.
    iWay Big DataIntegrator 12 • Interface Utilisateur basée sur Eclipse. • Ingestion des données utilisant l’abstraction au-dessus de Sqoop, Flume, Hive, Spark, et tout contenu de canal de streaming propriétaire. • Transformation & Mapping – MapReduce et Spark. • Nettoyage, mise en correspondance et fusion. • Publication aux sources de données non-Hadoop. • Scripts auto-générés/Tâches et code compilés pour soumission de tâches. • Déploiement d’intégration, tests, création Spark de bout-en-bout. • Adapté à Kerberos. • Sécurité basée sur la gestion des rôles via l’intégration de Apache Sentry.
  • 13.
    Agenda 02 03 Intégrez lesBig Data Gérez la qualité des données Information Builders 01
  • 14.
    L’impact de laqualité des données sur votre business 14 Faits et chiffres • La mauvaise qualité des données coûte aux entreprises au moins 10% de leur chiffre d'affaires; 20% est probablement une meilleure estimation. DM Review • Pour les assurances, le coût (des mauvaises données) est estimé entre 15 et 20% de leur revenu d'exploitation. Insurance Data Management Association • Gartner estime que plus de 25% des données critiques au sein des grandes entreprises sont inexactes ou incomplètes. InformationWeek • 50% des projets de Data Warehouse échoueront pour ne pas avoir traité de façon proactive les problèmes de qualité des données. Thomas Redman – Data-Driven Avec le Big Data, le problème ne va pas disparaître mais s’amplifier ...
  • 15.
    Qu’est ce quela qualité des données? 15 Des données exactes, complètes, cohérentes, uniques, à jour, valides... Sur cette base, une stratégie de qualité des données doit être définie et appliquée! Exacte Complète Cohérente Unique A jour Valide
  • 16.
    Solution iWay DataQuality Edition Une solution conçue pour optimiser l’intégrité de l’information au sein de l’entreprise ou d’un département. Mise à disposition de règles de gestion entièrement personnalisées et d’un portfolio de dictionnaires de données. ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
  • 17.
    ProfilingProfiling CleansingCleansing EnrichmentEnrichmentMatch & MergeMatch & Merge MonitoringMonitoring Règles de validation Analyses statistiques Minimum Maximum Moyenne Nombre d’occurrences Rapport et recommandations: Rapport statistique détaillé sur la qualité de vos données Actions nécessaires à mettre en place. Etape 1: Profilage de la qualité des données
  • 18.
    Parsing des données Validationdes règles métier. Fonctions de Scoring et d’explication des traitements natifs. Traitements en temps réel et en différé. Dictionnaires intégrés. ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring Etape 2: Nettoyage des données
  • 19.
    Etape 3: Enrichissementdes données Utilisation de librairies prêtes a l’emploi Utilisation de librairies personnalisées Utilisation de référentiels (Look up) Référentiel de société Nom standard de la société Numéro SIREN Adresse officielle Compte bancaire Classification Loqate Référentiel et validation d’adresse Ajout d’informations manquantes: Rue Code Postal Ville Validation d’adresses existantes Ajout de noms, prénoms, titres… ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
  • 20.
    Etape 4: Réconciliationet Fusion des données Objectif Identifier des groupes d’enregistrements de nature identique provenant de différentes sources pour homogénéiser les données. Remarque Exercice assez complexe. Gestion des données manquantes, erronées, en conflit. Solution Le Matching est un algorithme en deux étapes: Groupes Candidats Tous les enregistrements sont assemblés en groupes selon des règles au sens large. Groupes Clients Consiste à diviser les groupes candidats en utilisant des règles à granularité plus fine. ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring Réconciliation
  • 21.
    Etape 4: Réconciliationet Fusion des données Fusion Utilisation des règles métier pour déterminer le meilleur champ ou enregistrement. Exemples Enregistrement provenant d’un système de référence. Enregistrement le plus récent. Enregistrement de meilleure qualité (Scoring). Utilisation de fonctions d’agrégation. SQL-like: count, sum, minimum, maximum, average. L’objectif… Créer le Golden Record! ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
  • 22.
    Etape 5: Suiviet contrôle de la qualité de l’information ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
  • 23.
    La qualité desdonnées dans le contexte Big Data Data Preparation Unstructured Semi- Structured Structured External 23 Data Lake Raw Data Data Ponds BI Apps Raw Data Actionable Data World Class Analytics Data Marts Operational System Operational System Data Marts Profile, cleanse, master, etc. Profile, cleanse, master, etc. Ingest without coding Ingest without coding Create w/relevant data Create w/relevant data Data Swamp
  • 24.
    Architecture Technique Data inMotion Data at Rest Flume Other Process Sqoop Agent 2 Agent 1 Agent 3 Producers Data Preparation Data Quality HDFS Hive RDBMS Data Kafka Topics 0 1 2 0 1 2 0 1 2 Job 1 Job 2 Job 3 Streaming Content, IoT, Application Data Spark Processing Data Storing
  • 25.
    Agenda 02 03 Intégrez lesBig Data Gérez la qualité des données Information Builders 01
  • 26.
    Information Builders, enquelques chiffres 41 ans d’innovation 60 bureaux 1 400 collaborateurs 30 000 clients Aider nos clients à développer leur activité, grâce à la puissance de l’information ! Gerry Cohen, Président Fondateur, Information Builders Inc. Aider nos clients à développer leur activité, grâce à la puissance de l’information ! Gerry Cohen, Président Fondateur, Information Builders Inc.
  • 27.
    Plateforme 3i complèteet modulaire Portal Embedded InfoApps™ ApplicationsLegacy Systems Relational/Cubes Big Data Columnar/In Memory Unstructured Social Media Web Services Trading Partners Intégration Mobile Write-Back Data Discovery Reporting Dashboards High-Performance Data Store Data Quality Data Governance Master Data Management Batch ETL Real-Time ESB Intégrité Intelligence Location Analytics In-Document Analytics Casting and Archiving SearchPredictive Analytics Sentiment and Word Analytics Performance Management SSSSocialocialocialocial HotHotHotHot BBBBadadadad FFFFeedbackeedbackeedbackeedback Big Data Integrator
  • 28.
  • 29.
    En conclusion Une intégrationdes Big Data: Rapide, facile, sécurisée. Capitalisant sur les technologies Hadoop. Certifiée par les acteurs majeurs Big Data. Gestion de la qualité des données de bout-en-bout: Analyse et profilage des données. Validation, enrichissement et fusion. Monitoring. Architecture et processus intégrés à la plateforme Hadoop. 29
  • 30.
  • 31.
    Merci pour votreattention Fateh Naili Enterprise Solutions Manager, Information Builders Tél : +33 (0)1 49 00 66 11 | fateh_naili@ibi.com