SlideShare une entreprise Scribd logo
Victor Coustenoble
Technical regional manager EMEA
vcoustenoble@trifacta.com
@vizanalytics
La Matinale du Big Data et de
la Data Science 2016
29/09/16
Dans la peau d'un Analyste Métier :
Préparation de données Hadoop Structurées
et non-Structurées pour une analyse de Churn
Qu’est-ce que le Data Wrangling?
2
100% dédié au “Data Wrangling” et à la Préparation de Données
Accélérer la création de valeur et l’utilisation métier du ”Big Data”
Préparation de données Visuelle, Interactive et en Self-Service
Créer une Passerelle entre les Données Brutes et l’Analyse
Discovering Structuring Cleaning Enriching Validating Publishing
ANALYSES & DECISIONNEL
Business System Data Machine Generated Data Third Party Data
IT LOB
de l’effort d’un
projet orienté
« données » réside
dans la
préparation des
données*
80%
PLATEFORME DE TRAITEMENT DES DONNEES
* New York Times – August 2014 - For Big-Data Scientists, ‘Janitor Work’ Is Key Hurdle to Insights
Allers-Retours de Demandes entre IT & Métiers
Comment je peux accéder aux
données brutes?
Qu’est-ce que tu veux analyser?
Je ne peux pas te le dire tant que
je n’ai pas vu les données, montres
moi les données en premier.
Je ne peux pas te donner accès aux
données brutes, tu dois me dire ce
que tu veux.
LOB IT
5
Discovering Structuring Cleaning Enriching Validating Publishing
Business System Data Machine Generated Data Third Party Data
LOB IT
Donner l’accès aux données brutes pour les
analystes métiers sous le contrôle de l’IT
ANALYSES & DECISIONNEL
PLATEFORME DE TRAITEMENT DES DONNEES
Les approches conventionnelles inhibent
l’autonomie des utilisateurs
Code manuel Techniques de Workflow et Mapping
(ETL)
... et il y a aussi Excel
Approche Trifacta : Tout est basé sur l’Expérience Utilisateur
Intéragir Prédire
Visualiser
Analystes Métiers, Data Scientists & Responsables de la
Plateforme de Données
““
ANALYSTE METIER
Je veux un accès direct aux données brutes pour pouvoir voir le
contenu actuel des différents jeux de données afin de définir les
besoins et les spécifications de mes analyses.
““
DATA SCIENTIST
Préparer les données pour de la modélisation ou des analyses
prédictives est un travail pénible, manuel et non reproductible dans
l’entreprise. Nous avons besoin d’un moyen plus efficace et
reproductible pour préparer les données en vue d’analyses.
““Je reçois constamment des demandes des métiers pour accéder à
différentes données. J’ai besoin d’un moyen sécurisé pour leur
donner un accès direct aux données brutes afin qu’ils puissent
eux-mêmes les explorer et les manipuler.
INGENIEUR DONNEE
Cas d’Utilisation Métiers de Trifacta
Connaissance
et Vue 360
Client
Agrégation de
Données des
Essais
Cliniques
Prévisions des
Ventes &
Stocks
Analyse et
Agrégation
Risques
Analyse
Médias
Sociaux
Développement
Produit
10
Démonstration
Dans la peau d'un
Analyste Métier :
Préparation de données
Hadoop Structurées et
non-Structurées pour
une analyse de Churn
Ingestion Processing Storage
ANALYSES & VISUALISATION
v
IT
LOB
DiscoveringStructuring Cleaning Enriching Validating Publishing
Analyse de Churn et Vue 360 Client
Clients
Activités
Media Sociaux
Contact
Statut
Voix
Texte
Données
Tweets
Chat
Trifacta v4
Etendre le “Data Wrangling” pour Tous les Utilisateurs,
Toutes les Données et Tous les Clouds
Renforcer
L’Experience Utilisateur
Builder GA
Pattern Profiling
Fuzzy Joining
Column Lineage
Self-Service
Operationalization
Améliorer la Performance
& la Montée à l’Echelle
Photon Compute Engine
GA
Spark 2.0
Déploiement Cloud &
Connectivité
Relational
(Oracle, MySQL, Teradata)
Cloud
(AWS, Microsoft Azure, Google
Cloud Platform)
API Connectivity
14
Constat : Plus de 80% du temps est passé à consolider,
nettoyer et transformer les données avant analyse.
Bénéfices de Trifacta
• Accélérer l’accès aux données pour dégager plus rapidement les
opportunités métiers
• Diminuer les risques métiers liés aux mauvaises données
• Donner le pouvoir aux personnes avec la connaissance métier des
données “Self-Service”
• Libérer l’innovation et optimiser l‘efficacité opérationnelle
• Accélérer le ROI2 de projets Big Data
• Réduire la pression des coûts et des recrutements (problèmes des
compétences Big Data dans l’entreprise)
Ø Plus d’Efficacité, Plus d’Innovation
Conclusion
Questions?
Télécharger Trifacta Wrangler
trifacta.com/start-wrangling

Contenu connexe

Tendances

Tendances (20)

Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Big data
Big dataBig data
Big data
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 
Présentation Big Data DFCG
Présentation Big Data DFCGPrésentation Big Data DFCG
Présentation Big Data DFCG
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Bi et partage des données financières en libre -service
Bi et partage des données financières en libre -serviceBi et partage des données financières en libre -service
Bi et partage des données financières en libre -service
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Cours Big Data Part I
Cours Big Data Part ICours Big Data Part I
Cours Big Data Part I
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
 
Utilisation du big data en entreprise
Utilisation du big data en entrepriseUtilisation du big data en entreprise
Utilisation du big data en entreprise
 
Démarche d'une data factory par Xebia
Démarche d'une data factory par XebiaDémarche d'une data factory par Xebia
Démarche d'une data factory par Xebia
 
Infrastructure sémantique pour objets communicants
Infrastructure sémantique pour objets communicantsInfrastructure sémantique pour objets communicants
Infrastructure sémantique pour objets communicants
 
De la business intelligence au Big Data
De la business intelligence au Big DataDe la business intelligence au Big Data
De la business intelligence au Big Data
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Livre blanc big data et data lake le duo gagnant extrait_itelligence
Livre blanc big data et data lake le duo gagnant extrait_itelligenceLivre blanc big data et data lake le duo gagnant extrait_itelligence
Livre blanc big data et data lake le duo gagnant extrait_itelligence
 
Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...
Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...
Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...
 

En vedette

Data Preparation vs. Inline Data Wrangling in Data Science and Machine Learning
Data Preparation vs. Inline Data Wrangling in Data Science and Machine LearningData Preparation vs. Inline Data Wrangling in Data Science and Machine Learning
Data Preparation vs. Inline Data Wrangling in Data Science and Machine Learning
Kai Wähner
 

En vedette (6)

Apache Atlas: Tracking dataset lineage across Hadoop components
Apache Atlas: Tracking dataset lineage across Hadoop componentsApache Atlas: Tracking dataset lineage across Hadoop components
Apache Atlas: Tracking dataset lineage across Hadoop components
 
Extend Governance in Hadoop with Atlas Ecosystem: Waterline, Attivo & Trifacta
Extend Governance in Hadoop with Atlas Ecosystem: Waterline, Attivo & TrifactaExtend Governance in Hadoop with Atlas Ecosystem: Waterline, Attivo & Trifacta
Extend Governance in Hadoop with Atlas Ecosystem: Waterline, Attivo & Trifacta
 
How PepsiCo's Big Data Strategy is Disrupting CPG Retail Analytics
How PepsiCo's Big Data Strategy is Disrupting CPG Retail AnalyticsHow PepsiCo's Big Data Strategy is Disrupting CPG Retail Analytics
How PepsiCo's Big Data Strategy is Disrupting CPG Retail Analytics
 
Role of Analytics in Consumer Packaged Goods Industry
Role of Analytics in Consumer Packaged Goods IndustryRole of Analytics in Consumer Packaged Goods Industry
Role of Analytics in Consumer Packaged Goods Industry
 
Data Wrangling on Hadoop - Olivier De Garrigues, Trifacta
Data Wrangling on Hadoop - Olivier De Garrigues, TrifactaData Wrangling on Hadoop - Olivier De Garrigues, Trifacta
Data Wrangling on Hadoop - Olivier De Garrigues, Trifacta
 
Data Preparation vs. Inline Data Wrangling in Data Science and Machine Learning
Data Preparation vs. Inline Data Wrangling in Data Science and Machine LearningData Preparation vs. Inline Data Wrangling in Data Science and Machine Learning
Data Preparation vs. Inline Data Wrangling in Data Science and Machine Learning
 

Similaire à Préparation de Données Hadoop avec Trifacta

Similaire à Préparation de Données Hadoop avec Trifacta (20)

Préparation de Données pour la Détection de Fraude
Préparation de Données pour la Détection de FraudePréparation de Données pour la Détection de Fraude
Préparation de Données pour la Détection de Fraude
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeur
 
La datascience comme outil de valorisation de la donnée
La datascience comme outil de valorisation de la donnéeLa datascience comme outil de valorisation de la donnée
La datascience comme outil de valorisation de la donnée
 
Bi analytiques prédictives de sas
Bi analytiques prédictives de sasBi analytiques prédictives de sas
Bi analytiques prédictives de sas
 
Microsoft Power Business Intelligence
Microsoft Power Business IntelligenceMicrosoft Power Business Intelligence
Microsoft Power Business Intelligence
 
Les métiers d’avenir de l’industrie
Les métiers d’avenir de l’industrieLes métiers d’avenir de l’industrie
Les métiers d’avenir de l’industrie
 
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
 
Big data et assurance
Big data et assuranceBig data et assurance
Big data et assurance
 
Webinaire Synaltic x Trifacta 27/10/2016
Webinaire Synaltic x Trifacta 27/10/2016Webinaire Synaltic x Trifacta 27/10/2016
Webinaire Synaltic x Trifacta 27/10/2016
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance client
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data
 
Big Data - Quel usage au sein des projets internet
Big Data - Quel usage au sein des projets internetBig Data - Quel usage au sein des projets internet
Big Data - Quel usage au sein des projets internet
 
Le Data Engineer qui veut se faire aussi gros que le Data Scientist
Le Data Engineer qui veut se faire aussi gros que le Data ScientistLe Data Engineer qui veut se faire aussi gros que le Data Scientist
Le Data Engineer qui veut se faire aussi gros que le Data Scientist
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
 
10 tendances principales en matière de solution décisionnelle pour 2015
10 tendances principales en matière de solution décisionnelle pour 201510 tendances principales en matière de solution décisionnelle pour 2015
10 tendances principales en matière de solution décisionnelle pour 2015
 
Décisionnel Agile : les conditions du succès
Décisionnel Agile : les conditions du succèsDécisionnel Agile : les conditions du succès
Décisionnel Agile : les conditions du succès
 
BI en libre-service et maîtrise de l’IT, pourquoi choisir ?
BI en libre-service et maîtrise de l’IT, pourquoi choisir ?BI en libre-service et maîtrise de l’IT, pourquoi choisir ?
BI en libre-service et maîtrise de l’IT, pourquoi choisir ?
 
Festival Online de la Data-2020-Dremio
Festival Online de la Data-2020-DremioFestival Online de la Data-2020-Dremio
Festival Online de la Data-2020-Dremio
 
quelles sont les tendances de la business intelligence en 2021
quelles sont les tendances de la business intelligence en 2021quelles sont les tendances de la business intelligence en 2021
quelles sont les tendances de la business intelligence en 2021
 
Microsoft - La Transformation Big Data
Microsoft - La Transformation Big DataMicrosoft - La Transformation Big Data
Microsoft - La Transformation Big Data
 

Plus de Victor Coustenoble

Plus de Victor Coustenoble (14)

Préparation de Données dans le Cloud
Préparation de Données dans le CloudPréparation de Données dans le Cloud
Préparation de Données dans le Cloud
 
DataStax Enterprise BBL
DataStax Enterprise BBLDataStax Enterprise BBL
DataStax Enterprise BBL
 
DataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoTDataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoT
 
BI, Reporting and Analytics on Apache Cassandra
BI, Reporting and Analytics on Apache CassandraBI, Reporting and Analytics on Apache Cassandra
BI, Reporting and Analytics on Apache Cassandra
 
DataStax et Cassandra dans Azure au Microsoft Techdays
DataStax et Cassandra dans Azure au Microsoft TechdaysDataStax et Cassandra dans Azure au Microsoft Techdays
DataStax et Cassandra dans Azure au Microsoft Techdays
 
Webinar Degetel DataStax
Webinar Degetel DataStaxWebinar Degetel DataStax
Webinar Degetel DataStax
 
Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?
 
Cassandra 2.2 & 3.0
Cassandra 2.2 & 3.0Cassandra 2.2 & 3.0
Cassandra 2.2 & 3.0
 
DataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le CloudDataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le Cloud
 
Datastax Cassandra + Spark Streaming
Datastax Cassandra + Spark StreamingDatastax Cassandra + Spark Streaming
Datastax Cassandra + Spark Streaming
 
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache CassandraDataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
 
DataStax - Analytics on Apache Cassandra - Paris Tech Talks meetup
DataStax - Analytics on Apache Cassandra - Paris Tech Talks meetupDataStax - Analytics on Apache Cassandra - Paris Tech Talks meetup
DataStax - Analytics on Apache Cassandra - Paris Tech Talks meetup
 
Spark + Cassandra = Real Time Analytics on Operational Data
Spark + Cassandra = Real Time Analytics on Operational DataSpark + Cassandra = Real Time Analytics on Operational Data
Spark + Cassandra = Real Time Analytics on Operational Data
 
Lightning fast analytics with Cassandra and Spark
Lightning fast analytics with Cassandra and SparkLightning fast analytics with Cassandra and Spark
Lightning fast analytics with Cassandra and Spark
 

Préparation de Données Hadoop avec Trifacta

  • 1. Victor Coustenoble Technical regional manager EMEA vcoustenoble@trifacta.com @vizanalytics La Matinale du Big Data et de la Data Science 2016 29/09/16 Dans la peau d'un Analyste Métier : Préparation de données Hadoop Structurées et non-Structurées pour une analyse de Churn
  • 2. Qu’est-ce que le Data Wrangling? 2 100% dédié au “Data Wrangling” et à la Préparation de Données Accélérer la création de valeur et l’utilisation métier du ”Big Data” Préparation de données Visuelle, Interactive et en Self-Service
  • 3. Créer une Passerelle entre les Données Brutes et l’Analyse Discovering Structuring Cleaning Enriching Validating Publishing ANALYSES & DECISIONNEL Business System Data Machine Generated Data Third Party Data IT LOB de l’effort d’un projet orienté « données » réside dans la préparation des données* 80% PLATEFORME DE TRAITEMENT DES DONNEES * New York Times – August 2014 - For Big-Data Scientists, ‘Janitor Work’ Is Key Hurdle to Insights
  • 4. Allers-Retours de Demandes entre IT & Métiers Comment je peux accéder aux données brutes? Qu’est-ce que tu veux analyser? Je ne peux pas te le dire tant que je n’ai pas vu les données, montres moi les données en premier. Je ne peux pas te donner accès aux données brutes, tu dois me dire ce que tu veux. LOB IT
  • 5. 5 Discovering Structuring Cleaning Enriching Validating Publishing Business System Data Machine Generated Data Third Party Data LOB IT Donner l’accès aux données brutes pour les analystes métiers sous le contrôle de l’IT ANALYSES & DECISIONNEL PLATEFORME DE TRAITEMENT DES DONNEES
  • 6. Les approches conventionnelles inhibent l’autonomie des utilisateurs Code manuel Techniques de Workflow et Mapping (ETL)
  • 7. ... et il y a aussi Excel
  • 8. Approche Trifacta : Tout est basé sur l’Expérience Utilisateur Intéragir Prédire Visualiser
  • 9. Analystes Métiers, Data Scientists & Responsables de la Plateforme de Données ““ ANALYSTE METIER Je veux un accès direct aux données brutes pour pouvoir voir le contenu actuel des différents jeux de données afin de définir les besoins et les spécifications de mes analyses. ““ DATA SCIENTIST Préparer les données pour de la modélisation ou des analyses prédictives est un travail pénible, manuel et non reproductible dans l’entreprise. Nous avons besoin d’un moyen plus efficace et reproductible pour préparer les données en vue d’analyses. ““Je reçois constamment des demandes des métiers pour accéder à différentes données. J’ai besoin d’un moyen sécurisé pour leur donner un accès direct aux données brutes afin qu’ils puissent eux-mêmes les explorer et les manipuler. INGENIEUR DONNEE
  • 10. Cas d’Utilisation Métiers de Trifacta Connaissance et Vue 360 Client Agrégation de Données des Essais Cliniques Prévisions des Ventes & Stocks Analyse et Agrégation Risques Analyse Médias Sociaux Développement Produit 10
  • 11. Démonstration Dans la peau d'un Analyste Métier : Préparation de données Hadoop Structurées et non-Structurées pour une analyse de Churn
  • 12. Ingestion Processing Storage ANALYSES & VISUALISATION v IT LOB DiscoveringStructuring Cleaning Enriching Validating Publishing Analyse de Churn et Vue 360 Client Clients Activités Media Sociaux Contact Statut Voix Texte Données Tweets Chat
  • 13. Trifacta v4 Etendre le “Data Wrangling” pour Tous les Utilisateurs, Toutes les Données et Tous les Clouds Renforcer L’Experience Utilisateur Builder GA Pattern Profiling Fuzzy Joining Column Lineage Self-Service Operationalization Améliorer la Performance & la Montée à l’Echelle Photon Compute Engine GA Spark 2.0 Déploiement Cloud & Connectivité Relational (Oracle, MySQL, Teradata) Cloud (AWS, Microsoft Azure, Google Cloud Platform) API Connectivity
  • 14. 14 Constat : Plus de 80% du temps est passé à consolider, nettoyer et transformer les données avant analyse. Bénéfices de Trifacta • Accélérer l’accès aux données pour dégager plus rapidement les opportunités métiers • Diminuer les risques métiers liés aux mauvaises données • Donner le pouvoir aux personnes avec la connaissance métier des données “Self-Service” • Libérer l’innovation et optimiser l‘efficacité opérationnelle • Accélérer le ROI2 de projets Big Data • Réduire la pression des coûts et des recrutements (problèmes des compétences Big Data dans l’entreprise) Ø Plus d’Efficacité, Plus d’Innovation Conclusion