Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Préparation de Données Hadoop avec Trifacta
1. Victor Coustenoble
Technical regional manager EMEA
vcoustenoble@trifacta.com
@vizanalytics
La Matinale du Big Data et de
la Data Science 2016
29/09/16
Dans la peau d'un Analyste Métier :
Préparation de données Hadoop Structurées
et non-Structurées pour une analyse de Churn
2. Qu’est-ce que le Data Wrangling?
2
100% dédié au “Data Wrangling” et à la Préparation de Données
Accélérer la création de valeur et l’utilisation métier du ”Big Data”
Préparation de données Visuelle, Interactive et en Self-Service
3. Créer une Passerelle entre les Données Brutes et l’Analyse
Discovering Structuring Cleaning Enriching Validating Publishing
ANALYSES & DECISIONNEL
Business System Data Machine Generated Data Third Party Data
IT LOB
de l’effort d’un
projet orienté
« données » réside
dans la
préparation des
données*
80%
PLATEFORME DE TRAITEMENT DES DONNEES
* New York Times – August 2014 - For Big-Data Scientists, ‘Janitor Work’ Is Key Hurdle to Insights
4. Allers-Retours de Demandes entre IT & Métiers
Comment je peux accéder aux
données brutes?
Qu’est-ce que tu veux analyser?
Je ne peux pas te le dire tant que
je n’ai pas vu les données, montres
moi les données en premier.
Je ne peux pas te donner accès aux
données brutes, tu dois me dire ce
que tu veux.
LOB IT
5. 5
Discovering Structuring Cleaning Enriching Validating Publishing
Business System Data Machine Generated Data Third Party Data
LOB IT
Donner l’accès aux données brutes pour les
analystes métiers sous le contrôle de l’IT
ANALYSES & DECISIONNEL
PLATEFORME DE TRAITEMENT DES DONNEES
8. Approche Trifacta : Tout est basé sur l’Expérience Utilisateur
Intéragir Prédire
Visualiser
9. Analystes Métiers, Data Scientists & Responsables de la
Plateforme de Données
““
ANALYSTE METIER
Je veux un accès direct aux données brutes pour pouvoir voir le
contenu actuel des différents jeux de données afin de définir les
besoins et les spécifications de mes analyses.
““
DATA SCIENTIST
Préparer les données pour de la modélisation ou des analyses
prédictives est un travail pénible, manuel et non reproductible dans
l’entreprise. Nous avons besoin d’un moyen plus efficace et
reproductible pour préparer les données en vue d’analyses.
““Je reçois constamment des demandes des métiers pour accéder à
différentes données. J’ai besoin d’un moyen sécurisé pour leur
donner un accès direct aux données brutes afin qu’ils puissent
eux-mêmes les explorer et les manipuler.
INGENIEUR DONNEE
10. Cas d’Utilisation Métiers de Trifacta
Connaissance
et Vue 360
Client
Agrégation de
Données des
Essais
Cliniques
Prévisions des
Ventes &
Stocks
Analyse et
Agrégation
Risques
Analyse
Médias
Sociaux
Développement
Produit
10
11. Démonstration
Dans la peau d'un
Analyste Métier :
Préparation de données
Hadoop Structurées et
non-Structurées pour
une analyse de Churn
12. Ingestion Processing Storage
ANALYSES & VISUALISATION
v
IT
LOB
DiscoveringStructuring Cleaning Enriching Validating Publishing
Analyse de Churn et Vue 360 Client
Clients
Activités
Media Sociaux
Contact
Statut
Voix
Texte
Données
Tweets
Chat
13. Trifacta v4
Etendre le “Data Wrangling” pour Tous les Utilisateurs,
Toutes les Données et Tous les Clouds
Renforcer
L’Experience Utilisateur
Builder GA
Pattern Profiling
Fuzzy Joining
Column Lineage
Self-Service
Operationalization
Améliorer la Performance
& la Montée à l’Echelle
Photon Compute Engine
GA
Spark 2.0
Déploiement Cloud &
Connectivité
Relational
(Oracle, MySQL, Teradata)
Cloud
(AWS, Microsoft Azure, Google
Cloud Platform)
API Connectivity
14. 14
Constat : Plus de 80% du temps est passé à consolider,
nettoyer et transformer les données avant analyse.
Bénéfices de Trifacta
• Accélérer l’accès aux données pour dégager plus rapidement les
opportunités métiers
• Diminuer les risques métiers liés aux mauvaises données
• Donner le pouvoir aux personnes avec la connaissance métier des
données “Self-Service”
• Libérer l’innovation et optimiser l‘efficacité opérationnelle
• Accélérer le ROI2 de projets Big Data
• Réduire la pression des coûts et des recrutements (problèmes des
compétences Big Data dans l’entreprise)
Ø Plus d’Efficacité, Plus d’Innovation
Conclusion