SlideShare une entreprise Scribd logo
Le DataEngineer qui veut se faire aussi gros que le DataScientist
Par Bachir Aït M’Barek
2017
Bachir Aït M’Barek
@Baitmbarek
Ingénieur Data :
- Chaînes BI (Modélisation, ETL, Restitution)
- DataLake (Architecture, ETL, analytics, …)
- Applications Web (Dév. Full stack)
Partage et formations :
- S2 2016 - ENSAI (Rennes) - Java
- Avril 2017 - Devoxx - Co-présentateur de l’université
“Spark-adabra : Comment construire un Datalake”
- 2018 - datagemme.com
2
Contexte et Motivations
3
La Data en entreprise
Conception Collecte Préparation Enrichissement
Extraction de
connaissances
Prédiction
4
Du DataEngineering à la DataScience : Motivations
L’IA en entreprise, c’est un fort potentiel, mais qui requiert aussi une forte sagacité,
traduit par une faible pénétration: Ce qui laisse beaucoup de place à l'initiative.
Qu’est ce que la Data Science ?
Prendre des décisions basées sur des faits (objectifs) avec confiance.
Qu’est ce qu’un Data Scientist ?
Une personne méthodique au raisonnement scientifique …
… qui arrive à créer une forte valeur décisionnelle à partir de la donnée
… qui n’a peur de la manipulation de données (volume, variété, qualité)
5
Le Data Scientist au quotidien
Source : CrowdFlower 6
Les aptitudes du Data Scientist
Esprit
Synthétique
Compréhension et
Visualisation des
données
Connaissances
statistiques
Sensibilité métier
Savoir s’outiller
Traduire use case
en problème ML
Coder,
industrialiser son
travail
7
Le DataEngineer entre
en lice
8
Priorité business
Le métier a un besoin :
- Exprimé sous forme de règles de gestion (fermées)
- Contraint dans le temps (Time to market)
Approche pragmatique :
- Commencer simple et logique
- Prendre en compte les intuitions métier : features à explorer / qualifier
- Ne pas s'engouffrer tout de suite dans la complexité des algorithmes
- Utiliser ses meilleurs outils pour une solution viable à court terme
- Rassurer le métier en l’impliquant
9
Une méthode et un outillage adaptés
Familiarisation avec
Datasets
Préparation des
features
Apprentissage et
tests
Compréhension des
enjeux métier
Sensibilité métier
- Compréhension du domaine métier.
Être en mesure d’évaluer / justifier le besoin.
- Requalifier le besoin avec le métier (le cas échéant).
Capacité de se poser les bonnes questions
- Compréhension de la problématique exprimée
Prédire le future ? Classification ? Recommandation ?
- Sensibilité de la prédiction.
Marge d'erreur tolérable ?
10
Une méthode et un outillage adaptés
Familiarisation avec
Datasets
Préparation des
features
Apprentissage et
tests
Compréhension des
enjeux métier
Examen des dataset et familiarisation avec les dimensions, mesures et features.
- Qualité, véracité, fiabilité, fraîcheur ?
Il vaut mieux ne pas prendre de décision qu’en prendre une mauvaise !
⇒ Metadata
https://github.com/UNIVALENCE/centrifuge
- Cardinalités par attribut (variance, écart type, min, max, médiane)
- Nettoyage des données
Suppression des stop words, restructuration, ...
- Corrélation entre les attributs
- La donnée n'a-t-elle pas été modifiée à posteriori ?
- Identification des attributs pouvant influer sur une prise de décision 11
Une méthode et un outillage adaptés
Familiarisation avec
Datasets
Préparation des
features
Apprentissage et
tests
Compréhension des
enjeux métier
Préparation de données sur base des observations
- Valeurs manquantes
- Discrétisation, valeurs catégoriques à passer en numérique
- Normalisation
- Feature engineering et enrichissement
Feature Creation
Feature Selection
Dimensionality Reduction
Echantillonner de sorte à équilibrer le jeu d'apprentissage (pas de classe sur représentée)
- Projection du résultat en Dataviz pour mesurer la performance des features
12
Une méthode et un outillage adaptés
Familiarisation avec
Datasets
Préparation des
features
Apprentissage et
tests
Compréhension des
enjeux métier
Supervisé Non Supervisé Semi-Supervisé
13
L’outillage au service de l’agilité
14
Seule la casse
diffère
Axe identique:
Travaux
d’entretien
Axe identique:
Affaires
Axe identique:
voyage
L’outillage au service de l’agilité
15
EsSpark.saveToEs(rdd, "bank_loan/solvability")
https://hub.docker.com/r/datagemme/feabana
L’outillage au service de l’agilité : Feabana
16
Outils de machine learning
as far as I know ...
WEKA
Ecosystème / langages Python Java Scala / Python / Java
Variété d’algorithmes et
extensibilité
Distribué
Documentation
Minimaliste
17
“If you torture the data enough,
nature will always confess”
- Ronald H. Coase, 1960s
18

Contenu connexe

Similaire à Le Data Engineer qui veut se faire aussi gros que le Data Scientist

Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?
Jeremy Greze
 
Offre onepoint - Data science et big data
Offre onepoint  - Data science et big data Offre onepoint  - Data science et big data
Offre onepoint - Data science et big data
GroupeONEPOINT
 
Préparation de Données Hadoop avec Trifacta
Préparation de Données Hadoop avec TrifactaPréparation de Données Hadoop avec Trifacta
Préparation de Données Hadoop avec Trifacta
Victor Coustenoble
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data
NetSecure Day
 
La datascience comme outil de valorisation de la donnée
La datascience comme outil de valorisation de la donnéeLa datascience comme outil de valorisation de la donnée
La datascience comme outil de valorisation de la donnée
SEBASTIEN QUINAULT
 
BUSINESS INTELIGENCE : Exploitation d'un Datamart
BUSINESS INTELIGENCE : Exploitation d'un DatamartBUSINESS INTELIGENCE : Exploitation d'un Datamart
BUSINESS INTELIGENCE : Exploitation d'un Datamart
Falitokiniaina Rabearison
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance client
Denodo
 
Le métier d’administrateur de
Le métier d’administrateur deLe métier d’administrateur de
Le métier d’administrateur deAlgeria JUG
 
Le m _tier_de_dba_797144552
Le m _tier_de_dba_797144552Le m _tier_de_dba_797144552
Le m _tier_de_dba_797144552
Algeria JUG
 
Gestion des compétences et vue 360 des salariés
Gestion des compétences et vue 360 des salariésGestion des compétences et vue 360 des salariés
Gestion des compétences et vue 360 des salariés
amaury baiges
 
Trop de Bla Bla, Passons au BigData
Trop de Bla Bla, Passons au BigDataTrop de Bla Bla, Passons au BigData
Trop de Bla Bla, Passons au BigData
Abed Ajraou
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
Denodo
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
Ludovic Piot
 
Méthodologie D’Intelligence D’Affaires
Méthodologie D’Intelligence D’AffairesMéthodologie D’Intelligence D’Affaires
Méthodologie D’Intelligence D’Affaires
Alain Charpentier
 
Le reporting BI dans tous ses états / quel outil pour quel usage
Le reporting BI dans tous ses états / quel outil pour quel usage Le reporting BI dans tous ses états / quel outil pour quel usage
Le reporting BI dans tous ses états / quel outil pour quel usage
Microsoft Technet France
 
Talents Nights Paris le 27 juin : métiers du Digital et du Numérique
Talents Nights Paris le 27 juin : métiers du Digital et du NumériqueTalents Nights Paris le 27 juin : métiers du Digital et du Numérique
Talents Nights Paris le 27 juin : métiers du Digital et du Numérique
Corinne Maugrenier
 
Talents Nights - Mercredi 27 Juin 2018
Talents Nights - Mercredi 27 Juin 2018 Talents Nights - Mercredi 27 Juin 2018
Talents Nights - Mercredi 27 Juin 2018
Guilaine Julmat
 
[Infographie] Le métier de Data scientist
[Infographie] Le métier de Data scientist [Infographie] Le métier de Data scientist
[Infographie] Le métier de Data scientist
Michael Page
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
Denodo
 
Présentation OCARA
Présentation OCARAPrésentation OCARA
Présentation OCARA
Michel Lalieu
 

Similaire à Le Data Engineer qui veut se faire aussi gros que le Data Scientist (20)

Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?
 
Offre onepoint - Data science et big data
Offre onepoint  - Data science et big data Offre onepoint  - Data science et big data
Offre onepoint - Data science et big data
 
Préparation de Données Hadoop avec Trifacta
Préparation de Données Hadoop avec TrifactaPréparation de Données Hadoop avec Trifacta
Préparation de Données Hadoop avec Trifacta
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data
 
La datascience comme outil de valorisation de la donnée
La datascience comme outil de valorisation de la donnéeLa datascience comme outil de valorisation de la donnée
La datascience comme outil de valorisation de la donnée
 
BUSINESS INTELIGENCE : Exploitation d'un Datamart
BUSINESS INTELIGENCE : Exploitation d'un DatamartBUSINESS INTELIGENCE : Exploitation d'un Datamart
BUSINESS INTELIGENCE : Exploitation d'un Datamart
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance client
 
Le métier d’administrateur de
Le métier d’administrateur deLe métier d’administrateur de
Le métier d’administrateur de
 
Le m _tier_de_dba_797144552
Le m _tier_de_dba_797144552Le m _tier_de_dba_797144552
Le m _tier_de_dba_797144552
 
Gestion des compétences et vue 360 des salariés
Gestion des compétences et vue 360 des salariésGestion des compétences et vue 360 des salariés
Gestion des compétences et vue 360 des salariés
 
Trop de Bla Bla, Passons au BigData
Trop de Bla Bla, Passons au BigDataTrop de Bla Bla, Passons au BigData
Trop de Bla Bla, Passons au BigData
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Méthodologie D’Intelligence D’Affaires
Méthodologie D’Intelligence D’AffairesMéthodologie D’Intelligence D’Affaires
Méthodologie D’Intelligence D’Affaires
 
Le reporting BI dans tous ses états / quel outil pour quel usage
Le reporting BI dans tous ses états / quel outil pour quel usage Le reporting BI dans tous ses états / quel outil pour quel usage
Le reporting BI dans tous ses états / quel outil pour quel usage
 
Talents Nights Paris le 27 juin : métiers du Digital et du Numérique
Talents Nights Paris le 27 juin : métiers du Digital et du NumériqueTalents Nights Paris le 27 juin : métiers du Digital et du Numérique
Talents Nights Paris le 27 juin : métiers du Digital et du Numérique
 
Talents Nights - Mercredi 27 Juin 2018
Talents Nights - Mercredi 27 Juin 2018 Talents Nights - Mercredi 27 Juin 2018
Talents Nights - Mercredi 27 Juin 2018
 
[Infographie] Le métier de Data scientist
[Infographie] Le métier de Data scientist [Infographie] Le métier de Data scientist
[Infographie] Le métier de Data scientist
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Présentation OCARA
Présentation OCARAPrésentation OCARA
Présentation OCARA
 

Le Data Engineer qui veut se faire aussi gros que le Data Scientist

  • 1. Le DataEngineer qui veut se faire aussi gros que le DataScientist Par Bachir Aït M’Barek 2017
  • 2. Bachir Aït M’Barek @Baitmbarek Ingénieur Data : - Chaînes BI (Modélisation, ETL, Restitution) - DataLake (Architecture, ETL, analytics, …) - Applications Web (Dév. Full stack) Partage et formations : - S2 2016 - ENSAI (Rennes) - Java - Avril 2017 - Devoxx - Co-présentateur de l’université “Spark-adabra : Comment construire un Datalake” - 2018 - datagemme.com 2
  • 4. La Data en entreprise Conception Collecte Préparation Enrichissement Extraction de connaissances Prédiction 4
  • 5. Du DataEngineering à la DataScience : Motivations L’IA en entreprise, c’est un fort potentiel, mais qui requiert aussi une forte sagacité, traduit par une faible pénétration: Ce qui laisse beaucoup de place à l'initiative. Qu’est ce que la Data Science ? Prendre des décisions basées sur des faits (objectifs) avec confiance. Qu’est ce qu’un Data Scientist ? Une personne méthodique au raisonnement scientifique … … qui arrive à créer une forte valeur décisionnelle à partir de la donnée … qui n’a peur de la manipulation de données (volume, variété, qualité) 5
  • 6. Le Data Scientist au quotidien Source : CrowdFlower 6
  • 7. Les aptitudes du Data Scientist Esprit Synthétique Compréhension et Visualisation des données Connaissances statistiques Sensibilité métier Savoir s’outiller Traduire use case en problème ML Coder, industrialiser son travail 7
  • 9. Priorité business Le métier a un besoin : - Exprimé sous forme de règles de gestion (fermées) - Contraint dans le temps (Time to market) Approche pragmatique : - Commencer simple et logique - Prendre en compte les intuitions métier : features à explorer / qualifier - Ne pas s'engouffrer tout de suite dans la complexité des algorithmes - Utiliser ses meilleurs outils pour une solution viable à court terme - Rassurer le métier en l’impliquant 9
  • 10. Une méthode et un outillage adaptés Familiarisation avec Datasets Préparation des features Apprentissage et tests Compréhension des enjeux métier Sensibilité métier - Compréhension du domaine métier. Être en mesure d’évaluer / justifier le besoin. - Requalifier le besoin avec le métier (le cas échéant). Capacité de se poser les bonnes questions - Compréhension de la problématique exprimée Prédire le future ? Classification ? Recommandation ? - Sensibilité de la prédiction. Marge d'erreur tolérable ? 10
  • 11. Une méthode et un outillage adaptés Familiarisation avec Datasets Préparation des features Apprentissage et tests Compréhension des enjeux métier Examen des dataset et familiarisation avec les dimensions, mesures et features. - Qualité, véracité, fiabilité, fraîcheur ? Il vaut mieux ne pas prendre de décision qu’en prendre une mauvaise ! ⇒ Metadata https://github.com/UNIVALENCE/centrifuge - Cardinalités par attribut (variance, écart type, min, max, médiane) - Nettoyage des données Suppression des stop words, restructuration, ... - Corrélation entre les attributs - La donnée n'a-t-elle pas été modifiée à posteriori ? - Identification des attributs pouvant influer sur une prise de décision 11
  • 12. Une méthode et un outillage adaptés Familiarisation avec Datasets Préparation des features Apprentissage et tests Compréhension des enjeux métier Préparation de données sur base des observations - Valeurs manquantes - Discrétisation, valeurs catégoriques à passer en numérique - Normalisation - Feature engineering et enrichissement Feature Creation Feature Selection Dimensionality Reduction Echantillonner de sorte à équilibrer le jeu d'apprentissage (pas de classe sur représentée) - Projection du résultat en Dataviz pour mesurer la performance des features 12
  • 13. Une méthode et un outillage adaptés Familiarisation avec Datasets Préparation des features Apprentissage et tests Compréhension des enjeux métier Supervisé Non Supervisé Semi-Supervisé 13
  • 14. L’outillage au service de l’agilité 14
  • 15. Seule la casse diffère Axe identique: Travaux d’entretien Axe identique: Affaires Axe identique: voyage L’outillage au service de l’agilité 15
  • 17. Outils de machine learning as far as I know ... WEKA Ecosystème / langages Python Java Scala / Python / Java Variété d’algorithmes et extensibilité Distribué Documentation Minimaliste 17
  • 18. “If you torture the data enough, nature will always confess” - Ronald H. Coase, 1960s 18