Le Data Engineer qui veut se faire aussi gros que le Data Scientist

Le DataEngineer qui veut se faire aussi gros que le DataScientist
Par Bachir Aït M’Barek
2017

Bachir Aït M’Barek
@Baitmbarek
Ingénieur Data :
- Chaînes BI (Modélisation, ETL, Restitution)
- DataLake (Architecture, ETL, analytics, …)
- Applications Web (Dév. Full stack)
Partage et formations :
- S2 2016 - ENSAI (Rennes) - Java
- Avril 2017 - Devoxx - Co-présentateur de l’université
“Spark-adabra : Comment construire un Datalake”
- 2018 - datagemme.com
2

La Data en entreprise
Conception Collecte Préparation Enrichissement
Extraction de
connaissances
Prédiction
4

Du DataEngineering à la DataScience : Motivations
L’IA en entreprise, c’est un fort potentiel, mais qui requiert aussi une forte sagacité,
traduit par une faible pénétration: Ce qui laisse beaucoup de place à l'initiative.
Qu’est ce que la Data Science ?
Prendre des décisions basées sur des faits (objectifs) avec confiance.
Qu’est ce qu’un Data Scientist ?
Une personne méthodique au raisonnement scientifique …
… qui arrive à créer une forte valeur décisionnelle à partir de la donnée
… qui n’a peur de la manipulation de données (volume, variété, qualité)
5

Le Data Scientist au quotidien
Source : CrowdFlower 6

Les aptitudes du Data Scientist
Esprit
Synthétique
Compréhension et
Visualisation des
données
Connaissances
statistiques
Sensibilité métier
Savoir s’outiller
Traduire use case
en problème ML
Coder,
industrialiser son
travail
7

Le DataEngineer entre
en lice
8

Priorité business
Le métier a un besoin :
- Exprimé sous forme de règles de gestion (fermées)
- Contraint dans le temps (Time to market)
Approche pragmatique :
- Commencer simple et logique
- Prendre en compte les intuitions métier : features à explorer / qualifier
- Ne pas s'engouffrer tout de suite dans la complexité des algorithmes
- Utiliser ses meilleurs outils pour une solution viable à court terme
- Rassurer le métier en l’impliquant
9

Une méthode et un outillage adaptés
Familiarisation avec
Datasets
Préparation des
features
Apprentissage et
tests
Compréhension des
enjeux métier
Sensibilité métier
- Compréhension du domaine métier.
Être en mesure d’évaluer / justifier le besoin.
- Requalifier le besoin avec le métier (le cas échéant).
Capacité de se poser les bonnes questions
- Compréhension de la problématique exprimée
Prédire le future ? Classification ? Recommandation ?
- Sensibilité de la prédiction.
Marge d'erreur tolérable ?
10

Datasets
Préparation des
features
Apprentissage et
tests
Compréhension des
enjeux métier
Examen des dataset et familiarisation avec les dimensions, mesures et features.
- Qualité, véracité, fiabilité, fraîcheur ?
Il vaut mieux ne pas prendre de décision qu’en prendre une mauvaise !
⇒ Metadata
https://github.com/UNIVALENCE/centrifuge
- Cardinalités par attribut (variance, écart type, min, max, médiane)
- Nettoyage des données
Suppression des stop words, restructuration, ...
- Corrélation entre les attributs
- La donnée n'a-t-elle pas été modifiée à posteriori ?
- Identification des attributs pouvant influer sur une prise de décision 11

Datasets
Préparation des
features
Apprentissage et
tests
Compréhension des
enjeux métier
Préparation de données sur base des observations
- Valeurs manquantes
- Discrétisation, valeurs catégoriques à passer en numérique
- Normalisation
- Feature engineering et enrichissement
Feature Creation
Feature Selection
Dimensionality Reduction
Echantillonner de sorte à équilibrer le jeu d'apprentissage (pas de classe sur représentée)
- Projection du résultat en Dataviz pour mesurer la performance des features
12

Datasets
Préparation des
features
Apprentissage et
tests
Compréhension des
enjeux métier
Supervisé Non Supervisé Semi-Supervisé
13

L’outillage au service de l’agilité
14

Seule la casse
diffère
Axe identique:
Travaux
d’entretien
Axe identique:
Affaires
Axe identique:
voyage
L’outillage au service de l’agilité
15

EsSpark.saveToEs(rdd, "bank_loan/solvability")
https://hub.docker.com/r/datagemme/feabana
L’outillage au service de l’agilité : Feabana
16

Outils de machine learning
as far as I know ...
WEKA
Ecosystème / langages Python Java Scala / Python / Java
Variété d’algorithmes et
extensibilité
Distribué
Documentation
Minimaliste
17

“If you torture the data enough,
nature will always confess”
- Ronald H. Coase, 1960s
18

Le Data Engineer qui veut se faire aussi gros que le Data Scientist

Recommandé

Recommandé

Contenu connexe

Similaire à Le Data Engineer qui veut se faire aussi gros que le Data Scientist

Similaire à Le Data Engineer qui veut se faire aussi gros que le Data Scientist (20)

Le Data Engineer qui veut se faire aussi gros que le Data Scientist