XebiCon'18 - Data Science Done Wrong

@Xebiconfr #Xebicon18
Build the future
Data Science Done Wrong
Les 5 idées reçues qui condamnent votre projet DS à l'échec
et les changements de perspectives qui peuvent vous aider à l'éviter
Yoann Benoit, Nathan Chauliac
Xebia / Thiga
1

Qui sommes-nous ?
Yoann Benoit
Data Technical Officer
Nathan Chauliac
Lead Product Manager Data.IA
@YoannBENOIT
2
@InnoThiga

@Xebiconfr #Xebicon18 3
Corto et le Data Lake perdu

Plan initial
6 mois
Data Lake Modélisation
1 mois3 mois
Industrialisation

La réalité
12 mois (en cours)
Data Lake
6 mois
1 mois3 mois
Industrialisation
Plan initial

La réalité
12 mois (en cours)
Data Lake
6 mois
1 mois3 mois
6 mois
Modélisation
Industrialisation
Plan initial

La réalité
12 mois (en cours)
Data Lake
6 mois
1 mois
Industrialisation
3 mois
6 mois 6 mois
Industrialisation
6 mois
Modélisation
Plan initial

La réalité
12 mois (en cours)
Data Lake
6 mois
1 mois
Industrialisation
3 mois
6 mois 6 mois
Industrialisation
6 mois
Idée Reçue 5 Idée Reçue 1Idée Reçue 3Idée Reçue 2 Idée Reçue 4
Modélisation
Plan initial

Idée Reçue n°1
Le succès d’un cas d’usage Data Science dépend essentiellement
de la performance du modèle
10

Ingestion Modélisation Prédiction Utilisateur Activation

Performances du modèle
Qualité des prédictions du modèle

Performances du modèle Performances de l’activation
Qualité des prédictions du modèle Capacité à tirer de la valeur des prédictions

Performances du modèle
Performances du produit
Performances de l’activation
Qualité des prédictions du modèle Capacité à tirer de la valeur des prédictions
Capacité du produit à répondre au besoin

Les deux facteurs de performance de l’activation
15
Interprétabilité Utilisabilité

Interprétabilité
16
Un modèle est interprétable lorsque l’utilisateur est
en mesure de comprendre les facteurs et le
cheminement logique qui mènent à la prédiction

Interprétabilité
17

Utilisabilité
18
Degré selon lequel un produit peut être
utilisé pour atteindre des buts définis avec
efficacité, efficience et satisfaction

La manière de présenter les résultats doit être IPAP
19
IPAP
Intuitif Pratique Actionnable Personnalisé

Idée Reçue n°2
Pour s’assurer de la faisabilité technique d’un cas d’usage,
il faut réaliser un POC qui atteint les performances cibles
20

Objectifs d’un POC
21
➢ Avoir levé toutes les incertitudes sur le
Use Case avant de faire un GO sur la
mise en production
➢ Avoir un modèle qui atteint les
performances cibles

22
mise en production
performances cibles
POC : 6 mois

23
mise en production
performances cibles
➢ Lever les hypothèses les plus critiques qui
impliqueraient un échec du projet
➢ Valider la faisabilité technique du Use
Case
POC : 6 mois

24
mise en production
performances cibles
➢ Lever les hypothèses les plus critiques qui
impliqueraient un échec du projet
➢ Valider la faisabilité technique du Use
Case
POC : 6 mois Prototype : 2 semaines

POC -> Prototype
25
POC Prototype

Avantages à réduire drastiquement la durée d’un POC
26
Prototypage rapide
Favoriser le Fail Fast
Limiter la durée du développement
détaché des conditions réelles
Éviter les effets tunnel

Que se passe-t-il après ?
27
Finduprototypage

28
Finduprototypage
Concluant Go production !

29
Finduprototypage
Concluant
Pas concluant
Autres pistes à
explorer
Prototypage n°2
Go production !

30
Finduprototypage
Concluant
Pas concluant
Autres pistes à
explorer
Pas de potentiel
Prototypage n°2
Stop
Go production !

Et maintenant ...
31

Idée Reçue n°3
La meilleure organisation possible, c’est d’avoir deux équipes :
une équipe de Data Scientists et une équipe de Data Engineers
32

Les profils Data
33
Data Scientist
Data Engineer
Murdel’incompréhension

Les profils Data
34
Data Scientist
orienté mathématiques
Data Engineer pur
Back-end
Machine Learning Engineer

Ce qui a longtemps été vu comme l’équipe idéale
35
Data Scientist
Data Engineer pur
Back-end

Ce que l’on s’est résolu à faire
36
Data Scientist
Data Engineer pur
Back-end
Data Scientist Team Data Engineer Team

Ce que l’expérience révèle comme l’équipe idéale
37
Data Scientist
Data Engineer pur
Back-end

Product Team
A la product Team
38
Product Owner
Profils Data

Product Team
A la product Team
39
Product Owner
Profils Data
Data Ops, Sécurité,
Dev Front-End

Product Team
A la product Team
40
Product Owner
Profils Data
Data Ops, Sécurité,
Dev Front-End
Développements orientés valeur utilisateur
Pair programming / Pair Review croisés
Une story est terminée quand elle est en
production et qu’elle apporte de la valeur à
l’utilisateur

Idée Reçue n°4
Ajouter les contraintes de production fait perdre du temps dans
l’innovation et l’amélioration des modèles
41

Les propriétés d’une bonne Usine Logicielle Data Science
Une Usine Logicielle Data Science doit permettre de faire bénéficier l’équipe
d’une mise en production rapide, tout en favorisant l’amélioration et l’innovation.
Elle doit donc allier :
➢ Robustesse pour s’assurer de la qualité sans compromis des développements faits
➢ Souplesse pour faciliter le travail itératif et l’ajout incrémental de complexité
42

Usine Logicielle Data Science
43
Industrialisation
Déploiement /
Mise en Production
Monitoring

44
Exploration Industrialisation
Déploiement /
Mise en Production
Monitoring
Usine Logicielle

45
Réutiliser les briques industrialisées pour accélérer l’exploration
➢ Création d’une librairie interne
➢ Réutilisation des classes de transformation packagées

46
Optimiser le choix et la comparaison des modèles
➢ Serving du modèle à penser dès le départ (on-demand ? batch ? streaming ?)
➢ Model repository
➢ Capacité à relancer l’expérience dans les mêmes conditions

47
➢ Monitoring des performances (globales et locales) du/des modèle(s)
○ Priorisation des prochains développements
➢ Monitoring de la qualité des données et des features
○ Contrôle de la chaîne de traitement

Idée Reçue n°5
Le sujet est tellement critique qu’on ne peut pas utiliser le produit en
conditions réelles si les performances cibles ne sont pas atteintes
48

Comment faire un MVP en
Data Science ?
Comment tester en conditions réelles
lorsque la solution est critique ?

Le MVP en Data Science

Prototype vs MVP
51
MVP (Minimum Viable Product)
Amont à la réalisation et jetable
Étapes critiques uniquement
N’est pas utilisable en conditions réelles
Permet de vérifier les hypothèses en
récupérant des retours utilisateurs
Première brique du produit cible
Propose un parcours simple mais complet
Est utilisé en conditions réelles
Permet de vérifier les hypothèses en
récupérant des retours utilisateurs
Prototype

L’approche traditionnelle
52
Ingestion et
préparation des
données
Activation
Etape 1
Etape 2
Etape 3
Modélisation

L’approche MVP
53
Ingestion et
préparation des
données
Activation
Etape 1
Modélisation

Ingestion et
préparation des
données
Activation
Modélisation
Priorisation
Récolte de
feedbacks
L’approche MVP
Etape 1

Ingestion et
préparation des
données
Activation
Modélisation
Priorisation
Récolte de
feedbacks
Etape 2+
Ingestion de
nouvelles données
Amélioration
itérative du modèle
Amélioration de
l’activation
L’approche MVP
Etape 1

Tests en conditions critiques

Comment tester en conditions réelles lorsque la solution est critique ?
57
Solution 1: Restreindre le périmètre
Prédire les ventes de tous
les produits d’une chaîne de
magasins
Périmètre cible

58
magasins
Périmètre cible
Certains
produits
Certains
magasins
Périmètre Test 1
Périmètre Test 2

59
Échantillon représentatif
Bonnes performances du
modèle
Mauvaises
performances actuelles
magasins
Périmètre cible
Certains
produits
Certains
magasins
Périmètre Test 1
Périmètre Test 2

60
Field Museum is a must see in
Chicago, here is the adress...
People rave about Mobster
diner, do you want me to take
a reservation ?
Type here another message
Solution 2 : Garder une activation manuelle

Let’s wrap it all

Corto 2.0
2 semaines 2 semaines
Activation Prototype MVP
6 semaines Ad Libitum
Améliorations itératives
Ingestion de
nouvelles données
Amélioration itérative
du modèle
Amélioration de
l’activation

Merci !
63

XebiCon'18 - Data Science Done Wrong

Recommandé

Recommandé

Contenu connexe

Similaire à XebiCon'18 - Data Science Done Wrong

Similaire à XebiCon'18 - Data Science Done Wrong (20)

Plus de Publicis Sapient Engineering

Plus de Publicis Sapient Engineering (20)

XebiCon'18 - Data Science Done Wrong