SlideShare une entreprise Scribd logo
1  sur  63
Télécharger pour lire hors ligne
@Xebiconfr #Xebicon18
Build the future
Data Science Done Wrong
Les 5 idées reçues qui condamnent votre projet DS à l'échec
et les changements de perspectives qui peuvent vous aider à l'éviter
Yoann Benoit, Nathan Chauliac
Xebia / Thiga
1
@Xebiconfr #Xebicon18
Qui sommes-nous ?
Yoann Benoit
Data Technical Officer
Nathan Chauliac
Lead Product Manager Data.IA
@YoannBENOIT
2
@InnoThiga
@Xebiconfr #Xebicon18 3
Corto et le Data Lake perdu
@Xebiconfr #Xebicon18 4
Plan initial
6 mois
Data Lake Modélisation
1 mois3 mois
Industrialisation
@Xebiconfr #Xebicon18 5
La réalité
12 mois (en cours)
Data Lake
6 mois
Data Lake Modélisation
1 mois3 mois
Industrialisation
Plan initial
@Xebiconfr #Xebicon18 6
La réalité
12 mois (en cours)
Data Lake
6 mois
Data Lake Modélisation
1 mois3 mois
6 mois
Modélisation
Industrialisation
Plan initial
@Xebiconfr #Xebicon18 7
La réalité
12 mois (en cours)
Data Lake
6 mois
Data Lake Modélisation
1 mois
Industrialisation
3 mois
6 mois 6 mois
Industrialisation
6 mois
Modélisation
Plan initial
@Xebiconfr #Xebicon18 8
La réalité
12 mois (en cours)
Data Lake
6 mois
Data Lake Modélisation
1 mois
Industrialisation
3 mois
6 mois 6 mois
Industrialisation
6 mois
Modélisation
Plan initial
@Xebiconfr #Xebicon18 9
La réalité
12 mois (en cours)
Data Lake
6 mois
Data Lake Modélisation
1 mois
Industrialisation
3 mois
6 mois 6 mois
Industrialisation
6 mois
Idée Reçue 5 Idée Reçue 1Idée Reçue 3Idée Reçue 2 Idée Reçue 4
Modélisation
Plan initial
@Xebiconfr #Xebicon18
Idée Reçue n°1
Le succès d’un cas d’usage Data Science dépend essentiellement
de la performance du modèle
10
@Xebiconfr #Xebicon18 11
Ingestion Modélisation Prédiction Utilisateur Activation
@Xebiconfr #Xebicon18 12
Ingestion Modélisation Prédiction Utilisateur Activation
Performances du modèle
Qualité des prédictions du modèle
@Xebiconfr #Xebicon18 13
Ingestion Modélisation Prédiction Utilisateur Activation
Performances du modèle Performances de l’activation
Qualité des prédictions du modèle Capacité à tirer de la valeur des prédictions
@Xebiconfr #Xebicon18 14
Ingestion Modélisation Prédiction Utilisateur Activation
Performances du modèle
Performances du produit
Performances de l’activation
Qualité des prédictions du modèle Capacité à tirer de la valeur des prédictions
Capacité du produit à répondre au besoin
@Xebiconfr #Xebicon18
Les deux facteurs de performance de l’activation
15
Interprétabilité Utilisabilité
@Xebiconfr #Xebicon18
Interprétabilité
16
Un modèle est interprétable lorsque l’utilisateur est
en mesure de comprendre les facteurs et le
cheminement logique qui mènent à la prédiction
@Xebiconfr #Xebicon18
Interprétabilité
17
@Xebiconfr #Xebicon18
Utilisabilité
18
Degré selon lequel un produit peut être
utilisé pour atteindre des buts définis avec
efficacité, efficience et satisfaction
@Xebiconfr #Xebicon18
La manière de présenter les résultats doit être IPAP
19
IPAP
Intuitif Pratique Actionnable Personnalisé
@Xebiconfr #Xebicon18
Idée Reçue n°2
Pour s’assurer de la faisabilité technique d’un cas d’usage,
il faut réaliser un POC qui atteint les performances cibles
20
@Xebiconfr #Xebicon18
Objectifs d’un POC
21
➢ Avoir levé toutes les incertitudes sur le
Use Case avant de faire un GO sur la
mise en production
➢ Avoir un modèle qui atteint les
performances cibles
@Xebiconfr #Xebicon18
Objectifs d’un POC
22
➢ Avoir levé toutes les incertitudes sur le
Use Case avant de faire un GO sur la
mise en production
➢ Avoir un modèle qui atteint les
performances cibles
POC : 6 mois
@Xebiconfr #Xebicon18
Objectifs d’un POC
23
➢ Avoir levé toutes les incertitudes sur le
Use Case avant de faire un GO sur la
mise en production
➢ Avoir un modèle qui atteint les
performances cibles
➢ Lever les hypothèses les plus critiques qui
impliqueraient un échec du projet
➢ Valider la faisabilité technique du Use
Case
POC : 6 mois
@Xebiconfr #Xebicon18
Objectifs d’un POC
24
➢ Avoir levé toutes les incertitudes sur le
Use Case avant de faire un GO sur la
mise en production
➢ Avoir un modèle qui atteint les
performances cibles
➢ Lever les hypothèses les plus critiques qui
impliqueraient un échec du projet
➢ Valider la faisabilité technique du Use
Case
POC : 6 mois Prototype : 2 semaines
@Xebiconfr #Xebicon18
POC -> Prototype
25
POC Prototype
@Xebiconfr #Xebicon18
Avantages à réduire drastiquement la durée d’un POC
26
Prototypage rapide
Favoriser le Fail Fast
Limiter la durée du développement
détaché des conditions réelles
Éviter les effets tunnel
@Xebiconfr #Xebicon18
Que se passe-t-il après ?
27
Finduprototypage
@Xebiconfr #Xebicon18
Que se passe-t-il après ?
28
Finduprototypage
Concluant Go production !
@Xebiconfr #Xebicon18
Que se passe-t-il après ?
29
Finduprototypage
Concluant
Pas concluant
Autres pistes à
explorer
Prototypage n°2
Go production !
@Xebiconfr #Xebicon18
Que se passe-t-il après ?
30
Finduprototypage
Concluant
Pas concluant
Autres pistes à
explorer
Pas de potentiel
Prototypage n°2
Stop
Go production !
@Xebiconfr #Xebicon18
Et maintenant ...
31
@Xebiconfr #Xebicon18
Idée Reçue n°3
La meilleure organisation possible, c’est d’avoir deux équipes :
une équipe de Data Scientists et une équipe de Data Engineers
32
@Xebiconfr #Xebicon18
Les profils Data
33
Data Scientist
Data Engineer
Murdel’incompréhension
@Xebiconfr #Xebicon18
Les profils Data
34
Data Scientist
orienté mathématiques
Data Engineer pur
Back-end
Machine Learning Engineer
@Xebiconfr #Xebicon18
Ce qui a longtemps été vu comme l’équipe idéale
35
Data Scientist
orienté mathématiques
Data Engineer pur
Back-end
Machine Learning Engineer
@Xebiconfr #Xebicon18
Ce que l’on s’est résolu à faire
36
Data Scientist
orienté mathématiques
Data Engineer pur
Back-end
Data Scientist Team Data Engineer Team
@Xebiconfr #Xebicon18
Ce que l’expérience révèle comme l’équipe idéale
37
Data Scientist
orienté mathématiques
Data Engineer pur
Back-end
Machine Learning Engineer
@Xebiconfr #Xebicon18
Product Team
A la product Team
38
Product Owner
Profils Data
@Xebiconfr #Xebicon18
Product Team
A la product Team
39
Product Owner
Profils Data
Data Ops, Sécurité,
Dev Front-End
@Xebiconfr #Xebicon18
Product Team
A la product Team
40
Product Owner
Profils Data
Data Ops, Sécurité,
Dev Front-End
Développements orientés valeur utilisateur
Pair programming / Pair Review croisés
Une story est terminée quand elle est en
production et qu’elle apporte de la valeur à
l’utilisateur
@Xebiconfr #Xebicon18
Idée Reçue n°4
Ajouter les contraintes de production fait perdre du temps dans
l’innovation et l’amélioration des modèles
41
@Xebiconfr #Xebicon18
Les propriétés d’une bonne Usine Logicielle Data Science
Une Usine Logicielle Data Science doit permettre de faire bénéficier l’équipe
d’une mise en production rapide, tout en favorisant l’amélioration et l’innovation.
Elle doit donc allier :
➢ Robustesse pour s’assurer de la qualité sans compromis des développements faits
➢ Souplesse pour faciliter le travail itératif et l’ajout incrémental de complexité
42
@Xebiconfr #Xebicon18
Usine Logicielle Data Science
43
Industrialisation
Déploiement /
Mise en Production
Monitoring
@Xebiconfr #Xebicon18
Usine Logicielle Data Science
44
Exploration Industrialisation
Déploiement /
Mise en Production
Monitoring
Usine Logicielle
@Xebiconfr #Xebicon18
Usine Logicielle Data Science
45
Réutiliser les briques industrialisées pour accélérer l’exploration
➢ Création d’une librairie interne
➢ Réutilisation des classes de transformation packagées
@Xebiconfr #Xebicon18
Usine Logicielle Data Science
46
Optimiser le choix et la comparaison des modèles
➢ Serving du modèle à penser dès le départ (on-demand ? batch ? streaming ?)
➢ Model repository
➢ Capacité à relancer l’expérience dans les mêmes conditions
@Xebiconfr #Xebicon18
Usine Logicielle Data Science
47
➢ Monitoring des performances (globales et locales) du/des modèle(s)
○ Priorisation des prochains développements
➢ Monitoring de la qualité des données et des features
○ Contrôle de la chaîne de traitement
@Xebiconfr #Xebicon18
Idée Reçue n°5
Le sujet est tellement critique qu’on ne peut pas utiliser le produit en
conditions réelles si les performances cibles ne sont pas atteintes
48
@Xebiconfr #Xebicon18 49
Comment faire un MVP en
Data Science ?
Comment tester en conditions réelles
lorsque la solution est critique ?
@Xebiconfr #Xebicon18 50
Le MVP en Data Science
@Xebiconfr #Xebicon18
Prototype vs MVP
51
MVP (Minimum Viable Product)
Amont à la réalisation et jetable
Étapes critiques uniquement
N’est pas utilisable en conditions réelles
Permet de vérifier les hypothèses en
récupérant des retours utilisateurs
Première brique du produit cible
Propose un parcours simple mais complet
Est utilisé en conditions réelles
Permet de vérifier les hypothèses en
récupérant des retours utilisateurs
Prototype
@Xebiconfr #Xebicon18
L’approche traditionnelle
52
Ingestion et
préparation des
données
Activation
Etape 1
Etape 2
Etape 3
Modélisation
@Xebiconfr #Xebicon18
L’approche MVP
53
Ingestion et
préparation des
données
Activation
Etape 1
Modélisation
@Xebiconfr #Xebicon18 54
Ingestion et
préparation des
données
Activation
Modélisation
Priorisation
Récolte de
feedbacks
L’approche MVP
Etape 1
@Xebiconfr #Xebicon18 55
Ingestion et
préparation des
données
Activation
Modélisation
Priorisation
Récolte de
feedbacks
Etape 2+
Ingestion de
nouvelles données
Amélioration
itérative du modèle
Amélioration de
l’activation
L’approche MVP
Etape 1
@Xebiconfr #Xebicon18 56
Tests en conditions critiques
@Xebiconfr #Xebicon18
Comment tester en conditions réelles lorsque la solution est critique ?
57
Solution 1: Restreindre le périmètre
Prédire les ventes de tous
les produits d’une chaîne de
magasins
Périmètre cible
@Xebiconfr #Xebicon18
Comment tester en conditions réelles lorsque la solution est critique ?
58
Solution 1: Restreindre le périmètre
Prédire les ventes de tous
les produits d’une chaîne de
magasins
Périmètre cible
Certains
produits
Certains
magasins
Périmètre Test 1
Périmètre Test 2
@Xebiconfr #Xebicon18
Comment tester en conditions réelles lorsque la solution est critique ?
59
Solution 1: Restreindre le périmètre
Échantillon représentatif
Bonnes performances du
modèle
Mauvaises
performances actuelles
Prédire les ventes de tous
les produits d’une chaîne de
magasins
Périmètre cible
Certains
produits
Certains
magasins
Périmètre Test 1
Périmètre Test 2
@Xebiconfr #Xebicon18
Comment tester en conditions réelles lorsque la solution est critique ?
60
Field Museum is a must see in
Chicago, here is the adress...
People rave about Mobster
diner, do you want me to take
a reservation ?
Type here another message
Solution 2 : Garder une activation manuelle
@Xebiconfr #Xebicon18 61
Let’s wrap it all
@Xebiconfr #Xebicon18 62
Corto 2.0
2 semaines 2 semaines
Activation Prototype MVP
6 semaines Ad Libitum
Améliorations itératives
Ingestion de
nouvelles données
Amélioration itérative
du modèle
Amélioration de
l’activation
@Xebiconfr #Xebicon18
Merci !
63

Contenu connexe

Similaire à XebiCon'18 - Data Science Done Wrong

Tech4Exec - Pourquoi faut-il gérer votre projet (Big) data comme une start-up...
Tech4Exec - Pourquoi faut-il gérer votre projet (Big) data comme une start-up...Tech4Exec - Pourquoi faut-il gérer votre projet (Big) data comme une start-up...
Tech4Exec - Pourquoi faut-il gérer votre projet (Big) data comme une start-up...Publicis Sapient Engineering
 
Xebicon'16 : Kodo Kojo, une usine logicielle en trois clics. Par Antoine Le T...
Xebicon'16 : Kodo Kojo, une usine logicielle en trois clics. Par Antoine Le T...Xebicon'16 : Kodo Kojo, une usine logicielle en trois clics. Par Antoine Le T...
Xebicon'16 : Kodo Kojo, une usine logicielle en trois clics. Par Antoine Le T...Publicis Sapient Engineering
 
Utilisateurs finaux et équipiers, la coopération nécessaire pour nos produits !
Utilisateurs finaux et équipiers, la coopération nécessaire pour nos produits !Utilisateurs finaux et équipiers, la coopération nécessaire pour nos produits !
Utilisateurs finaux et équipiers, la coopération nécessaire pour nos produits !Nelson Dufossé
 
XebiCon'16 : Orange - Transformation DevOps, les conteneurs sont vos alliés !
XebiCon'16 : Orange - Transformation DevOps, les conteneurs sont vos alliés !XebiCon'16 : Orange - Transformation DevOps, les conteneurs sont vos alliés !
XebiCon'16 : Orange - Transformation DevOps, les conteneurs sont vos alliés !Publicis Sapient Engineering
 
XebiCon'16 : Parenting 2.0 : calmer son bébé avec du machine learning et un R...
XebiCon'16 : Parenting 2.0 : calmer son bébé avec du machine learning et un R...XebiCon'16 : Parenting 2.0 : calmer son bébé avec du machine learning et un R...
XebiCon'16 : Parenting 2.0 : calmer son bébé avec du machine learning et un R...Publicis Sapient Engineering
 
XebiCon'18 - Les utilisateurs finaux, les oubliés de nos produits !
XebiCon'18 - Les utilisateurs finaux, les oubliés de nos produits !XebiCon'18 - Les utilisateurs finaux, les oubliés de nos produits !
XebiCon'18 - Les utilisateurs finaux, les oubliés de nos produits !Publicis Sapient Engineering
 
Xebicon'18 - Spark in jail : conteneurisez vos traitements data sans serveur
Xebicon'18 - Spark in jail : conteneurisez vos traitements data sans serveurXebicon'18 - Spark in jail : conteneurisez vos traitements data sans serveur
Xebicon'18 - Spark in jail : conteneurisez vos traitements data sans serveurPublicis Sapient Engineering
 
Guide_de_survie_en_milieu_responsive
Guide_de_survie_en_milieu_responsiveGuide_de_survie_en_milieu_responsive
Guide_de_survie_en_milieu_responsiveNicolas Massouh
 
Guide de survie en milieu responsive - Paris Web 2013
Guide de survie en milieu responsive - Paris Web 2013Guide de survie en milieu responsive - Paris Web 2013
Guide de survie en milieu responsive - Paris Web 2013Guillaume Abel
 
XebiConFr 15 - Be Data Driven : Monter son Data Lab
XebiConFr 15 - Be Data Driven : Monter son Data LabXebiConFr 15 - Be Data Driven : Monter son Data Lab
XebiConFr 15 - Be Data Driven : Monter son Data LabPublicis Sapient Engineering
 
5 bonnes raisons pour des projets analytiques en agile
5 bonnes raisons pour des projets analytiques en agile5 bonnes raisons pour des projets analytiques en agile
5 bonnes raisons pour des projets analytiques en agileagileDSS
 
M365 Virtual Marathon - Construire votre gouvernance pour la Power Platform
M365 Virtual Marathon - Construire votre gouvernance pour la Power PlatformM365 Virtual Marathon - Construire votre gouvernance pour la Power Platform
M365 Virtual Marathon - Construire votre gouvernance pour la Power PlatformNicolas Georgeault
 
XebiCon'16 : NodeJS x Craftsmanship - Comment faire un projet dans les règles...
XebiCon'16 : NodeJS x Craftsmanship - Comment faire un projet dans les règles...XebiCon'16 : NodeJS x Craftsmanship - Comment faire un projet dans les règles...
XebiCon'16 : NodeJS x Craftsmanship - Comment faire un projet dans les règles...Publicis Sapient Engineering
 
XebiCon'16 : PMU et le Big Data - d'une approche mono projet à une démarche e...
XebiCon'16 : PMU et le Big Data - d'une approche mono projet à une démarche e...XebiCon'16 : PMU et le Big Data - d'une approche mono projet à une démarche e...
XebiCon'16 : PMU et le Big Data - d'une approche mono projet à une démarche e...Publicis Sapient Engineering
 
SEO : Identifier les concurrents qui sont meilleurs que moi
SEO : Identifier les concurrents qui sont meilleurs que moiSEO : Identifier les concurrents qui sont meilleurs que moi
SEO : Identifier les concurrents qui sont meilleurs que moiNicolas AUDEMAR
 
Bing API : Retour sur la demo de la plénière
Bing API : Retour sur la demo de la plénièreBing API : Retour sur la demo de la plénière
Bing API : Retour sur la demo de la plénièreMicrosoft
 
Surmonter les anti-patrons culturels nuisant à DevOps
Surmonter les anti-patrons culturels nuisant à DevOpsSurmonter les anti-patrons culturels nuisant à DevOps
Surmonter les anti-patrons culturels nuisant à DevOpsAgile Montréal
 
Digital GraphTour Paris - 26 March, 2020
Digital GraphTour Paris -  26 March, 2020Digital GraphTour Paris -  26 March, 2020
Digital GraphTour Paris - 26 March, 2020Neo4j
 
Introduction à Neo4j
Introduction à Neo4jIntroduction à Neo4j
Introduction à Neo4jNeo4j
 
Chirurgie SEO / Solution répulsive contre les pandas #SEOCamp
Chirurgie SEO / Solution répulsive contre les pandas #SEOCampChirurgie SEO / Solution répulsive contre les pandas #SEOCamp
Chirurgie SEO / Solution répulsive contre les pandas #SEOCampHtitipi
 

Similaire à XebiCon'18 - Data Science Done Wrong (20)

Tech4Exec - Pourquoi faut-il gérer votre projet (Big) data comme une start-up...
Tech4Exec - Pourquoi faut-il gérer votre projet (Big) data comme une start-up...Tech4Exec - Pourquoi faut-il gérer votre projet (Big) data comme une start-up...
Tech4Exec - Pourquoi faut-il gérer votre projet (Big) data comme une start-up...
 
Xebicon'16 : Kodo Kojo, une usine logicielle en trois clics. Par Antoine Le T...
Xebicon'16 : Kodo Kojo, une usine logicielle en trois clics. Par Antoine Le T...Xebicon'16 : Kodo Kojo, une usine logicielle en trois clics. Par Antoine Le T...
Xebicon'16 : Kodo Kojo, une usine logicielle en trois clics. Par Antoine Le T...
 
Utilisateurs finaux et équipiers, la coopération nécessaire pour nos produits !
Utilisateurs finaux et équipiers, la coopération nécessaire pour nos produits !Utilisateurs finaux et équipiers, la coopération nécessaire pour nos produits !
Utilisateurs finaux et équipiers, la coopération nécessaire pour nos produits !
 
XebiCon'16 : Orange - Transformation DevOps, les conteneurs sont vos alliés !
XebiCon'16 : Orange - Transformation DevOps, les conteneurs sont vos alliés !XebiCon'16 : Orange - Transformation DevOps, les conteneurs sont vos alliés !
XebiCon'16 : Orange - Transformation DevOps, les conteneurs sont vos alliés !
 
XebiCon'16 : Parenting 2.0 : calmer son bébé avec du machine learning et un R...
XebiCon'16 : Parenting 2.0 : calmer son bébé avec du machine learning et un R...XebiCon'16 : Parenting 2.0 : calmer son bébé avec du machine learning et un R...
XebiCon'16 : Parenting 2.0 : calmer son bébé avec du machine learning et un R...
 
XebiCon'18 - Les utilisateurs finaux, les oubliés de nos produits !
XebiCon'18 - Les utilisateurs finaux, les oubliés de nos produits !XebiCon'18 - Les utilisateurs finaux, les oubliés de nos produits !
XebiCon'18 - Les utilisateurs finaux, les oubliés de nos produits !
 
Xebicon'18 - Spark in jail : conteneurisez vos traitements data sans serveur
Xebicon'18 - Spark in jail : conteneurisez vos traitements data sans serveurXebicon'18 - Spark in jail : conteneurisez vos traitements data sans serveur
Xebicon'18 - Spark in jail : conteneurisez vos traitements data sans serveur
 
Guide_de_survie_en_milieu_responsive
Guide_de_survie_en_milieu_responsiveGuide_de_survie_en_milieu_responsive
Guide_de_survie_en_milieu_responsive
 
Guide de survie en milieu responsive - Paris Web 2013
Guide de survie en milieu responsive - Paris Web 2013Guide de survie en milieu responsive - Paris Web 2013
Guide de survie en milieu responsive - Paris Web 2013
 
XebiConFr 15 - Be Data Driven : Monter son Data Lab
XebiConFr 15 - Be Data Driven : Monter son Data LabXebiConFr 15 - Be Data Driven : Monter son Data Lab
XebiConFr 15 - Be Data Driven : Monter son Data Lab
 
5 bonnes raisons pour des projets analytiques en agile
5 bonnes raisons pour des projets analytiques en agile5 bonnes raisons pour des projets analytiques en agile
5 bonnes raisons pour des projets analytiques en agile
 
M365 Virtual Marathon - Construire votre gouvernance pour la Power Platform
M365 Virtual Marathon - Construire votre gouvernance pour la Power PlatformM365 Virtual Marathon - Construire votre gouvernance pour la Power Platform
M365 Virtual Marathon - Construire votre gouvernance pour la Power Platform
 
XebiCon'16 : NodeJS x Craftsmanship - Comment faire un projet dans les règles...
XebiCon'16 : NodeJS x Craftsmanship - Comment faire un projet dans les règles...XebiCon'16 : NodeJS x Craftsmanship - Comment faire un projet dans les règles...
XebiCon'16 : NodeJS x Craftsmanship - Comment faire un projet dans les règles...
 
XebiCon'16 : PMU et le Big Data - d'une approche mono projet à une démarche e...
XebiCon'16 : PMU et le Big Data - d'une approche mono projet à une démarche e...XebiCon'16 : PMU et le Big Data - d'une approche mono projet à une démarche e...
XebiCon'16 : PMU et le Big Data - d'une approche mono projet à une démarche e...
 
SEO : Identifier les concurrents qui sont meilleurs que moi
SEO : Identifier les concurrents qui sont meilleurs que moiSEO : Identifier les concurrents qui sont meilleurs que moi
SEO : Identifier les concurrents qui sont meilleurs que moi
 
Bing API : Retour sur la demo de la plénière
Bing API : Retour sur la demo de la plénièreBing API : Retour sur la demo de la plénière
Bing API : Retour sur la demo de la plénière
 
Surmonter les anti-patrons culturels nuisant à DevOps
Surmonter les anti-patrons culturels nuisant à DevOpsSurmonter les anti-patrons culturels nuisant à DevOps
Surmonter les anti-patrons culturels nuisant à DevOps
 
Digital GraphTour Paris - 26 March, 2020
Digital GraphTour Paris -  26 March, 2020Digital GraphTour Paris -  26 March, 2020
Digital GraphTour Paris - 26 March, 2020
 
Introduction à Neo4j
Introduction à Neo4jIntroduction à Neo4j
Introduction à Neo4j
 
Chirurgie SEO / Solution répulsive contre les pandas #SEOCamp
Chirurgie SEO / Solution répulsive contre les pandas #SEOCampChirurgie SEO / Solution répulsive contre les pandas #SEOCamp
Chirurgie SEO / Solution répulsive contre les pandas #SEOCamp
 

Plus de Publicis Sapient Engineering

XebiCon'18 - L'algorithme de reconnaissance de formes par le cerveau humain
XebiCon'18 - L'algorithme de reconnaissance de formes par le cerveau humainXebiCon'18 - L'algorithme de reconnaissance de formes par le cerveau humain
XebiCon'18 - L'algorithme de reconnaissance de formes par le cerveau humainPublicis Sapient Engineering
 
XebiCon'18 - La Web App d'aujourd'hui et de demain : état de l'art et bleedin...
XebiCon'18 - La Web App d'aujourd'hui et de demain : état de l'art et bleedin...XebiCon'18 - La Web App d'aujourd'hui et de demain : état de l'art et bleedin...
XebiCon'18 - La Web App d'aujourd'hui et de demain : état de l'art et bleedin...Publicis Sapient Engineering
 
XebiCon'18 - Des notebook pour le monitoring avec Zeppelin
XebiCon'18 - Des notebook pour le monitoring avec Zeppelin XebiCon'18 - Des notebook pour le monitoring avec Zeppelin
XebiCon'18 - Des notebook pour le monitoring avec Zeppelin Publicis Sapient Engineering
 
XebiCon'18 - Event Sourcing et RGPD, incompatibles ?
XebiCon'18 - Event Sourcing et RGPD, incompatibles ?XebiCon'18 - Event Sourcing et RGPD, incompatibles ?
XebiCon'18 - Event Sourcing et RGPD, incompatibles ?Publicis Sapient Engineering
 
XebiCon'18 - Deno, le nouveau NodeJS qui inverse la tendance ?
XebiCon'18 - Deno, le nouveau NodeJS qui inverse la tendance ?XebiCon'18 - Deno, le nouveau NodeJS qui inverse la tendance ?
XebiCon'18 - Deno, le nouveau NodeJS qui inverse la tendance ?Publicis Sapient Engineering
 
XebiCon'18 - Boostez vos modèles avec du Deep Learning distribué
XebiCon'18 - Boostez vos modèles avec du Deep Learning distribuéXebiCon'18 - Boostez vos modèles avec du Deep Learning distribué
XebiCon'18 - Boostez vos modèles avec du Deep Learning distribuéPublicis Sapient Engineering
 
XebiCon'18 - Comment j'ai développé un jeu vidéo avec des outils de développe...
XebiCon'18 - Comment j'ai développé un jeu vidéo avec des outils de développe...XebiCon'18 - Comment j'ai développé un jeu vidéo avec des outils de développe...
XebiCon'18 - Comment j'ai développé un jeu vidéo avec des outils de développe...Publicis Sapient Engineering
 
XebiCon'18 - Comment fausser l'interprétation de vos résultats avec des dataviz
XebiCon'18 - Comment fausser l'interprétation de vos résultats avec des datavizXebiCon'18 - Comment fausser l'interprétation de vos résultats avec des dataviz
XebiCon'18 - Comment fausser l'interprétation de vos résultats avec des datavizPublicis Sapient Engineering
 
XebiCon'18 - Architecturer son application mobile pour la durabilité
XebiCon'18 - Architecturer son application mobile pour la durabilitéXebiCon'18 - Architecturer son application mobile pour la durabilité
XebiCon'18 - Architecturer son application mobile pour la durabilitéPublicis Sapient Engineering
 
XebiCon'18 - Sécuriser son API avec OpenID Connect
XebiCon'18 - Sécuriser son API avec OpenID ConnectXebiCon'18 - Sécuriser son API avec OpenID Connect
XebiCon'18 - Sécuriser son API avec OpenID ConnectPublicis Sapient Engineering
 
XebiCon'18 - Structuration du Temps et Dynamique de Groupes, Théorie organisa...
XebiCon'18 - Structuration du Temps et Dynamique de Groupes, Théorie organisa...XebiCon'18 - Structuration du Temps et Dynamique de Groupes, Théorie organisa...
XebiCon'18 - Structuration du Temps et Dynamique de Groupes, Théorie organisa...Publicis Sapient Engineering
 
XebiCon'18 - La sécurité, douce illusion même en 2018
XebiCon'18 - La sécurité, douce illusion même en 2018XebiCon'18 - La sécurité, douce illusion même en 2018
XebiCon'18 - La sécurité, douce illusion même en 2018Publicis Sapient Engineering
 
XebiCon'18 - Utiliser Hyperledger Fabric pour la création d'une blockchain pr...
XebiCon'18 - Utiliser Hyperledger Fabric pour la création d'une blockchain pr...XebiCon'18 - Utiliser Hyperledger Fabric pour la création d'une blockchain pr...
XebiCon'18 - Utiliser Hyperledger Fabric pour la création d'une blockchain pr...Publicis Sapient Engineering
 
XebiCon'18 - Ce que l'histoire du métro Parisien m'a enseigné sur la création...
XebiCon'18 - Ce que l'histoire du métro Parisien m'a enseigné sur la création...XebiCon'18 - Ce que l'histoire du métro Parisien m'a enseigné sur la création...
XebiCon'18 - Ce que l'histoire du métro Parisien m'a enseigné sur la création...Publicis Sapient Engineering
 
XebiCon'18 - La guerre des Frameworks n'aura pas lieu
XebiCon'18 - La guerre des Frameworks n'aura pas lieuXebiCon'18 - La guerre des Frameworks n'aura pas lieu
XebiCon'18 - La guerre des Frameworks n'aura pas lieuPublicis Sapient Engineering
 
XebiCon'18 - Orchestration : Conteneurs vs Musique
XebiCon'18 - Orchestration : Conteneurs vs MusiqueXebiCon'18 - Orchestration : Conteneurs vs Musique
XebiCon'18 - Orchestration : Conteneurs vs MusiquePublicis Sapient Engineering
 

Plus de Publicis Sapient Engineering (20)

XebiCon'18 - L'algorithme de reconnaissance de formes par le cerveau humain
XebiCon'18 - L'algorithme de reconnaissance de formes par le cerveau humainXebiCon'18 - L'algorithme de reconnaissance de formes par le cerveau humain
XebiCon'18 - L'algorithme de reconnaissance de formes par le cerveau humain
 
Xebicon'18 - IoT: From Edge to Cloud
Xebicon'18 - IoT: From Edge to CloudXebicon'18 - IoT: From Edge to Cloud
Xebicon'18 - IoT: From Edge to Cloud
 
XebiCon'18 - Modern Infrastructure
XebiCon'18 - Modern InfrastructureXebiCon'18 - Modern Infrastructure
XebiCon'18 - Modern Infrastructure
 
XebiCon'18 - La Web App d'aujourd'hui et de demain : état de l'art et bleedin...
XebiCon'18 - La Web App d'aujourd'hui et de demain : état de l'art et bleedin...XebiCon'18 - La Web App d'aujourd'hui et de demain : état de l'art et bleedin...
XebiCon'18 - La Web App d'aujourd'hui et de demain : état de l'art et bleedin...
 
XebiCon'18 - Des notebook pour le monitoring avec Zeppelin
XebiCon'18 - Des notebook pour le monitoring avec Zeppelin XebiCon'18 - Des notebook pour le monitoring avec Zeppelin
XebiCon'18 - Des notebook pour le monitoring avec Zeppelin
 
XebiCon'18 - Event Sourcing et RGPD, incompatibles ?
XebiCon'18 - Event Sourcing et RGPD, incompatibles ?XebiCon'18 - Event Sourcing et RGPD, incompatibles ?
XebiCon'18 - Event Sourcing et RGPD, incompatibles ?
 
XebiCon'18 - Deno, le nouveau NodeJS qui inverse la tendance ?
XebiCon'18 - Deno, le nouveau NodeJS qui inverse la tendance ?XebiCon'18 - Deno, le nouveau NodeJS qui inverse la tendance ?
XebiCon'18 - Deno, le nouveau NodeJS qui inverse la tendance ?
 
XebiCon'18 - Boostez vos modèles avec du Deep Learning distribué
XebiCon'18 - Boostez vos modèles avec du Deep Learning distribuéXebiCon'18 - Boostez vos modèles avec du Deep Learning distribué
XebiCon'18 - Boostez vos modèles avec du Deep Learning distribué
 
XebiCon'18 - Comment j'ai développé un jeu vidéo avec des outils de développe...
XebiCon'18 - Comment j'ai développé un jeu vidéo avec des outils de développe...XebiCon'18 - Comment j'ai développé un jeu vidéo avec des outils de développe...
XebiCon'18 - Comment j'ai développé un jeu vidéo avec des outils de développe...
 
XebiCon'18 - Comment fausser l'interprétation de vos résultats avec des dataviz
XebiCon'18 - Comment fausser l'interprétation de vos résultats avec des datavizXebiCon'18 - Comment fausser l'interprétation de vos résultats avec des dataviz
XebiCon'18 - Comment fausser l'interprétation de vos résultats avec des dataviz
 
XebiCon'18 - Le développeur dans la Pop Culture
XebiCon'18 - Le développeur dans la Pop Culture XebiCon'18 - Le développeur dans la Pop Culture
XebiCon'18 - Le développeur dans la Pop Culture
 
XebiCon'18 - Architecturer son application mobile pour la durabilité
XebiCon'18 - Architecturer son application mobile pour la durabilitéXebiCon'18 - Architecturer son application mobile pour la durabilité
XebiCon'18 - Architecturer son application mobile pour la durabilité
 
XebiCon'18 - Sécuriser son API avec OpenID Connect
XebiCon'18 - Sécuriser son API avec OpenID ConnectXebiCon'18 - Sécuriser son API avec OpenID Connect
XebiCon'18 - Sécuriser son API avec OpenID Connect
 
XebiCon'18 - Structuration du Temps et Dynamique de Groupes, Théorie organisa...
XebiCon'18 - Structuration du Temps et Dynamique de Groupes, Théorie organisa...XebiCon'18 - Structuration du Temps et Dynamique de Groupes, Théorie organisa...
XebiCon'18 - Structuration du Temps et Dynamique de Groupes, Théorie organisa...
 
XebiCon'18 - Spark NLP, un an après
XebiCon'18 - Spark NLP, un an aprèsXebiCon'18 - Spark NLP, un an après
XebiCon'18 - Spark NLP, un an après
 
XebiCon'18 - La sécurité, douce illusion même en 2018
XebiCon'18 - La sécurité, douce illusion même en 2018XebiCon'18 - La sécurité, douce illusion même en 2018
XebiCon'18 - La sécurité, douce illusion même en 2018
 
XebiCon'18 - Utiliser Hyperledger Fabric pour la création d'une blockchain pr...
XebiCon'18 - Utiliser Hyperledger Fabric pour la création d'une blockchain pr...XebiCon'18 - Utiliser Hyperledger Fabric pour la création d'une blockchain pr...
XebiCon'18 - Utiliser Hyperledger Fabric pour la création d'une blockchain pr...
 
XebiCon'18 - Ce que l'histoire du métro Parisien m'a enseigné sur la création...
XebiCon'18 - Ce que l'histoire du métro Parisien m'a enseigné sur la création...XebiCon'18 - Ce que l'histoire du métro Parisien m'a enseigné sur la création...
XebiCon'18 - Ce que l'histoire du métro Parisien m'a enseigné sur la création...
 
XebiCon'18 - La guerre des Frameworks n'aura pas lieu
XebiCon'18 - La guerre des Frameworks n'aura pas lieuXebiCon'18 - La guerre des Frameworks n'aura pas lieu
XebiCon'18 - La guerre des Frameworks n'aura pas lieu
 
XebiCon'18 - Orchestration : Conteneurs vs Musique
XebiCon'18 - Orchestration : Conteneurs vs MusiqueXebiCon'18 - Orchestration : Conteneurs vs Musique
XebiCon'18 - Orchestration : Conteneurs vs Musique
 

XebiCon'18 - Data Science Done Wrong

  • 1. @Xebiconfr #Xebicon18 Build the future Data Science Done Wrong Les 5 idées reçues qui condamnent votre projet DS à l'échec et les changements de perspectives qui peuvent vous aider à l'éviter Yoann Benoit, Nathan Chauliac Xebia / Thiga 1
  • 2. @Xebiconfr #Xebicon18 Qui sommes-nous ? Yoann Benoit Data Technical Officer Nathan Chauliac Lead Product Manager Data.IA @YoannBENOIT 2 @InnoThiga
  • 3. @Xebiconfr #Xebicon18 3 Corto et le Data Lake perdu
  • 4. @Xebiconfr #Xebicon18 4 Plan initial 6 mois Data Lake Modélisation 1 mois3 mois Industrialisation
  • 5. @Xebiconfr #Xebicon18 5 La réalité 12 mois (en cours) Data Lake 6 mois Data Lake Modélisation 1 mois3 mois Industrialisation Plan initial
  • 6. @Xebiconfr #Xebicon18 6 La réalité 12 mois (en cours) Data Lake 6 mois Data Lake Modélisation 1 mois3 mois 6 mois Modélisation Industrialisation Plan initial
  • 7. @Xebiconfr #Xebicon18 7 La réalité 12 mois (en cours) Data Lake 6 mois Data Lake Modélisation 1 mois Industrialisation 3 mois 6 mois 6 mois Industrialisation 6 mois Modélisation Plan initial
  • 8. @Xebiconfr #Xebicon18 8 La réalité 12 mois (en cours) Data Lake 6 mois Data Lake Modélisation 1 mois Industrialisation 3 mois 6 mois 6 mois Industrialisation 6 mois Modélisation Plan initial
  • 9. @Xebiconfr #Xebicon18 9 La réalité 12 mois (en cours) Data Lake 6 mois Data Lake Modélisation 1 mois Industrialisation 3 mois 6 mois 6 mois Industrialisation 6 mois Idée Reçue 5 Idée Reçue 1Idée Reçue 3Idée Reçue 2 Idée Reçue 4 Modélisation Plan initial
  • 10. @Xebiconfr #Xebicon18 Idée Reçue n°1 Le succès d’un cas d’usage Data Science dépend essentiellement de la performance du modèle 10
  • 11. @Xebiconfr #Xebicon18 11 Ingestion Modélisation Prédiction Utilisateur Activation
  • 12. @Xebiconfr #Xebicon18 12 Ingestion Modélisation Prédiction Utilisateur Activation Performances du modèle Qualité des prédictions du modèle
  • 13. @Xebiconfr #Xebicon18 13 Ingestion Modélisation Prédiction Utilisateur Activation Performances du modèle Performances de l’activation Qualité des prédictions du modèle Capacité à tirer de la valeur des prédictions
  • 14. @Xebiconfr #Xebicon18 14 Ingestion Modélisation Prédiction Utilisateur Activation Performances du modèle Performances du produit Performances de l’activation Qualité des prédictions du modèle Capacité à tirer de la valeur des prédictions Capacité du produit à répondre au besoin
  • 15. @Xebiconfr #Xebicon18 Les deux facteurs de performance de l’activation 15 Interprétabilité Utilisabilité
  • 16. @Xebiconfr #Xebicon18 Interprétabilité 16 Un modèle est interprétable lorsque l’utilisateur est en mesure de comprendre les facteurs et le cheminement logique qui mènent à la prédiction
  • 18. @Xebiconfr #Xebicon18 Utilisabilité 18 Degré selon lequel un produit peut être utilisé pour atteindre des buts définis avec efficacité, efficience et satisfaction
  • 19. @Xebiconfr #Xebicon18 La manière de présenter les résultats doit être IPAP 19 IPAP Intuitif Pratique Actionnable Personnalisé
  • 20. @Xebiconfr #Xebicon18 Idée Reçue n°2 Pour s’assurer de la faisabilité technique d’un cas d’usage, il faut réaliser un POC qui atteint les performances cibles 20
  • 21. @Xebiconfr #Xebicon18 Objectifs d’un POC 21 ➢ Avoir levé toutes les incertitudes sur le Use Case avant de faire un GO sur la mise en production ➢ Avoir un modèle qui atteint les performances cibles
  • 22. @Xebiconfr #Xebicon18 Objectifs d’un POC 22 ➢ Avoir levé toutes les incertitudes sur le Use Case avant de faire un GO sur la mise en production ➢ Avoir un modèle qui atteint les performances cibles POC : 6 mois
  • 23. @Xebiconfr #Xebicon18 Objectifs d’un POC 23 ➢ Avoir levé toutes les incertitudes sur le Use Case avant de faire un GO sur la mise en production ➢ Avoir un modèle qui atteint les performances cibles ➢ Lever les hypothèses les plus critiques qui impliqueraient un échec du projet ➢ Valider la faisabilité technique du Use Case POC : 6 mois
  • 24. @Xebiconfr #Xebicon18 Objectifs d’un POC 24 ➢ Avoir levé toutes les incertitudes sur le Use Case avant de faire un GO sur la mise en production ➢ Avoir un modèle qui atteint les performances cibles ➢ Lever les hypothèses les plus critiques qui impliqueraient un échec du projet ➢ Valider la faisabilité technique du Use Case POC : 6 mois Prototype : 2 semaines
  • 25. @Xebiconfr #Xebicon18 POC -> Prototype 25 POC Prototype
  • 26. @Xebiconfr #Xebicon18 Avantages à réduire drastiquement la durée d’un POC 26 Prototypage rapide Favoriser le Fail Fast Limiter la durée du développement détaché des conditions réelles Éviter les effets tunnel
  • 27. @Xebiconfr #Xebicon18 Que se passe-t-il après ? 27 Finduprototypage
  • 28. @Xebiconfr #Xebicon18 Que se passe-t-il après ? 28 Finduprototypage Concluant Go production !
  • 29. @Xebiconfr #Xebicon18 Que se passe-t-il après ? 29 Finduprototypage Concluant Pas concluant Autres pistes à explorer Prototypage n°2 Go production !
  • 30. @Xebiconfr #Xebicon18 Que se passe-t-il après ? 30 Finduprototypage Concluant Pas concluant Autres pistes à explorer Pas de potentiel Prototypage n°2 Stop Go production !
  • 32. @Xebiconfr #Xebicon18 Idée Reçue n°3 La meilleure organisation possible, c’est d’avoir deux équipes : une équipe de Data Scientists et une équipe de Data Engineers 32
  • 33. @Xebiconfr #Xebicon18 Les profils Data 33 Data Scientist Data Engineer Murdel’incompréhension
  • 34. @Xebiconfr #Xebicon18 Les profils Data 34 Data Scientist orienté mathématiques Data Engineer pur Back-end Machine Learning Engineer
  • 35. @Xebiconfr #Xebicon18 Ce qui a longtemps été vu comme l’équipe idéale 35 Data Scientist orienté mathématiques Data Engineer pur Back-end Machine Learning Engineer
  • 36. @Xebiconfr #Xebicon18 Ce que l’on s’est résolu à faire 36 Data Scientist orienté mathématiques Data Engineer pur Back-end Data Scientist Team Data Engineer Team
  • 37. @Xebiconfr #Xebicon18 Ce que l’expérience révèle comme l’équipe idéale 37 Data Scientist orienté mathématiques Data Engineer pur Back-end Machine Learning Engineer
  • 38. @Xebiconfr #Xebicon18 Product Team A la product Team 38 Product Owner Profils Data
  • 39. @Xebiconfr #Xebicon18 Product Team A la product Team 39 Product Owner Profils Data Data Ops, Sécurité, Dev Front-End
  • 40. @Xebiconfr #Xebicon18 Product Team A la product Team 40 Product Owner Profils Data Data Ops, Sécurité, Dev Front-End Développements orientés valeur utilisateur Pair programming / Pair Review croisés Une story est terminée quand elle est en production et qu’elle apporte de la valeur à l’utilisateur
  • 41. @Xebiconfr #Xebicon18 Idée Reçue n°4 Ajouter les contraintes de production fait perdre du temps dans l’innovation et l’amélioration des modèles 41
  • 42. @Xebiconfr #Xebicon18 Les propriétés d’une bonne Usine Logicielle Data Science Une Usine Logicielle Data Science doit permettre de faire bénéficier l’équipe d’une mise en production rapide, tout en favorisant l’amélioration et l’innovation. Elle doit donc allier : ➢ Robustesse pour s’assurer de la qualité sans compromis des développements faits ➢ Souplesse pour faciliter le travail itératif et l’ajout incrémental de complexité 42
  • 43. @Xebiconfr #Xebicon18 Usine Logicielle Data Science 43 Industrialisation Déploiement / Mise en Production Monitoring
  • 44. @Xebiconfr #Xebicon18 Usine Logicielle Data Science 44 Exploration Industrialisation Déploiement / Mise en Production Monitoring Usine Logicielle
  • 45. @Xebiconfr #Xebicon18 Usine Logicielle Data Science 45 Réutiliser les briques industrialisées pour accélérer l’exploration ➢ Création d’une librairie interne ➢ Réutilisation des classes de transformation packagées
  • 46. @Xebiconfr #Xebicon18 Usine Logicielle Data Science 46 Optimiser le choix et la comparaison des modèles ➢ Serving du modèle à penser dès le départ (on-demand ? batch ? streaming ?) ➢ Model repository ➢ Capacité à relancer l’expérience dans les mêmes conditions
  • 47. @Xebiconfr #Xebicon18 Usine Logicielle Data Science 47 ➢ Monitoring des performances (globales et locales) du/des modèle(s) ○ Priorisation des prochains développements ➢ Monitoring de la qualité des données et des features ○ Contrôle de la chaîne de traitement
  • 48. @Xebiconfr #Xebicon18 Idée Reçue n°5 Le sujet est tellement critique qu’on ne peut pas utiliser le produit en conditions réelles si les performances cibles ne sont pas atteintes 48
  • 49. @Xebiconfr #Xebicon18 49 Comment faire un MVP en Data Science ? Comment tester en conditions réelles lorsque la solution est critique ?
  • 50. @Xebiconfr #Xebicon18 50 Le MVP en Data Science
  • 51. @Xebiconfr #Xebicon18 Prototype vs MVP 51 MVP (Minimum Viable Product) Amont à la réalisation et jetable Étapes critiques uniquement N’est pas utilisable en conditions réelles Permet de vérifier les hypothèses en récupérant des retours utilisateurs Première brique du produit cible Propose un parcours simple mais complet Est utilisé en conditions réelles Permet de vérifier les hypothèses en récupérant des retours utilisateurs Prototype
  • 52. @Xebiconfr #Xebicon18 L’approche traditionnelle 52 Ingestion et préparation des données Activation Etape 1 Etape 2 Etape 3 Modélisation
  • 53. @Xebiconfr #Xebicon18 L’approche MVP 53 Ingestion et préparation des données Activation Etape 1 Modélisation
  • 54. @Xebiconfr #Xebicon18 54 Ingestion et préparation des données Activation Modélisation Priorisation Récolte de feedbacks L’approche MVP Etape 1
  • 55. @Xebiconfr #Xebicon18 55 Ingestion et préparation des données Activation Modélisation Priorisation Récolte de feedbacks Etape 2+ Ingestion de nouvelles données Amélioration itérative du modèle Amélioration de l’activation L’approche MVP Etape 1
  • 56. @Xebiconfr #Xebicon18 56 Tests en conditions critiques
  • 57. @Xebiconfr #Xebicon18 Comment tester en conditions réelles lorsque la solution est critique ? 57 Solution 1: Restreindre le périmètre Prédire les ventes de tous les produits d’une chaîne de magasins Périmètre cible
  • 58. @Xebiconfr #Xebicon18 Comment tester en conditions réelles lorsque la solution est critique ? 58 Solution 1: Restreindre le périmètre Prédire les ventes de tous les produits d’une chaîne de magasins Périmètre cible Certains produits Certains magasins Périmètre Test 1 Périmètre Test 2
  • 59. @Xebiconfr #Xebicon18 Comment tester en conditions réelles lorsque la solution est critique ? 59 Solution 1: Restreindre le périmètre Échantillon représentatif Bonnes performances du modèle Mauvaises performances actuelles Prédire les ventes de tous les produits d’une chaîne de magasins Périmètre cible Certains produits Certains magasins Périmètre Test 1 Périmètre Test 2
  • 60. @Xebiconfr #Xebicon18 Comment tester en conditions réelles lorsque la solution est critique ? 60 Field Museum is a must see in Chicago, here is the adress... People rave about Mobster diner, do you want me to take a reservation ? Type here another message Solution 2 : Garder une activation manuelle
  • 62. @Xebiconfr #Xebicon18 62 Corto 2.0 2 semaines 2 semaines Activation Prototype MVP 6 semaines Ad Libitum Améliorations itératives Ingestion de nouvelles données Amélioration itérative du modèle Amélioration de l’activation