SlideShare une entreprise Scribd logo
1  sur  44
Le Metier de
Data Scientist
Thomas Delecroix - 2016
Le métier de Data Scientist
Thomas Delecroix 2016
Les origines du Data Scientist
Les compétences du Data Scientist
Le Data Scientist dans l’organisation
Le Workflow du Data Scientist
Résumé
Les origines du Data Scientist
Le métier de Data Scientist
Les origines du Data Scientist
• Statisticien ?
• Informaticien ?
• Ingénieur ?
• Analyste ?
Tous exploitent les données…
Alors le Data Scientist,
qu’est-ce que c’est ?
Thomas Delecroix 2016
Les origines du Data Scientist
Thomas Delecroix 2016
Évolution de l'intérêt pour le terme « Data Scientist »
Thomas Delecroix 2016
Source :
Au 11/02/2016
2012 : « Data Scientist : The Sexiest Job of the 21st Century »
Les compétences du Data Scientist
Le métier de Data Scientist
Compétences du Data Scientist
Thomas Delecroix 2016
MATHS & STATS
☆ Machine Learning
☆ Modélisation statistique
☆ Plan d'expérience
☆ Inférence bayésienne
☆ Apprentissage supervisé :
arbres de décision , forêt
aléatoire , la régression
logistique
☆ Apprentissage non
supervisé : classification,
réduction de dimensions
☆ Optimisation : algorithme
du gradient et variantes
PROGRAMMATION & BASES DE
DONNEES
☆ Fondamentaux d'informatique
☆ Langage de script par exemple Python
☆ Packages de calcul statistique (ex : R)
☆ Bases de données: SQL et NoSQL
☆ Algèbre relationnelle
☆ Bases de données parallèles et
traitement des requêtes parallèles
☆ Concepts MapReduce
☆ Reducer personnalisés
☆ Hadoop et Hive/Pig
☆ Expérience avec xaaS comme AWS
DOMAINE DE
CONNAISSANCES &
QUALITES HUMAINES
☆ Passionné par l'entreprise
☆ Curieux sur les données
☆ Persuasif & convainquant
☆ Hacker dans l’âme
☆ Résolveur de problèmes
☆ Stratégique, proactive,
créatif, innovant et
collaboratif
COMMUNICATION & VISUALISATION
☆ Apte à coopérer avec les managers seniors
☆ Compétences en story telling
☆ Traduire des concepts pilotés par les données en
décisions et actions
☆ Design visuel
☆ Packages R comme ggplot ou lattice
☆ La connaissance d’un outil de visualisation
comme Flare, d3.js ou Tableau
Expertise
mathématique
Sens du Business
& de la stratégie
Compétences
en « Hacking »
DATA
SCIENCE
Dimension mathématique & statistique
• Niveau de signification, correction de biais, calcul de probabilités
• Algo prédictifs, clustering
• Quelle différence entre statisticien et Data Scientist ?
Thomas Delecroix 2016
“Il déniche de nouvelles sources de données : Open Data, API
tierces, données payantes, logs, etc… ”
Dimension technologique/informatique
• Excel, BO, SAS… OK mais pas suffisant
• Programmer afin de s’affranchir des limites logicielles
• Plusieurs langages
• Passage à l’échelle (scaling)
• Machines et leurs limites
• Parallélisations de traitements (cluster)
• Notions d’optimisation
Thomas Delecroix 2016
Dimension technologique/informatique
Thomas Delecroix 2016
“Le Data Scientist ne connaîtra pas tous les rouages d’un langage, il
relève plus d’un hacker, c’est à dire qu’il aura tendance à bricoler, à
prototyper, à se débrouiller pour obtenir ce qu’il veut, coûte que coûte ”
• L’écosystème Big Data & Data Science est en cours de construction, il
faudra donc jongler en permanence entre les différents langages
• Tout cela motive ce profil de « bidouilleur » et de « détective » qui
doit arriver à ses fins au détriment de la manière ou des conventions
Dimension Business
• Comprendre le business, analyser les enjeux
commerciaux/risques de son secteur
• Comprendre les subtilités
• Construire des applications « data products » ,
prototyper rapidement & expérimenter en mode
agile
• Tourné vers l’action et non sur une étude
ponctuelle
• Bonne communication (graphique, présentations
dynamiques, animations, story teller)
• Collaboration avec les managers & décideurs
Thomas Delecroix 2016
Alors, mouton à 5 pattes ?
« Non ce ne sont pas des licornes, ce ne sont ni des intellectuels, ni des thésards
qui ont échoués mais tout simplement des personnes avec des compétences en
statistiques acquises au cours de leur parcours scolaire. Ils utilisent Hadoop, des
modèles prédictifs et des graphes et c’est généralement ce qui les distingue des
analystes BI. Enfin, ils ont pour objectif de créer des applications métiers. Les
modèles prédictifs et les technologies qu’ils utilisent sont en
permanente évolution, ce qui les amène à travailler sur un
mode proche de celui de chercheurs en sciences
expérimentales, par élaborations successives de
prototypes, donnant parfois la fausse impression de se
faire plaisir avec les dernières technologies en vogue. »
Thomas Delecroix 2016
James Kobielus, Big Data Evangelist chez IBM :
Le Data Scientist dans l’organisation
Le métier de Data Scientist
Recrutement & Formation
•Qui ?
Thomas Delecroix 2016
•Quel cursus ? •Où ? •Qualité ?
Recrutement ?
• Data scientist superstar : trop cher donc constitution d’une équipe pluridisciplinaire,
c’est le Data Lab
• Il s’agit d’1 ou +ieurs équipes selon la taille de l’entreprise, travaillant en mode agile
sur des projets stratégiques, innovants et créateurs de valeur pour l’entreprise à
court et moyen terme (Quick Win)
• Ce sont des
• Architectes logiciels : conception de systèmes prédictifs
• Analystes métiers : identification des use case
• Data scientist : optimisation de processus d’apprentissage automatiques et conception des
modèles prédictifs
• Développeurs back/front : réalisation des systèmes conçus par les architectes et data scientists
• Designers web : représentations graphiques dynamiques des résultats d’analyses
Thomas Delecroix 2016
L’échec doit être envisagé comme une étape normale et inévitable de
l’acquisition de connaissance par l’expérimentation
Le Data Lab
Thomas Delecroix 2016
Il ne faut pas sous-estimer l’importance des qualités humaines
Rattachement du Data Lab dans l’organisation
Thomas Delecroix 2016
• Idéal : rattachement transverse à l’orga
• Risque : inopérant & sans pouvoir réel
sur l’orientation stratégique des métiers
• Important : adhésion des métiers pour
tester les prototypes innovants dans des
conditions réelles
Data Lab
Département
Métier IT
Innovation
Organisation
Le Data Lab doit être sponsorisé auprès du comité exécutif. Le rôle du Data Chief Officer
est précisément de faciliter le déploiement des innovations à toute l’entreprise
Le Workflow du Data Scientist
Le métier de Data Scientist
Workflow
Thomas Delecroix 2016
Imaginer un produit
Collecter les données
Préparer les données
Modélisation
Visualisation
Optimisation
Industrialisation
• Besoin / opportunité métier => formulation plus rigoureuse
potentiellement implémentable dans un modèle prédictif
• Penser produit c’est se demander ce que l’on veut impacter au
niveau des métiers ?
=> la/les variable(s) cible(s) souvent novatrice.
=> variables prédictives grâce à la connaissance des
métiers et du marketing sur nos clients.
=> comment mesurer le succès d’une prédiction ?
Thomas Delecroix 2016
Imaginer un produit ou un service
Thomas Delecroix 2016
Imaginer un produit ou un service
Collecter les données
Thomas Delecroix 2016
Disponibilité des données ?
Thomas Delecroix 2016
Collecter les données
Qualité des données ?
Thomas Delecroix 2016
Collecter les données
Techniques ?
Thomas Delecroix 2016
Collecter les données
Enjeux politiques ? Enjeux juridiques ?
Préparation des données
Thomas Delecroix 2016
Homogénéiser
Nettoyer
Mise à l’échelle
Croisement
Thomas Delecroix 2016
Modélisation
« Better data outweighs clever maths »
Feature ingineering
Visualisation
Thomas Delecroix 2016
Une image
vaut
mille mots
Thomas Delecroix 2016
Visualisation avec les Web’dev
Thomas Delecroix 2016
Visualisation avec les métiers
Thomas Delecroix 2016
Visualisation avec ses clients
Thomas Delecroix 2016
Visualisation avec ses pairs
Thomas Delecroix 2016
Optimisation
Thomas Delecroix 2016
Thomas Delecroix 2016
Déploiement
Scaling
Industrialisation
Déploiement
Thomas Delecroix 2016
Thomas Delecroix 2016
Quelques « Succès story » de Data Scientist
En résumé
Le métier de Data Scientist
Le métier de Data Scientist
Plusieurs facettes
Mise en place d’un Data Lab : le Data
Scientist polycéphale
3 activités principales :
Conception de services prédictifs innovants
Conception de prototypes de services
prédictifs.
Conseil auprès des équipes métiers
Thomas Delecroix 2016
Thomas Delecroix 2016
http://thomasdelecroix.com/
Bonus
Le métier de Data Scientist
Recrutement & Formation
Thomas Delecroix 2016
Formations professionnelles :
• Certains ont des catalogues de formations
bien étoffés mais…
• Il faut pouvoir mettre activement cet
apprentissage en pratique
• Participer à des concours de Data Science
est le meilleur moyen
• L’autoformation est une brique du métier
pour rester constemment à jour, on peut la
réaliser grâce à de nombreux MOOC comme
openclassrooms, Coursera, edX
• Cours de référence : « L’apprentissage
automatique » de Andrew Ng de l’université
de Standford
Filières académiques :
• Telecom ParisTech (master Spécialisé Big Data)
• Université Pierre et Marie Curie (filière Big
Data du Master de Mathéatiques et
Applications)
• ENSAE : spécialisation Data science
• ENSAI : master Big Data
• ENS Cachan : M2 MVA Mathématiques /
Vision / Apprentissage
• Polytech Lille génie informatique et statistique
• Lille 1 : Master Ingénierie Statistique et
Numérique)
Lien vers le site web de la société >
Thomas Delecroix 2016

Contenu connexe

En vedette

Exercices corrigés de mathématiques financières
Exercices corrigés de mathématiques financièresExercices corrigés de mathématiques financières
Exercices corrigés de mathématiques financièreseri8p7f4ku
 
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Jean-Pierre Riehl
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIsmail CHAIB
 
Fiche e-commerce Frenchweb | mai 2016
Fiche e-commerce Frenchweb | mai 2016Fiche e-commerce Frenchweb | mai 2016
Fiche e-commerce Frenchweb | mai 2016FrenchWeb.fr
 
Una flor para cada día
Una flor para cada díaUna flor para cada día
Una flor para cada díagloria
 
España es diferente
España es diferenteEspaña es diferente
España es diferentecentrowebs
 
Jenny Mc Gowan Project 1 French 051
Jenny Mc Gowan Project 1 French 051Jenny Mc Gowan Project 1 French 051
Jenny Mc Gowan Project 1 French 051Jenny McGowan
 
Pinturas en 3D en las calles
Pinturas en 3D en las callesPinturas en 3D en las calles
Pinturas en 3D en las callescentrowebs
 
Problemas con el ordenador
Problemas con el ordenadorProblemas con el ordenador
Problemas con el ordenadorcentrowebs
 

En vedette (20)

Exercices corrigés de mathématiques financières
Exercices corrigés de mathématiques financièresExercices corrigés de mathématiques financières
Exercices corrigés de mathématiques financières
 
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniques
 
Fiche e-commerce Frenchweb | mai 2016
Fiche e-commerce Frenchweb | mai 2016Fiche e-commerce Frenchweb | mai 2016
Fiche e-commerce Frenchweb | mai 2016
 
Qui peut utiliser VKS?
Qui peut utiliser VKS?Qui peut utiliser VKS?
Qui peut utiliser VKS?
 
La gouvernance des données
La gouvernance des donnéesLa gouvernance des données
La gouvernance des données
 
Expo Vih
Expo VihExpo Vih
Expo Vih
 
Industria De La Moda
Industria De La ModaIndustria De La Moda
Industria De La Moda
 
Una flor para cada día
Una flor para cada díaUna flor para cada día
Una flor para cada día
 
Grans Construccions
Grans ConstruccionsGrans Construccions
Grans Construccions
 
Elémentaire
ElémentaireElémentaire
Elémentaire
 
España es diferente
España es diferenteEspaña es diferente
España es diferente
 
Cosmo
CosmoCosmo
Cosmo
 
Diaporama journée homère ENS 2011
Diaporama journée homère ENS 2011Diaporama journée homère ENS 2011
Diaporama journée homère ENS 2011
 
Jenny Mc Gowan Project 1 French 051
Jenny Mc Gowan Project 1 French 051Jenny Mc Gowan Project 1 French 051
Jenny Mc Gowan Project 1 French 051
 
Jacek Yerka
Jacek YerkaJacek Yerka
Jacek Yerka
 
Comparaison Antimines
Comparaison AntiminesComparaison Antimines
Comparaison Antimines
 
Gondomar
GondomarGondomar
Gondomar
 
Pinturas en 3D en las calles
Pinturas en 3D en las callesPinturas en 3D en las calles
Pinturas en 3D en las calles
 
Problemas con el ordenador
Problemas con el ordenadorProblemas con el ordenador
Problemas con el ordenador
 

Le métier de data scientist // The job of data scientist

  • 1. Le Metier de Data Scientist Thomas Delecroix - 2016
  • 2. Le métier de Data Scientist Thomas Delecroix 2016 Les origines du Data Scientist Les compétences du Data Scientist Le Data Scientist dans l’organisation Le Workflow du Data Scientist Résumé
  • 3. Les origines du Data Scientist Le métier de Data Scientist
  • 4. Les origines du Data Scientist • Statisticien ? • Informaticien ? • Ingénieur ? • Analyste ? Tous exploitent les données… Alors le Data Scientist, qu’est-ce que c’est ? Thomas Delecroix 2016
  • 5. Les origines du Data Scientist Thomas Delecroix 2016
  • 6. Évolution de l'intérêt pour le terme « Data Scientist » Thomas Delecroix 2016 Source : Au 11/02/2016 2012 : « Data Scientist : The Sexiest Job of the 21st Century »
  • 7. Les compétences du Data Scientist Le métier de Data Scientist
  • 8. Compétences du Data Scientist Thomas Delecroix 2016 MATHS & STATS ☆ Machine Learning ☆ Modélisation statistique ☆ Plan d'expérience ☆ Inférence bayésienne ☆ Apprentissage supervisé : arbres de décision , forêt aléatoire , la régression logistique ☆ Apprentissage non supervisé : classification, réduction de dimensions ☆ Optimisation : algorithme du gradient et variantes PROGRAMMATION & BASES DE DONNEES ☆ Fondamentaux d'informatique ☆ Langage de script par exemple Python ☆ Packages de calcul statistique (ex : R) ☆ Bases de données: SQL et NoSQL ☆ Algèbre relationnelle ☆ Bases de données parallèles et traitement des requêtes parallèles ☆ Concepts MapReduce ☆ Reducer personnalisés ☆ Hadoop et Hive/Pig ☆ Expérience avec xaaS comme AWS DOMAINE DE CONNAISSANCES & QUALITES HUMAINES ☆ Passionné par l'entreprise ☆ Curieux sur les données ☆ Persuasif & convainquant ☆ Hacker dans l’âme ☆ Résolveur de problèmes ☆ Stratégique, proactive, créatif, innovant et collaboratif COMMUNICATION & VISUALISATION ☆ Apte à coopérer avec les managers seniors ☆ Compétences en story telling ☆ Traduire des concepts pilotés par les données en décisions et actions ☆ Design visuel ☆ Packages R comme ggplot ou lattice ☆ La connaissance d’un outil de visualisation comme Flare, d3.js ou Tableau Expertise mathématique Sens du Business & de la stratégie Compétences en « Hacking » DATA SCIENCE
  • 9. Dimension mathématique & statistique • Niveau de signification, correction de biais, calcul de probabilités • Algo prédictifs, clustering • Quelle différence entre statisticien et Data Scientist ? Thomas Delecroix 2016 “Il déniche de nouvelles sources de données : Open Data, API tierces, données payantes, logs, etc… ”
  • 10. Dimension technologique/informatique • Excel, BO, SAS… OK mais pas suffisant • Programmer afin de s’affranchir des limites logicielles • Plusieurs langages • Passage à l’échelle (scaling) • Machines et leurs limites • Parallélisations de traitements (cluster) • Notions d’optimisation Thomas Delecroix 2016
  • 11. Dimension technologique/informatique Thomas Delecroix 2016 “Le Data Scientist ne connaîtra pas tous les rouages d’un langage, il relève plus d’un hacker, c’est à dire qu’il aura tendance à bricoler, à prototyper, à se débrouiller pour obtenir ce qu’il veut, coûte que coûte ” • L’écosystème Big Data & Data Science est en cours de construction, il faudra donc jongler en permanence entre les différents langages • Tout cela motive ce profil de « bidouilleur » et de « détective » qui doit arriver à ses fins au détriment de la manière ou des conventions
  • 12. Dimension Business • Comprendre le business, analyser les enjeux commerciaux/risques de son secteur • Comprendre les subtilités • Construire des applications « data products » , prototyper rapidement & expérimenter en mode agile • Tourné vers l’action et non sur une étude ponctuelle • Bonne communication (graphique, présentations dynamiques, animations, story teller) • Collaboration avec les managers & décideurs Thomas Delecroix 2016
  • 13. Alors, mouton à 5 pattes ? « Non ce ne sont pas des licornes, ce ne sont ni des intellectuels, ni des thésards qui ont échoués mais tout simplement des personnes avec des compétences en statistiques acquises au cours de leur parcours scolaire. Ils utilisent Hadoop, des modèles prédictifs et des graphes et c’est généralement ce qui les distingue des analystes BI. Enfin, ils ont pour objectif de créer des applications métiers. Les modèles prédictifs et les technologies qu’ils utilisent sont en permanente évolution, ce qui les amène à travailler sur un mode proche de celui de chercheurs en sciences expérimentales, par élaborations successives de prototypes, donnant parfois la fausse impression de se faire plaisir avec les dernières technologies en vogue. » Thomas Delecroix 2016 James Kobielus, Big Data Evangelist chez IBM :
  • 14. Le Data Scientist dans l’organisation Le métier de Data Scientist
  • 15. Recrutement & Formation •Qui ? Thomas Delecroix 2016 •Quel cursus ? •Où ? •Qualité ?
  • 16. Recrutement ? • Data scientist superstar : trop cher donc constitution d’une équipe pluridisciplinaire, c’est le Data Lab • Il s’agit d’1 ou +ieurs équipes selon la taille de l’entreprise, travaillant en mode agile sur des projets stratégiques, innovants et créateurs de valeur pour l’entreprise à court et moyen terme (Quick Win) • Ce sont des • Architectes logiciels : conception de systèmes prédictifs • Analystes métiers : identification des use case • Data scientist : optimisation de processus d’apprentissage automatiques et conception des modèles prédictifs • Développeurs back/front : réalisation des systèmes conçus par les architectes et data scientists • Designers web : représentations graphiques dynamiques des résultats d’analyses Thomas Delecroix 2016
  • 17. L’échec doit être envisagé comme une étape normale et inévitable de l’acquisition de connaissance par l’expérimentation Le Data Lab Thomas Delecroix 2016 Il ne faut pas sous-estimer l’importance des qualités humaines
  • 18. Rattachement du Data Lab dans l’organisation Thomas Delecroix 2016 • Idéal : rattachement transverse à l’orga • Risque : inopérant & sans pouvoir réel sur l’orientation stratégique des métiers • Important : adhésion des métiers pour tester les prototypes innovants dans des conditions réelles Data Lab Département Métier IT Innovation Organisation Le Data Lab doit être sponsorisé auprès du comité exécutif. Le rôle du Data Chief Officer est précisément de faciliter le déploiement des innovations à toute l’entreprise
  • 19. Le Workflow du Data Scientist Le métier de Data Scientist
  • 20. Workflow Thomas Delecroix 2016 Imaginer un produit Collecter les données Préparer les données Modélisation Visualisation Optimisation Industrialisation
  • 21. • Besoin / opportunité métier => formulation plus rigoureuse potentiellement implémentable dans un modèle prédictif • Penser produit c’est se demander ce que l’on veut impacter au niveau des métiers ? => la/les variable(s) cible(s) souvent novatrice. => variables prédictives grâce à la connaissance des métiers et du marketing sur nos clients. => comment mesurer le succès d’une prédiction ? Thomas Delecroix 2016 Imaginer un produit ou un service
  • 22. Thomas Delecroix 2016 Imaginer un produit ou un service
  • 23. Collecter les données Thomas Delecroix 2016 Disponibilité des données ?
  • 24. Thomas Delecroix 2016 Collecter les données Qualité des données ?
  • 25. Thomas Delecroix 2016 Collecter les données Techniques ?
  • 26. Thomas Delecroix 2016 Collecter les données Enjeux politiques ? Enjeux juridiques ?
  • 27. Préparation des données Thomas Delecroix 2016 Homogénéiser Nettoyer Mise à l’échelle Croisement
  • 28. Thomas Delecroix 2016 Modélisation « Better data outweighs clever maths » Feature ingineering
  • 38. Thomas Delecroix 2016 Quelques « Succès story » de Data Scientist
  • 39. En résumé Le métier de Data Scientist
  • 40. Le métier de Data Scientist Plusieurs facettes Mise en place d’un Data Lab : le Data Scientist polycéphale 3 activités principales : Conception de services prédictifs innovants Conception de prototypes de services prédictifs. Conseil auprès des équipes métiers Thomas Delecroix 2016
  • 42. Bonus Le métier de Data Scientist
  • 43. Recrutement & Formation Thomas Delecroix 2016 Formations professionnelles : • Certains ont des catalogues de formations bien étoffés mais… • Il faut pouvoir mettre activement cet apprentissage en pratique • Participer à des concours de Data Science est le meilleur moyen • L’autoformation est une brique du métier pour rester constemment à jour, on peut la réaliser grâce à de nombreux MOOC comme openclassrooms, Coursera, edX • Cours de référence : « L’apprentissage automatique » de Andrew Ng de l’université de Standford Filières académiques : • Telecom ParisTech (master Spécialisé Big Data) • Université Pierre et Marie Curie (filière Big Data du Master de Mathéatiques et Applications) • ENSAE : spécialisation Data science • ENSAI : master Big Data • ENS Cachan : M2 MVA Mathématiques / Vision / Apprentissage • Polytech Lille génie informatique et statistique • Lille 1 : Master Ingénierie Statistique et Numérique)
  • 44. Lien vers le site web de la société > Thomas Delecroix 2016

Notes de l'éditeur

  1. En 2008 Au début le temre « Data Scientist » a été inventé lors d’une converstion privé entre DJ et Jeff DJ Patil à Gauche (à l’époque LinkedIn) aujourd’hui « U.S. Chief Data Scientist » au bureau de Politique des sciences et technologies de la Maison Blanche  Jeff Hammerbacher (à l’époque Facebook) aujourd’hui « Fondateur & Chief Scientist » chez Cloudera Pour info, ces deux là ont été classé 2ième au classement «  the most powerfull Data Scientist »  du magazine forbes
  2. Le buzz word Data Scientist
  3. Le travail le plus sexy du 21ième siècle nécessite un mélange de compétences pluridisciplinaires à la confluence des mathématiques , des statistiques , de l'informatique , de la com’ et du business. Trouver un Data Scientist est difficile . Trouver des personnes qui comprennent ce qu’est un Data Scientist, est tout aussi difficile . Voici donc un mémo​de ce qu’est vraiment un Data Scientist moderne
  4. Une des différence entre un statisticien et un data scientist dans son acceptation moderne est que… Le Data Scientist accorde moins d’importance à la pureté statistique d’un indicateur ou d’un algorithme qu’à son utilité Business A ce stade la créativité et la curiosité sont essentielles pour incorporer les bons facteurs dans un modèle et pour partir à lan chasse aux données endogènes
  5. 1)C’est içi que le terme scientist prend tout son sens… 2)Les contraintes 3V l’amène à devoir utiliser un éventail de technologies et de languages de programmation bien plus vaste que par le passé 3) Récupérer maîtrisés pour récupérer, agréger, nettoyer, transformer, prototyper et modéliser. PHP pour scraping Agréger : SQL 3) Familier des problématiques de Néttoyer : Bash/Shell Transformer : Python/Ruby Prototyper : ? Modéliser : Python, C++ (Hadoop, Spark, Python) 6) Hadoop, Grid 7) pour les temps de calculs
  6. Alors, en quoi est-il différent des informaticiens ? Google est mon amis Adepte de openclass rooms (ancien site du zéro)
  7. Beaucoup d’attente de la part de ce nouveau métier 2) pour en extraire les informations pertinentes pour son entreprise 3) pour obtenir un feedback rapide des utilisateurs Exemple : Un système de recommandation de produit n’a pas de raison d’être s’il demeure à l’état expérimentation interne, il faut le confronter au client, le lancer en production et l’améliorer en temps réel 4) La complexité des données manipulées implique une bonne communication et un esprit de synthèse pour convaincre ses collaborateurs et son management de la pertinence de ses analyses (graphique, présentations dynamiques, animations => story telling) 5)Aide à la décision
  8. Ce sont des hommes, des femmes, ayant un Background Statistique, ce sont des utilisateurs curieux des nouvelles technologies informatiques qui veulent profondément améliorer les métiers avec et pour eux. Ils travaillent dans un environnement mouvant, expérimental, à la pointe de la technologie ce qui donne la fausse impression d’être testeur de nouveaux gadgets
  9. 2) Nouveau métier donc profils rares : Connaissez-vous une personne qui a 10 années d’expérience sur Hadoop ou en NoSQL Formations & diplômes sous-dimensionnés mais Il est possible de se former à Hadoop, à des méthodes stats ou des langages (R ou Python par exemple) Concours et/ou reconversions (DBA, développeurs, BI, Web’A) 3)  L’imagination est plus importante que le savoir » - A. Einstein. (Kaggle.com, datascience.net)
  10. Ils sont tous data scientist, le data scientist du point 2 est à prendre au sens strict
  11. curiosité, sociabilité, enthousiasme à l’idée de quitter les sentiers battus Prérequis indispensables : Large autonomie technique (administrateur de sa machine pour installer des composants sans avoir de lourds processus de validation) Favoriser les échanges et la réutilisation de code Conditions de travail : créativité individuelle & échange d’idées (espace production calme & espace brainstorming Instaurer une culture de l’expérimentation et du prototypage plutôt que de créer des planifications détaillées/ des gestions lourdes de projets en décalage avec les projets IT innovants.
  12. De cette question vont découler les… On peut citer le churn/attrition sur un service : La variable cible « le client se désabonne » se transforme en « A partir de quand un client se désintéresse d’un service ? » combinaison de différentes données parfois inexploitées pour leur conférer de la valeur ajoutée test, seuil, efficacité, ROI
  13. Le management doit savoir que l’élaboration d’un modèle prédictif implique de travailler sur un mode expérimental et qu’une grande part du code développé sera jetable (Un leader c’est quelqu’un qui montre ce qu’il est possible de faire) La réticence du management à abandonner les démarches traditionnelles, rigoureusement et planifiées au profit d’une approche plus agile et plus expérimentale de l’IT qui n’est que la contrepartie de l’innovation authentique, reste à l’heure actuelle l’un des principaux freins aux projet de data science
  14. Volume suffisant ? Quel coût ? Peut-on en acheter? (organisme tiers, recensement, etc…)
  15. Précision suffisante ? Sources d’erreurs ? Correction ? Y’a-t-’il un biais ? Représentativité des données ? Richesse des données ? Rareté de l’évènement à prédire ?
  16. Formats ? Technologies utilisées ? CSV, DB, fichier plats, XML, log, Hadoop transaction et log web par exemple Compétences des personnes ?
  17. Enjeux informatiques : Réticences de l’IT à ouvrir les accès par souci de stabilité des applications Enjeux politiques : Données libres de droit ? Législation ? Lieu de stockage géographique des données ? (vie privée, désanonymisation)
  18. Homogénéiser les formats des différentes sources & Différentes unités Nettoyer les données pour supprimer les enregistrements comportant des données manquantes ou les combler avec des estimations ou les combler avec des sources tierces Mise à l’échelle Croisement de données
  19. Choix d’un nombre restreint de variables prédictives Feature engineering : utilisation de l’expertise métier pour imaginer de nouvelles variables prédictives. Le feature engineering fait appelle à la créativité et la connaissance métier des data scientist => partie noble et grtifiante de leur métier en contraste avec la préparation de données, brainstorming Potentiellement réduction dimensionnelle Choix de l’algorithme d’apprentissage selon le type de variable cible, Analyse factorielle, Random forest Modèle paramétrique ou non ? l’intuition et l’expérience sont de mise. Identification d’un problème à un autre sur lequel la méthode a fait ses preuves Apprentissage « on line » ou d’apprentissage statique ? Enrichissement permanent en fonction de l’accroissement du volume des données ou données figées
  20. La visualisation intervient à toute les étapes. De l’étude d’opportunité au retour sur investissement en passant par la récolte et l’analyse. Elle est au service de la communication et de la pédagogie Il faut par conséquent l’adapter à notre publique
  21. Avec les web’dev : vocabulaire technique HTML5, JavaScript, D3.JS D3 est une synthèse de l’ensemble des langages que nous devons aborder avec les web developpers, il synthétise HTML5, CSS3, Javascript, Jquery, SVG
  22. Avec les utilisateurs métiers nous utiliserons des plutôt des graphiques statiques ou dynamiques pour le développement d’application back office
  23. Avec les clients, il faut penser produit pour développer une application front office. Customer centric Plus que de l’interface homme-machine appelée UI, il faudra prendre en compte une dimension « UX », acronymie de User Experience est centré sur le l’utilisateur et son utilisation par son feedback Ex système de recommandation de produits, de parrainage, de lien social
  24. Avec ses pairs, graphs technique (corrélation, ROC, des représentations graphiques de random forest etc…)
  25. Monté en complexité de manière incrémentale et en accord avec les parties prenantes du projet Démarche agile pour mener rapidement de bout en bout une solution simple & fonctionnelle. Types d’optimisation : Sur paramètres Sur la taille des échantillons Ajustement de la complexité Exclusion de valeurs aberrantes Omissions de variables prédictives Création de nouvelles variables Pénalisation des observations trop bruitées Une analyse n’est jamais définitive et devra être challengée en permanence L’optimisation déborde sur le déploiement (3.1) compromis apprentissage/précision des prédictions (3.3) éviter le surapprentissage (3.4) biais (5) biais insoupçonnés, découverte de l’indisponibilité des données a posteriori
  26. 2 problèmes 1 Passage à l’échelle : dans un contexte Big Data la réalité dépasse les volumes de conception & test => réécriture pour gain de fiabilité & performance. (2) Python => Java, SQL=>Hive, Scikit-Learn=>Mahout 2 Industrialisation : tous les algo ne sont pas parallélisables. Toute la chaîne doit être industrialisée collecte, nettoyage, transformation, enrichissement, représentation graphique
  27. Une nouvelle classe d’outils de productivité qui facilite l’industrialisation existe, ex :
  28. Sears : groupe de distribution américain ayant un centre de  75 981 m2 à Toronto Ils veulent aller plus loin que le stockage des bons d’achat et personnaliser les magasins. Leur process de pricing prenait 5 semaines avec des logiques de batch. Ils ne pouvaient pas le faire tourner souvent et impossible de différencier les prix selon les magasins. Ils ont tout descendu sur Hadoop, Le processus, de 5 semaines est tombé à 3 jours ; Exemple français avec Veolia qui met des capteurs sur les compteurs pour éviter les fuites et les fraudes. Toutes les heures ils ont une vue instantanée sur leur réseau. Ainsi la plupart du temps ça ne sert à rien, mais en cas de problème, ils sont capables d’agir vite et aussi de prévenir le client final et lui permettre d’agir en conséquence. Ils contruisent la ville intélligente de demain sur base du Big Data The climate Corp, est une startup fondée par des anciens de Google et ils proposent des assurances personnalisées et à distance aux agriculteurs, grâce à des capteurs, pour suivre les risques sur une récolte. Pour les sinistres c’est facile aussi, il y a une mesure. Cette Startup a été rachetée près d’un milliard de $ par Monsanto. Infinity : toujours de l’assurance, ils récupèrent toutes les données de déclaration de fraudes et en déduisent les signes avant-coureurs. Exemple : si vous déclarez que la voiture à brûlé mais il n’y avait rien à l’intérieur, donc cela permet de faire du scoring beaucoup plus précis et sans lancer des enquêtes pour rien car ça coûte cher. 85% des cas transmis au service des enquêtes sont un succès donc il y a un gain rapide de ROI. Text Mining William Dibble, senior vice president of Infinity Property & Casualty Co : « There’s no end to what data analytics is capable of doing. Every time we come up with ideas, holy mackerel, it just leads to others! »
  29. Programmation informatique, analyste statistique, analyste métier & marketing Difficile de trouver des profils complets donc 1) veille technologique sur les outils IT, avancées algorithmiques ou nouvelles méthodes d’analyse statistique 2) avec workflow : collecte de données, préparation des données, modélisation, visualisation, optimisation 3) anticipation des phénomènes sociaux ou économiques en apparence aléatoires.
  30. Concours de data science : Kaggle, datascience.net Ex : En 2007 1M$ proposé par NetFlix en 2007 pour le meilleurs system de recommandation de film (remporté par 7 ingénieures en 2009)