SlideShare une entreprise Scribd logo
La Claque #9 - 5 avril 2017
Comment faire parler les data
des candidats ?
Hi! I am Jeremy Greze, data analyst at Dataiku
x	80
+
x	1
+	80+
+
It’s Me!
It’s our software !!
+
I studied Maths, Economics and Marketing
Our (happy) customers
Le défi(très concret)
368 CVs
Contrainte:
Pas de traitement
manuel (#BigData)
Première stat du soir 😇
La démarche
Les étapes de travail du Data Scientist
Acquisition et
compréhension
Préparation
donnée
Modélisation
Evaluation
Utilisation
(production)
CV
1
Fichiers de
résultats
Dashboard
/API…
Iteration 1
Iteration 2
Iteration n
CV
2
CV
n
Exploration
Types des variables
But: construire des variables pour la modélisation
Quand les données peuvent
être catégorisées (une valeur
parmi une liste)
Exemples:
• Genre
• Nationalités
Quand c’est un nombre, avec une
relation d’ordre.
Exemples:
• Age
• Nombre de mots utilisés
Quand c’est du texte libre.
Exemples:
• Les expériences sur un CV
• …
OK pour la
modélisation
~OK pour la
modélisation
A transformer avant
modélisation
Types des variables
Petit exercice
Age d’un candidat (ex: 27 ans)
Pays de résidence (ex: France)
Code postal (ex: 75001)
Date (ex: 15 Janvier 1997)
Adresse email (ex: coucou@laclaque.fr)
Adresse (ex: 10 Rue Saint-Denis, Paris)
Lettre de motivation
Text mining
« Motivée, je souhaite
apporter mes
compétences à
l’entreprise »
motiv souhait
apport
compétenc
entrepris
#id motiv souhait compétec entrepris volontair
Candidat #1 1 1 1 1 0
Candidat #2 3 0 1 1 1
Variables construites
Extension du fichier (ex: pdf)
Longueur du CV (nombre de mots)
Domaine de l’email (ex:
gmail.com)
Code postal
Département
Présence de certains mots du
domaine académique (deug /
prepa / licence / master…)
Via Kudoz (oui ou non)
Text mining sur l’ensemble du CV
Master: 40%
Université: 27%
Licence: 22%
Prépa: 5%
La démarche
Les étapes de travail du Data Scientist
Acquisition et
compréhension
Préparation
donnée
Modélisation
Evaluation
Utilisation
(production)
CV
1
Fichiers de
résultats
Dashboard
/API…
Iteration 1
Iteration 2
Iteration n
CV
2
CV
n
Machine Learning
Le Machine Learning (apprentissage automatique en
français) met à disposition des techniques et algorithmes
pour répondre à des problèmes complexes sur les
données de façon automatique.
Le ML est une discipline qui se trouve à la frontière des
statistiques et mathématiques, de l’informatique, de
l’intelligence artificielle.
La Data Science, science de l’analyse des données, est
plus large que ML, comprend aussi la data visualisation
par exemple.
Le Deep Learning est un algorithme particulier du
Machine Learning.
Machine Learning
Illustration
Data
Prédiction
Clustering
X
Modélisation
Deux familles pour le Machine Learning
Prédiction Clustering
(segmentation)
But: Créer un modèle qui peut expliquer
(prédire) une variable cible
(en fonction de données existantes)
But: Séparer les données en groupes
(clusters) en fonction de leur similarité
Exemples:
• Prédire la longueur d’un CV
• Prédire qu’un candidat sera pris en
entretien
Exemples:
• Segmenter les candidats en fonction de leurs CVs
• Segmenter les candidats en fonction des
interactions avec le recruteur
Algorithmes:
• Régressions (linéaires, logistiques…)
• Arbres de décisions (Random Forest…)
Algorithmes:
• K-Means
• Hierarchical
Exemple de résultats d’une segmentation
25 personnes
68% ont un master
Il y a des mots en anglais
530 mots en moyenne
60% viennent de Kudoz
Ils utilisent plus
« gmail.com »
Kmeans avec 3 clusters
262 personnes
25% ont un master
Il y a des mots comme
« informatique », « internet »
258 mots en moyenne
10% viennent de Kudoz
Ils sont assez divers dans les
emails.
78 personnes
60% ont un master
Il y a des mots comme
« ingénieur », « reseau »
487 mots en moyenne
30% viennent de Kudoz
Ils utilisent plus d’emails en
« .fr »
Groupe 1
3 personnes
1810 mots en moyenne
OutliersGroupe 2 Groupe 3
Exemple d’une prédiction: longueur du CV
La longueur d’un CV est corrélée avec quelles variables ?
Que faire avec la data des candidats ?
La question de l’éthique
est centrale. Les modèles
vont-ils apprendre nos
biais ?
On a besoin de
use cases, de résoudre des
problèmes!
On a besoin de volume
pour faire de la
modélisation sur les CVs
Faire des filtres sur les CVs
avant de proposer un
entretien
Prévenir les
« départs anticipés »
Migration interne en
entreprise
Matching entre
« candidats » et « offres »Comprendre les
comportements sur les RSE
Conseils aux candidats
Data Big Bang
Data
Preparation
Machine
Learning
ETL
Data Viz Developers
Business
Analysts
Notebooks
Data Miner
Dataiku = One Product
Data + Technology + People
End-To-End	Solution
Based	On	Open	Source
Collaborative
Production	Focused
Dataiku named a “visionary”
in Gartner 2017 Magic Quadrant for Data Science Platforms
Gartner, Inc., Magic Quadrant for Data Science Platforms, Alexander Linden, Peter Krensky, Jim Hare,
Carlie J. Idoine, Svetlana Sicular, Shubhangi Vashisth, 14 February, 2017.
This graphic was published by Gartner, Inc. as part of a larger research document and should be evaluated in the context of the entire document. The Gartner document is available upon request from
Dataiku. Gartner does not endorse any vendor, product or service depicted in its research publications, and does not advise technology users to select only those vendors with the highest ratings or other
designation. Gartner research publications consist of the opinions of Gartner's research organization and should not be construed as statements of fact. Gartner disclaims all warranties, expressed or
implied, with respect to this research, including any warranties of merchantability or fitness for a particular purpose.
Dataiku made its debut on the 2017
Magic Quadrant as
highest in execution for
Completeness of Vision
Jeremy Greze
@jeremy_gr

Contenu connexe

Similaire à Comment faire parler les data des candidats ?

La datascience comme outil de valorisation de la donnée
La datascience comme outil de valorisation de la donnéeLa datascience comme outil de valorisation de la donnée
La datascience comme outil de valorisation de la donnée
SEBASTIEN QUINAULT
 
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le KioskComment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Jedha Bootcamp
 
Intelligence artificielle, l'avènement du marketing augmenté
Intelligence artificielle, l'avènement du marketing augmentéIntelligence artificielle, l'avènement du marketing augmenté
Intelligence artificielle, l'avènement du marketing augmenté
Frederic CAVAZZA
 
[Infographie] Le métier de Data scientist
[Infographie] Le métier de Data scientist [Infographie] Le métier de Data scientist
[Infographie] Le métier de Data scientist
Michael Page
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeur
Microsoft Ideas
 
Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire] Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire]
Technologia Formation
 
Big data
Big dataBig data
Conférence big data
Conférence big dataConférence big data
Conférence big data
Stéphane Traumat
 
Gestion des talents - Classification et prédiction dans RH
Gestion des talents - Classification et prédiction dans RHGestion des talents - Classification et prédiction dans RH
Gestion des talents - Classification et prédiction dans RH
Wassim TRIFI
 
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
SOLLAN FRANCE
 
First step about IA and business
First step about IA and businessFirst step about IA and business
First step about IA and business
David Argellies
 
Intro IA CJD
Intro IA CJDIntro IA CJD
Intro IA CJD
Emmanuel Bonnet
 
Facteurs cles de succes au developpement des objets connectes
Facteurs cles de succes au developpement des objets connectesFacteurs cles de succes au developpement des objets connectes
Facteurs cles de succes au developpement des objets connectes
Keddy PRIAM
 
Diginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NETDiginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NET
Julien Chable
 
Dep 2015 projets big data & dq 20151126 v1.3
Dep 2015 projets big data & dq 20151126 v1.3Dep 2015 projets big data & dq 20151126 v1.3
Dep 2015 projets big data & dq 20151126 v1.3
Hervé Husson
 
Modelisation conception SI
Modelisation conception SIModelisation conception SI
Modelisation conception SI
Lara L' Impératrice
 
Target Profile (French) - Talentoday
Target Profile (French) - TalentodayTarget Profile (French) - Talentoday
Target Profile (French) - Talentoday
Talentoday
 
Text mining pour industrie
Text mining pour industrieText mining pour industrie
Text mining pour industrie
Ali Kabbadj
 
DataMining.pdf
DataMining.pdfDataMining.pdf
DataMining.pdf
CoulibalyYoussoufngo
 
Big Data - Chambre de Commerce de Québec
Big Data - Chambre de Commerce de QuébecBig Data - Chambre de Commerce de Québec
Big Data - Chambre de Commerce de Québec
Stéphane Hamel
 

Similaire à Comment faire parler les data des candidats ? (20)

La datascience comme outil de valorisation de la donnée
La datascience comme outil de valorisation de la donnéeLa datascience comme outil de valorisation de la donnée
La datascience comme outil de valorisation de la donnée
 
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le KioskComment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
 
Intelligence artificielle, l'avènement du marketing augmenté
Intelligence artificielle, l'avènement du marketing augmentéIntelligence artificielle, l'avènement du marketing augmenté
Intelligence artificielle, l'avènement du marketing augmenté
 
[Infographie] Le métier de Data scientist
[Infographie] Le métier de Data scientist [Infographie] Le métier de Data scientist
[Infographie] Le métier de Data scientist
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeur
 
Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire] Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire]
 
Big data
Big dataBig data
Big data
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
 
Gestion des talents - Classification et prédiction dans RH
Gestion des talents - Classification et prédiction dans RHGestion des talents - Classification et prédiction dans RH
Gestion des talents - Classification et prédiction dans RH
 
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
 
First step about IA and business
First step about IA and businessFirst step about IA and business
First step about IA and business
 
Intro IA CJD
Intro IA CJDIntro IA CJD
Intro IA CJD
 
Facteurs cles de succes au developpement des objets connectes
Facteurs cles de succes au developpement des objets connectesFacteurs cles de succes au developpement des objets connectes
Facteurs cles de succes au developpement des objets connectes
 
Diginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NETDiginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NET
 
Dep 2015 projets big data & dq 20151126 v1.3
Dep 2015 projets big data & dq 20151126 v1.3Dep 2015 projets big data & dq 20151126 v1.3
Dep 2015 projets big data & dq 20151126 v1.3
 
Modelisation conception SI
Modelisation conception SIModelisation conception SI
Modelisation conception SI
 
Target Profile (French) - Talentoday
Target Profile (French) - TalentodayTarget Profile (French) - Talentoday
Target Profile (French) - Talentoday
 
Text mining pour industrie
Text mining pour industrieText mining pour industrie
Text mining pour industrie
 
DataMining.pdf
DataMining.pdfDataMining.pdf
DataMining.pdf
 
Big Data - Chambre de Commerce de Québec
Big Data - Chambre de Commerce de QuébecBig Data - Chambre de Commerce de Québec
Big Data - Chambre de Commerce de Québec
 

Comment faire parler les data des candidats ?

  • 1. La Claque #9 - 5 avril 2017 Comment faire parler les data des candidats ?
  • 2. Hi! I am Jeremy Greze, data analyst at Dataiku x 80 + x 1 + 80+ + It’s Me! It’s our software !! + I studied Maths, Economics and Marketing Our (happy) customers
  • 3. Le défi(très concret) 368 CVs Contrainte: Pas de traitement manuel (#BigData)
  • 4. Première stat du soir 😇
  • 5. La démarche Les étapes de travail du Data Scientist Acquisition et compréhension Préparation donnée Modélisation Evaluation Utilisation (production) CV 1 Fichiers de résultats Dashboard /API… Iteration 1 Iteration 2 Iteration n CV 2 CV n
  • 7. Types des variables But: construire des variables pour la modélisation Quand les données peuvent être catégorisées (une valeur parmi une liste) Exemples: • Genre • Nationalités Quand c’est un nombre, avec une relation d’ordre. Exemples: • Age • Nombre de mots utilisés Quand c’est du texte libre. Exemples: • Les expériences sur un CV • … OK pour la modélisation ~OK pour la modélisation A transformer avant modélisation
  • 8. Types des variables Petit exercice Age d’un candidat (ex: 27 ans) Pays de résidence (ex: France) Code postal (ex: 75001) Date (ex: 15 Janvier 1997) Adresse email (ex: coucou@laclaque.fr) Adresse (ex: 10 Rue Saint-Denis, Paris) Lettre de motivation
  • 9. Text mining « Motivée, je souhaite apporter mes compétences à l’entreprise » motiv souhait apport compétenc entrepris #id motiv souhait compétec entrepris volontair Candidat #1 1 1 1 1 0 Candidat #2 3 0 1 1 1
  • 10. Variables construites Extension du fichier (ex: pdf) Longueur du CV (nombre de mots) Domaine de l’email (ex: gmail.com) Code postal Département Présence de certains mots du domaine académique (deug / prepa / licence / master…) Via Kudoz (oui ou non) Text mining sur l’ensemble du CV
  • 11.
  • 12.
  • 14.
  • 15.
  • 16.
  • 17. La démarche Les étapes de travail du Data Scientist Acquisition et compréhension Préparation donnée Modélisation Evaluation Utilisation (production) CV 1 Fichiers de résultats Dashboard /API… Iteration 1 Iteration 2 Iteration n CV 2 CV n
  • 18. Machine Learning Le Machine Learning (apprentissage automatique en français) met à disposition des techniques et algorithmes pour répondre à des problèmes complexes sur les données de façon automatique. Le ML est une discipline qui se trouve à la frontière des statistiques et mathématiques, de l’informatique, de l’intelligence artificielle. La Data Science, science de l’analyse des données, est plus large que ML, comprend aussi la data visualisation par exemple. Le Deep Learning est un algorithme particulier du Machine Learning.
  • 20. Deux familles pour le Machine Learning Prédiction Clustering (segmentation) But: Créer un modèle qui peut expliquer (prédire) une variable cible (en fonction de données existantes) But: Séparer les données en groupes (clusters) en fonction de leur similarité Exemples: • Prédire la longueur d’un CV • Prédire qu’un candidat sera pris en entretien Exemples: • Segmenter les candidats en fonction de leurs CVs • Segmenter les candidats en fonction des interactions avec le recruteur Algorithmes: • Régressions (linéaires, logistiques…) • Arbres de décisions (Random Forest…) Algorithmes: • K-Means • Hierarchical
  • 21. Exemple de résultats d’une segmentation 25 personnes 68% ont un master Il y a des mots en anglais 530 mots en moyenne 60% viennent de Kudoz Ils utilisent plus « gmail.com » Kmeans avec 3 clusters 262 personnes 25% ont un master Il y a des mots comme « informatique », « internet » 258 mots en moyenne 10% viennent de Kudoz Ils sont assez divers dans les emails. 78 personnes 60% ont un master Il y a des mots comme « ingénieur », « reseau » 487 mots en moyenne 30% viennent de Kudoz Ils utilisent plus d’emails en « .fr » Groupe 1 3 personnes 1810 mots en moyenne OutliersGroupe 2 Groupe 3
  • 22. Exemple d’une prédiction: longueur du CV La longueur d’un CV est corrélée avec quelles variables ?
  • 23. Que faire avec la data des candidats ? La question de l’éthique est centrale. Les modèles vont-ils apprendre nos biais ? On a besoin de use cases, de résoudre des problèmes! On a besoin de volume pour faire de la modélisation sur les CVs
  • 24. Faire des filtres sur les CVs avant de proposer un entretien Prévenir les « départs anticipés » Migration interne en entreprise Matching entre « candidats » et « offres »Comprendre les comportements sur les RSE Conseils aux candidats
  • 25. Data Big Bang Data Preparation Machine Learning ETL Data Viz Developers Business Analysts Notebooks Data Miner Dataiku = One Product Data + Technology + People End-To-End Solution Based On Open Source Collaborative Production Focused
  • 26. Dataiku named a “visionary” in Gartner 2017 Magic Quadrant for Data Science Platforms Gartner, Inc., Magic Quadrant for Data Science Platforms, Alexander Linden, Peter Krensky, Jim Hare, Carlie J. Idoine, Svetlana Sicular, Shubhangi Vashisth, 14 February, 2017. This graphic was published by Gartner, Inc. as part of a larger research document and should be evaluated in the context of the entire document. The Gartner document is available upon request from Dataiku. Gartner does not endorse any vendor, product or service depicted in its research publications, and does not advise technology users to select only those vendors with the highest ratings or other designation. Gartner research publications consist of the opinions of Gartner's research organization and should not be construed as statements of fact. Gartner disclaims all warranties, expressed or implied, with respect to this research, including any warranties of merchantability or fitness for a particular purpose. Dataiku made its debut on the 2017 Magic Quadrant as highest in execution for Completeness of Vision