SlideShare une entreprise Scribd logo
1  sur  15
Télécharger pour lire hors ligne
Prédiction	des	talents	HR	
	
	 	
Gestion des talents
Algorithmes de prédiction et de
classification dans la GRH
Wassim Trifi, Developer and Software Consultant
Prédiction	des	talents	HR	
	
	 	
2
1. Table des matières
1. INTRODUCTION : 3
2. LA GESTION DES TALENTS : 5
A. DEFINITION : 5
B. LE BIG DATA ET LA GESTION DES TALENTS : 5
3. CLASSIFICATION ET PREDICTION : 6
A. EXTRACTION DES DONNEES ET PREPARATION DES ATTRIBUTS : 7
B. PREPARATION DU MODELE DE CLASSIFICATION : 9
C. ÉVALUATION DU MODELE DE CLASSIFICATION : 10
4. CONCLUSION: 12
Prédiction	des	talents	HR	
	
	 	
3
Préface- Parmi les challenges que les professionnels de ressources humaines font
face quotidiennement, on trouve la gestion des talents. Il faut garantir que la bonne
personne soit affectée au poste adéquate et au bon moment. La prédiction des
talents est une alternative utilisée récemment pour ce sujet. La classification et la
prédiction dans le Data Mining, sont utilisées dans plusieurs domaines, et peuvent
être appliquées dans la gestion RH. Il y’a plusieurs techniques pour faire la
classification des données telles que, les arbres de décision, SVM et l’algorithme de
Naives Bayes. La technique de l’arbre de décision est parmi les plus populaires, qui
peut produire des règles interprétables et des ordres logiques. Les ordres et les règles
générés par la technique choisie seront appliqués par la suite à un ensemble de
données pour prédire un résultat dans le futur. Dans cet article, nous allons
découvrir comment utiliser des techniques appelées « Apprentissage des
automatique des machines », dans la prédiction du potentiel humain dans une
organisation. La classification par arbre de décision sera appliquée sur un ensemble
de données de la base HR. Les règles et les observations découvertes dans
l’algorithme seront résumées dans la structure de cet arbre. La bibliothèque de
prédiction « MLlib » fournie avec la plateforme Apache SPARK sera utilisée pour
l’implémentation de notre cas d’utilisation.
Prédiction	des	talents	HR	
	
	 	
1. INTRODUCTION :
Plusieurs secteurs comme la finance, l’industrie, la distribution, la
télécommunication, le biomédicale, l’industrie et le marketing utilisent des
techniques du Big Data pour développer leurs activités. La prédiction des
résultats basée sur l’observation des données, est fortement adoptée dans ces
domaines. Pour les ressources humaines, l’utilisation fait encore ses débuts. Les
données RH représentent une source très riche pour la constitution des
observations et de connaissances, nécessaires pour des outils de décisions et
d’apprentissage des machines. En effet, les professionnels font face à des
plusieurs challenges pour réduire les coûts, augmenter la qualité et innover leurs
services proposés. Pour répondre à tous ces besoins, ils doivent garantir que les
meilleurs talents soient disponibles au bon moment et avec les compétences
requises, c’est une gestion des talents. Gérer les talents d’une organisation est
devenu une tâche difficile pour les gestionnaires RH. Cela implique la prise des
décisions pour mettre la bonne personne pour le bon emploi et dans un temps
réduit. Parfois ce genre de décision est très difficile à prendre et surtout
incertain. Tout dépend de plusieurs facteurs comme l’expérience, le niveau de
connaissances, les compétences acquises et l’évaluation générale du candidat. Le
challenge de trouver une personne dans l’organisation avec le talent recherché,
est devenu le quotidien de chaque professionnel RH.
Dans l’analyse décisionnelle, la classification et la prédiction sont parmi les
techniques les plus connues pour la constitution des observations et de
connaissances à travers les données. Le processus de la classification est connu
comme un apprentissage supervisé, le niveau de la prédiction est connu en
avance, elle doit appartenir à un ensemble de valeurs (ex. {0,1}). Il y’a plusieurs
techniques utilisés dans la classification, l’arbre de décision, Machine à vecteurs
de support (SVM), Classification naïve bayésienne, réseau de neurones artificiels.
La technique de l’arbre de décision possède plusieurs avantages, elle peut
produire un modèle avec des règles interprétables et des ordres logiques faciles à
comprendre ; elle est plus adaptée pour une analyse catégorielle des résultats ;
facile à interpréter ; son exécution n’est pas couteuse en terme de ressources ; elle
peut gérer des données non structurées ; son modèle de prédiction est simple, il
peut être expliqué au utilisateurs ;
Dans cet article nous utiliserons la technique des arbres de décision dans la
classification et la prédiction des employés candidats à un nouveau poste de
Manager. Le résultat doit être compris dans l’ensemble des classes {oui, non}
pour les données en entrée. Nous allons utiliser une base HR comme source de
Prédiction	des	talents	HR	
	
	 	
4
données afin de constituer le modèle de prédiction et l’appliquer aussi sur des
données pour le test et l’évaluation. La première phase de ce processus est de
préparer les données pour l’entrainement du model. Les données seront extraites,
transformées et nettoyées avec « SPARK SQL ». Ensuite la deuxième phase, est de
préparer le modèle de prédiction ou le « Classifier » grâce à la bibliothèque des
algorithmes « SPARK MLIB ». L’évaluation des résultats de prédiction sera
déterminée par le degré de précision de l’algorithme. Finalement nous allons
interpréter le modèle constitué en générant les différentes étapes du calcul de
l’arbre.
Ce document est composé de 5 sections. La première est une introduction,
suivie par une présentation sur l’application du Big Data dans la gestion des
talents. Une troisième partie présente un cas d’utilisation de la classification de
données pour la prédiction des talents, l’utilisation de la plateforme SPARK,
l’extraction et la préparation des données, l’arbre de décision et le model de
prédiction et une interprétation des résultats générés. Finalement, une dernière
paragraphe pour évoquer d’autres algorithmes et l’utilisation de l’apprentissage
automatique dans la gestion des ressources humaines.
Prédiction	des	talents	HR	
	
	 	
5
2. LA GESTION DES TALENTS :
A. Définition :
Les efforts se focalisent sur la gestion des talents dans l’élaboration des
stratégies dans les différentes fonctions RH. Les demandes d’intégration des
modules pour le développement et la gestion des talents dans les SIRH ont subit
une augmentation significative pendant les dernières années. Une personne
ayant un talent est considérée comme capable de faire une différence significative
dans la performance actuelle et future de l’organisation. La gestion des talents
dans une organisation inclut la planification des ressources humaines pour les
différents besoins et l’élaboration des processus du suivi et d’évaluation. En plus,
cette gestion doit assurer la continuité d’occupation dans certaines positions clés
comme le leadership et management, et fournir des compétences d’une façon
continue à travers la gestion du capital humain.
La gestion des talents est cruciale. Les responsables RH doivent
s’intéresser aux différents aspects de cette fonction. Parmi les challenges actuels
et futurs, on cite, le développement les talents existants; la prévision des
nouveaux besoins ; l’attraction et la rétention des talents de leadership ;
augmenter l’engagement des talents dans l’organisation ; Identifier les talents
actuels. Dans cet article nous allons essayer de mettre le point sur un challenge de
la gestion des talents ; identifier des talents existants selon des attributs de
performance afin de proposer des personnes à un poste clé de management. Pour
cette raison, nous allons parcourir des données historiques dans la base HR afin
de construire un model de prédiction. La gestion des talents consiste à identifier
les catégories clés pour chaque individu ayant un rôle influent dans
l’organisation et trouver les règles pour les identifier et les différencier des autres
employés.
B. Le Big Data et la gestion des talents :
L’application des outils du Big Data dans la gestion des ressources
humaines permet de résoudre plusieurs problèmes avec le moindre coût et une
efficacité sans précédent. Le Data Mining et les applications analytiques rentrent
dans le processus de la constitution de la base de connaissances en observant les
Prédiction	des	talents	HR	
	
	 	
6
données RH disponibles. Récemment ces outils ont attiré l’attention de plusieurs
acteurs dans le secteur de l’informatique et dans la société en général. Ceci est
expliqué par la facilité d’accéder à des volumes très importants de données de
tout format et de sources diverses, de les exploiter et les présenter sous formes de
constatations et de connaissances. Le Big Data a de nombreux algorithmes de
classification et de prédiction. Des outils comme SPARK, peuvent aider les
gestionnaires RH à prendre des décisions plus objectives. D’ailleurs, les
gestionnaires peuvent extraire, regrouper et analyser les données liées à leur sujet
du travail pour établir des rapports intuitifs.
Nous allons découvrir comment utiliser ces outils performants pour
résoudre un problème lié à la gestion des talents. La classification des données à
travers l’arbre de décision sera implémentée pour la prédiction des talents dans
une organisation.
3. CLASSIFICATION ET PRÉDICTION :
La classification pour la prédiction est une méthode très connue par les
analystes des données. Cette méthode peut fournir des décisions intelligentes. Ils
existent plusieurs méthodes de classification pour l’apprentissage automatique.
Dans cet article nous consacrons notre utilisation à la technique de l’arbre de
décision pour expliquer le cas d’utilisation. La technique de classification et de
prédiction comporte plusieurs étapes décrites dans la figure1.
Prédiction	des	talents	HR	
	
	 	
7
Figure 1. Processus de classification
La première phase de la classification consiste à l’apprentissage sur des
données réservées. Un modèle de classification est généré suite à cette étape. Il
comporte un ensemble de règles de classification. Dans la deuxième phase, le
modèle utilise des données de test uniquement, pour évaluer la précision du
« Classifieur » construit. Si la précision est considérée acceptable, le modèle est
retenu et sera appliqué par la suite sur une nouvelle donnée pour la prédiction de
sa classe. Nous utiliserons l’arbre de décision pour la suite dans ce document.
A. Extraction des données et préparation des attributs :
Pour construire le modèle de classification à partir des données RH, nous
devons préparer les données d’entrainement et de test. Les données proviennent
de l’historique de la base RH.
Les gestionnaires doivent identifier les attributs et leurs types, continue ou
catégoriel. Cette étape est très importante pour obtenir un modèle de
classification précis. Les attributs permettent de déterminer la classe d’un
employé {0,1}. Si la prédiction est à 1, alors l’employé peut matcher le besoin
demandé par le nouvel emploi créé, sinon la classe est à 0 et cet employé n’a pas
les compétences requises.
Prédiction	des	talents	HR	
	
	 	
8
Certaines observations de l’historique des données des talents dans la base
HR, nous ont aidé à dresser la lister des attributs qui constituent les règles de
classification.
Tableau 1. Description des attributs
Attribut Description
Sexe M : Masculin, F : Féminin
Age Age (< 30, 30 <=,40 <=, ..)
Qualification Diplôme (Mastère, DEA, Doctorat)
Poste Occupation actuelle (Développeur, manager
etc..)
Compétence
Tech.
Compétence technique (100%)
Compétence
Manag.
Compétence du management (100%)
Expérience Nombre d’année d’expérience ( -2, +2, +5)
Evaluation 1..n Dernières 3 années d ‘évaluation (100%)
Communication Capacité de communication (100%)
(Classe) Recommandation pour le post (Oui ,Non)
L’ensemble de données qui constitueront l’entrée à l’algorithme de
classification provient d’une base de données. Le fichier csv du format suivant a
été extrait de la base des talents HR.
Tableau 2. Données des Talents HR
Prédiction	des	talents	HR	
	
	 	
9
Nous utiliserons SPARK SQL pour l’extraction des données et le
formatage. Les valeurs des attributs sont transformées sous le format Sql Double.
Le modèle sera constitué à partir de 100 lignes, qui sont reparties d’une façon
aléatoire sur deux catégories, un ensemble de données pour entrainement (70%)
et le reste comme des données de test pour évaluer la précision du modèle.
Nous constituons une DataFrame avec deux colonnes. La première est la
classe ou la prédiction et la deuxième colonne représente un vecteur avec les
attributs formatés en nombre. Cet ensemble de données sera utilisé par la suite
pour la construction du modèle de classification.
Tableau 3. Données formatées
+-----+--------------------+
|label| features|
+-----+--------------------+
| 0.0|[1.0,2.0,1.0,2.0,...|
| 0.0|[2.0,2.0,1.0,2.0,...|
| 1.0|[2.0,4.0,1.0,3.0,...|
| 0.0|[2.0,4.0,4.0,4.0,...|
| 0.0|[1.0,2.0,4.0,4.0,...|
+-----+--------------------+
B. Préparation du modèle de Classification :
L’objectif de cette étude est de générer une prédiction pour chaque ligne
de donnée en entrée pour notre modèle de classification. D’abord il faut préparer
le modèle en l’exécutant sur un ensemble de données pour l’entrainer. La
bibliothèque du MLlib du Spark contient des API qui facilitent la tache. Les
classes comme les Transformers et les Pipeline sont des générateurs extrêmement
puissants pour préparer les données sous le format demandé par l’algorithme.
Les étapes de la constitution du modèle sont :
• Indexation des Classes ou Labels (la valeur de prédiction). chaque classe
sera représentée par un index.
Prédiction	des	talents	HR	
	
	 	
10
• Indexation des attributs sous forme d’un vecteur. Les catégories des
attributs seront automatiquement déterminées par la classe
(VectorIndexer).
• Diviser les données en données d’entrainement et du test (70%, 30 %).
• Créer un arbre de décision à partir de la classe
DecisionTreeClassifier en fournissant les indexes comme paramètres.
• Enchainer l’arbre, les indexes des classes, les indexes des attributs et
l’arbre de décision dans une pipeline de stages de transformation.
• Entrainer le model défini par les indexes sur les données
d’entrainement.
Notre modèle de classification est maintenant créé grâce aux classes
fournies dans la bibliothèque MLlib. Le modèle a passé l’étape d’apprentissage
en classifiant les données fournies.
C. Évaluation du modèle de Classification :
Cette phase consiste à utiliser le modèle généré dans l’étape précédente
pour évaluer sa performance. L’arbre de décision constitue des règles
compréhensibles et faciles à interpréter. Il est toujours possible d’améliorer la
performance du modèle en modifiant les paramètres de l’arbre, comme la
profondeur de la recherche dans les nœuds et le nombre des possibles des
valeurs des attributs catégoriales. Les prédictions faites par le model sur les
données de test, représentent une évaluation du degré de précision de la
classification.
Tableau 4. Résultat d'évaluation
Précision 0.7215668481548699
Erreur 0.27843315184513007
La précision du modèle de classification généré à partir des données
fournies est de 72%. Nous pouvons considérer que le modèle génère une
prédiction acceptable. Il est possible d’améliorer la précision du notre modèle en
Prédiction	des	talents	HR	
	
	 	
11
augmentant l’ensemble des données d’entrainement et leur qualité. Il est très
important aussi, de bien définir les attributs pour les règles de classification.
Un des avantages de la technique de l’arbre de décision est de pouvoir
visualiser les règles générées par le modèle. Les gestionnaires RH peuvent
interpréter les étapes de classification. Nous pouvons déterminer la profondeur
de décision dans l’arbre et le nombre de nœuds constitués :
DecisionTreeClassificationModel (uid=dtc_ae246c547df2)
of depth 5 with 23 nodes
Les règles du modèle déterminent les valeurs de décision pour chaque
attribut :
If (feature 1 in {0.0,1.0,3.0})
If (feature 1 in {0.0,1.0})
If (feature 10 <= 50.0)
If (feature 8 in {0.0,1.0,2.0})
Predict: 0.0
Else (feature 8 not in {0.0,1.0,2.0})
If (feature 3 in {1.0})
Predict: 0.0
Else (feature 3 not in {1.0})
Predict: 1.0
Else (feature 10 > 50.0)
If (feature 2 in {1.0})
If (feature 0 in {0.0})
Predict: 0.0
Else (feature 0 not in {0.0})
Predict: 0.0
Else (feature 2 not in {1.0})
Predict: 1.0
Else (feature 1 not in {0.0,1.0})
If (feature 4 <= 40.0)
If (feature 6 in {0.0,1.0})
Predict: 0.0
Else (feature 6 not in {0.0,1.0})
Predict: 1.0
Else (feature 4 > 40.0)
Predict: 0.0
Prédiction	des	talents	HR	
	
	 	
12
Else (feature 1 not in {0.0,1.0,3.0})
If (feature 10 <= 53.0)
If (feature 8 in {0.0,2.0})
Predict: 0.0
Else (feature 8 not in {0.0,2.0})
Predict: 1.0
Else (feature 10 > 53.0)
Predict: 1.0
L’analyse des règles générées peut déterminer les attributs les plus
référencés dans l’algorithme. Dans notre cas, nous pouvons constater que l
‘attribut de la capacité de communication (Feature10) est sollicité 4 fois par les
règles de décision. C’est un des talents qui peut attirer l’attention des
gestionnaires pour l’élaboration des stratégies de développement.
4. CONCLUSION:
Dans cet article nous avons découvert la puissance de la technique de
classification pour la prédiction des talents. La performance des modèles générés
dépend de la qualité des données fournies et de la précision des attributs définis
par les décideurs. D’autres techniques de classification peuvent être utilisées
pour évaluer la performance et la qualité des données de décision. SPARK offre
une multitude d’algorithmes dans sont API d’apprentissage automatique. La
préparation des paramètres pour ces algorithmes, est soutenue par des outils
puissants comme les « Transformers », « Indexers » et les « Pipeline ».
Les outils du Big Data sont d’une aide significative pour les gestionnaires
RH. Les différents problèmes dans le domaine des ressources humaines peuvent
être traités en appliquant des techniques appropriées. Nous avons abordé un des
problèmes que les gestionnaires des talents peuvent rencontrer. L’application des
techniques d’apprentissage automatique des machines, est possible dans d’autres
cas ; la prédiction de la performance de chaque employé ; comprendre la
tendance générale de la performance par unité de gestion ; prédire les départs
éventuels ; sélectionner les talents potentiels dans l’organisation ; la réduction des
couts de recrutement ; l’analyse de l’absentéisme ;
Prédiction	des	talents	HR	
	
	 	
13
Finalement, le volume de données RH importants dans chaque
organisation représente une source de richesse pour les décideurs. Grace aux
nouvelles technologies et architectures développées par les acteurs du Big Data,
les organisations peuvent mettre en valeur leurs données et augmenter la
performance de leur activité.

Contenu connexe

Similaire à Gestion des talents - Classification et prédiction dans RH

Créer la vue 360° des employés
Créer la vue 360° des employés Créer la vue 360° des employés
Créer la vue 360° des employés Jean-Michel Franco
 
Module i planification des rh
Module i  planification des rhModule i  planification des rh
Module i planification des rhMel Philippe
 
Sopra Steria - La donnée... carburant d’une DRH digitale 2018
Sopra Steria - La donnée... carburant d’une DRH digitale 2018Sopra Steria - La donnée... carburant d’une DRH digitale 2018
Sopra Steria - La donnée... carburant d’une DRH digitale 2018Romain Spinazzé
 
Méthodologie D’Intelligence D’Affaires
Méthodologie D’Intelligence D’AffairesMéthodologie D’Intelligence D’Affaires
Méthodologie D’Intelligence D’AffairesAlain Charpentier
 
Analyse et description des postes
Analyse et description des postesAnalyse et description des postes
Analyse et description des postesHéla Mourali
 
Gestion des compétences et vue 360 des salariés
Gestion des compétences et vue 360 des salariésGestion des compétences et vue 360 des salariés
Gestion des compétences et vue 360 des salariésamaury baiges
 
Bank insight n°7 - La valorisation de la donnée
Bank insight n°7 - La valorisation de la donnéeBank insight n°7 - La valorisation de la donnée
Bank insight n°7 - La valorisation de la donnéeWavestone
 
Résumé des cours (gpec et gestion des talents)
Résumé des cours (gpec et gestion des talents)Résumé des cours (gpec et gestion des talents)
Résumé des cours (gpec et gestion des talents)Audrey Jacob
 
Gt Technologies offre de service SDSI
Gt Technologies offre de service SDSIGt Technologies offre de service SDSI
Gt Technologies offre de service SDSICoumbaDemeNDOYE
 
Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?Jeremy Greze
 
Séminaire IDS Scheer Processus Santé part 1
Séminaire IDS Scheer Processus Santé part 1Séminaire IDS Scheer Processus Santé part 1
Séminaire IDS Scheer Processus Santé part 1SAGIDS1
 
Actvité professionnelle (version finale )
Actvité professionnelle  (version finale )Actvité professionnelle  (version finale )
Actvité professionnelle (version finale )aziza HAFIDI
 
L’implantation d’un système de gestion documentaire
L’implantation d’un système de gestion documentaireL’implantation d’un système de gestion documentaire
L’implantation d’un système de gestion documentaireDidier Labonte
 
Dep 2015 projets big data &amp; dq 20151126 v1.3
Dep 2015 projets big data &amp; dq 20151126 v1.3Dep 2015 projets big data &amp; dq 20151126 v1.3
Dep 2015 projets big data &amp; dq 20151126 v1.3Hervé Husson
 

Similaire à Gestion des talents - Classification et prédiction dans RH (20)

Créer la vue 360° des employés
Créer la vue 360° des employés Créer la vue 360° des employés
Créer la vue 360° des employés
 
Gpec Rh 224p
Gpec Rh 224pGpec Rh 224p
Gpec Rh 224p
 
Module i planification des rh
Module i  planification des rhModule i  planification des rh
Module i planification des rh
 
Sopra Steria - La donnée... carburant d’une DRH digitale 2018
Sopra Steria - La donnée... carburant d’une DRH digitale 2018Sopra Steria - La donnée... carburant d’une DRH digitale 2018
Sopra Steria - La donnée... carburant d’une DRH digitale 2018
 
Méthodologie D’Intelligence D’Affaires
Méthodologie D’Intelligence D’AffairesMéthodologie D’Intelligence D’Affaires
Méthodologie D’Intelligence D’Affaires
 
Analyse et description des postes
Analyse et description des postesAnalyse et description des postes
Analyse et description des postes
 
Introducing talent management_fr
Introducing talent management_frIntroducing talent management_fr
Introducing talent management_fr
 
Gestion des compétences et vue 360 des salariés
Gestion des compétences et vue 360 des salariésGestion des compétences et vue 360 des salariés
Gestion des compétences et vue 360 des salariés
 
Bank insight n°7 - La valorisation de la donnée
Bank insight n°7 - La valorisation de la donnéeBank insight n°7 - La valorisation de la donnée
Bank insight n°7 - La valorisation de la donnée
 
Résumé des cours (gpec et gestion des talents)
Résumé des cours (gpec et gestion des talents)Résumé des cours (gpec et gestion des talents)
Résumé des cours (gpec et gestion des talents)
 
ppt-uc-17-02-18.pdf
ppt-uc-17-02-18.pdfppt-uc-17-02-18.pdf
ppt-uc-17-02-18.pdf
 
Gt Technologies offre de service SDSI
Gt Technologies offre de service SDSIGt Technologies offre de service SDSI
Gt Technologies offre de service SDSI
 
Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?
 
Séminaire IDS Scheer Processus Santé part 1
Séminaire IDS Scheer Processus Santé part 1Séminaire IDS Scheer Processus Santé part 1
Séminaire IDS Scheer Processus Santé part 1
 
Actvité professionnelle (version finale )
Actvité professionnelle  (version finale )Actvité professionnelle  (version finale )
Actvité professionnelle (version finale )
 
Présentation Triviumsoft
Présentation TriviumsoftPrésentation Triviumsoft
Présentation Triviumsoft
 
SDRH
SDRHSDRH
SDRH
 
537dc244f038c.pdf
537dc244f038c.pdf537dc244f038c.pdf
537dc244f038c.pdf
 
L’implantation d’un système de gestion documentaire
L’implantation d’un système de gestion documentaireL’implantation d’un système de gestion documentaire
L’implantation d’un système de gestion documentaire
 
Dep 2015 projets big data &amp; dq 20151126 v1.3
Dep 2015 projets big data &amp; dq 20151126 v1.3Dep 2015 projets big data &amp; dq 20151126 v1.3
Dep 2015 projets big data &amp; dq 20151126 v1.3
 

Gestion des talents - Classification et prédiction dans RH

  • 1. Prédiction des talents HR Gestion des talents Algorithmes de prédiction et de classification dans la GRH Wassim Trifi, Developer and Software Consultant
  • 2. Prédiction des talents HR 2 1. Table des matières 1. INTRODUCTION : 3 2. LA GESTION DES TALENTS : 5 A. DEFINITION : 5 B. LE BIG DATA ET LA GESTION DES TALENTS : 5 3. CLASSIFICATION ET PREDICTION : 6 A. EXTRACTION DES DONNEES ET PREPARATION DES ATTRIBUTS : 7 B. PREPARATION DU MODELE DE CLASSIFICATION : 9 C. ÉVALUATION DU MODELE DE CLASSIFICATION : 10 4. CONCLUSION: 12
  • 3. Prédiction des talents HR 3 Préface- Parmi les challenges que les professionnels de ressources humaines font face quotidiennement, on trouve la gestion des talents. Il faut garantir que la bonne personne soit affectée au poste adéquate et au bon moment. La prédiction des talents est une alternative utilisée récemment pour ce sujet. La classification et la prédiction dans le Data Mining, sont utilisées dans plusieurs domaines, et peuvent être appliquées dans la gestion RH. Il y’a plusieurs techniques pour faire la classification des données telles que, les arbres de décision, SVM et l’algorithme de Naives Bayes. La technique de l’arbre de décision est parmi les plus populaires, qui peut produire des règles interprétables et des ordres logiques. Les ordres et les règles générés par la technique choisie seront appliqués par la suite à un ensemble de données pour prédire un résultat dans le futur. Dans cet article, nous allons découvrir comment utiliser des techniques appelées « Apprentissage des automatique des machines », dans la prédiction du potentiel humain dans une organisation. La classification par arbre de décision sera appliquée sur un ensemble de données de la base HR. Les règles et les observations découvertes dans l’algorithme seront résumées dans la structure de cet arbre. La bibliothèque de prédiction « MLlib » fournie avec la plateforme Apache SPARK sera utilisée pour l’implémentation de notre cas d’utilisation.
  • 4.
  • 5. Prédiction des talents HR 1. INTRODUCTION : Plusieurs secteurs comme la finance, l’industrie, la distribution, la télécommunication, le biomédicale, l’industrie et le marketing utilisent des techniques du Big Data pour développer leurs activités. La prédiction des résultats basée sur l’observation des données, est fortement adoptée dans ces domaines. Pour les ressources humaines, l’utilisation fait encore ses débuts. Les données RH représentent une source très riche pour la constitution des observations et de connaissances, nécessaires pour des outils de décisions et d’apprentissage des machines. En effet, les professionnels font face à des plusieurs challenges pour réduire les coûts, augmenter la qualité et innover leurs services proposés. Pour répondre à tous ces besoins, ils doivent garantir que les meilleurs talents soient disponibles au bon moment et avec les compétences requises, c’est une gestion des talents. Gérer les talents d’une organisation est devenu une tâche difficile pour les gestionnaires RH. Cela implique la prise des décisions pour mettre la bonne personne pour le bon emploi et dans un temps réduit. Parfois ce genre de décision est très difficile à prendre et surtout incertain. Tout dépend de plusieurs facteurs comme l’expérience, le niveau de connaissances, les compétences acquises et l’évaluation générale du candidat. Le challenge de trouver une personne dans l’organisation avec le talent recherché, est devenu le quotidien de chaque professionnel RH. Dans l’analyse décisionnelle, la classification et la prédiction sont parmi les techniques les plus connues pour la constitution des observations et de connaissances à travers les données. Le processus de la classification est connu comme un apprentissage supervisé, le niveau de la prédiction est connu en avance, elle doit appartenir à un ensemble de valeurs (ex. {0,1}). Il y’a plusieurs techniques utilisés dans la classification, l’arbre de décision, Machine à vecteurs de support (SVM), Classification naïve bayésienne, réseau de neurones artificiels. La technique de l’arbre de décision possède plusieurs avantages, elle peut produire un modèle avec des règles interprétables et des ordres logiques faciles à comprendre ; elle est plus adaptée pour une analyse catégorielle des résultats ; facile à interpréter ; son exécution n’est pas couteuse en terme de ressources ; elle peut gérer des données non structurées ; son modèle de prédiction est simple, il peut être expliqué au utilisateurs ; Dans cet article nous utiliserons la technique des arbres de décision dans la classification et la prédiction des employés candidats à un nouveau poste de Manager. Le résultat doit être compris dans l’ensemble des classes {oui, non} pour les données en entrée. Nous allons utiliser une base HR comme source de
  • 6. Prédiction des talents HR 4 données afin de constituer le modèle de prédiction et l’appliquer aussi sur des données pour le test et l’évaluation. La première phase de ce processus est de préparer les données pour l’entrainement du model. Les données seront extraites, transformées et nettoyées avec « SPARK SQL ». Ensuite la deuxième phase, est de préparer le modèle de prédiction ou le « Classifier » grâce à la bibliothèque des algorithmes « SPARK MLIB ». L’évaluation des résultats de prédiction sera déterminée par le degré de précision de l’algorithme. Finalement nous allons interpréter le modèle constitué en générant les différentes étapes du calcul de l’arbre. Ce document est composé de 5 sections. La première est une introduction, suivie par une présentation sur l’application du Big Data dans la gestion des talents. Une troisième partie présente un cas d’utilisation de la classification de données pour la prédiction des talents, l’utilisation de la plateforme SPARK, l’extraction et la préparation des données, l’arbre de décision et le model de prédiction et une interprétation des résultats générés. Finalement, une dernière paragraphe pour évoquer d’autres algorithmes et l’utilisation de l’apprentissage automatique dans la gestion des ressources humaines.
  • 7. Prédiction des talents HR 5 2. LA GESTION DES TALENTS : A. Définition : Les efforts se focalisent sur la gestion des talents dans l’élaboration des stratégies dans les différentes fonctions RH. Les demandes d’intégration des modules pour le développement et la gestion des talents dans les SIRH ont subit une augmentation significative pendant les dernières années. Une personne ayant un talent est considérée comme capable de faire une différence significative dans la performance actuelle et future de l’organisation. La gestion des talents dans une organisation inclut la planification des ressources humaines pour les différents besoins et l’élaboration des processus du suivi et d’évaluation. En plus, cette gestion doit assurer la continuité d’occupation dans certaines positions clés comme le leadership et management, et fournir des compétences d’une façon continue à travers la gestion du capital humain. La gestion des talents est cruciale. Les responsables RH doivent s’intéresser aux différents aspects de cette fonction. Parmi les challenges actuels et futurs, on cite, le développement les talents existants; la prévision des nouveaux besoins ; l’attraction et la rétention des talents de leadership ; augmenter l’engagement des talents dans l’organisation ; Identifier les talents actuels. Dans cet article nous allons essayer de mettre le point sur un challenge de la gestion des talents ; identifier des talents existants selon des attributs de performance afin de proposer des personnes à un poste clé de management. Pour cette raison, nous allons parcourir des données historiques dans la base HR afin de construire un model de prédiction. La gestion des talents consiste à identifier les catégories clés pour chaque individu ayant un rôle influent dans l’organisation et trouver les règles pour les identifier et les différencier des autres employés. B. Le Big Data et la gestion des talents : L’application des outils du Big Data dans la gestion des ressources humaines permet de résoudre plusieurs problèmes avec le moindre coût et une efficacité sans précédent. Le Data Mining et les applications analytiques rentrent dans le processus de la constitution de la base de connaissances en observant les
  • 8. Prédiction des talents HR 6 données RH disponibles. Récemment ces outils ont attiré l’attention de plusieurs acteurs dans le secteur de l’informatique et dans la société en général. Ceci est expliqué par la facilité d’accéder à des volumes très importants de données de tout format et de sources diverses, de les exploiter et les présenter sous formes de constatations et de connaissances. Le Big Data a de nombreux algorithmes de classification et de prédiction. Des outils comme SPARK, peuvent aider les gestionnaires RH à prendre des décisions plus objectives. D’ailleurs, les gestionnaires peuvent extraire, regrouper et analyser les données liées à leur sujet du travail pour établir des rapports intuitifs. Nous allons découvrir comment utiliser ces outils performants pour résoudre un problème lié à la gestion des talents. La classification des données à travers l’arbre de décision sera implémentée pour la prédiction des talents dans une organisation. 3. CLASSIFICATION ET PRÉDICTION : La classification pour la prédiction est une méthode très connue par les analystes des données. Cette méthode peut fournir des décisions intelligentes. Ils existent plusieurs méthodes de classification pour l’apprentissage automatique. Dans cet article nous consacrons notre utilisation à la technique de l’arbre de décision pour expliquer le cas d’utilisation. La technique de classification et de prédiction comporte plusieurs étapes décrites dans la figure1.
  • 9. Prédiction des talents HR 7 Figure 1. Processus de classification La première phase de la classification consiste à l’apprentissage sur des données réservées. Un modèle de classification est généré suite à cette étape. Il comporte un ensemble de règles de classification. Dans la deuxième phase, le modèle utilise des données de test uniquement, pour évaluer la précision du « Classifieur » construit. Si la précision est considérée acceptable, le modèle est retenu et sera appliqué par la suite sur une nouvelle donnée pour la prédiction de sa classe. Nous utiliserons l’arbre de décision pour la suite dans ce document. A. Extraction des données et préparation des attributs : Pour construire le modèle de classification à partir des données RH, nous devons préparer les données d’entrainement et de test. Les données proviennent de l’historique de la base RH. Les gestionnaires doivent identifier les attributs et leurs types, continue ou catégoriel. Cette étape est très importante pour obtenir un modèle de classification précis. Les attributs permettent de déterminer la classe d’un employé {0,1}. Si la prédiction est à 1, alors l’employé peut matcher le besoin demandé par le nouvel emploi créé, sinon la classe est à 0 et cet employé n’a pas les compétences requises.
  • 10. Prédiction des talents HR 8 Certaines observations de l’historique des données des talents dans la base HR, nous ont aidé à dresser la lister des attributs qui constituent les règles de classification. Tableau 1. Description des attributs Attribut Description Sexe M : Masculin, F : Féminin Age Age (< 30, 30 <=,40 <=, ..) Qualification Diplôme (Mastère, DEA, Doctorat) Poste Occupation actuelle (Développeur, manager etc..) Compétence Tech. Compétence technique (100%) Compétence Manag. Compétence du management (100%) Expérience Nombre d’année d’expérience ( -2, +2, +5) Evaluation 1..n Dernières 3 années d ‘évaluation (100%) Communication Capacité de communication (100%) (Classe) Recommandation pour le post (Oui ,Non) L’ensemble de données qui constitueront l’entrée à l’algorithme de classification provient d’une base de données. Le fichier csv du format suivant a été extrait de la base des talents HR. Tableau 2. Données des Talents HR
  • 11. Prédiction des talents HR 9 Nous utiliserons SPARK SQL pour l’extraction des données et le formatage. Les valeurs des attributs sont transformées sous le format Sql Double. Le modèle sera constitué à partir de 100 lignes, qui sont reparties d’une façon aléatoire sur deux catégories, un ensemble de données pour entrainement (70%) et le reste comme des données de test pour évaluer la précision du modèle. Nous constituons une DataFrame avec deux colonnes. La première est la classe ou la prédiction et la deuxième colonne représente un vecteur avec les attributs formatés en nombre. Cet ensemble de données sera utilisé par la suite pour la construction du modèle de classification. Tableau 3. Données formatées +-----+--------------------+ |label| features| +-----+--------------------+ | 0.0|[1.0,2.0,1.0,2.0,...| | 0.0|[2.0,2.0,1.0,2.0,...| | 1.0|[2.0,4.0,1.0,3.0,...| | 0.0|[2.0,4.0,4.0,4.0,...| | 0.0|[1.0,2.0,4.0,4.0,...| +-----+--------------------+ B. Préparation du modèle de Classification : L’objectif de cette étude est de générer une prédiction pour chaque ligne de donnée en entrée pour notre modèle de classification. D’abord il faut préparer le modèle en l’exécutant sur un ensemble de données pour l’entrainer. La bibliothèque du MLlib du Spark contient des API qui facilitent la tache. Les classes comme les Transformers et les Pipeline sont des générateurs extrêmement puissants pour préparer les données sous le format demandé par l’algorithme. Les étapes de la constitution du modèle sont : • Indexation des Classes ou Labels (la valeur de prédiction). chaque classe sera représentée par un index.
  • 12. Prédiction des talents HR 10 • Indexation des attributs sous forme d’un vecteur. Les catégories des attributs seront automatiquement déterminées par la classe (VectorIndexer). • Diviser les données en données d’entrainement et du test (70%, 30 %). • Créer un arbre de décision à partir de la classe DecisionTreeClassifier en fournissant les indexes comme paramètres. • Enchainer l’arbre, les indexes des classes, les indexes des attributs et l’arbre de décision dans une pipeline de stages de transformation. • Entrainer le model défini par les indexes sur les données d’entrainement. Notre modèle de classification est maintenant créé grâce aux classes fournies dans la bibliothèque MLlib. Le modèle a passé l’étape d’apprentissage en classifiant les données fournies. C. Évaluation du modèle de Classification : Cette phase consiste à utiliser le modèle généré dans l’étape précédente pour évaluer sa performance. L’arbre de décision constitue des règles compréhensibles et faciles à interpréter. Il est toujours possible d’améliorer la performance du modèle en modifiant les paramètres de l’arbre, comme la profondeur de la recherche dans les nœuds et le nombre des possibles des valeurs des attributs catégoriales. Les prédictions faites par le model sur les données de test, représentent une évaluation du degré de précision de la classification. Tableau 4. Résultat d'évaluation Précision 0.7215668481548699 Erreur 0.27843315184513007 La précision du modèle de classification généré à partir des données fournies est de 72%. Nous pouvons considérer que le modèle génère une prédiction acceptable. Il est possible d’améliorer la précision du notre modèle en
  • 13. Prédiction des talents HR 11 augmentant l’ensemble des données d’entrainement et leur qualité. Il est très important aussi, de bien définir les attributs pour les règles de classification. Un des avantages de la technique de l’arbre de décision est de pouvoir visualiser les règles générées par le modèle. Les gestionnaires RH peuvent interpréter les étapes de classification. Nous pouvons déterminer la profondeur de décision dans l’arbre et le nombre de nœuds constitués : DecisionTreeClassificationModel (uid=dtc_ae246c547df2) of depth 5 with 23 nodes Les règles du modèle déterminent les valeurs de décision pour chaque attribut : If (feature 1 in {0.0,1.0,3.0}) If (feature 1 in {0.0,1.0}) If (feature 10 <= 50.0) If (feature 8 in {0.0,1.0,2.0}) Predict: 0.0 Else (feature 8 not in {0.0,1.0,2.0}) If (feature 3 in {1.0}) Predict: 0.0 Else (feature 3 not in {1.0}) Predict: 1.0 Else (feature 10 > 50.0) If (feature 2 in {1.0}) If (feature 0 in {0.0}) Predict: 0.0 Else (feature 0 not in {0.0}) Predict: 0.0 Else (feature 2 not in {1.0}) Predict: 1.0 Else (feature 1 not in {0.0,1.0}) If (feature 4 <= 40.0) If (feature 6 in {0.0,1.0}) Predict: 0.0 Else (feature 6 not in {0.0,1.0}) Predict: 1.0 Else (feature 4 > 40.0) Predict: 0.0
  • 14. Prédiction des talents HR 12 Else (feature 1 not in {0.0,1.0,3.0}) If (feature 10 <= 53.0) If (feature 8 in {0.0,2.0}) Predict: 0.0 Else (feature 8 not in {0.0,2.0}) Predict: 1.0 Else (feature 10 > 53.0) Predict: 1.0 L’analyse des règles générées peut déterminer les attributs les plus référencés dans l’algorithme. Dans notre cas, nous pouvons constater que l ‘attribut de la capacité de communication (Feature10) est sollicité 4 fois par les règles de décision. C’est un des talents qui peut attirer l’attention des gestionnaires pour l’élaboration des stratégies de développement. 4. CONCLUSION: Dans cet article nous avons découvert la puissance de la technique de classification pour la prédiction des talents. La performance des modèles générés dépend de la qualité des données fournies et de la précision des attributs définis par les décideurs. D’autres techniques de classification peuvent être utilisées pour évaluer la performance et la qualité des données de décision. SPARK offre une multitude d’algorithmes dans sont API d’apprentissage automatique. La préparation des paramètres pour ces algorithmes, est soutenue par des outils puissants comme les « Transformers », « Indexers » et les « Pipeline ». Les outils du Big Data sont d’une aide significative pour les gestionnaires RH. Les différents problèmes dans le domaine des ressources humaines peuvent être traités en appliquant des techniques appropriées. Nous avons abordé un des problèmes que les gestionnaires des talents peuvent rencontrer. L’application des techniques d’apprentissage automatique des machines, est possible dans d’autres cas ; la prédiction de la performance de chaque employé ; comprendre la tendance générale de la performance par unité de gestion ; prédire les départs éventuels ; sélectionner les talents potentiels dans l’organisation ; la réduction des couts de recrutement ; l’analyse de l’absentéisme ;
  • 15. Prédiction des talents HR 13 Finalement, le volume de données RH importants dans chaque organisation représente une source de richesse pour les décideurs. Grace aux nouvelles technologies et architectures développées par les acteurs du Big Data, les organisations peuvent mettre en valeur leurs données et augmenter la performance de leur activité.