Gestion des talents - Classification et prédiction dans RH

Prédiction des talents HR

Gestion des talents
Algorithmes de prédiction et de
classification dans la GRH
Wassim Trifi, Developer and Software Consultant


2
1. Table des matières
1. INTRODUCTION : 3
2. LA GESTION DES TALENTS : 5
A. DEFINITION : 5
B. LE BIG DATA ET LA GESTION DES TALENTS : 5
3. CLASSIFICATION ET PREDICTION : 6
A. EXTRACTION DES DONNEES ET PREPARATION DES ATTRIBUTS : 7
B. PREPARATION DU MODELE DE CLASSIFICATION : 9
C. ÉVALUATION DU MODELE DE CLASSIFICATION : 10
4. CONCLUSION: 12


3
Préface- Parmi les challenges que les professionnels de ressources humaines font
face quotidiennement, on trouve la gestion des talents. Il faut garantir que la bonne
personne soit affectée au poste adéquate et au bon moment. La prédiction des
talents est une alternative utilisée récemment pour ce sujet. La classification et la
prédiction dans le Data Mining, sont utilisées dans plusieurs domaines, et peuvent
être appliquées dans la gestion RH. Il y’a plusieurs techniques pour faire la
classification des données telles que, les arbres de décision, SVM et l’algorithme de
Naives Bayes. La technique de l’arbre de décision est parmi les plus populaires, qui
peut produire des règles interprétables et des ordres logiques. Les ordres et les règles
générés par la technique choisie seront appliqués par la suite à un ensemble de
données pour prédire un résultat dans le futur. Dans cet article, nous allons
découvrir comment utiliser des techniques appelées « Apprentissage des
automatique des machines », dans la prédiction du potentiel humain dans une
organisation. La classification par arbre de décision sera appliquée sur un ensemble
de données de la base HR. Les règles et les observations découvertes dans
l’algorithme seront résumées dans la structure de cet arbre. La bibliothèque de
prédiction « MLlib » fournie avec la plateforme Apache SPARK sera utilisée pour
l’implémentation de notre cas d’utilisation.


1. INTRODUCTION :
Plusieurs secteurs comme la finance, l’industrie, la distribution, la
télécommunication, le biomédicale, l’industrie et le marketing utilisent des
techniques du Big Data pour développer leurs activités. La prédiction des
résultats basée sur l’observation des données, est fortement adoptée dans ces
domaines. Pour les ressources humaines, l’utilisation fait encore ses débuts. Les
données RH représentent une source très riche pour la constitution des
observations et de connaissances, nécessaires pour des outils de décisions et
d’apprentissage des machines. En effet, les professionnels font face à des
plusieurs challenges pour réduire les coûts, augmenter la qualité et innover leurs
services proposés. Pour répondre à tous ces besoins, ils doivent garantir que les
meilleurs talents soient disponibles au bon moment et avec les compétences
requises, c’est une gestion des talents. Gérer les talents d’une organisation est
devenu une tâche difficile pour les gestionnaires RH. Cela implique la prise des
décisions pour mettre la bonne personne pour le bon emploi et dans un temps
réduit. Parfois ce genre de décision est très difficile à prendre et surtout
incertain. Tout dépend de plusieurs facteurs comme l’expérience, le niveau de
connaissances, les compétences acquises et l’évaluation générale du candidat. Le
challenge de trouver une personne dans l’organisation avec le talent recherché,
est devenu le quotidien de chaque professionnel RH.
Dans l’analyse décisionnelle, la classification et la prédiction sont parmi les
techniques les plus connues pour la constitution des observations et de
connaissances à travers les données. Le processus de la classification est connu
comme un apprentissage supervisé, le niveau de la prédiction est connu en
avance, elle doit appartenir à un ensemble de valeurs (ex. {0,1}). Il y’a plusieurs
techniques utilisés dans la classification, l’arbre de décision, Machine à vecteurs
de support (SVM), Classification naïve bayésienne, réseau de neurones artificiels.
La technique de l’arbre de décision possède plusieurs avantages, elle peut
produire un modèle avec des règles interprétables et des ordres logiques faciles à
comprendre ; elle est plus adaptée pour une analyse catégorielle des résultats ;
facile à interpréter ; son exécution n’est pas couteuse en terme de ressources ; elle
peut gérer des données non structurées ; son modèle de prédiction est simple, il
peut être expliqué au utilisateurs ;
Dans cet article nous utiliserons la technique des arbres de décision dans la
classification et la prédiction des employés candidats à un nouveau poste de
Manager. Le résultat doit être compris dans l’ensemble des classes {oui, non}
pour les données en entrée. Nous allons utiliser une base HR comme source de


4
données afin de constituer le modèle de prédiction et l’appliquer aussi sur des
données pour le test et l’évaluation. La première phase de ce processus est de
préparer les données pour l’entrainement du model. Les données seront extraites,
transformées et nettoyées avec « SPARK SQL ». Ensuite la deuxième phase, est de
préparer le modèle de prédiction ou le « Classifier » grâce à la bibliothèque des
algorithmes « SPARK MLIB ». L’évaluation des résultats de prédiction sera
déterminée par le degré de précision de l’algorithme. Finalement nous allons
interpréter le modèle constitué en générant les différentes étapes du calcul de
l’arbre.
Ce document est composé de 5 sections. La première est une introduction,
suivie par une présentation sur l’application du Big Data dans la gestion des
talents. Une troisième partie présente un cas d’utilisation de la classification de
données pour la prédiction des talents, l’utilisation de la plateforme SPARK,
l’extraction et la préparation des données, l’arbre de décision et le model de
prédiction et une interprétation des résultats générés. Finalement, une dernière
paragraphe pour évoquer d’autres algorithmes et l’utilisation de l’apprentissage
automatique dans la gestion des ressources humaines.


5
2. LA GESTION DES TALENTS :
A. Définition :
Les efforts se focalisent sur la gestion des talents dans l’élaboration des
stratégies dans les différentes fonctions RH. Les demandes d’intégration des
modules pour le développement et la gestion des talents dans les SIRH ont subit
une augmentation significative pendant les dernières années. Une personne
ayant un talent est considérée comme capable de faire une différence significative
dans la performance actuelle et future de l’organisation. La gestion des talents
dans une organisation inclut la planification des ressources humaines pour les
différents besoins et l’élaboration des processus du suivi et d’évaluation. En plus,
cette gestion doit assurer la continuité d’occupation dans certaines positions clés
comme le leadership et management, et fournir des compétences d’une façon
continue à travers la gestion du capital humain.
La gestion des talents est cruciale. Les responsables RH doivent
s’intéresser aux différents aspects de cette fonction. Parmi les challenges actuels
et futurs, on cite, le développement les talents existants; la prévision des
nouveaux besoins ; l’attraction et la rétention des talents de leadership ;
augmenter l’engagement des talents dans l’organisation ; Identifier les talents
actuels. Dans cet article nous allons essayer de mettre le point sur un challenge de
la gestion des talents ; identifier des talents existants selon des attributs de
performance afin de proposer des personnes à un poste clé de management. Pour
cette raison, nous allons parcourir des données historiques dans la base HR afin
de construire un model de prédiction. La gestion des talents consiste à identifier
les catégories clés pour chaque individu ayant un rôle influent dans
l’organisation et trouver les règles pour les identifier et les différencier des autres
employés.
B. Le Big Data et la gestion des talents :
L’application des outils du Big Data dans la gestion des ressources
humaines permet de résoudre plusieurs problèmes avec le moindre coût et une
efficacité sans précédent. Le Data Mining et les applications analytiques rentrent
dans le processus de la constitution de la base de connaissances en observant les


6
données RH disponibles. Récemment ces outils ont attiré l’attention de plusieurs
acteurs dans le secteur de l’informatique et dans la société en général. Ceci est
expliqué par la facilité d’accéder à des volumes très importants de données de
tout format et de sources diverses, de les exploiter et les présenter sous formes de
constatations et de connaissances. Le Big Data a de nombreux algorithmes de
classification et de prédiction. Des outils comme SPARK, peuvent aider les
gestionnaires RH à prendre des décisions plus objectives. D’ailleurs, les
gestionnaires peuvent extraire, regrouper et analyser les données liées à leur sujet
du travail pour établir des rapports intuitifs.
Nous allons découvrir comment utiliser ces outils performants pour
résoudre un problème lié à la gestion des talents. La classification des données à
travers l’arbre de décision sera implémentée pour la prédiction des talents dans
une organisation.
3. CLASSIFICATION ET PRÉDICTION :
La classification pour la prédiction est une méthode très connue par les
analystes des données. Cette méthode peut fournir des décisions intelligentes. Ils
existent plusieurs méthodes de classification pour l’apprentissage automatique.
Dans cet article nous consacrons notre utilisation à la technique de l’arbre de
décision pour expliquer le cas d’utilisation. La technique de classification et de
prédiction comporte plusieurs étapes décrites dans la figure1.


7
Figure 1. Processus de classification
La première phase de la classification consiste à l’apprentissage sur des
données réservées. Un modèle de classification est généré suite à cette étape. Il
comporte un ensemble de règles de classification. Dans la deuxième phase, le
modèle utilise des données de test uniquement, pour évaluer la précision du
« Classifieur » construit. Si la précision est considérée acceptable, le modèle est
retenu et sera appliqué par la suite sur une nouvelle donnée pour la prédiction de
sa classe. Nous utiliserons l’arbre de décision pour la suite dans ce document.
A. Extraction des données et préparation des attributs :
Pour construire le modèle de classification à partir des données RH, nous
devons préparer les données d’entrainement et de test. Les données proviennent
de l’historique de la base RH.
Les gestionnaires doivent identifier les attributs et leurs types, continue ou
catégoriel. Cette étape est très importante pour obtenir un modèle de
classification précis. Les attributs permettent de déterminer la classe d’un
employé {0,1}. Si la prédiction est à 1, alors l’employé peut matcher le besoin
demandé par le nouvel emploi créé, sinon la classe est à 0 et cet employé n’a pas
les compétences requises.


8
Certaines observations de l’historique des données des talents dans la base
HR, nous ont aidé à dresser la lister des attributs qui constituent les règles de
classification.
Tableau 1. Description des attributs
Attribut Description
Sexe M : Masculin, F : Féminin
Age Age (< 30, 30 <=,40 <=, ..)
Qualification Diplôme (Mastère, DEA, Doctorat)
Poste Occupation actuelle (Développeur, manager
etc..)
Compétence
Tech.
Compétence technique (100%)
Compétence
Manag.
Compétence du management (100%)
Expérience Nombre d’année d’expérience ( -2, +2, +5)
Evaluation 1..n Dernières 3 années d ‘évaluation (100%)
Communication Capacité de communication (100%)
(Classe) Recommandation pour le post (Oui ,Non)
L’ensemble de données qui constitueront l’entrée à l’algorithme de
classification provient d’une base de données. Le fichier csv du format suivant a
été extrait de la base des talents HR.
Tableau 2. Données des Talents HR


9
Nous utiliserons SPARK SQL pour l’extraction des données et le
formatage. Les valeurs des attributs sont transformées sous le format Sql Double.
Le modèle sera constitué à partir de 100 lignes, qui sont reparties d’une façon
aléatoire sur deux catégories, un ensemble de données pour entrainement (70%)
et le reste comme des données de test pour évaluer la précision du modèle.
Nous constituons une DataFrame avec deux colonnes. La première est la
classe ou la prédiction et la deuxième colonne représente un vecteur avec les
attributs formatés en nombre. Cet ensemble de données sera utilisé par la suite
pour la construction du modèle de classification.
Tableau 3. Données formatées
+-----+--------------------+
|label| features|
+-----+--------------------+
| 0.0|[1.0,2.0,1.0,2.0,...|
| 0.0|[2.0,2.0,1.0,2.0,...|
| 1.0|[2.0,4.0,1.0,3.0,...|
| 0.0|[2.0,4.0,4.0,4.0,...|
| 0.0|[1.0,2.0,4.0,4.0,...|
+-----+--------------------+
B. Préparation du modèle de Classification :
L’objectif de cette étude est de générer une prédiction pour chaque ligne
de donnée en entrée pour notre modèle de classification. D’abord il faut préparer
le modèle en l’exécutant sur un ensemble de données pour l’entrainer. La
bibliothèque du MLlib du Spark contient des API qui facilitent la tache. Les
classes comme les Transformers et les Pipeline sont des générateurs extrêmement
puissants pour préparer les données sous le format demandé par l’algorithme.
Les étapes de la constitution du modèle sont :
• Indexation des Classes ou Labels (la valeur de prédiction). chaque classe
sera représentée par un index.


10
• Indexation des attributs sous forme d’un vecteur. Les catégories des
attributs seront automatiquement déterminées par la classe
(VectorIndexer).
• Diviser les données en données d’entrainement et du test (70%, 30 %).
• Créer un arbre de décision à partir de la classe
DecisionTreeClassifier en fournissant les indexes comme paramètres.
• Enchainer l’arbre, les indexes des classes, les indexes des attributs et
l’arbre de décision dans une pipeline de stages de transformation.
• Entrainer le model défini par les indexes sur les données
d’entrainement.
Notre modèle de classification est maintenant créé grâce aux classes
fournies dans la bibliothèque MLlib. Le modèle a passé l’étape d’apprentissage
en classifiant les données fournies.
C. Évaluation du modèle de Classification :
Cette phase consiste à utiliser le modèle généré dans l’étape précédente
pour évaluer sa performance. L’arbre de décision constitue des règles
compréhensibles et faciles à interpréter. Il est toujours possible d’améliorer la
performance du modèle en modifiant les paramètres de l’arbre, comme la
profondeur de la recherche dans les nœuds et le nombre des possibles des
valeurs des attributs catégoriales. Les prédictions faites par le model sur les
données de test, représentent une évaluation du degré de précision de la
classification.
Tableau 4. Résultat d'évaluation
Précision 0.7215668481548699
Erreur 0.27843315184513007
La précision du modèle de classification généré à partir des données
fournies est de 72%. Nous pouvons considérer que le modèle génère une
prédiction acceptable. Il est possible d’améliorer la précision du notre modèle en


11
augmentant l’ensemble des données d’entrainement et leur qualité. Il est très
important aussi, de bien définir les attributs pour les règles de classification.
Un des avantages de la technique de l’arbre de décision est de pouvoir
visualiser les règles générées par le modèle. Les gestionnaires RH peuvent
interpréter les étapes de classification. Nous pouvons déterminer la profondeur
de décision dans l’arbre et le nombre de nœuds constitués :
DecisionTreeClassificationModel (uid=dtc_ae246c547df2)
of depth 5 with 23 nodes
Les règles du modèle déterminent les valeurs de décision pour chaque
attribut :
If (feature 1 in {0.0,1.0,3.0})
If (feature 1 in {0.0,1.0})
If (feature 10 <= 50.0)
If (feature 8 in {0.0,1.0,2.0})
Predict: 0.0
Else (feature 8 not in {0.0,1.0,2.0})
If (feature 3 in {1.0})
Predict: 0.0
Else (feature 3 not in {1.0})
Predict: 1.0
Else (feature 10 > 50.0)
Predict: 0.0
Predict: 0.0
Predict: 1.0
Else (feature 1 not in {0.0,1.0})
If (feature 4 <= 40.0)
Predict: 0.0
Predict: 1.0
Predict: 0.0


12
Else (feature 1 not in {0.0,1.0,3.0})
If (feature 10 <= 53.0)
Predict: 0.0
Predict: 1.0
Predict: 1.0
L’analyse des règles générées peut déterminer les attributs les plus
référencés dans l’algorithme. Dans notre cas, nous pouvons constater que l
‘attribut de la capacité de communication (Feature10) est sollicité 4 fois par les
règles de décision. C’est un des talents qui peut attirer l’attention des
gestionnaires pour l’élaboration des stratégies de développement.
4. CONCLUSION:
Dans cet article nous avons découvert la puissance de la technique de
classification pour la prédiction des talents. La performance des modèles générés
dépend de la qualité des données fournies et de la précision des attributs définis
par les décideurs. D’autres techniques de classification peuvent être utilisées
pour évaluer la performance et la qualité des données de décision. SPARK offre
une multitude d’algorithmes dans sont API d’apprentissage automatique. La
préparation des paramètres pour ces algorithmes, est soutenue par des outils
puissants comme les « Transformers », « Indexers » et les « Pipeline ».
Les outils du Big Data sont d’une aide significative pour les gestionnaires
RH. Les différents problèmes dans le domaine des ressources humaines peuvent
être traités en appliquant des techniques appropriées. Nous avons abordé un des
problèmes que les gestionnaires des talents peuvent rencontrer. L’application des
techniques d’apprentissage automatique des machines, est possible dans d’autres
cas ; la prédiction de la performance de chaque employé ; comprendre la
tendance générale de la performance par unité de gestion ; prédire les départs
éventuels ; sélectionner les talents potentiels dans l’organisation ; la réduction des
couts de recrutement ; l’analyse de l’absentéisme ;


13
Finalement, le volume de données RH importants dans chaque
organisation représente une source de richesse pour les décideurs. Grace aux
nouvelles technologies et architectures développées par les acteurs du Big Data,
les organisations peuvent mettre en valeur leurs données et augmenter la
performance de leur activité.

Gestion des talents - Classification et prédiction dans RH

Recommandé

Recommandé

Contenu connexe

Similaire à Gestion des talents - Classification et prédiction dans RH

Similaire à Gestion des talents - Classification et prédiction dans RH (20)

Gestion des talents - Classification et prédiction dans RH