Nos formations : https://www.jedha.co
Ici, ce sont 2 modèles que Brice expérimente pour parvenir à matcher candidats et offres d'emploi grâce à l'analyse de texte (NLP)
2. Les données
❑ Données liées aux offres d’emplois
• Experience.csv1
• Job_Views.csv1
• Position_Of_interest.csv1
• Combined_Jobs_Final.csv1
• Train_rev1.csv2
❑ Données liées aux candidats
1. https://www.kaggle.com/kandij/job-recommendation-datasets
2. https://www.kaggle.com/chadalee/text-analytics-explained-job-description-data/data
3. Objectif
Recommander des offres d’emploi
Analyser les textes et identifier les offres d’emploi dont la description se
rapproche le plus du profil
Expériences professionnelles
Postes visés
Offres d’emploi vues
Titre du poste
Fiche de poste
Profils Emplois
4. Modèles
TFIDF vectorization
Doc2Vec
Données input = listes de mots
• Valeur TFIDF calculée pour chaque mot
• Vecteur généré pour chaque document (texte)
• Les composantes du vecteur sont les valeurs TFIDF de chaque mot
• Vecteur généré pour chaque mot
• Vecteur généré pour chaque document
• Modèle entrainé dans un réseau de neurones
similarité cosinus
5. Preprocessing…
• Imputer les valeurs manquantes
• Tous les textes en minuscule
• Suppression des signes de ponctuation
• Suppression des mots de liaison, articles…
• Tokenisation
• Lemmisation (pour TFIDF)
• Créer un corpus avec tous les textes des offres d’emploi
• Déterminer les paramètres de chaque mot dans le corpus
• Transformer les textes des profils des candidats suivant les paramètres obtenus
…et entrainement des modèles