Dans son projet Data Science, Alexandre nous explique les outils qu'il a utilisé pour classifier automatiquement les jeux vidéos : horreur, aventure, action, sport, le travail des systèmes de recommandation optimisé !
2. Goal
GOAL
à partir de sa description
Prédire la réussite (vente)
d'un jeux depuis un résumé
écrit.
Générer des résumés de
jeux en "accord" avec les
ventes actuelles des jeux.
PRÉDIRE LE GENRE
D'UN JEUX
LONG-TERM
GOAL
3. Comment ?
LES DIFFÉRENTES ÉTAPES
Idée Deep
learning
Nettoyage
data
Récolte
data
Machine
learning
{
VM instance
Google Cloud
5. Nettoyage NETTOYAGE
Ces mots sont : "of", "is",
"the" ...
E N L E V E R S T O P
W O R D S
Réduit chaque mot à sa
racine.
"prediction" : "pred"
S T E M M E R
Permet à la machine de
distinguer les différents
formes grammaticales d'un
mot (verbe, nom, etc...)
L E M M A T I Z A T I O N P O N C T U A T I O N S
& M A J U S C U L E S
6. 0 0,2 0,4 0,6
Gradient boosting
SVM
KNN
Naive Bayes
Random Forest
Bagging
Decision tree
MACHINE LEARNING
APPROCHE
MACHINE LEARNING
RACING
SPORTS
STRATEGY
ADVENTURE
~48%
ACC
/8 LABELS
7. DEEPLEARNING
NLP - WORD EMBEDDING
" Fight against
the dark force"
fight = [1,0,0,0,0]
against = [0,1,0,0,0]
the = [0,0,1,0,0]
dark = [0,0,0,1,0]
force = [0,0,0,0,1]
Word2Vec
Créer une matrice
de mot en
entraînement sur la
prédiction des mots
aux alentours.
GloVe
Créer une matrice
à de co-occurence
Pourquoi ?
Pouvoir mettre des
phrases en input
d'un modèle.
Ajouter le contexte
en plus du mot.