Nos formations : https://www.jedha.co
C'est en binôme que Marc & Fabien de sont mis pour réaliser leur projet IA final. Leur but ? Prédire le prix de ventes d'objets grâce au traitement du texte présent dans sa description.
3. L’objectif : la prédiction du prix de vente.
Suggérer un prix pour un produit vendu par un particulier sur le site
Mercari.
4. 1,5 million de lignes et 6 variables explicatives.
● Nom de l’article:
● Etat de l’article:
● Catégorie:
● Marque:
● Prix:
● Frais de transport payés par le vendeur:
● Commentaires du vendeur:
5. ● Nom de l’article: ⭐ OPI – Did You Ear About Van Gogh ?
● Etat de l’article: 1
● Catégorie: Beauty/Makeup/Nails
● Marque: NaN
● Prix: 7 (y)
● Frais de transport payés
par le vendeur: 1
● Commentaires du vendeur: ❣ Brand New • Full Size • Authentic❣ ✨ In
this...
Des variables explicatives, sous forme de phrases.
6. 1.300 catégories de produit et 5.000 marques
différentes
● Etat de l’article: 5
● Catégorie: 1.287
● Marque: 4.809
● Frais de transport payés : 2
par le vendeur:
7. Un Préprocessing simple.
● Une variable explicative avec un % de valeurs manquantes très élevé
○ Marque : 42%
o Catégorie : 0,4%
● Pas de valeurs aberrantes
● Transformation du Prix en Log
8. Une étape importante de Text Processing.
Text Processing « pré-Deep Learning » Text Processing « pré-Machine
Learning »
• Création d’un dictionnaire pour les
contractions (ex : he’s)
• Idem
• Transformation des contractions en leur
forme complète (ex : he is)
• Idem
• Suppression des ponctuations (!?,…)
(« RegEx »)
• Idem
• « Stopwords » sur les articles (« nltk ») • Idem
• Tokenization -Encodage-Séquences-
Padding (« Keras »)
• « Bag of words » (Scikit-learn)
9. 3 modèles de Deep Learning et 4 modèles de
Machine Learning « classique ».
● Dataset réduit à la catégorie : Women/Athletic Apparel/
Pants,…
Modèles de « Deep Learning » Modèles de Machine Learning
« Classique »
• LSTM sur 2 variables avec « word
embedding »
• Régression Linéaire Multiple
• LSTM « bi-directionnel » sur 2
variables avec « word embedding »
• Ridge
• GRU « bi-directionnel » sur toutes les
variables avec « word embedding »
• Decision Tree
• XG boosting
10. Le modèle « GRU bi-directionnel » offre la meilleure prédiction.
Le métrique utilisé : RMSLE (Root Mean Squared Logarithmic
Error)
Modèles de « Deep Learning » Modèles de Machine Learning « Classique»
• LSTM sur 2 variables avec Word embedding
(0,422)
• Régression Linéaire Multiple (0,446)
• LSTM « bi-directionnel » sur 2 variables avec
Word embedding (0,409)
• Ridge (0,439)
• GRU « bi-directionnel » sur toutes les
variables avec Word embedding (0,385)
• Decision Tree (0,488)
• XG boosting (0,446)