Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz

•

0 j'aime•84 vues

Nos formations : https://www.jedha.co C'est en binôme que Marc & Fabien de sont mis pour réaliser leur projet IA final. Leur but ? Prédire le prix de ventes d'objets grâce au traitement du texte présent dans sa description.

Données & analyses

Data Science
Bootcamp
Marc de FORSANZ
Fabien HERRY
Prédiction de prix de vente sur une Marketplace

L’objectif : la prédiction du prix de vente.
Suggérer un prix pour un produit vendu par un particulier sur le site
Mercari.

1,5 million de lignes et 6 variables explicatives.
● Nom de l’article:
● Etat de l’article:
● Catégorie:
● Marque:
● Prix:
● Frais de transport payés par le vendeur:
● Commentaires du vendeur:

1.300 catégories de produit et 5.000 marques
différentes
● Etat de l’article: 5
● Catégorie: 1.287
● Marque: 4.809
● Frais de transport payés : 2  
par le vendeur:

Un Préprocessing simple.
● Une variable explicative avec un % de valeurs manquantes très élevé
○ Marque : 42%
o Catégorie : 0,4%
● Pas de valeurs aberrantes
● Transformation du Prix en Log

Une étape importante de Text Processing.
Text Processing « pré-Deep Learning » Text Processing « pré-Machine
Learning »
• Création d’un dictionnaire pour les
contractions (ex : he’s)
• Idem
• Transformation des contractions en leur
forme complète (ex : he is)
• Idem
• Suppression des ponctuations (!?,…)
(« RegEx »)
• Idem
• « Stopwords » sur les articles (« nltk ») • Idem
• Tokenization -Encodage-Séquences-
Padding (« Keras »)
• « Bag of words » (Scikit-learn)

3 modèles de Deep Learning et 4 modèles de
Machine Learning « classique ».
● Dataset réduit à la catégorie : Women/Athletic Apparel/
Pants,…
Modèles de « Deep Learning » Modèles de Machine Learning
« Classique »
• LSTM sur 2 variables avec « word
embedding »
• Régression Linéaire Multiple
• LSTM « bi-directionnel » sur 2
variables avec « word embedding »
• Ridge
• GRU « bi-directionnel » sur toutes les
variables avec « word embedding »
• Decision Tree
• XG boosting

Le modèle « GRU bi-directionnel » offre la meilleure prédiction.
Le métrique utilisé : RMSLE (Root Mean Squared Logarithmic
Error)
Modèles de « Deep Learning » Modèles de Machine Learning « Classique»
• LSTM sur 2 variables avec Word embedding
(0,422)
• Régression Linéaire Multiple (0,446)
• LSTM « bi-directionnel » sur 2 variables avec
Word embedding (0,409)
• Ridge (0,439)
• GRU « bi-directionnel » sur toutes les
variables avec Word embedding (0,385)
• Decision Tree (0,488)
• XG boosting (0,446)

Recommandé

Pourquoi et comment j'ai appris JavaScriptjollivetc

Faites revivre vos spécifications scrumday 2014Publicis Sapient Engineering

Comment les plateformes de Data Science métamorphosent le SEO ?Vincent Terrasi

Top 5 des meilleures façon d'améliorer ton codeEric De Carufel

Diginova - Session sur le machine learning avec ML.NETJulien Chable

Guide javascriptjollivetc

Aiguisez votre c#Vincent Hubert

JavaScript pour le développeur Javajollivetc

Recommandé

Pourquoi et comment j'ai appris JavaScriptjollivetc

Faites revivre vos spécifications scrumday 2014Publicis Sapient Engineering

Comment les plateformes de Data Science métamorphosent le SEO ?Vincent Terrasi

Top 5 des meilleures façon d'améliorer ton codeEric De Carufel

Diginova - Session sur le machine learning avec ML.NETJulien Chable

Guide javascriptjollivetc

Aiguisez votre c#Vincent Hubert

JavaScript pour le développeur Javajollivetc

DataScientist Job : Between Myths and Reality.pdfJedha Bootcamp

L'IA face à l'épreuve du covid-19 - Jedha x KardinalJedha Bootcamp

Générer une image à partir d'un texte - Fullstack Paris #5Jedha Bootcamp

Recommander des films - Andreea - Fullstack Lyon #1Jedha Bootcamp

Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1Jedha Bootcamp

Construction d'une voiture autonome - Adrien Dodinet, alumni FullstackJedha Bootcamp

Slide portes ouvertesJedha Bootcamp

Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...Jedha Bootcamp

Trouver des offres d'emploi grâce au traitement de texte - Mohamed ZebliJedha Bootcamp

Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed ZebliJedha Bootcamp

Reconnaître du mobilier design sur une photographie - Emmanuelle GuyotJedha Bootcamp

Estimer le prix de bijou lors d'une vente aux enchères - Katie RossJedha Bootcamp

Workshop Data Visualisation - Jedha ParisJedha Bootcamp

Les applications du Deep Learning - Jedha LyonJedha Bootcamp

Optimiser ses publicités grâce à la Data ScienceJedha Bootcamp

Connaître son audience grâce à la Data - Parisa MAjlessiJedha Bootcamp

ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...Jedha Bootcamp

Automatiser la classification d'un jeu vidéoJedha Bootcamp

Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...Jedha Bootcamp

2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra PartnersJedha Bootcamp

Contenu connexe

Plus de Jedha Bootcamp

DataScientist Job : Between Myths and Reality.pdfJedha Bootcamp

L'IA face à l'épreuve du covid-19 - Jedha x KardinalJedha Bootcamp

Générer une image à partir d'un texte - Fullstack Paris #5Jedha Bootcamp

Recommander des films - Andreea - Fullstack Lyon #1Jedha Bootcamp

Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1Jedha Bootcamp

Construction d'une voiture autonome - Adrien Dodinet, alumni FullstackJedha Bootcamp

Slide portes ouvertesJedha Bootcamp

Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...Jedha Bootcamp

Trouver des offres d'emploi grâce au traitement de texte - Mohamed ZebliJedha Bootcamp

Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed ZebliJedha Bootcamp

Reconnaître du mobilier design sur une photographie - Emmanuelle GuyotJedha Bootcamp

Estimer le prix de bijou lors d'une vente aux enchères - Katie RossJedha Bootcamp

Workshop Data Visualisation - Jedha ParisJedha Bootcamp

Les applications du Deep Learning - Jedha LyonJedha Bootcamp

Optimiser ses publicités grâce à la Data ScienceJedha Bootcamp

Connaître son audience grâce à la Data - Parisa MAjlessiJedha Bootcamp

ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...Jedha Bootcamp

Automatiser la classification d'un jeu vidéoJedha Bootcamp

Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...Jedha Bootcamp

2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra PartnersJedha Bootcamp

Plus de Jedha Bootcamp (20)

DataScientist Job : Between Myths and Reality.pdf

L'IA face à l'épreuve du covid-19 - Jedha x Kardinal

Générer une image à partir d'un texte - Fullstack Paris #5

Recommander des films - Andreea - Fullstack Lyon #1

Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1

Construction d'une voiture autonome - Adrien Dodinet, alumni Fullstack

Slide portes ouvertes

Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...

Trouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli

Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli

Reconnaître du mobilier design sur une photographie - Emmanuelle Guyot

Estimer le prix de bijou lors d'une vente aux enchères - Katie Ross

Workshop Data Visualisation - Jedha Paris

Les applications du Deep Learning - Jedha Lyon

Optimiser ses publicités grâce à la Data Science

Connaître son audience grâce à la Data - Parisa MAjlessi

ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...

Automatiser la classification d'un jeu vidéo

Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...

2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners

Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz

1. Data Science Bootcamp Marc de FORSANZ Fabien HERRY Prédiction de prix de vente sur une Marketplace

3. L’objectif : la prédiction du prix de vente. Suggérer un prix pour un produit vendu par un particulier sur le site Mercari.

4. 1,5 million de lignes et 6 variables explicatives. ● Nom de l’article: ● Etat de l’article: ● Catégorie: ● Marque: ● Prix: ● Frais de transport payés par le vendeur: ● Commentaires du vendeur:

5. ● Nom de l’article: ⭐ OPI – Did You Ear About Van Gogh ? ● Etat de l’article: 1 ● Catégorie: Beauty/Makeup/Nails ● Marque: NaN ● Prix: 7 (y) ● Frais de transport payés   par le vendeur: 1 ● Commentaires du vendeur: ❣ Brand New • Full Size • Authentic❣ ✨ In  this... Des variables explicatives, sous forme de phrases.

6. 1.300 catégories de produit et 5.000 marques différentes ● Etat de l’article: 5 ● Catégorie: 1.287 ● Marque: 4.809 ● Frais de transport payés : 2   par le vendeur:

7. Un Préprocessing simple. ● Une variable explicative avec un % de valeurs manquantes très élevé ○ Marque : 42% o Catégorie : 0,4% ● Pas de valeurs aberrantes ● Transformation du Prix en Log

8. Une étape importante de Text Processing. Text Processing « pré-Deep Learning » Text Processing « pré-Machine Learning » • Création d’un dictionnaire pour les contractions (ex : he’s) • Idem • Transformation des contractions en leur forme complète (ex : he is) • Idem • Suppression des ponctuations (!?,…) (« RegEx ») • Idem • « Stopwords » sur les articles (« nltk ») • Idem • Tokenization -Encodage-Séquences- Padding (« Keras ») • « Bag of words » (Scikit-learn)

9. 3 modèles de Deep Learning et 4 modèles de Machine Learning « classique ». ● Dataset réduit à la catégorie : Women/Athletic Apparel/ Pants,… Modèles de « Deep Learning » Modèles de Machine Learning « Classique » • LSTM sur 2 variables avec « word embedding » • Régression Linéaire Multiple • LSTM « bi-directionnel » sur 2 variables avec « word embedding » • Ridge • GRU « bi-directionnel » sur toutes les variables avec « word embedding » • Decision Tree • XG boosting

10. Le modèle « GRU bi-directionnel » offre la meilleure prédiction. Le métrique utilisé : RMSLE (Root Mean Squared Logarithmic Error) Modèles de « Deep Learning » Modèles de Machine Learning « Classique» • LSTM sur 2 variables avec Word embedding (0,422) • Régression Linéaire Multiple (0,446) • LSTM « bi-directionnel » sur 2 variables avec Word embedding (0,409) • Ridge (0,439) • GRU « bi-directionnel » sur toutes les variables avec Word embedding (0,385) • Decision Tree (0,488) • XG boosting (0,446)

11. Data Science Bootcamp Des questions ?