SlideShare une entreprise Scribd logo
1  sur  11
Télécharger pour lire hors ligne
Data Science
Bootcamp
Marc de FORSANZ
Fabien HERRY
Prédiction de prix de vente sur une Marketplace
L’objectif : la prédiction du prix de vente.
Suggérer un prix pour un produit vendu par un particulier sur le site
Mercari.
1,5 million de lignes et 6 variables explicatives.
● Nom de l’article:
● Etat de l’article:
● Catégorie:
● Marque:
● Prix:
● Frais de transport payés par le vendeur:
● Commentaires du vendeur:
● Nom de l’article: ⭐ OPI – Did You Ear About Van Gogh ?
● Etat de l’article: 1
● Catégorie: Beauty/Makeup/Nails
● Marque: NaN
● Prix: 7 (y)
● Frais de transport payés 

par le vendeur: 1
● Commentaires du vendeur: ❣ Brand New • Full Size • Authentic❣ ✨ In

this...
Des variables explicatives, sous forme de phrases.
1.300 catégories de produit et 5.000 marques
différentes
● Etat de l’article: 5
● Catégorie: 1.287
● Marque: 4.809
● Frais de transport payés : 2 

par le vendeur:
Un Préprocessing simple.
● Une variable explicative avec un % de valeurs manquantes très élevé
○ Marque : 42%
o Catégorie : 0,4%
● Pas de valeurs aberrantes
● Transformation du Prix en Log
Une étape importante de Text Processing.
Text Processing « pré-Deep Learning » Text Processing « pré-Machine
Learning »
• Création d’un dictionnaire pour les
contractions (ex : he’s)
• Idem
• Transformation des contractions en leur
forme complète (ex : he is)
• Idem
• Suppression des ponctuations (!?,…)
(« RegEx »)
• Idem
• « Stopwords » sur les articles (« nltk ») • Idem
• Tokenization -Encodage-Séquences-
Padding (« Keras »)
• « Bag of words » (Scikit-learn)
3 modèles de Deep Learning et 4 modèles de
Machine Learning « classique ».
● Dataset réduit à la catégorie : Women/Athletic Apparel/
Pants,…
Modèles de « Deep Learning » Modèles de Machine Learning
« Classique »
• LSTM sur 2 variables avec « word
embedding »
• Régression Linéaire Multiple
• LSTM « bi-directionnel » sur 2
variables avec « word embedding »
• Ridge
• GRU « bi-directionnel » sur toutes les
variables avec « word embedding »
• Decision Tree
• XG boosting
Le modèle « GRU bi-directionnel » offre la meilleure prédiction.
Le métrique utilisé : RMSLE (Root Mean Squared Logarithmic
Error)
Modèles de « Deep Learning » Modèles de Machine Learning « Classique»
• LSTM sur 2 variables avec Word embedding
(0,422)
• Régression Linéaire Multiple (0,446)
• LSTM « bi-directionnel » sur 2 variables avec
Word embedding (0,409)
• Ridge (0,439)
• GRU « bi-directionnel » sur toutes les
variables avec Word embedding (0,385)
• Decision Tree (0,488)
• XG boosting (0,446)
Data Science
Bootcamp
Des questions ?

Contenu connexe

Plus de Jedha Bootcamp

DataScientist Job : Between Myths and Reality.pdf
DataScientist Job : Between Myths and Reality.pdfDataScientist Job : Between Myths and Reality.pdf
DataScientist Job : Between Myths and Reality.pdfJedha Bootcamp
 
L'IA face à l'épreuve du covid-19 - Jedha x Kardinal
L'IA face à l'épreuve du covid-19 - Jedha x KardinalL'IA face à l'épreuve du covid-19 - Jedha x Kardinal
L'IA face à l'épreuve du covid-19 - Jedha x KardinalJedha Bootcamp
 
Générer une image à partir d'un texte - Fullstack Paris #5
Générer une image à partir d'un texte - Fullstack Paris #5Générer une image à partir d'un texte - Fullstack Paris #5
Générer une image à partir d'un texte - Fullstack Paris #5Jedha Bootcamp
 
Recommander des films - Andreea - Fullstack Lyon #1
Recommander des films - Andreea - Fullstack Lyon #1Recommander des films - Andreea - Fullstack Lyon #1
Recommander des films - Andreea - Fullstack Lyon #1Jedha Bootcamp
 
Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1
Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1
Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1Jedha Bootcamp
 
Construction d'une voiture autonome - Adrien Dodinet, alumni Fullstack
Construction d'une voiture autonome - Adrien Dodinet, alumni FullstackConstruction d'une voiture autonome - Adrien Dodinet, alumni Fullstack
Construction d'une voiture autonome - Adrien Dodinet, alumni FullstackJedha Bootcamp
 
Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...
Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...
Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...Jedha Bootcamp
 
Trouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Trouver des offres d'emploi grâce au traitement de texte - Mohamed ZebliTrouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Trouver des offres d'emploi grâce au traitement de texte - Mohamed ZebliJedha Bootcamp
 
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed ZebliOptimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed ZebliJedha Bootcamp
 
Reconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Reconnaître du mobilier design sur une photographie - Emmanuelle GuyotReconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Reconnaître du mobilier design sur une photographie - Emmanuelle GuyotJedha Bootcamp
 
Estimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Estimer le prix de bijou lors d'une vente aux enchères - Katie RossEstimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Estimer le prix de bijou lors d'une vente aux enchères - Katie RossJedha Bootcamp
 
Workshop Data Visualisation - Jedha Paris
Workshop Data Visualisation - Jedha ParisWorkshop Data Visualisation - Jedha Paris
Workshop Data Visualisation - Jedha ParisJedha Bootcamp
 
Les applications du Deep Learning - Jedha Lyon
Les applications du Deep Learning - Jedha LyonLes applications du Deep Learning - Jedha Lyon
Les applications du Deep Learning - Jedha LyonJedha Bootcamp
 
Optimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data ScienceOptimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data ScienceJedha Bootcamp
 
Connaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessiConnaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessiJedha Bootcamp
 
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...Jedha Bootcamp
 
Automatiser la classification d'un jeu vidéo
Automatiser la classification d'un jeu vidéoAutomatiser la classification d'un jeu vidéo
Automatiser la classification d'un jeu vidéoJedha Bootcamp
 
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...Jedha Bootcamp
 
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra PartnersJedha Bootcamp
 

Plus de Jedha Bootcamp (20)

DataScientist Job : Between Myths and Reality.pdf
DataScientist Job : Between Myths and Reality.pdfDataScientist Job : Between Myths and Reality.pdf
DataScientist Job : Between Myths and Reality.pdf
 
L'IA face à l'épreuve du covid-19 - Jedha x Kardinal
L'IA face à l'épreuve du covid-19 - Jedha x KardinalL'IA face à l'épreuve du covid-19 - Jedha x Kardinal
L'IA face à l'épreuve du covid-19 - Jedha x Kardinal
 
Générer une image à partir d'un texte - Fullstack Paris #5
Générer une image à partir d'un texte - Fullstack Paris #5Générer une image à partir d'un texte - Fullstack Paris #5
Générer une image à partir d'un texte - Fullstack Paris #5
 
Recommander des films - Andreea - Fullstack Lyon #1
Recommander des films - Andreea - Fullstack Lyon #1Recommander des films - Andreea - Fullstack Lyon #1
Recommander des films - Andreea - Fullstack Lyon #1
 
Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1
Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1
Localiser des objets en intérieur - Abdelilah - Fullstack Lyon #1
 
Construction d'une voiture autonome - Adrien Dodinet, alumni Fullstack
Construction d'une voiture autonome - Adrien Dodinet, alumni FullstackConstruction d'une voiture autonome - Adrien Dodinet, alumni Fullstack
Construction d'une voiture autonome - Adrien Dodinet, alumni Fullstack
 
Slide portes ouvertes
Slide portes ouvertesSlide portes ouvertes
Slide portes ouvertes
 
Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...
Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...
Prédire le comportement consommateurs grâce à la Data Science - Jimmy Brumant...
 
Trouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Trouver des offres d'emploi grâce au traitement de texte - Mohamed ZebliTrouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
Trouver des offres d'emploi grâce au traitement de texte - Mohamed Zebli
 
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed ZebliOptimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
Optimiser sa stratégie de paris sportifs : le cas du football - Mohamed Zebli
 
Reconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Reconnaître du mobilier design sur une photographie - Emmanuelle GuyotReconnaître du mobilier design sur une photographie - Emmanuelle Guyot
Reconnaître du mobilier design sur une photographie - Emmanuelle Guyot
 
Estimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Estimer le prix de bijou lors d'une vente aux enchères - Katie RossEstimer le prix de bijou lors d'une vente aux enchères - Katie Ross
Estimer le prix de bijou lors d'une vente aux enchères - Katie Ross
 
Workshop Data Visualisation - Jedha Paris
Workshop Data Visualisation - Jedha ParisWorkshop Data Visualisation - Jedha Paris
Workshop Data Visualisation - Jedha Paris
 
Les applications du Deep Learning - Jedha Lyon
Les applications du Deep Learning - Jedha LyonLes applications du Deep Learning - Jedha Lyon
Les applications du Deep Learning - Jedha Lyon
 
Optimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data ScienceOptimiser ses publicités grâce à la Data Science
Optimiser ses publicités grâce à la Data Science
 
Connaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessiConnaître son audience grâce à la Data - Parisa MAjlessi
Connaître son audience grâce à la Data - Parisa MAjlessi
 
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
ONU : baisser la mortalité infantile en optimisant les interventions - Antoin...
 
Automatiser la classification d'un jeu vidéo
Automatiser la classification d'un jeu vidéoAutomatiser la classification d'un jeu vidéo
Automatiser la classification d'un jeu vidéo
 
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
Reconnaître automatiquement les positions de Yoga - Marine Gubler, programme ...
 
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
2019 : les news du RGPD - Méghane Duval, Juriste-conseil @ KaOra Partners
 

Estimer les prix de vente sur une marketplace - Fabien Herry & Marc De Forzanz

  • 1. Data Science Bootcamp Marc de FORSANZ Fabien HERRY Prédiction de prix de vente sur une Marketplace
  • 2.
  • 3. L’objectif : la prédiction du prix de vente. Suggérer un prix pour un produit vendu par un particulier sur le site Mercari.
  • 4. 1,5 million de lignes et 6 variables explicatives. ● Nom de l’article: ● Etat de l’article: ● Catégorie: ● Marque: ● Prix: ● Frais de transport payés par le vendeur: ● Commentaires du vendeur:
  • 5. ● Nom de l’article: ⭐ OPI – Did You Ear About Van Gogh ? ● Etat de l’article: 1 ● Catégorie: Beauty/Makeup/Nails ● Marque: NaN ● Prix: 7 (y) ● Frais de transport payés 
 par le vendeur: 1 ● Commentaires du vendeur: ❣ Brand New • Full Size • Authentic❣ ✨ In
 this... Des variables explicatives, sous forme de phrases.
  • 6. 1.300 catégories de produit et 5.000 marques différentes ● Etat de l’article: 5 ● Catégorie: 1.287 ● Marque: 4.809 ● Frais de transport payés : 2 
 par le vendeur:
  • 7. Un Préprocessing simple. ● Une variable explicative avec un % de valeurs manquantes très élevé ○ Marque : 42% o Catégorie : 0,4% ● Pas de valeurs aberrantes ● Transformation du Prix en Log
  • 8. Une étape importante de Text Processing. Text Processing « pré-Deep Learning » Text Processing « pré-Machine Learning » • Création d’un dictionnaire pour les contractions (ex : he’s) • Idem • Transformation des contractions en leur forme complète (ex : he is) • Idem • Suppression des ponctuations (!?,…) (« RegEx ») • Idem • « Stopwords » sur les articles (« nltk ») • Idem • Tokenization -Encodage-Séquences- Padding (« Keras ») • « Bag of words » (Scikit-learn)
  • 9. 3 modèles de Deep Learning et 4 modèles de Machine Learning « classique ». ● Dataset réduit à la catégorie : Women/Athletic Apparel/ Pants,… Modèles de « Deep Learning » Modèles de Machine Learning « Classique » • LSTM sur 2 variables avec « word embedding » • Régression Linéaire Multiple • LSTM « bi-directionnel » sur 2 variables avec « word embedding » • Ridge • GRU « bi-directionnel » sur toutes les variables avec « word embedding » • Decision Tree • XG boosting
  • 10. Le modèle « GRU bi-directionnel » offre la meilleure prédiction. Le métrique utilisé : RMSLE (Root Mean Squared Logarithmic Error) Modèles de « Deep Learning » Modèles de Machine Learning « Classique» • LSTM sur 2 variables avec Word embedding (0,422) • Régression Linéaire Multiple (0,446) • LSTM « bi-directionnel » sur 2 variables avec Word embedding (0,409) • Ridge (0,439) • GRU « bi-directionnel » sur toutes les variables avec Word embedding (0,385) • Decision Tree (0,488) • XG boosting (0,446)