SlideShare une entreprise Scribd logo
1  sur  4
Télécharger pour lire hors ligne
Approche comparative de l’imputation des
données manquantes en recommandation de
produits
Par : Anas EL KHALOUI
Soutenu à Rennes le 08/09/2015
Devant le jury composé de :
Président : Julie Josse
Maître de stage : Valérie Kaufmann
Enseignant référent : François Husson
AGROCAMPUS
OUEST
CFR Angers
CFR Rennes
Année universitaire : 2015 - 2016
Spécialité : Agroalimentaire
Spécialisation : Statistiques Appliquées
Mémoire de Fin d'Études
d’Ingénieur de l’Institut Supérieur des Sciences agronomiques,
agroalimentaires, horticoles et du paysage
de Master de l’Institut Supérieur des Sciences agronomiques,
agroalimentaires, horticoles et du paysage
d'un autre établissement (étudiant arrivé en M2)
P a g e | 1
SOMMAIRE
REMERCIEMENTS ............................................................................................................................. 2
I. INTRODUCTION...................................................................................................................... 3
II. CONTEXTE DE L’ETUDE............................................................................................................ 4
1. ENTREPRISE & MISSIONS ........................................................................................................ 4
2. LE CRM OU LE MARKETING ANALYTIQUE................................................................................. 4
3. LA RECOMMANDATION DE PRODUITS, UN ENJEU DECISIF POUR L’ENTREPRISE COMMERCIALE. 5
III. LA RECOMMANDATION DE PRODUITS, UN PROBLEME DE DONNEES MANQUANTES................. 8
1. RECOMMANDATION DE PRODUITS ET COMPLETION DE MATRICES .......................................... 8
2. CHOIX DES DONNEES & ETUDE PRELIMINAIRE......................................................................... 9
3. OBJECTIFS OPERATIONNELS & SCIENTIFIQUES ......................................................................... 9
IV. UNE APPROCHE COMPARATIVE DE LA COMPLETION DE MATRICES ........................................ 11
1. TYPES ET STRUCTURATION DES DONNEES MANQUANTES...................................................... 11
TYPES DE DONNEES MANQUANTES........................................................................................................11
REPARTITION DES DONNEES MANQUANTES.............................................................................................11
2. CHOIX DES METHODES ......................................................................................................... 12
METHODE DES K-PLUS PROCHES VOISINS (K-NEAREST NEIGHBORS OU KNN)................................................13
FORETS ALEATOIRES (FORETS D’ARBRES DECISIONNELS)............................................................................13
ACP ITERATIVES REGULARISEES............................................................................................................14
3. METHODE DE COMPARAISON............................................................................................... 15
PRINCIPES........................................................................................................................................15
DONNEES.........................................................................................................................................15
ALGORITHME....................................................................................................................................16
V. RESULTATS, DISCUSSION ET LIMITATIONS ............................................................................. 16
1. RESULTATS........................................................................................................................... 16
EFFET DU POURCENTAGE DE DONNEES MANQUANTES...............................................................................16
EFFET DES LIAISONS LINEAIRES ENTRE VARIABLES .....................................................................................18
EFFET DU TYPE DE LIAISONS ENTRE VARIABLES : LIAISONS NON LINEAIRES .....................................................22
EFFET DU NOMBRE D’INDIVIDUS...........................................................................................................26
EFFET DU NOMBRE DE VARIABLES .........................................................................................................27
2. DISCUSSION ET LIMITATIONS................................................................................................ 27
DONNEES.........................................................................................................................................27
TEMPS DE CALCUL .............................................................................................................................28
PERSPECTIVES...................................................................................................................................28
VI. CONCLUSION........................................................................................................................ 31
TABLE DES FIGURES........................................................................................................................ 32
BIBLIOGRAPHIE.............................................................................................................................. 33
GLOSSAIRE..................................................................................................................................... 34
P a g e | 2
Remerciements
Je remercie d’abord mon maître de stage Valérie Kaufmann, directrice des Études et du
CRM du groupe BUT pour sa disponibilité sans faille, son attention permanente et le temps
qu’elle a passé à me former. Je la remercie ensuite vivement pour la confiance qu’elle m’a
accordée durant son absence. J’ai grâce à elle pu m’investir dans la découverte et la
connaissance d’un secteur absolument passionnant.
Mes remerciements les plus vifs s’adressent ensuite aux membres de l’équipe CRM qui
m’ont intégré et impliqué dans leurs projets dès les premiers jours de ma présence au sein de
la société. Audrey Raimond et Tamara Szarmach, travailler avec vous est un véritable plaisir.
Un grand merci également à Juliette Laporte pour m’avoir impliqué dans des projets et
opérations à l’échelle du groupe. Travailler avec toi est un défi permanent extrêmement
enrichissant.
Ma reconnaissance s’adresse ensuite à toutes les personnes, salariés ou prestataires de
BUT avec qui j’ai collaboré et qui ont partagé leur expertise avec moi : Sovansokha Suorm
(Direction Exploitation BUT), Nicolas Imbert et Fabien Cagnet (SOGEC Datamark Services),
Thierry Vallaud (BVA Data Science), etc.
P a g e | 3
I.Introduction
La prise de conscience de l’importance de la collecte et de l’exploitation de données
commerciales a mené à la généralisation récente de bases de données orientées vers le
marketing et centrées sur le consommateur. Ces bases ont la particularité de permettre
l’identification et le suivi de manière unique de chaque client ou prospect quel que soit le canal
(Magasin, web, mobile, etc.) qu’il utilise pour interagir avec l’entreprise. Cela a ouvert la porte
à un nouveau marketing, basé sur la connaissance des particularités de chacun et dont le rôle
est non plus simplement de relayer massivement les offres et les promotions, mais d’engager
une véritable relation entre la marque et sa clientèle, durable et personnalisée dans laquelle le
consommateur se sent écouté et estimé.
Ceci est particulièrement le cas dans le secteur de la distribution, où le contexte ultra
concurrentiel et l’offre pléthorique imposent de penser à l’avance le parcours du client et de
mettre en place des processus permettant le captage et la rétention de ce dernier tout en lui
procurant satisfaction.
La Statistique intervient précisément à ce niveau-là, traditionnellement de manière
descriptive dans le cadre de segmentations comme la RFM (Récence, fréquence, montant) ou
la PMG (Petits, moyens, grands clients), permettant une bonne vision de sa base et un premier
niveau de ciblage. Les percées récentes en matière de stockage, de traitement et de mise à
disposition des données ainsi qu’une grande effervescence dans le secteur des « Business
Analytics » ont cependant marqué le début d’une nouvelle ère qui est celle du Marketing
prédictif. Temps passé sur la page d’un produit éventuellement convoité, historique d’achat,
activité sur les réseaux sociaux, réaction aux emails, toutes les données d’un utilisateur
présentent de précieux indices permettant aux entreprises de réagir à ses besoins et à ses
envies en temps réel.
Mon arrivée au sein de l’entreprise BUT International a coïncidé avec une période de très
fort développement sur les domaines relatifs aux données et à leur traitement. J’ai pu me
familiariser avec différentes sources de données clients et utiliser différents outils pour les
requêter, en extraire de l’information et fournir des réponses aux questions que se posent le
management et les différents autres services. Cependant, j’ai décidé dans ce document de me
limiter à une problématique particulière rencontrée par toute entreprise commercialisant ses
produits sur internet, et de l’utiliser pour explorer un des champs les plus actifs de la Statistique,
qui est celui de la donnée manquante.

Contenu connexe

Similaire à A comparative approach to missing value imputation applied to e-commerce product recommendation

Big data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achatBig data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achatfifi75
 
Comment l'internaute réagit-il face au webmarketing one to one ?
Comment l'internaute réagit-il face au webmarketing one to one ?Comment l'internaute réagit-il face au webmarketing one to one ?
Comment l'internaute réagit-il face au webmarketing one to one ?Anne Schnepp
 
Comment l'internaute réagit-il face au webmarketing one to one ?
Comment l'internaute réagit-il face au webmarketing one to one ?Comment l'internaute réagit-il face au webmarketing one to one ?
Comment l'internaute réagit-il face au webmarketing one to one ?Anne Schnepp
 
Chavanon.rodolphe m2 mms2019-perception site internet b to b (4) (1)
Chavanon.rodolphe m2 mms2019-perception site internet b to b (4) (1)Chavanon.rodolphe m2 mms2019-perception site internet b to b (4) (1)
Chavanon.rodolphe m2 mms2019-perception site internet b to b (4) (1)Rodolphe Chavanon
 
EXPLOITATION DES DONNEES CLIENTS : UN PASSAGE RISQUE MAIS STRATEGIQUE POUR LE...
EXPLOITATION DES DONNEES CLIENTS : UN PASSAGE RISQUE MAIS STRATEGIQUE POUR LE...EXPLOITATION DES DONNEES CLIENTS : UN PASSAGE RISQUE MAIS STRATEGIQUE POUR LE...
EXPLOITATION DES DONNEES CLIENTS : UN PASSAGE RISQUE MAIS STRATEGIQUE POUR LE...Léa Sapolin 🐯
 
Rapport d'activité Cécile Renault 10,2015
Rapport d'activité Cécile Renault 10,2015Rapport d'activité Cécile Renault 10,2015
Rapport d'activité Cécile Renault 10,2015Cecile Renault
 
Barom tre-intimit-client-2013-ok-131001122552-phpapp01
Barom tre-intimit-client-2013-ok-131001122552-phpapp01Barom tre-intimit-client-2013-ok-131001122552-phpapp01
Barom tre-intimit-client-2013-ok-131001122552-phpapp01Jérémie QUERET
 
Baromètre intimité client 2013 - CSC
Baromètre intimité client 2013 - CSCBaromètre intimité client 2013 - CSC
Baromètre intimité client 2013 - CSCLise Déchamps
 
[Livre Blanc] la Data au service de l’expérience client - Netbooster
[Livre Blanc] la Data au service de l’expérience client - Netbooster[Livre Blanc] la Data au service de l’expérience client - Netbooster
[Livre Blanc] la Data au service de l’expérience client - Netboosteryann le gigan
 
La data au service de l'experience client - Livre blanc - Netbooster - Mars 2015
La data au service de l'experience client - Livre blanc - Netbooster - Mars 2015La data au service de l'experience client - Livre blanc - Netbooster - Mars 2015
La data au service de l'experience client - Livre blanc - Netbooster - Mars 2015Romain Fonnier
 
Mémoire Master Moi 2011 Armelle Nguyen programme de fidélité
Mémoire Master Moi 2011 Armelle Nguyen programme de fidélitéMémoire Master Moi 2011 Armelle Nguyen programme de fidélité
Mémoire Master Moi 2011 Armelle Nguyen programme de fidélitéMaster MOI
 
These professionnelle skema business school antoine audenaert_mdce Le dévelop...
These professionnelle skema business school antoine audenaert_mdce Le dévelop...These professionnelle skema business school antoine audenaert_mdce Le dévelop...
These professionnelle skema business school antoine audenaert_mdce Le dévelop...Antoine Audenaert
 
Le marketing comportemental[1]
Le marketing comportemental[1]Le marketing comportemental[1]
Le marketing comportemental[1]Bbasatof Mostafa
 
Transformation digitale et banques de detail
Transformation digitale et banques de detail Transformation digitale et banques de detail
Transformation digitale et banques de detail BRIVA
 
Fighting the Google-FB duopoly — an official report to the French government
Fighting the Google-FB duopoly — an official report to the French governmentFighting the Google-FB duopoly — an official report to the French government
Fighting the Google-FB duopoly — an official report to the French governmentJean Pierre Ranschaert
 
Investance_Year_Ahead_2014
Investance_Year_Ahead_2014Investance_Year_Ahead_2014
Investance_Year_Ahead_2014Charles Plessis
 
Joanna stroz marketing mobile les techniques mobile-in-store-mémoire master...
Joanna stroz marketing mobile   les techniques mobile-in-store-mémoire master...Joanna stroz marketing mobile   les techniques mobile-in-store-mémoire master...
Joanna stroz marketing mobile les techniques mobile-in-store-mémoire master...Gwenaëlle Chassine
 
Marketing of multicanal innovation in banking services: behavioral study of b...
Marketing of multicanal innovation in banking services: behavioral study of b...Marketing of multicanal innovation in banking services: behavioral study of b...
Marketing of multicanal innovation in banking services: behavioral study of b...Fethi Ferhane
 
Acquisition Digitale : du Smart Data au Growth Hacking
Acquisition Digitale  : du Smart Data au Growth HackingAcquisition Digitale  : du Smart Data au Growth Hacking
Acquisition Digitale : du Smart Data au Growth HackingAKAMIS
 
L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...
L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...
L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...OmarMOUMINI
 

Similaire à A comparative approach to missing value imputation applied to e-commerce product recommendation (20)

Big data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achatBig data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
 
Comment l'internaute réagit-il face au webmarketing one to one ?
Comment l'internaute réagit-il face au webmarketing one to one ?Comment l'internaute réagit-il face au webmarketing one to one ?
Comment l'internaute réagit-il face au webmarketing one to one ?
 
Comment l'internaute réagit-il face au webmarketing one to one ?
Comment l'internaute réagit-il face au webmarketing one to one ?Comment l'internaute réagit-il face au webmarketing one to one ?
Comment l'internaute réagit-il face au webmarketing one to one ?
 
Chavanon.rodolphe m2 mms2019-perception site internet b to b (4) (1)
Chavanon.rodolphe m2 mms2019-perception site internet b to b (4) (1)Chavanon.rodolphe m2 mms2019-perception site internet b to b (4) (1)
Chavanon.rodolphe m2 mms2019-perception site internet b to b (4) (1)
 
EXPLOITATION DES DONNEES CLIENTS : UN PASSAGE RISQUE MAIS STRATEGIQUE POUR LE...
EXPLOITATION DES DONNEES CLIENTS : UN PASSAGE RISQUE MAIS STRATEGIQUE POUR LE...EXPLOITATION DES DONNEES CLIENTS : UN PASSAGE RISQUE MAIS STRATEGIQUE POUR LE...
EXPLOITATION DES DONNEES CLIENTS : UN PASSAGE RISQUE MAIS STRATEGIQUE POUR LE...
 
Rapport d'activité Cécile Renault 10,2015
Rapport d'activité Cécile Renault 10,2015Rapport d'activité Cécile Renault 10,2015
Rapport d'activité Cécile Renault 10,2015
 
Barom tre-intimit-client-2013-ok-131001122552-phpapp01
Barom tre-intimit-client-2013-ok-131001122552-phpapp01Barom tre-intimit-client-2013-ok-131001122552-phpapp01
Barom tre-intimit-client-2013-ok-131001122552-phpapp01
 
Baromètre intimité client 2013 - CSC
Baromètre intimité client 2013 - CSCBaromètre intimité client 2013 - CSC
Baromètre intimité client 2013 - CSC
 
[Livre Blanc] la Data au service de l’expérience client - Netbooster
[Livre Blanc] la Data au service de l’expérience client - Netbooster[Livre Blanc] la Data au service de l’expérience client - Netbooster
[Livre Blanc] la Data au service de l’expérience client - Netbooster
 
La data au service de l'experience client - Livre blanc - Netbooster - Mars 2015
La data au service de l'experience client - Livre blanc - Netbooster - Mars 2015La data au service de l'experience client - Livre blanc - Netbooster - Mars 2015
La data au service de l'experience client - Livre blanc - Netbooster - Mars 2015
 
Mémoire Master Moi 2011 Armelle Nguyen programme de fidélité
Mémoire Master Moi 2011 Armelle Nguyen programme de fidélitéMémoire Master Moi 2011 Armelle Nguyen programme de fidélité
Mémoire Master Moi 2011 Armelle Nguyen programme de fidélité
 
These professionnelle skema business school antoine audenaert_mdce Le dévelop...
These professionnelle skema business school antoine audenaert_mdce Le dévelop...These professionnelle skema business school antoine audenaert_mdce Le dévelop...
These professionnelle skema business school antoine audenaert_mdce Le dévelop...
 
Le marketing comportemental[1]
Le marketing comportemental[1]Le marketing comportemental[1]
Le marketing comportemental[1]
 
Transformation digitale et banques de detail
Transformation digitale et banques de detail Transformation digitale et banques de detail
Transformation digitale et banques de detail
 
Fighting the Google-FB duopoly — an official report to the French government
Fighting the Google-FB duopoly — an official report to the French governmentFighting the Google-FB duopoly — an official report to the French government
Fighting the Google-FB duopoly — an official report to the French government
 
Investance_Year_Ahead_2014
Investance_Year_Ahead_2014Investance_Year_Ahead_2014
Investance_Year_Ahead_2014
 
Joanna stroz marketing mobile les techniques mobile-in-store-mémoire master...
Joanna stroz marketing mobile   les techniques mobile-in-store-mémoire master...Joanna stroz marketing mobile   les techniques mobile-in-store-mémoire master...
Joanna stroz marketing mobile les techniques mobile-in-store-mémoire master...
 
Marketing of multicanal innovation in banking services: behavioral study of b...
Marketing of multicanal innovation in banking services: behavioral study of b...Marketing of multicanal innovation in banking services: behavioral study of b...
Marketing of multicanal innovation in banking services: behavioral study of b...
 
Acquisition Digitale : du Smart Data au Growth Hacking
Acquisition Digitale  : du Smart Data au Growth HackingAcquisition Digitale  : du Smart Data au Growth Hacking
Acquisition Digitale : du Smart Data au Growth Hacking
 
L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...
L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...
L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...
 

Dernier

GAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engageGAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engageInstitut de l'Elevage - Idele
 
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...Institut de l'Elevage - Idele
 
DISPOSITIFS-MEDICAUX-PPT.pdf............
DISPOSITIFS-MEDICAUX-PPT.pdf............DISPOSITIFS-MEDICAUX-PPT.pdf............
DISPOSITIFS-MEDICAUX-PPT.pdf............cheddadzaineb
 
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusGAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusInstitut de l'Elevage - Idele
 
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...Institut de l'Elevage - Idele
 
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...Institut de l'Elevage - Idele
 
Algo II : les piles ( cours + exercices)
Algo II :  les piles ( cours + exercices)Algo II :  les piles ( cours + exercices)
Algo II : les piles ( cours + exercices)Sana REFAI
 
GAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentesGAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentesInstitut de l'Elevage - Idele
 
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...Institut de l'Elevage - Idele
 
WBS OBS RACI_2020-etunhjjlllllll pdf.pdf
WBS OBS RACI_2020-etunhjjlllllll pdf.pdfWBS OBS RACI_2020-etunhjjlllllll pdf.pdf
WBS OBS RACI_2020-etunhjjlllllll pdf.pdfSophie569778
 
JTC 2024 - Réglementation européenne BEA et Transport.pdf
JTC 2024 - Réglementation européenne BEA et Transport.pdfJTC 2024 - Réglementation européenne BEA et Transport.pdf
JTC 2024 - Réglementation européenne BEA et Transport.pdfInstitut de l'Elevage - Idele
 
firefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdffirefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdffirstjob4
 
comprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestioncomprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestionyakinekaidouchi1
 
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...Institut de l'Elevage - Idele
 
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...Institut de l'Elevage - Idele
 
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024Ville de Châteauguay
 
conception d'un batiment r+4 comparative de defferente ariante de plancher
conception d'un  batiment  r+4 comparative de defferente ariante de plancherconception d'un  batiment  r+4 comparative de defferente ariante de plancher
conception d'un batiment r+4 comparative de defferente ariante de planchermansouriahlam
 
GAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversitéGAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversitéInstitut de l'Elevage - Idele
 

Dernier (20)

GAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engageGAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engage
 
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
 
DISPOSITIFS-MEDICAUX-PPT.pdf............
DISPOSITIFS-MEDICAUX-PPT.pdf............DISPOSITIFS-MEDICAUX-PPT.pdf............
DISPOSITIFS-MEDICAUX-PPT.pdf............
 
JTC 2024 Bâtiment et Photovoltaïque.pdf
JTC 2024  Bâtiment et Photovoltaïque.pdfJTC 2024  Bâtiment et Photovoltaïque.pdf
JTC 2024 Bâtiment et Photovoltaïque.pdf
 
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusGAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
 
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
GAL2024 - Parcellaire des fermes laitières : en enjeu de compétitivité et de ...
 
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
 
Algo II : les piles ( cours + exercices)
Algo II :  les piles ( cours + exercices)Algo II :  les piles ( cours + exercices)
Algo II : les piles ( cours + exercices)
 
GAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentesGAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentes
 
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
 
WBS OBS RACI_2020-etunhjjlllllll pdf.pdf
WBS OBS RACI_2020-etunhjjlllllll pdf.pdfWBS OBS RACI_2020-etunhjjlllllll pdf.pdf
WBS OBS RACI_2020-etunhjjlllllll pdf.pdf
 
JTC 2024 - DeCremoux_Anomalies_génétiques.pdf
JTC 2024 - DeCremoux_Anomalies_génétiques.pdfJTC 2024 - DeCremoux_Anomalies_génétiques.pdf
JTC 2024 - DeCremoux_Anomalies_génétiques.pdf
 
JTC 2024 - Réglementation européenne BEA et Transport.pdf
JTC 2024 - Réglementation européenne BEA et Transport.pdfJTC 2024 - Réglementation européenne BEA et Transport.pdf
JTC 2024 - Réglementation européenne BEA et Transport.pdf
 
firefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdffirefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdf
 
comprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestioncomprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestion
 
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
 
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
GAL2024 - Traite des vaches laitières : au coeur des stratégies d'évolution d...
 
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
 
conception d'un batiment r+4 comparative de defferente ariante de plancher
conception d'un  batiment  r+4 comparative de defferente ariante de plancherconception d'un  batiment  r+4 comparative de defferente ariante de plancher
conception d'un batiment r+4 comparative de defferente ariante de plancher
 
GAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversitéGAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversité
 

A comparative approach to missing value imputation applied to e-commerce product recommendation

  • 1. Approche comparative de l’imputation des données manquantes en recommandation de produits Par : Anas EL KHALOUI Soutenu à Rennes le 08/09/2015 Devant le jury composé de : Président : Julie Josse Maître de stage : Valérie Kaufmann Enseignant référent : François Husson AGROCAMPUS OUEST CFR Angers CFR Rennes Année universitaire : 2015 - 2016 Spécialité : Agroalimentaire Spécialisation : Statistiques Appliquées Mémoire de Fin d'Études d’Ingénieur de l’Institut Supérieur des Sciences agronomiques, agroalimentaires, horticoles et du paysage de Master de l’Institut Supérieur des Sciences agronomiques, agroalimentaires, horticoles et du paysage d'un autre établissement (étudiant arrivé en M2)
  • 2. P a g e | 1 SOMMAIRE REMERCIEMENTS ............................................................................................................................. 2 I. INTRODUCTION...................................................................................................................... 3 II. CONTEXTE DE L’ETUDE............................................................................................................ 4 1. ENTREPRISE & MISSIONS ........................................................................................................ 4 2. LE CRM OU LE MARKETING ANALYTIQUE................................................................................. 4 3. LA RECOMMANDATION DE PRODUITS, UN ENJEU DECISIF POUR L’ENTREPRISE COMMERCIALE. 5 III. LA RECOMMANDATION DE PRODUITS, UN PROBLEME DE DONNEES MANQUANTES................. 8 1. RECOMMANDATION DE PRODUITS ET COMPLETION DE MATRICES .......................................... 8 2. CHOIX DES DONNEES & ETUDE PRELIMINAIRE......................................................................... 9 3. OBJECTIFS OPERATIONNELS & SCIENTIFIQUES ......................................................................... 9 IV. UNE APPROCHE COMPARATIVE DE LA COMPLETION DE MATRICES ........................................ 11 1. TYPES ET STRUCTURATION DES DONNEES MANQUANTES...................................................... 11 TYPES DE DONNEES MANQUANTES........................................................................................................11 REPARTITION DES DONNEES MANQUANTES.............................................................................................11 2. CHOIX DES METHODES ......................................................................................................... 12 METHODE DES K-PLUS PROCHES VOISINS (K-NEAREST NEIGHBORS OU KNN)................................................13 FORETS ALEATOIRES (FORETS D’ARBRES DECISIONNELS)............................................................................13 ACP ITERATIVES REGULARISEES............................................................................................................14 3. METHODE DE COMPARAISON............................................................................................... 15 PRINCIPES........................................................................................................................................15 DONNEES.........................................................................................................................................15 ALGORITHME....................................................................................................................................16 V. RESULTATS, DISCUSSION ET LIMITATIONS ............................................................................. 16 1. RESULTATS........................................................................................................................... 16 EFFET DU POURCENTAGE DE DONNEES MANQUANTES...............................................................................16 EFFET DES LIAISONS LINEAIRES ENTRE VARIABLES .....................................................................................18 EFFET DU TYPE DE LIAISONS ENTRE VARIABLES : LIAISONS NON LINEAIRES .....................................................22 EFFET DU NOMBRE D’INDIVIDUS...........................................................................................................26 EFFET DU NOMBRE DE VARIABLES .........................................................................................................27 2. DISCUSSION ET LIMITATIONS................................................................................................ 27 DONNEES.........................................................................................................................................27 TEMPS DE CALCUL .............................................................................................................................28 PERSPECTIVES...................................................................................................................................28 VI. CONCLUSION........................................................................................................................ 31 TABLE DES FIGURES........................................................................................................................ 32 BIBLIOGRAPHIE.............................................................................................................................. 33 GLOSSAIRE..................................................................................................................................... 34
  • 3. P a g e | 2 Remerciements Je remercie d’abord mon maître de stage Valérie Kaufmann, directrice des Études et du CRM du groupe BUT pour sa disponibilité sans faille, son attention permanente et le temps qu’elle a passé à me former. Je la remercie ensuite vivement pour la confiance qu’elle m’a accordée durant son absence. J’ai grâce à elle pu m’investir dans la découverte et la connaissance d’un secteur absolument passionnant. Mes remerciements les plus vifs s’adressent ensuite aux membres de l’équipe CRM qui m’ont intégré et impliqué dans leurs projets dès les premiers jours de ma présence au sein de la société. Audrey Raimond et Tamara Szarmach, travailler avec vous est un véritable plaisir. Un grand merci également à Juliette Laporte pour m’avoir impliqué dans des projets et opérations à l’échelle du groupe. Travailler avec toi est un défi permanent extrêmement enrichissant. Ma reconnaissance s’adresse ensuite à toutes les personnes, salariés ou prestataires de BUT avec qui j’ai collaboré et qui ont partagé leur expertise avec moi : Sovansokha Suorm (Direction Exploitation BUT), Nicolas Imbert et Fabien Cagnet (SOGEC Datamark Services), Thierry Vallaud (BVA Data Science), etc.
  • 4. P a g e | 3 I.Introduction La prise de conscience de l’importance de la collecte et de l’exploitation de données commerciales a mené à la généralisation récente de bases de données orientées vers le marketing et centrées sur le consommateur. Ces bases ont la particularité de permettre l’identification et le suivi de manière unique de chaque client ou prospect quel que soit le canal (Magasin, web, mobile, etc.) qu’il utilise pour interagir avec l’entreprise. Cela a ouvert la porte à un nouveau marketing, basé sur la connaissance des particularités de chacun et dont le rôle est non plus simplement de relayer massivement les offres et les promotions, mais d’engager une véritable relation entre la marque et sa clientèle, durable et personnalisée dans laquelle le consommateur se sent écouté et estimé. Ceci est particulièrement le cas dans le secteur de la distribution, où le contexte ultra concurrentiel et l’offre pléthorique imposent de penser à l’avance le parcours du client et de mettre en place des processus permettant le captage et la rétention de ce dernier tout en lui procurant satisfaction. La Statistique intervient précisément à ce niveau-là, traditionnellement de manière descriptive dans le cadre de segmentations comme la RFM (Récence, fréquence, montant) ou la PMG (Petits, moyens, grands clients), permettant une bonne vision de sa base et un premier niveau de ciblage. Les percées récentes en matière de stockage, de traitement et de mise à disposition des données ainsi qu’une grande effervescence dans le secteur des « Business Analytics » ont cependant marqué le début d’une nouvelle ère qui est celle du Marketing prédictif. Temps passé sur la page d’un produit éventuellement convoité, historique d’achat, activité sur les réseaux sociaux, réaction aux emails, toutes les données d’un utilisateur présentent de précieux indices permettant aux entreprises de réagir à ses besoins et à ses envies en temps réel. Mon arrivée au sein de l’entreprise BUT International a coïncidé avec une période de très fort développement sur les domaines relatifs aux données et à leur traitement. J’ai pu me familiariser avec différentes sources de données clients et utiliser différents outils pour les requêter, en extraire de l’information et fournir des réponses aux questions que se posent le management et les différents autres services. Cependant, j’ai décidé dans ce document de me limiter à une problématique particulière rencontrée par toute entreprise commercialisant ses produits sur internet, et de l’utiliser pour explorer un des champs les plus actifs de la Statistique, qui est celui de la donnée manquante.