SlideShare une entreprise Scribd logo
1  sur  7
Télécharger pour lire hors ligne
Techniques d’exploitation de données
(Data Mining)
Projet 1
Professor : François Bellavance
Abdolrasoul Baharifard
(Étudiant de l’université Laval)
Hiver 2015
Motivation :
Dans ce travail, nous générons des règles d’association pour une chaîne de boulangerie ayant un
menu de 40 articles de pâtisseries et de 10 boissons à travers différentes succursales aux États-
Unis.
Description de la base de données :
Dans notre sujet de travail, on utilise des données d’une boulangerie contenant des informations
sur les 75000 achats avec 55 variables (52 binaires et 3 nominales). Les variables avec les
modalités 0 indiquent absence et 1 présence. Par exemple, pour la variable ‘cafe’, 1 indique le
client a acheté le café et 0 indique qu’il n’a pas acheté du café.
Objectif :
Nous allons donc générer des règles d’associations représentant les éléments à présenter
conjointement sur la chaîne de boulangeries. De ce fait, nous serons en mesure de conseiller les
boulangeries sur comment ils peuvent aménager les produits et les dispositions de leur aliments
afin d’amener plus de clients à consommer leurs produits.
.
Sélection des variables :
Nous sélectionnons les variables pour l’analyse selon les étapes suivantes:
• Inclusion de tous les variables dans notre jeu de données pour voir quelles variables sont
pertinentes avec les règles d’associations.
• Choix des variables avec améliorations supérieurs à 30%. Les variables considérés sont :
limonade_framboise ,biscuit_framboises, limonade_citron, biscuit_citron, the_vert,
soda_aux_cerises,cafe,twist_amandes,tarte_complete_pommes,eclair_cafe,danoise_pomme,
croissant_pommes, danoise_abricots, tarte_cerises, tarte_bleuets.
• Inclusion des variables de l’étape précédente dans SAS base, et génération de nouvelles
règles d’association avec SAS EM. Cette fois, nous choisissons les variables avec une
confiance attendue supérieure à 10%. Ces variables sont :
limonade_framboise, biscuit_framboises, limonade_citron, biscuit_citron, the_vert , cafe,
twist_amandes,tarte_complete_pommes, eclair_cafe, danoise_pommes, croissant_pommes,
danoise_abricots, tarte_cerises.
Modélisation
Après la préparation des données avec SAS base, nous les importons dans SAS EM. Les
paramètres importants du nœud association que nous considérons sont (Annexe 1):
• Élément maximum : 4
• Niveau de confiance minimum : 80%
• Pourcentage de support minimum : 5%
Après lancer le programme on a obtenu les résultats qui viennent dans la section suivante.
Interprétation des résultats
On a roulé SAS EM et parmi les règles obtenues, on a choisi les règles rependant aux
critères suivant (Annexe 3) :
• Confiance >= 80%
• Support >=4
• Lift >=5
Grâce à ce processus, on sélection un sous-ensemble de règle de annexe 3 en utilisent l’annexe 2
selon les critères suivants :
• La règle limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron
est plus intéressante que la règle the_vert & biscuit_ framboises ==> limonade_citron &
biscuit_citron parce que l’amélioration, support et confiance pour la première est plus élevée que
la deuxième.
• De la même manière, la règle limonade_framboises & biscuit_citron ==> limonade_citron
est plus intéressante que la règle limonade_citron & biscuit_ framboises ==> biscuit_citron
parce que l’amélioration, support et confiance pour la première est légèrement élevée que la
deuxième.
• La même critère s’applique pour les 2 règles que nous intéressent.
Con
f
Sup
p
Améli Transa
c
Règles
92.2 4.44 19.07 1917 limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron
90 4.85 13.94 2094 Tarte_complete_pommes & cafe ==> twist_amandes & eclair cafe
89.1 4.89 6.64 2109 Eclair_cafe & cafe ==> twiste_amandes
92.09 4.46 7.76 1922 limonade_framboises & biscuit_citron ==> limonade_citron
• limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron :
La confiance pour cette règle est 92.2%, c’est-à-dire 92.2% des clients qui ont acheté
limonade_framboises et biscuit_ framboises dans la transaction ont également acheté
limonade_citron et biscuit_citron . 4.44% des transactions dans la base de données contiennent
(limonade_framboises & biscuit_ framboises) et (limonade_citron & biscuit_citron) au même
temps. Aussi l’amélioration 19.07 indique qu’il y a une forte relation positive entre
(limonade_framboises & biscuit_ framboises) et (limonade_citron & biscuit_citron).
• Tarte_complete_pommes & cafe ==> twist_amandes & eclair cafe
90% des clients qui ont acheté une Tarte_complete_pommes et un cafe ont également acheté
une eclair cafe. 4.85 % des transactions dans la base de données supportent cette règle.
L’amélioration à 13.94 est aussi considérable.
• Eclair_cafe & cafe ==> twiste_amandes
89.1% des clients qui ont acheté des eclair_cafe et cafe ont également acheté une
twiste_amandes. 4.89 % des transactions dans la base de données supportent cette règle.
• limonade_framboises & biscuit_citron ==> limonade_citron
92.09% des clients qui ont acheté des limonade_framboises et biscuit_citron ont également
acheté une limonade_citron. 4.46 % des transactions dans la base de données supportent cette
règle.
Conclusion :
Nous pouvons aussi remarquer que les éléments revenant le plus souvent conjointement sur les
boulangeries sont limonade_framboise, biscuit_framboises, limonade_citron, biscuit_citron,
the_vert, cafe, twist_amandes, tarte_complete_pommes, eclair_cafe, danoise_pommes,
croissant_pommes, danoise_abricots, tarte_cerises. Aussi l’exploitation non supervisé de nos
base de données nous a permis, non seulement d’établir des profils intéressants et interprétables,
mais également des groupes de produits sur lesquels les boulangeries peux mieux se concentrer
afin de cibler leur clientèle.
Annexe 1 : SAS EM avec notre base de données
Annexe 2 : Graphique des règles à analyser
Annexe 3 : les règles sélectionnées en utilisant l’annexe 2

Contenu connexe

En vedette (16)

programmheft
programmheftprogrammheft
programmheft
 
El Sotano
El SotanoEl Sotano
El Sotano
 
DENUNCIA INFANTIL
DENUNCIA INFANTILDENUNCIA INFANTIL
DENUNCIA INFANTIL
 
Itinerari Les Santes - Aida, Montse, javier v2
Itinerari Les Santes - Aida, Montse, javier v2Itinerari Les Santes - Aida, Montse, javier v2
Itinerari Les Santes - Aida, Montse, javier v2
 
Cotylorhiza tuberculata
Cotylorhiza tuberculataCotylorhiza tuberculata
Cotylorhiza tuberculata
 
Biblioteca Judicial de Tarragona. Ana Abarca
Biblioteca Judicial de Tarragona. Ana AbarcaBiblioteca Judicial de Tarragona. Ana Abarca
Biblioteca Judicial de Tarragona. Ana Abarca
 
PARTENARIAT MIW CREA IUT
PARTENARIAT MIW CREA IUTPARTENARIAT MIW CREA IUT
PARTENARIAT MIW CREA IUT
 
Erste schritte mit ct lite load_testing 02.04.14
Erste schritte mit ct lite load_testing 02.04.14Erste schritte mit ct lite load_testing 02.04.14
Erste schritte mit ct lite load_testing 02.04.14
 
Directivas
DirectivasDirectivas
Directivas
 
"Ruby Mola (y por que)" por The Cocktail
"Ruby Mola (y por que)" por The Cocktail"Ruby Mola (y por que)" por The Cocktail
"Ruby Mola (y por que)" por The Cocktail
 
consejos Mari
consejos     Mariconsejos     Mari
consejos Mari
 
EL CAMBIO
EL CAMBIOEL CAMBIO
EL CAMBIO
 
Internet de las cosas
Internet de las cosasInternet de las cosas
Internet de las cosas
 
Weblogs
WeblogsWeblogs
Weblogs
 
FERIA DE SAN MIGUEL 2013 BENARRABÁ
FERIA DE SAN MIGUEL 2013 BENARRABÁFERIA DE SAN MIGUEL 2013 BENARRABÁ
FERIA DE SAN MIGUEL 2013 BENARRABÁ
 
OLENTZEROREN IPUINA
OLENTZEROREN IPUINAOLENTZEROREN IPUINA
OLENTZEROREN IPUINA
 

Similaire à Market Basket Analysis

Comment les supermarchés Match exploitent leur data pour fidéliser leurs clie...
Comment les supermarchés Match exploitent leur data pour fidéliser leurs clie...Comment les supermarchés Match exploitent leur data pour fidéliser leurs clie...
Comment les supermarchés Match exploitent leur data pour fidéliser leurs clie...Kiss The Bride
 
La connexion aux outil de gestion e-commerce par Atoo Next.pdf
La connexion aux outil de gestion e-commerce par Atoo Next.pdfLa connexion aux outil de gestion e-commerce par Atoo Next.pdf
La connexion aux outil de gestion e-commerce par Atoo Next.pdfCibleWeb
 
ECR France Forum ‘06. Gestion des données synchronisée (GDS)
ECR France Forum ‘06. Gestion des données synchronisée (GDS)ECR France Forum ‘06. Gestion des données synchronisée (GDS)
ECR France Forum ‘06. Gestion des données synchronisée (GDS)ECR Community
 
Statistiques 101 - Gilles Barbier, Partner chez TheFamily
Statistiques 101 - Gilles Barbier, Partner chez TheFamilyStatistiques 101 - Gilles Barbier, Partner chez TheFamily
Statistiques 101 - Gilles Barbier, Partner chez TheFamilyTheFamily
 
Intervention 42ème ja ifm 26 nov. 2014
Intervention 42ème ja ifm 26 nov. 2014Intervention 42ème ja ifm 26 nov. 2014
Intervention 42ème ja ifm 26 nov. 2014Fabien VITAL
 
Waybook affaire 2016 2016_09
Waybook affaire 2016 2016_09Waybook affaire 2016 2016_09
Waybook affaire 2016 2016_09wellandyou
 
MyFirstPlant_Présentation_French (1).pdf
MyFirstPlant_Présentation_French (1).pdfMyFirstPlant_Présentation_French (1).pdf
MyFirstPlant_Présentation_French (1).pdfssuser423ad2
 
Pricing Assistant - veille tarifaire
Pricing Assistant - veille tarifairePricing Assistant - veille tarifaire
Pricing Assistant - veille tarifaireAlexis Pisotti
 
Optimisez votre site en alliant Web Analytics & A/B Testing
Optimisez votre site en alliant Web Analytics & A/B TestingOptimisez votre site en alliant Web Analytics & A/B Testing
Optimisez votre site en alliant Web Analytics & A/B TestingOptimizely
 

Similaire à Market Basket Analysis (12)

Comment les supermarchés Match exploitent leur data pour fidéliser leurs clie...
Comment les supermarchés Match exploitent leur data pour fidéliser leurs clie...Comment les supermarchés Match exploitent leur data pour fidéliser leurs clie...
Comment les supermarchés Match exploitent leur data pour fidéliser leurs clie...
 
La connexion aux outil de gestion e-commerce par Atoo Next.pdf
La connexion aux outil de gestion e-commerce par Atoo Next.pdfLa connexion aux outil de gestion e-commerce par Atoo Next.pdf
La connexion aux outil de gestion e-commerce par Atoo Next.pdf
 
ECR France Forum ‘06. Gestion des données synchronisée (GDS)
ECR France Forum ‘06. Gestion des données synchronisée (GDS)ECR France Forum ‘06. Gestion des données synchronisée (GDS)
ECR France Forum ‘06. Gestion des données synchronisée (GDS)
 
Statistiques 101 - Gilles Barbier, Partner chez TheFamily
Statistiques 101 - Gilles Barbier, Partner chez TheFamilyStatistiques 101 - Gilles Barbier, Partner chez TheFamily
Statistiques 101 - Gilles Barbier, Partner chez TheFamily
 
Intervention 42ème ja ifm 26 nov. 2014
Intervention 42ème ja ifm 26 nov. 2014Intervention 42ème ja ifm 26 nov. 2014
Intervention 42ème ja ifm 26 nov. 2014
 
Waybook affaire 2016 2016_09
Waybook affaire 2016 2016_09Waybook affaire 2016 2016_09
Waybook affaire 2016 2016_09
 
MyFirstPlant_Présentation_French (1).pdf
MyFirstPlant_Présentation_French (1).pdfMyFirstPlant_Présentation_French (1).pdf
MyFirstPlant_Présentation_French (1).pdf
 
2009 Partenaire Gua
2009 Partenaire Gua2009 Partenaire Gua
2009 Partenaire Gua
 
Ethiquable
Ethiquable Ethiquable
Ethiquable
 
Pricing Assistant - veille tarifaire
Pricing Assistant - veille tarifairePricing Assistant - veille tarifaire
Pricing Assistant - veille tarifaire
 
Optimisez votre site en alliant Web Analytics & A/B Testing
Optimisez votre site en alliant Web Analytics & A/B TestingOptimisez votre site en alliant Web Analytics & A/B Testing
Optimisez votre site en alliant Web Analytics & A/B Testing
 
Invest - PriceBreak.It!
Invest - PriceBreak.It!Invest - PriceBreak.It!
Invest - PriceBreak.It!
 

Market Basket Analysis

  • 1. Techniques d’exploitation de données (Data Mining) Projet 1 Professor : François Bellavance Abdolrasoul Baharifard (Étudiant de l’université Laval) Hiver 2015
  • 2. Motivation : Dans ce travail, nous générons des règles d’association pour une chaîne de boulangerie ayant un menu de 40 articles de pâtisseries et de 10 boissons à travers différentes succursales aux États- Unis. Description de la base de données : Dans notre sujet de travail, on utilise des données d’une boulangerie contenant des informations sur les 75000 achats avec 55 variables (52 binaires et 3 nominales). Les variables avec les modalités 0 indiquent absence et 1 présence. Par exemple, pour la variable ‘cafe’, 1 indique le client a acheté le café et 0 indique qu’il n’a pas acheté du café. Objectif : Nous allons donc générer des règles d’associations représentant les éléments à présenter conjointement sur la chaîne de boulangeries. De ce fait, nous serons en mesure de conseiller les boulangeries sur comment ils peuvent aménager les produits et les dispositions de leur aliments afin d’amener plus de clients à consommer leurs produits. . Sélection des variables : Nous sélectionnons les variables pour l’analyse selon les étapes suivantes: • Inclusion de tous les variables dans notre jeu de données pour voir quelles variables sont pertinentes avec les règles d’associations. • Choix des variables avec améliorations supérieurs à 30%. Les variables considérés sont : limonade_framboise ,biscuit_framboises, limonade_citron, biscuit_citron, the_vert, soda_aux_cerises,cafe,twist_amandes,tarte_complete_pommes,eclair_cafe,danoise_pomme, croissant_pommes, danoise_abricots, tarte_cerises, tarte_bleuets.
  • 3. • Inclusion des variables de l’étape précédente dans SAS base, et génération de nouvelles règles d’association avec SAS EM. Cette fois, nous choisissons les variables avec une confiance attendue supérieure à 10%. Ces variables sont : limonade_framboise, biscuit_framboises, limonade_citron, biscuit_citron, the_vert , cafe, twist_amandes,tarte_complete_pommes, eclair_cafe, danoise_pommes, croissant_pommes, danoise_abricots, tarte_cerises. Modélisation Après la préparation des données avec SAS base, nous les importons dans SAS EM. Les paramètres importants du nœud association que nous considérons sont (Annexe 1): • Élément maximum : 4 • Niveau de confiance minimum : 80% • Pourcentage de support minimum : 5% Après lancer le programme on a obtenu les résultats qui viennent dans la section suivante. Interprétation des résultats On a roulé SAS EM et parmi les règles obtenues, on a choisi les règles rependant aux critères suivant (Annexe 3) : • Confiance >= 80% • Support >=4 • Lift >=5 Grâce à ce processus, on sélection un sous-ensemble de règle de annexe 3 en utilisent l’annexe 2 selon les critères suivants :
  • 4. • La règle limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron est plus intéressante que la règle the_vert & biscuit_ framboises ==> limonade_citron & biscuit_citron parce que l’amélioration, support et confiance pour la première est plus élevée que la deuxième. • De la même manière, la règle limonade_framboises & biscuit_citron ==> limonade_citron est plus intéressante que la règle limonade_citron & biscuit_ framboises ==> biscuit_citron parce que l’amélioration, support et confiance pour la première est légèrement élevée que la deuxième. • La même critère s’applique pour les 2 règles que nous intéressent. Con f Sup p Améli Transa c Règles 92.2 4.44 19.07 1917 limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron 90 4.85 13.94 2094 Tarte_complete_pommes & cafe ==> twist_amandes & eclair cafe 89.1 4.89 6.64 2109 Eclair_cafe & cafe ==> twiste_amandes 92.09 4.46 7.76 1922 limonade_framboises & biscuit_citron ==> limonade_citron • limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron : La confiance pour cette règle est 92.2%, c’est-à-dire 92.2% des clients qui ont acheté limonade_framboises et biscuit_ framboises dans la transaction ont également acheté limonade_citron et biscuit_citron . 4.44% des transactions dans la base de données contiennent (limonade_framboises & biscuit_ framboises) et (limonade_citron & biscuit_citron) au même temps. Aussi l’amélioration 19.07 indique qu’il y a une forte relation positive entre (limonade_framboises & biscuit_ framboises) et (limonade_citron & biscuit_citron). • Tarte_complete_pommes & cafe ==> twist_amandes & eclair cafe 90% des clients qui ont acheté une Tarte_complete_pommes et un cafe ont également acheté une eclair cafe. 4.85 % des transactions dans la base de données supportent cette règle. L’amélioration à 13.94 est aussi considérable. • Eclair_cafe & cafe ==> twiste_amandes
  • 5. 89.1% des clients qui ont acheté des eclair_cafe et cafe ont également acheté une twiste_amandes. 4.89 % des transactions dans la base de données supportent cette règle. • limonade_framboises & biscuit_citron ==> limonade_citron 92.09% des clients qui ont acheté des limonade_framboises et biscuit_citron ont également acheté une limonade_citron. 4.46 % des transactions dans la base de données supportent cette règle. Conclusion : Nous pouvons aussi remarquer que les éléments revenant le plus souvent conjointement sur les boulangeries sont limonade_framboise, biscuit_framboises, limonade_citron, biscuit_citron, the_vert, cafe, twist_amandes, tarte_complete_pommes, eclair_cafe, danoise_pommes, croissant_pommes, danoise_abricots, tarte_cerises. Aussi l’exploitation non supervisé de nos base de données nous a permis, non seulement d’établir des profils intéressants et interprétables, mais également des groupes de produits sur lesquels les boulangeries peux mieux se concentrer afin de cibler leur clientèle.
  • 6. Annexe 1 : SAS EM avec notre base de données Annexe 2 : Graphique des règles à analyser
  • 7. Annexe 3 : les règles sélectionnées en utilisant l’annexe 2