Techniques d’exploitation de données
(Data Mining)
Projet 1
Professor : François Bellavance
Abdolrasoul Baharifard
(Étudia...
Motivation :
Dans ce travail, nous générons des règles d’association pour une chaîne de boulangerie ayant un
menu de 40 ar...
• Inclusion des variables de l’étape précédente dans SAS base, et génération de nouvelles
règles d’association avec SAS EM...
• La règle limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron
est plus intéressante que la règ...
89.1% des clients qui ont acheté des eclair_cafe et cafe ont également acheté une
twiste_amandes. 4.89 % des transactions ...
Annexe 1 : SAS EM avec notre base de données
Annexe 2 : Graphique des règles à analyser
Annexe 3 : les règles sélectionnées en utilisant l’annexe 2
Prochain SlideShare
Chargement dans…5
×

Market Basket Analysis

350 vues

Publié le

Perform the association and sequence discovery to identify the items that occur together in a chain of bakery data set

Publié dans : Données & analyses
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
350
Sur SlideShare
0
Issues des intégrations
0
Intégrations
4
Actions
Partages
0
Téléchargements
2
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Market Basket Analysis

  1. 1. Techniques d’exploitation de données (Data Mining) Projet 1 Professor : François Bellavance Abdolrasoul Baharifard (Étudiant de l’université Laval) Hiver 2015
  2. 2. Motivation : Dans ce travail, nous générons des règles d’association pour une chaîne de boulangerie ayant un menu de 40 articles de pâtisseries et de 10 boissons à travers différentes succursales aux États- Unis. Description de la base de données : Dans notre sujet de travail, on utilise des données d’une boulangerie contenant des informations sur les 75000 achats avec 55 variables (52 binaires et 3 nominales). Les variables avec les modalités 0 indiquent absence et 1 présence. Par exemple, pour la variable ‘cafe’, 1 indique le client a acheté le café et 0 indique qu’il n’a pas acheté du café. Objectif : Nous allons donc générer des règles d’associations représentant les éléments à présenter conjointement sur la chaîne de boulangeries. De ce fait, nous serons en mesure de conseiller les boulangeries sur comment ils peuvent aménager les produits et les dispositions de leur aliments afin d’amener plus de clients à consommer leurs produits. . Sélection des variables : Nous sélectionnons les variables pour l’analyse selon les étapes suivantes: • Inclusion de tous les variables dans notre jeu de données pour voir quelles variables sont pertinentes avec les règles d’associations. • Choix des variables avec améliorations supérieurs à 30%. Les variables considérés sont : limonade_framboise ,biscuit_framboises, limonade_citron, biscuit_citron, the_vert, soda_aux_cerises,cafe,twist_amandes,tarte_complete_pommes,eclair_cafe,danoise_pomme, croissant_pommes, danoise_abricots, tarte_cerises, tarte_bleuets.
  3. 3. • Inclusion des variables de l’étape précédente dans SAS base, et génération de nouvelles règles d’association avec SAS EM. Cette fois, nous choisissons les variables avec une confiance attendue supérieure à 10%. Ces variables sont : limonade_framboise, biscuit_framboises, limonade_citron, biscuit_citron, the_vert , cafe, twist_amandes,tarte_complete_pommes, eclair_cafe, danoise_pommes, croissant_pommes, danoise_abricots, tarte_cerises. Modélisation Après la préparation des données avec SAS base, nous les importons dans SAS EM. Les paramètres importants du nœud association que nous considérons sont (Annexe 1): • Élément maximum : 4 • Niveau de confiance minimum : 80% • Pourcentage de support minimum : 5% Après lancer le programme on a obtenu les résultats qui viennent dans la section suivante. Interprétation des résultats On a roulé SAS EM et parmi les règles obtenues, on a choisi les règles rependant aux critères suivant (Annexe 3) : • Confiance >= 80% • Support >=4 • Lift >=5 Grâce à ce processus, on sélection un sous-ensemble de règle de annexe 3 en utilisent l’annexe 2 selon les critères suivants :
  4. 4. • La règle limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron est plus intéressante que la règle the_vert & biscuit_ framboises ==> limonade_citron & biscuit_citron parce que l’amélioration, support et confiance pour la première est plus élevée que la deuxième. • De la même manière, la règle limonade_framboises & biscuit_citron ==> limonade_citron est plus intéressante que la règle limonade_citron & biscuit_ framboises ==> biscuit_citron parce que l’amélioration, support et confiance pour la première est légèrement élevée que la deuxième. • La même critère s’applique pour les 2 règles que nous intéressent. Con f Sup p Améli Transa c Règles 92.2 4.44 19.07 1917 limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron 90 4.85 13.94 2094 Tarte_complete_pommes & cafe ==> twist_amandes & eclair cafe 89.1 4.89 6.64 2109 Eclair_cafe & cafe ==> twiste_amandes 92.09 4.46 7.76 1922 limonade_framboises & biscuit_citron ==> limonade_citron • limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron : La confiance pour cette règle est 92.2%, c’est-à-dire 92.2% des clients qui ont acheté limonade_framboises et biscuit_ framboises dans la transaction ont également acheté limonade_citron et biscuit_citron . 4.44% des transactions dans la base de données contiennent (limonade_framboises & biscuit_ framboises) et (limonade_citron & biscuit_citron) au même temps. Aussi l’amélioration 19.07 indique qu’il y a une forte relation positive entre (limonade_framboises & biscuit_ framboises) et (limonade_citron & biscuit_citron). • Tarte_complete_pommes & cafe ==> twist_amandes & eclair cafe 90% des clients qui ont acheté une Tarte_complete_pommes et un cafe ont également acheté une eclair cafe. 4.85 % des transactions dans la base de données supportent cette règle. L’amélioration à 13.94 est aussi considérable. • Eclair_cafe & cafe ==> twiste_amandes
  5. 5. 89.1% des clients qui ont acheté des eclair_cafe et cafe ont également acheté une twiste_amandes. 4.89 % des transactions dans la base de données supportent cette règle. • limonade_framboises & biscuit_citron ==> limonade_citron 92.09% des clients qui ont acheté des limonade_framboises et biscuit_citron ont également acheté une limonade_citron. 4.46 % des transactions dans la base de données supportent cette règle. Conclusion : Nous pouvons aussi remarquer que les éléments revenant le plus souvent conjointement sur les boulangeries sont limonade_framboise, biscuit_framboises, limonade_citron, biscuit_citron, the_vert, cafe, twist_amandes, tarte_complete_pommes, eclair_cafe, danoise_pommes, croissant_pommes, danoise_abricots, tarte_cerises. Aussi l’exploitation non supervisé de nos base de données nous a permis, non seulement d’établir des profils intéressants et interprétables, mais également des groupes de produits sur lesquels les boulangeries peux mieux se concentrer afin de cibler leur clientèle.
  6. 6. Annexe 1 : SAS EM avec notre base de données Annexe 2 : Graphique des règles à analyser
  7. 7. Annexe 3 : les règles sélectionnées en utilisant l’annexe 2

×