SlideShare une entreprise Scribd logo
1  sur  19
Télécharger pour lire hors ligne
LES RÈGLES
ASSOCIATIVES
DATA MINING
Mohamed Heny SELMI
medheny.selmi@esprit.tn
OBJECTIFS
 Rechercher les associations consiste à rechercher les règles de type :
« Si pour un individu, la variable A = Xa, la variable B = Xb, etc, alors, dans 80% des cas, la
variable Z = Xz, cette configuration se rencontrant pour 30 % des individus »
 Repérer des règles liant les données avec un bon niveau de probabilité
 découverte de relations fines entre attributs (ou variables)
 généralisation des dépendances fonctionnelles
 Mettre en évidence les produits / des articles achetés ensemble
 Transcrire la connaissance sous forme de règles d’association
 Règles du style : < si [P(tid,X) := prémisse] alors [P(tid,Y) := conséquence] >
 Différents types de règles
 origine « panier de la ménagère »
 étendues aux tables multiples et aux attributs continus
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
ANALYSE DES TICKETS DE CAISSE
N° Transaction
(Caddie)
Contenu du caddie
1 Poulet Moutarde Œufs Pates
2 Moutarde Œufs
3 Pain Beurre Poulet
4 Pates
5 Pain Lait Beurre
6 Œufs Pain
7 Confiture
Une observation = un caddie
Ne tenir compte que de la présence des produits : peu importe leur quantité
Dans un caddie : le nombre de produits est variables
La liste des produits est immense et variable
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
N° Transaction
(Caddie)
Contenu du caddie
1 Poulet Moutarde Œufs Pates
TABLEAU DES TRANSACTIONS
 Mettre en évidence les produits / des articles achetés ensemble
 Transcrire la connaissance sous forme de règles d’association
si [P(tid,X) := prémisse] alors [P(tid,Y) := conséquence]
si Poulet et Moutarde alors Œufs et Pates
N° Transaction
(Caddie)
Contenu du caddie
6 Œufs Pain
si Œufs alors Pain
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
TABLEAU BINAIRE
N° Transaction
(Caddie)
Contenu du caddie
1 Poulet Moutarde Œufs Pates
2 Moutarde Œufs
3 Pain Beurre Poulet
4 Pates
5 Pain Lait Beurre
6 Œufs Pain
7 Confiture
désignation
P1 = Poulet
P2 = Moutarde
P3 = Œufs
P4 = Pates
P5 = Pain
P6 = Beurre
P7 = Lait
P8 = Confiture
P1 P2 P3 P4 P5 P6 P7 P8
1 1 1 1 1 0 0 0 0
2 0 1 1 0 0 0 0 0
3 1 0 0 0 1 1 0 0
4 0 0 0 1 0 0 0 0
5 0 0 0 0 1 1 1 0
6 0 0 1 0 1 0 0 0
7 0 0 0 0 0 0 0 1
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
CODAGE DISJONCTIF COMPLET
Observation Taille Corpulence
1 Petit Mince
2 Grand Enveloppé
3 Grand Mince
Observation Taille = Petit Taille = Grand Corpulence = Mince Corpulence = Enveloppé
1 1 0 1 0
2 0 1 0 1
3 0 1 1 0
Dès que l’on peut se ramener à des données 0/1 :
Il est possible de construire des règles d’association
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
PASSAGE EN FORME DISJONCTIVE COMPLÈTE
 Catégoriel, qualitatif, discret : type marché, entreprises, taux, appartenance, …
 Continu, quantitatif : virement, âge, température, consommation, pourcentage, …
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
CRITÈRES D’ÉVALUATION
DES RÈGLES D’ASSOCIATION
SUPPORT
 indicateur de « fiabilité »
 probabilité absolue :
P(X U Y)
 ||X U Y||/ ||BD|| = %
de transactions vérifiant la
règle
CONFIANCE
 Indicateur de « précision »
 probabilité conditionnelle :
P(Y/X)
 ||X U Y||/||X|| = %
de transactions vérifiant
l'implication
Règle d’association :
p1 → p2
sup(R1) = 2 : en termes absolus
ou sup(R1) = 2 / 6 = 33% : en termes relatifs
Conf(R1) = sup(R1) / sup(antécédant R1)
= sup(p1 → p2) / sup(p1) = 2 / 4 = 50 %
« Bonne » règle = règle avec un support et une confiance élevée
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
ANALYSE DES TICKETS
{ "crème" }  { "pain" }
ID PRODUITS
1 pain, crème, eau
2 crème
3 pain, crème, vin
4 eau
5 crème, eau
Support = Prob. (crème et pain) :
Confiance = Prob(crème et pain / crème) :
0.4
5
2
tran.)nom_total(
pain)etcrèmeontenantnom(tran.c
Sup 
sup(crème)
pain)etcrème(sup
5.0
4
2
crème)contenantnom(tran.
pain)etcrèmecontenantnom(tran.
Conf 
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
DÉMARCHE D’EXTRACTION
DES RÈGLES D’ASSOCIATION
Paramètres : Fixer un degré d’exigence sur les règles à extraire
 Support min. (exp. 2 transactions)
 Confiance min. (exp. 75%)
L’idée est surtout de contrôler (limiter) le nombre de règles produites
Démarche : Construction en deux temps
 recherche des itemsets fréquents (support >= support min.)
 à partir des itemsets fréquents, produire les règles (conf. >= conf. min.)
Quelques définitions :
 item = produit
 itemset = ensemble de produits (ex. {p1,p3})
 sup(itemset) = nombre de transactions d’apparition simultanée des produits (ex. sup{p1,p3} = 4)
 card(itemset) = nombre de produits dans l’ensemble (ex. card{p1,p3} = 2)
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
ALGORITHME APRIORI [AGRAWAL94]
Première passe :
recherche des 1-ensembles fréquents
un compteur par produits
L'algorithme génère un candidat de taille k à partir de
deux candidats de taille k-1 différents par le dernier
élément
procédure apriori-gen
Passe k :
comptage des k-ensemble fréquents candidats
sélection des bons candidats
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
APRIORI – FRÉQUENTS ITEMSETS
L1 = { frequent 1-ensemble } ;
for (k = 2 ; Lk-1 ; k++) do
{
Ck = apriori-gen(Lk-1); // Generate new candidates
foreach transactions t DB do
{ // Counting
Ct = { subset(Ck, t) }; // get subsets of t candidates
foreach cCt do c.count++;
}
Lk = { cCk |c.count >= minsup } ; // Filter candidates
}
F = {Lk} ;
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
SIMULATION
1-Itemsets Support
{p1} 4
{p2} 3
{p3} 5
{p4} 1
On va prendre la valeur du Support minimal = 3
L1 = { {p1}, {p2}, {p3} }
C2 = { {p1,p2}, {p1,p3}, {p2,p3} }
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
SIMULATION
2-Itemsets Support
{p1,p2} 2
{p1,p3} 4
{p2,p3} 3
On va prendre le Support minimal = 3
L2 = { {p1,p3}, {p2,p3} }
C3 = { {p1,p2 ,p3} }
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
SIMULATION
3-Itemsets Support
{p1,p2, p3} 2
On va prendre le Support minimal = 3
L3 = Ø
C4= Ø
F = { {p1}, {p2}, {p3}, {p1,p3}, {p2,p3} }
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
SIMULATION
{p1,p3}
{p2,p3}
On va prendre le pourcentage de la confiance minimale = 65%
p1→p3 : confiance = 4/4 = 100 %
p3→p1 : confiance = 4/5 = 80 %
p2→p3 : confiance = 3/3 = 100 %
p3→p2 : confiance = 3/5 = 60 %
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
INDICATEUR DE PERTINENCE DES RÈGLES
MESURE D’INTÉRÊT : LIFT D’UNE RÈGLE
 L’amélioration apportée par une règle, par rapport à une réponse au hasard est appelée « lift » et vaut :
lift (règle) = confiance (règle) / p (résultat)
= p (condition et résultat) / [ p (condition) x p (résultat) ]
 Le lift est une bonne mesure de performance de la règle d’association.
 Le lift est la confiance de la règle divisée par la valeur espérée de la confiance.
Interprétation du lift :
- Un lift supérieur à 1 : Indique une corrélation positive
- Un lift de 1 indique une corrélation nulle
- Un lift inférieur à 1 : Indique une corrélation négative
lift (C →B) = 5/6 < 1
lift (B → E) = 6/5 > 1
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
ETUDE DE CAS DE RECHERCHE
D’ASSOCIATIONS INTÉRESSANTES
 Le principe de l’algorithme est de rechercher l’ensemble L1 de tous les items
apparaissant dans au moins Smin x m transactions.
 Puis, parmi C2 qui est le produit cartésien de L1 avec lui-même, on construit
l’ensemble L2 de tous les couples d’items apparaissant dans au moins
Smin x m transactions.
 L’algorithme s’arrête quand Lk est vide.
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
La distribution réussit à mieux cibler ses
mailings
La course à la fidélisation des clients
Réductions personnalisées à la caisse
Profil-client
Le test des nouveaux produits
Le panier moyen
Le parcours magasin
Cartes de fidélité
UTILITÉ DES RÈGLES D’ASSOCIATION
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining

Contenu connexe

Tendances

Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseAbderrahmane Filali
 
Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)Ines Ben Kahla
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
Les algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationLes algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationHajer Trabelsi
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : CassandraLilia Sfaxi
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4JLilia Sfaxi
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
Les algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationLes algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationHajer Trabelsi
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction généraleMohamed Heny SELMI
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesLilia Sfaxi
 
PFE BI - INPT
PFE BI - INPTPFE BI - INPT
PFE BI - INPTriyadadva
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data MiningTakfarinas KENOUCHE
 
Rapport pfe isi_Big data Analytique
Rapport pfe isi_Big data AnalytiqueRapport pfe isi_Big data Analytique
Rapport pfe isi_Big data AnalytiqueYosra ADDALI
 
Telecharger Exercices corrigés PL/SQL
Telecharger Exercices corrigés PL/SQLTelecharger Exercices corrigés PL/SQL
Telecharger Exercices corrigés PL/SQLwebreaker
 
Cours data warehouse
Cours data warehouseCours data warehouse
Cours data warehousekhlifi z
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Mohamed Heny SELMI
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-miningSawsen Larbi
 
Intelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de rechercheIntelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de rechercheMohamed Heny SELMI
 

Tendances (20)

Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
 
Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Les algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationLes algorithmes de génération des règles d association
Les algorithmes de génération des règles d association
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4J
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
Les algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationLes algorithmes de génération des règles d association
Les algorithmes de génération des règles d association
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
 
PFE BI - INPT
PFE BI - INPTPFE BI - INPT
PFE BI - INPT
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
FP Growth Algorithm
FP Growth AlgorithmFP Growth Algorithm
FP Growth Algorithm
 
Rapport pfe isi_Big data Analytique
Rapport pfe isi_Big data AnalytiqueRapport pfe isi_Big data Analytique
Rapport pfe isi_Big data Analytique
 
Telecharger Exercices corrigés PL/SQL
Telecharger Exercices corrigés PL/SQLTelecharger Exercices corrigés PL/SQL
Telecharger Exercices corrigés PL/SQL
 
Cours data warehouse
Cours data warehouseCours data warehouse
Cours data warehouse
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-mining
 
Intelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de rechercheIntelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de recherche
 

En vedette

Apriori and Eclat algorithm in Association Rule Mining
Apriori and Eclat algorithm in Association Rule MiningApriori and Eclat algorithm in Association Rule Mining
Apriori and Eclat algorithm in Association Rule MiningWan Aezwani Wab
 
Intelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes expertsIntelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes expertsMohamed Heny SELMI
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesMohamed Heny SELMI
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision Yassine Badri
 
Découverte de règles d’association pour la prévision des accidents maritimes
Découverte de règles d’association pour la prévision des accidents maritimesDécouverte de règles d’association pour la prévision des accidents maritimes
Découverte de règles d’association pour la prévision des accidents maritimesBilal IDIRI
 
Télémétrie d’openstack
Télémétrie d’openstackTélémétrie d’openstack
Télémétrie d’openstackTECOS
 
Summer internship
Summer internshipSummer internship
Summer internshipTECOS
 
Mobile certified
Mobile certifiedMobile certified
Mobile certifiedTECOS
 
Machine Learning and Data Mining: 04 Association Rule Mining
Machine Learning and Data Mining: 04 Association Rule MiningMachine Learning and Data Mining: 04 Association Rule Mining
Machine Learning and Data Mining: 04 Association Rule MiningPier Luca Lanzi
 
Etude Android - Surikate
Etude Android - SurikateEtude Android - Surikate
Etude Android - SurikateUlrich Rozier
 
19476574 teach-yourself-mandarin-chinese
19476574 teach-yourself-mandarin-chinese19476574 teach-yourself-mandarin-chinese
19476574 teach-yourself-mandarin-chineseHendra Tjung
 
How to Learn Basic Chinese
How to Learn Basic ChineseHow to Learn Basic Chinese
How to Learn Basic Chinesejimmcg1
 
Construccion de superficies opticas 3
Construccion de superficies opticas 3Construccion de superficies opticas 3
Construccion de superficies opticas 3campus party
 

En vedette (20)

Apriori and Eclat algorithm in Association Rule Mining
Apriori and Eclat algorithm in Association Rule MiningApriori and Eclat algorithm in Association Rule Mining
Apriori and Eclat algorithm in Association Rule Mining
 
HTML5
HTML5HTML5
HTML5
 
Intelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes expertsIntelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes experts
 
Arbre de décision
Arbre de décisionArbre de décision
Arbre de décision
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision
 
31
3131
31
 
Découverte de règles d’association pour la prévision des accidents maritimes
Découverte de règles d’association pour la prévision des accidents maritimesDécouverte de règles d’association pour la prévision des accidents maritimes
Découverte de règles d’association pour la prévision des accidents maritimes
 
Télémétrie d’openstack
Télémétrie d’openstackTélémétrie d’openstack
Télémétrie d’openstack
 
Summer internship
Summer internshipSummer internship
Summer internship
 
Mobile certified
Mobile certifiedMobile certified
Mobile certified
 
Mta
MtaMta
Mta
 
Machine Learning and Data Mining: 04 Association Rule Mining
Machine Learning and Data Mining: 04 Association Rule MiningMachine Learning and Data Mining: 04 Association Rule Mining
Machine Learning and Data Mining: 04 Association Rule Mining
 
Final
FinalFinal
Final
 
Etude Android - Surikate
Etude Android - SurikateEtude Android - Surikate
Etude Android - Surikate
 
Android
AndroidAndroid
Android
 
19476574 teach-yourself-mandarin-chinese
19476574 teach-yourself-mandarin-chinese19476574 teach-yourself-mandarin-chinese
19476574 teach-yourself-mandarin-chinese
 
How to Learn Basic Chinese
How to Learn Basic ChineseHow to Learn Basic Chinese
How to Learn Basic Chinese
 
Construccion de superficies opticas 3
Construccion de superficies opticas 3Construccion de superficies opticas 3
Construccion de superficies opticas 3
 
Long Distance WiFi record : 382 km by air !
Long Distance WiFi record : 382 km by air !Long Distance WiFi record : 382 km by air !
Long Distance WiFi record : 382 km by air !
 

Data mining - Associativité

  • 1. LES RÈGLES ASSOCIATIVES DATA MINING Mohamed Heny SELMI medheny.selmi@esprit.tn
  • 2. OBJECTIFS  Rechercher les associations consiste à rechercher les règles de type : « Si pour un individu, la variable A = Xa, la variable B = Xb, etc, alors, dans 80% des cas, la variable Z = Xz, cette configuration se rencontrant pour 30 % des individus »  Repérer des règles liant les données avec un bon niveau de probabilité  découverte de relations fines entre attributs (ou variables)  généralisation des dépendances fonctionnelles  Mettre en évidence les produits / des articles achetés ensemble  Transcrire la connaissance sous forme de règles d’association  Règles du style : < si [P(tid,X) := prémisse] alors [P(tid,Y) := conséquence] >  Différents types de règles  origine « panier de la ménagère »  étendues aux tables multiples et aux attributs continus Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 3. ANALYSE DES TICKETS DE CAISSE N° Transaction (Caddie) Contenu du caddie 1 Poulet Moutarde Œufs Pates 2 Moutarde Œufs 3 Pain Beurre Poulet 4 Pates 5 Pain Lait Beurre 6 Œufs Pain 7 Confiture Une observation = un caddie Ne tenir compte que de la présence des produits : peu importe leur quantité Dans un caddie : le nombre de produits est variables La liste des produits est immense et variable Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 4. N° Transaction (Caddie) Contenu du caddie 1 Poulet Moutarde Œufs Pates TABLEAU DES TRANSACTIONS  Mettre en évidence les produits / des articles achetés ensemble  Transcrire la connaissance sous forme de règles d’association si [P(tid,X) := prémisse] alors [P(tid,Y) := conséquence] si Poulet et Moutarde alors Œufs et Pates N° Transaction (Caddie) Contenu du caddie 6 Œufs Pain si Œufs alors Pain Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 5. TABLEAU BINAIRE N° Transaction (Caddie) Contenu du caddie 1 Poulet Moutarde Œufs Pates 2 Moutarde Œufs 3 Pain Beurre Poulet 4 Pates 5 Pain Lait Beurre 6 Œufs Pain 7 Confiture désignation P1 = Poulet P2 = Moutarde P3 = Œufs P4 = Pates P5 = Pain P6 = Beurre P7 = Lait P8 = Confiture P1 P2 P3 P4 P5 P6 P7 P8 1 1 1 1 1 0 0 0 0 2 0 1 1 0 0 0 0 0 3 1 0 0 0 1 1 0 0 4 0 0 0 1 0 0 0 0 5 0 0 0 0 1 1 1 0 6 0 0 1 0 1 0 0 0 7 0 0 0 0 0 0 0 1 Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 6. CODAGE DISJONCTIF COMPLET Observation Taille Corpulence 1 Petit Mince 2 Grand Enveloppé 3 Grand Mince Observation Taille = Petit Taille = Grand Corpulence = Mince Corpulence = Enveloppé 1 1 0 1 0 2 0 1 0 1 3 0 1 1 0 Dès que l’on peut se ramener à des données 0/1 : Il est possible de construire des règles d’association Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 7. PASSAGE EN FORME DISJONCTIVE COMPLÈTE  Catégoriel, qualitatif, discret : type marché, entreprises, taux, appartenance, …  Continu, quantitatif : virement, âge, température, consommation, pourcentage, … Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 8. CRITÈRES D’ÉVALUATION DES RÈGLES D’ASSOCIATION SUPPORT  indicateur de « fiabilité »  probabilité absolue : P(X U Y)  ||X U Y||/ ||BD|| = % de transactions vérifiant la règle CONFIANCE  Indicateur de « précision »  probabilité conditionnelle : P(Y/X)  ||X U Y||/||X|| = % de transactions vérifiant l'implication Règle d’association : p1 → p2 sup(R1) = 2 : en termes absolus ou sup(R1) = 2 / 6 = 33% : en termes relatifs Conf(R1) = sup(R1) / sup(antécédant R1) = sup(p1 → p2) / sup(p1) = 2 / 4 = 50 % « Bonne » règle = règle avec un support et une confiance élevée Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 9. ANALYSE DES TICKETS { "crème" }  { "pain" } ID PRODUITS 1 pain, crème, eau 2 crème 3 pain, crème, vin 4 eau 5 crème, eau Support = Prob. (crème et pain) : Confiance = Prob(crème et pain / crème) : 0.4 5 2 tran.)nom_total( pain)etcrèmeontenantnom(tran.c Sup  sup(crème) pain)etcrème(sup 5.0 4 2 crème)contenantnom(tran. pain)etcrèmecontenantnom(tran. Conf  Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 10. DÉMARCHE D’EXTRACTION DES RÈGLES D’ASSOCIATION Paramètres : Fixer un degré d’exigence sur les règles à extraire  Support min. (exp. 2 transactions)  Confiance min. (exp. 75%) L’idée est surtout de contrôler (limiter) le nombre de règles produites Démarche : Construction en deux temps  recherche des itemsets fréquents (support >= support min.)  à partir des itemsets fréquents, produire les règles (conf. >= conf. min.) Quelques définitions :  item = produit  itemset = ensemble de produits (ex. {p1,p3})  sup(itemset) = nombre de transactions d’apparition simultanée des produits (ex. sup{p1,p3} = 4)  card(itemset) = nombre de produits dans l’ensemble (ex. card{p1,p3} = 2) Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 11. ALGORITHME APRIORI [AGRAWAL94] Première passe : recherche des 1-ensembles fréquents un compteur par produits L'algorithme génère un candidat de taille k à partir de deux candidats de taille k-1 différents par le dernier élément procédure apriori-gen Passe k : comptage des k-ensemble fréquents candidats sélection des bons candidats Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 12. APRIORI – FRÉQUENTS ITEMSETS L1 = { frequent 1-ensemble } ; for (k = 2 ; Lk-1 ; k++) do { Ck = apriori-gen(Lk-1); // Generate new candidates foreach transactions t DB do { // Counting Ct = { subset(Ck, t) }; // get subsets of t candidates foreach cCt do c.count++; } Lk = { cCk |c.count >= minsup } ; // Filter candidates } F = {Lk} ; Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 13. SIMULATION 1-Itemsets Support {p1} 4 {p2} 3 {p3} 5 {p4} 1 On va prendre la valeur du Support minimal = 3 L1 = { {p1}, {p2}, {p3} } C2 = { {p1,p2}, {p1,p3}, {p2,p3} } Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 14. SIMULATION 2-Itemsets Support {p1,p2} 2 {p1,p3} 4 {p2,p3} 3 On va prendre le Support minimal = 3 L2 = { {p1,p3}, {p2,p3} } C3 = { {p1,p2 ,p3} } Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 15. SIMULATION 3-Itemsets Support {p1,p2, p3} 2 On va prendre le Support minimal = 3 L3 = Ø C4= Ø F = { {p1}, {p2}, {p3}, {p1,p3}, {p2,p3} } Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 16. SIMULATION {p1,p3} {p2,p3} On va prendre le pourcentage de la confiance minimale = 65% p1→p3 : confiance = 4/4 = 100 % p3→p1 : confiance = 4/5 = 80 % p2→p3 : confiance = 3/3 = 100 % p3→p2 : confiance = 3/5 = 60 % Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 17. INDICATEUR DE PERTINENCE DES RÈGLES MESURE D’INTÉRÊT : LIFT D’UNE RÈGLE  L’amélioration apportée par une règle, par rapport à une réponse au hasard est appelée « lift » et vaut : lift (règle) = confiance (règle) / p (résultat) = p (condition et résultat) / [ p (condition) x p (résultat) ]  Le lift est une bonne mesure de performance de la règle d’association.  Le lift est la confiance de la règle divisée par la valeur espérée de la confiance. Interprétation du lift : - Un lift supérieur à 1 : Indique une corrélation positive - Un lift de 1 indique une corrélation nulle - Un lift inférieur à 1 : Indique une corrélation négative lift (C →B) = 5/6 < 1 lift (B → E) = 6/5 > 1 Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 18. ETUDE DE CAS DE RECHERCHE D’ASSOCIATIONS INTÉRESSANTES  Le principe de l’algorithme est de rechercher l’ensemble L1 de tous les items apparaissant dans au moins Smin x m transactions.  Puis, parmi C2 qui est le produit cartésien de L1 avec lui-même, on construit l’ensemble L2 de tous les couples d’items apparaissant dans au moins Smin x m transactions.  L’algorithme s’arrête quand Lk est vide. Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 19. La distribution réussit à mieux cibler ses mailings La course à la fidélisation des clients Réductions personnalisées à la caisse Profil-client Le test des nouveaux produits Le panier moyen Le parcours magasin Cartes de fidélité UTILITÉ DES RÈGLES D’ASSOCIATION Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining