SlideShare une entreprise Scribd logo
LES RÈGLES
ASSOCIATIVES
DATA MINING
Mohamed Heny SELMI
medheny.selmi@esprit.tn
OBJECTIFS
 Rechercher les associations consiste à rechercher les règles de type :
« Si pour un individu, la variable A = Xa, la variable B = Xb, etc, alors, dans 80% des cas, la
variable Z = Xz, cette configuration se rencontrant pour 30 % des individus »
 Repérer des règles liant les données avec un bon niveau de probabilité
 découverte de relations fines entre attributs (ou variables)
 généralisation des dépendances fonctionnelles
 Mettre en évidence les produits / des articles achetés ensemble
 Transcrire la connaissance sous forme de règles d’association
 Règles du style : < si [P(tid,X) := prémisse] alors [P(tid,Y) := conséquence] >
 Différents types de règles
 origine « panier de la ménagère »
 étendues aux tables multiples et aux attributs continus
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
ANALYSE DES TICKETS DE CAISSE
N° Transaction
(Caddie)
Contenu du caddie
1 Poulet Moutarde Œufs Pates
2 Moutarde Œufs
3 Pain Beurre Poulet
4 Pates
5 Pain Lait Beurre
6 Œufs Pain
7 Confiture
Une observation = un caddie
Ne tenir compte que de la présence des produits : peu importe leur quantité
Dans un caddie : le nombre de produits est variables
La liste des produits est immense et variable
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
N° Transaction
(Caddie)
Contenu du caddie
1 Poulet Moutarde Œufs Pates
TABLEAU DES TRANSACTIONS
 Mettre en évidence les produits / des articles achetés ensemble
 Transcrire la connaissance sous forme de règles d’association
si [P(tid,X) := prémisse] alors [P(tid,Y) := conséquence]
si Poulet et Moutarde alors Œufs et Pates
N° Transaction
(Caddie)
Contenu du caddie
6 Œufs Pain
si Œufs alors Pain
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
TABLEAU BINAIRE
N° Transaction
(Caddie)
Contenu du caddie
1 Poulet Moutarde Œufs Pates
2 Moutarde Œufs
3 Pain Beurre Poulet
4 Pates
5 Pain Lait Beurre
6 Œufs Pain
7 Confiture
désignation
P1 = Poulet
P2 = Moutarde
P3 = Œufs
P4 = Pates
P5 = Pain
P6 = Beurre
P7 = Lait
P8 = Confiture
P1 P2 P3 P4 P5 P6 P7 P8
1 1 1 1 1 0 0 0 0
2 0 1 1 0 0 0 0 0
3 1 0 0 0 1 1 0 0
4 0 0 0 1 0 0 0 0
5 0 0 0 0 1 1 1 0
6 0 0 1 0 1 0 0 0
7 0 0 0 0 0 0 0 1
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
CODAGE DISJONCTIF COMPLET
Observation Taille Corpulence
1 Petit Mince
2 Grand Enveloppé
3 Grand Mince
Observation Taille = Petit Taille = Grand Corpulence = Mince Corpulence = Enveloppé
1 1 0 1 0
2 0 1 0 1
3 0 1 1 0
Dès que l’on peut se ramener à des données 0/1 :
Il est possible de construire des règles d’association
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
PASSAGE EN FORME DISJONCTIVE COMPLÈTE
 Catégoriel, qualitatif, discret : type marché, entreprises, taux, appartenance, …
 Continu, quantitatif : virement, âge, température, consommation, pourcentage, …
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
CRITÈRES D’ÉVALUATION
DES RÈGLES D’ASSOCIATION
SUPPORT
 indicateur de « fiabilité »
 probabilité absolue :
P(X U Y)
 ||X U Y||/ ||BD|| = %
de transactions vérifiant la
règle
CONFIANCE
 Indicateur de « précision »
 probabilité conditionnelle :
P(Y/X)
 ||X U Y||/||X|| = %
de transactions vérifiant
l'implication
Règle d’association :
p1 → p2
sup(R1) = 2 : en termes absolus
ou sup(R1) = 2 / 6 = 33% : en termes relatifs
Conf(R1) = sup(R1) / sup(antécédant R1)
= sup(p1 → p2) / sup(p1) = 2 / 4 = 50 %
« Bonne » règle = règle avec un support et une confiance élevée
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
ANALYSE DES TICKETS
{ "crème" }  { "pain" }
ID PRODUITS
1 pain, crème, eau
2 crème
3 pain, crème, vin
4 eau
5 crème, eau
Support = Prob. (crème et pain) :
Confiance = Prob(crème et pain / crème) :
0.4
5
2
tran.)nom_total(
pain)etcrèmeontenantnom(tran.c
Sup 
sup(crème)
pain)etcrème(sup
5.0
4
2
crème)contenantnom(tran.
pain)etcrèmecontenantnom(tran.
Conf 
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
DÉMARCHE D’EXTRACTION
DES RÈGLES D’ASSOCIATION
Paramètres : Fixer un degré d’exigence sur les règles à extraire
 Support min. (exp. 2 transactions)
 Confiance min. (exp. 75%)
L’idée est surtout de contrôler (limiter) le nombre de règles produites
Démarche : Construction en deux temps
 recherche des itemsets fréquents (support >= support min.)
 à partir des itemsets fréquents, produire les règles (conf. >= conf. min.)
Quelques définitions :
 item = produit
 itemset = ensemble de produits (ex. {p1,p3})
 sup(itemset) = nombre de transactions d’apparition simultanée des produits (ex. sup{p1,p3} = 4)
 card(itemset) = nombre de produits dans l’ensemble (ex. card{p1,p3} = 2)
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
ALGORITHME APRIORI [AGRAWAL94]
Première passe :
recherche des 1-ensembles fréquents
un compteur par produits
L'algorithme génère un candidat de taille k à partir de
deux candidats de taille k-1 différents par le dernier
élément
procédure apriori-gen
Passe k :
comptage des k-ensemble fréquents candidats
sélection des bons candidats
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
APRIORI – FRÉQUENTS ITEMSETS
L1 = { frequent 1-ensemble } ;
for (k = 2 ; Lk-1 ; k++) do
{
Ck = apriori-gen(Lk-1); // Generate new candidates
foreach transactions t DB do
{ // Counting
Ct = { subset(Ck, t) }; // get subsets of t candidates
foreach cCt do c.count++;
}
Lk = { cCk |c.count >= minsup } ; // Filter candidates
}
F = {Lk} ;
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
SIMULATION
1-Itemsets Support
{p1} 4
{p2} 3
{p3} 5
{p4} 1
On va prendre la valeur du Support minimal = 3
L1 = { {p1}, {p2}, {p3} }
C2 = { {p1,p2}, {p1,p3}, {p2,p3} }
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
SIMULATION
2-Itemsets Support
{p1,p2} 2
{p1,p3} 4
{p2,p3} 3
On va prendre le Support minimal = 3
L2 = { {p1,p3}, {p2,p3} }
C3 = { {p1,p2 ,p3} }
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
SIMULATION
3-Itemsets Support
{p1,p2, p3} 2
On va prendre le Support minimal = 3
L3 = Ø
C4= Ø
F = { {p1}, {p2}, {p3}, {p1,p3}, {p2,p3} }
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
SIMULATION
{p1,p3}
{p2,p3}
On va prendre le pourcentage de la confiance minimale = 65%
p1→p3 : confiance = 4/4 = 100 %
p3→p1 : confiance = 4/5 = 80 %
p2→p3 : confiance = 3/3 = 100 %
p3→p2 : confiance = 3/5 = 60 %
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
INDICATEUR DE PERTINENCE DES RÈGLES
MESURE D’INTÉRÊT : LIFT D’UNE RÈGLE
 L’amélioration apportée par une règle, par rapport à une réponse au hasard est appelée « lift » et vaut :
lift (règle) = confiance (règle) / p (résultat)
= p (condition et résultat) / [ p (condition) x p (résultat) ]
 Le lift est une bonne mesure de performance de la règle d’association.
 Le lift est la confiance de la règle divisée par la valeur espérée de la confiance.
Interprétation du lift :
- Un lift supérieur à 1 : Indique une corrélation positive
- Un lift de 1 indique une corrélation nulle
- Un lift inférieur à 1 : Indique une corrélation négative
lift (C →B) = 5/6 < 1
lift (B → E) = 6/5 > 1
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
ETUDE DE CAS DE RECHERCHE
D’ASSOCIATIONS INTÉRESSANTES
 Le principe de l’algorithme est de rechercher l’ensemble L1 de tous les items
apparaissant dans au moins Smin x m transactions.
 Puis, parmi C2 qui est le produit cartésien de L1 avec lui-même, on construit
l’ensemble L2 de tous les couples d’items apparaissant dans au moins
Smin x m transactions.
 L’algorithme s’arrête quand Lk est vide.
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
La distribution réussit à mieux cibler ses
mailings
La course à la fidélisation des clients
Réductions personnalisées à la caisse
Profil-client
Le test des nouveaux produits
Le panier moyen
Le parcours magasin
Cartes de fidélité
UTILITÉ DES RÈGLES D’ASSOCIATION
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining

Contenu connexe

Tendances

BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
Lilia Sfaxi
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
Takfarinas KENOUCHE
 
Data Mining
Data MiningData Mining
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
Amal Abid
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
Mohamed Heny SELMI
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
Mohamed Heny SELMI
 
Algorithmes de jeux
Algorithmes de jeuxAlgorithmes de jeux
Algorithmes de jeux
Mohamed Heny SELMI
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-mining
Sawsen Larbi
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
OuailChoukhairi
 
Introduction aux bases de données
Introduction aux bases de donnéesIntroduction aux bases de données
Introduction aux bases de données
Abdoulaye Dieng
 
Chp1 - Introduction aux méthodologies de Conception
Chp1 - Introduction aux méthodologies de ConceptionChp1 - Introduction aux méthodologies de Conception
Chp1 - Introduction aux méthodologies de Conception
Lilia Sfaxi
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
Lilia Sfaxi
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4J
Lilia Sfaxi
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
Amal Abid
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
sarah Benmerzouk
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
Boris Guarisma
 
FP Growth Algorithm
FP Growth AlgorithmFP Growth Algorithm
FP Growth Algorithm
CHOUAIB EL HACHIMI
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
Lilia Sfaxi
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
Lilia Sfaxi
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
Donia Hammami
 

Tendances (20)

BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
Data Mining
Data MiningData Mining
Data Mining
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
Algorithmes de jeux
Algorithmes de jeuxAlgorithmes de jeux
Algorithmes de jeux
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-mining
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
Introduction aux bases de données
Introduction aux bases de donnéesIntroduction aux bases de données
Introduction aux bases de données
 
Chp1 - Introduction aux méthodologies de Conception
Chp1 - Introduction aux méthodologies de ConceptionChp1 - Introduction aux méthodologies de Conception
Chp1 - Introduction aux méthodologies de Conception
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4J
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
FP Growth Algorithm
FP Growth AlgorithmFP Growth Algorithm
FP Growth Algorithm
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
 

En vedette

Apriori and Eclat algorithm in Association Rule Mining
Apriori and Eclat algorithm in Association Rule MiningApriori and Eclat algorithm in Association Rule Mining
Apriori and Eclat algorithm in Association Rule Mining
Wan Aezwani Wab
 
Intelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes expertsIntelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes experts
Mohamed Heny SELMI
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
Mohamed Heny SELMI
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision
Yassine Badri
 
Découverte de règles d’association pour la prévision des accidents maritimes
Découverte de règles d’association pour la prévision des accidents maritimesDécouverte de règles d’association pour la prévision des accidents maritimes
Découverte de règles d’association pour la prévision des accidents maritimes
Bilal IDIRI
 
Télémétrie d’openstack
Télémétrie d’openstackTélémétrie d’openstack
Télémétrie d’openstack
TECOS
 
Summer internship
Summer internshipSummer internship
Summer internship
TECOS
 
Mobile certified
Mobile certifiedMobile certified
Mobile certified
TECOS
 
Mta
MtaMta
Mta
TECOS
 
Machine Learning and Data Mining: 04 Association Rule Mining
Machine Learning and Data Mining: 04 Association Rule MiningMachine Learning and Data Mining: 04 Association Rule Mining
Machine Learning and Data Mining: 04 Association Rule Mining
Pier Luca Lanzi
 
Final
FinalFinal
Etude Android - Surikate
Etude Android - SurikateEtude Android - Surikate
Etude Android - Surikate
Ulrich Rozier
 
Android
AndroidAndroid
19476574 teach-yourself-mandarin-chinese
19476574 teach-yourself-mandarin-chinese19476574 teach-yourself-mandarin-chinese
19476574 teach-yourself-mandarin-chinese
Hendra Tjung
 
How to Learn Basic Chinese
How to Learn Basic ChineseHow to Learn Basic Chinese
How to Learn Basic Chinese
jimmcg1
 
Construccion de superficies opticas 3
Construccion de superficies opticas 3Construccion de superficies opticas 3
Construccion de superficies opticas 3
campus party
 
Long Distance WiFi record : 382 km by air !
Long Distance WiFi record : 382 km by air !Long Distance WiFi record : 382 km by air !
Long Distance WiFi record : 382 km by air !
David Degrelle - Consultant SEO Expert
 
01 programmation mobile - android - (introduction)
01 programmation mobile - android - (introduction)01 programmation mobile - android - (introduction)
01 programmation mobile - android - (introduction)TECOS
 

En vedette (20)

Apriori and Eclat algorithm in Association Rule Mining
Apriori and Eclat algorithm in Association Rule MiningApriori and Eclat algorithm in Association Rule Mining
Apriori and Eclat algorithm in Association Rule Mining
 
HTML5
HTML5HTML5
HTML5
 
Intelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes expertsIntelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes experts
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision
 
31
3131
31
 
Découverte de règles d’association pour la prévision des accidents maritimes
Découverte de règles d’association pour la prévision des accidents maritimesDécouverte de règles d’association pour la prévision des accidents maritimes
Découverte de règles d’association pour la prévision des accidents maritimes
 
Télémétrie d’openstack
Télémétrie d’openstackTélémétrie d’openstack
Télémétrie d’openstack
 
Summer internship
Summer internshipSummer internship
Summer internship
 
Mobile certified
Mobile certifiedMobile certified
Mobile certified
 
Mta
MtaMta
Mta
 
Machine Learning and Data Mining: 04 Association Rule Mining
Machine Learning and Data Mining: 04 Association Rule MiningMachine Learning and Data Mining: 04 Association Rule Mining
Machine Learning and Data Mining: 04 Association Rule Mining
 
Final
FinalFinal
Final
 
Etude Android - Surikate
Etude Android - SurikateEtude Android - Surikate
Etude Android - Surikate
 
Android
AndroidAndroid
Android
 
19476574 teach-yourself-mandarin-chinese
19476574 teach-yourself-mandarin-chinese19476574 teach-yourself-mandarin-chinese
19476574 teach-yourself-mandarin-chinese
 
How to Learn Basic Chinese
How to Learn Basic ChineseHow to Learn Basic Chinese
How to Learn Basic Chinese
 
Construccion de superficies opticas 3
Construccion de superficies opticas 3Construccion de superficies opticas 3
Construccion de superficies opticas 3
 
Long Distance WiFi record : 382 km by air !
Long Distance WiFi record : 382 km by air !Long Distance WiFi record : 382 km by air !
Long Distance WiFi record : 382 km by air !
 
01 programmation mobile - android - (introduction)
01 programmation mobile - android - (introduction)01 programmation mobile - android - (introduction)
01 programmation mobile - android - (introduction)
 

Dernier

Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...
Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...
Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...
contact Elabe
 
Estimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABEEstimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABE
contact Elabe
 
Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024
contact Elabe
 
Webinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptxWebinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptx
Institut de l'Elevage - Idele
 
Productivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointementProductivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointement
La Fabrique de l'industrie
 
L'Observatoire politique ELABE pour Les Echos - Juin 2024
L'Observatoire politique ELABE pour Les Echos - Juin 2024L'Observatoire politique ELABE pour Les Echos - Juin 2024
L'Observatoire politique ELABE pour Les Echos - Juin 2024
contact Elabe
 
Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024
contact Elabe
 
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
contact Elabe
 
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
contact Elabe
 
Les Français et les élections législatives
Les Français et les élections législativesLes Français et les élections législatives
Les Français et les élections législatives
contact Elabe
 
Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024
contact Elabe
 

Dernier (11)

Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...
Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...
Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...
 
Estimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABEEstimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABE
 
Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024
 
Webinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptxWebinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptx
 
Productivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointementProductivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointement
 
L'Observatoire politique ELABE pour Les Echos - Juin 2024
L'Observatoire politique ELABE pour Les Echos - Juin 2024L'Observatoire politique ELABE pour Les Echos - Juin 2024
L'Observatoire politique ELABE pour Les Echos - Juin 2024
 
Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024
 
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
 
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
 
Les Français et les élections législatives
Les Français et les élections législativesLes Français et les élections législatives
Les Français et les élections législatives
 
Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024
 

Data mining - Associativité

  • 1. LES RÈGLES ASSOCIATIVES DATA MINING Mohamed Heny SELMI medheny.selmi@esprit.tn
  • 2. OBJECTIFS  Rechercher les associations consiste à rechercher les règles de type : « Si pour un individu, la variable A = Xa, la variable B = Xb, etc, alors, dans 80% des cas, la variable Z = Xz, cette configuration se rencontrant pour 30 % des individus »  Repérer des règles liant les données avec un bon niveau de probabilité  découverte de relations fines entre attributs (ou variables)  généralisation des dépendances fonctionnelles  Mettre en évidence les produits / des articles achetés ensemble  Transcrire la connaissance sous forme de règles d’association  Règles du style : < si [P(tid,X) := prémisse] alors [P(tid,Y) := conséquence] >  Différents types de règles  origine « panier de la ménagère »  étendues aux tables multiples et aux attributs continus Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 3. ANALYSE DES TICKETS DE CAISSE N° Transaction (Caddie) Contenu du caddie 1 Poulet Moutarde Œufs Pates 2 Moutarde Œufs 3 Pain Beurre Poulet 4 Pates 5 Pain Lait Beurre 6 Œufs Pain 7 Confiture Une observation = un caddie Ne tenir compte que de la présence des produits : peu importe leur quantité Dans un caddie : le nombre de produits est variables La liste des produits est immense et variable Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 4. N° Transaction (Caddie) Contenu du caddie 1 Poulet Moutarde Œufs Pates TABLEAU DES TRANSACTIONS  Mettre en évidence les produits / des articles achetés ensemble  Transcrire la connaissance sous forme de règles d’association si [P(tid,X) := prémisse] alors [P(tid,Y) := conséquence] si Poulet et Moutarde alors Œufs et Pates N° Transaction (Caddie) Contenu du caddie 6 Œufs Pain si Œufs alors Pain Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 5. TABLEAU BINAIRE N° Transaction (Caddie) Contenu du caddie 1 Poulet Moutarde Œufs Pates 2 Moutarde Œufs 3 Pain Beurre Poulet 4 Pates 5 Pain Lait Beurre 6 Œufs Pain 7 Confiture désignation P1 = Poulet P2 = Moutarde P3 = Œufs P4 = Pates P5 = Pain P6 = Beurre P7 = Lait P8 = Confiture P1 P2 P3 P4 P5 P6 P7 P8 1 1 1 1 1 0 0 0 0 2 0 1 1 0 0 0 0 0 3 1 0 0 0 1 1 0 0 4 0 0 0 1 0 0 0 0 5 0 0 0 0 1 1 1 0 6 0 0 1 0 1 0 0 0 7 0 0 0 0 0 0 0 1 Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 6. CODAGE DISJONCTIF COMPLET Observation Taille Corpulence 1 Petit Mince 2 Grand Enveloppé 3 Grand Mince Observation Taille = Petit Taille = Grand Corpulence = Mince Corpulence = Enveloppé 1 1 0 1 0 2 0 1 0 1 3 0 1 1 0 Dès que l’on peut se ramener à des données 0/1 : Il est possible de construire des règles d’association Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 7. PASSAGE EN FORME DISJONCTIVE COMPLÈTE  Catégoriel, qualitatif, discret : type marché, entreprises, taux, appartenance, …  Continu, quantitatif : virement, âge, température, consommation, pourcentage, … Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 8. CRITÈRES D’ÉVALUATION DES RÈGLES D’ASSOCIATION SUPPORT  indicateur de « fiabilité »  probabilité absolue : P(X U Y)  ||X U Y||/ ||BD|| = % de transactions vérifiant la règle CONFIANCE  Indicateur de « précision »  probabilité conditionnelle : P(Y/X)  ||X U Y||/||X|| = % de transactions vérifiant l'implication Règle d’association : p1 → p2 sup(R1) = 2 : en termes absolus ou sup(R1) = 2 / 6 = 33% : en termes relatifs Conf(R1) = sup(R1) / sup(antécédant R1) = sup(p1 → p2) / sup(p1) = 2 / 4 = 50 % « Bonne » règle = règle avec un support et une confiance élevée Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 9. ANALYSE DES TICKETS { "crème" }  { "pain" } ID PRODUITS 1 pain, crème, eau 2 crème 3 pain, crème, vin 4 eau 5 crème, eau Support = Prob. (crème et pain) : Confiance = Prob(crème et pain / crème) : 0.4 5 2 tran.)nom_total( pain)etcrèmeontenantnom(tran.c Sup  sup(crème) pain)etcrème(sup 5.0 4 2 crème)contenantnom(tran. pain)etcrèmecontenantnom(tran. Conf  Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 10. DÉMARCHE D’EXTRACTION DES RÈGLES D’ASSOCIATION Paramètres : Fixer un degré d’exigence sur les règles à extraire  Support min. (exp. 2 transactions)  Confiance min. (exp. 75%) L’idée est surtout de contrôler (limiter) le nombre de règles produites Démarche : Construction en deux temps  recherche des itemsets fréquents (support >= support min.)  à partir des itemsets fréquents, produire les règles (conf. >= conf. min.) Quelques définitions :  item = produit  itemset = ensemble de produits (ex. {p1,p3})  sup(itemset) = nombre de transactions d’apparition simultanée des produits (ex. sup{p1,p3} = 4)  card(itemset) = nombre de produits dans l’ensemble (ex. card{p1,p3} = 2) Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 11. ALGORITHME APRIORI [AGRAWAL94] Première passe : recherche des 1-ensembles fréquents un compteur par produits L'algorithme génère un candidat de taille k à partir de deux candidats de taille k-1 différents par le dernier élément procédure apriori-gen Passe k : comptage des k-ensemble fréquents candidats sélection des bons candidats Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 12. APRIORI – FRÉQUENTS ITEMSETS L1 = { frequent 1-ensemble } ; for (k = 2 ; Lk-1 ; k++) do { Ck = apriori-gen(Lk-1); // Generate new candidates foreach transactions t DB do { // Counting Ct = { subset(Ck, t) }; // get subsets of t candidates foreach cCt do c.count++; } Lk = { cCk |c.count >= minsup } ; // Filter candidates } F = {Lk} ; Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 13. SIMULATION 1-Itemsets Support {p1} 4 {p2} 3 {p3} 5 {p4} 1 On va prendre la valeur du Support minimal = 3 L1 = { {p1}, {p2}, {p3} } C2 = { {p1,p2}, {p1,p3}, {p2,p3} } Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 14. SIMULATION 2-Itemsets Support {p1,p2} 2 {p1,p3} 4 {p2,p3} 3 On va prendre le Support minimal = 3 L2 = { {p1,p3}, {p2,p3} } C3 = { {p1,p2 ,p3} } Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 15. SIMULATION 3-Itemsets Support {p1,p2, p3} 2 On va prendre le Support minimal = 3 L3 = Ø C4= Ø F = { {p1}, {p2}, {p3}, {p1,p3}, {p2,p3} } Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 16. SIMULATION {p1,p3} {p2,p3} On va prendre le pourcentage de la confiance minimale = 65% p1→p3 : confiance = 4/4 = 100 % p3→p1 : confiance = 4/5 = 80 % p2→p3 : confiance = 3/3 = 100 % p3→p2 : confiance = 3/5 = 60 % Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 17. INDICATEUR DE PERTINENCE DES RÈGLES MESURE D’INTÉRÊT : LIFT D’UNE RÈGLE  L’amélioration apportée par une règle, par rapport à une réponse au hasard est appelée « lift » et vaut : lift (règle) = confiance (règle) / p (résultat) = p (condition et résultat) / [ p (condition) x p (résultat) ]  Le lift est une bonne mesure de performance de la règle d’association.  Le lift est la confiance de la règle divisée par la valeur espérée de la confiance. Interprétation du lift : - Un lift supérieur à 1 : Indique une corrélation positive - Un lift de 1 indique une corrélation nulle - Un lift inférieur à 1 : Indique une corrélation négative lift (C →B) = 5/6 < 1 lift (B → E) = 6/5 > 1 Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 18. ETUDE DE CAS DE RECHERCHE D’ASSOCIATIONS INTÉRESSANTES  Le principe de l’algorithme est de rechercher l’ensemble L1 de tous les items apparaissant dans au moins Smin x m transactions.  Puis, parmi C2 qui est le produit cartésien de L1 avec lui-même, on construit l’ensemble L2 de tous les couples d’items apparaissant dans au moins Smin x m transactions.  L’algorithme s’arrête quand Lk est vide. Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 19. La distribution réussit à mieux cibler ses mailings La course à la fidélisation des clients Réductions personnalisées à la caisse Profil-client Le test des nouveaux produits Le panier moyen Le parcours magasin Cartes de fidélité UTILITÉ DES RÈGLES D’ASSOCIATION Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining