SlideShare une entreprise Scribd logo
1  sur  26
Règles d’association
Réaliser par : CHERIF ASMA && HASSINE HAMMAMI
plan
DATA MINING REGLES
D’ASSOCIATION
LES
ALGORITHMES
EXEMPLE
WEKA
DATA MINING
un processus itératif par lequel on
extrait des connaissances:
valides
Nouvelles
potentiellement utiles
compréhensibles
DATA MINING
Descriptif
Mettre en évidence des informations
présentes
Prédictif
Extrapoler des nouvelles informations à
partir de données existantes.
Techniques
prédictives
•Classification
•Régression
•Association
Techniques
descriptives
•Visualisation
•Regroupement
•Association
Règles d’association
 une implication conditionnelle entre ensembles d'attributs appelés items.
 Le processus d’association se décompose en deux sous processus :
la recherche des ensembles fréquents d'items
la génération des règles d'association à partir de ces ensembles
L’objectif est de trouver tous les ensembles d’items qui satisfont le seuil minsup.
Association
Support
L’occurrence
de règle
dans la base
Sup(x->y)
=
Segma(x &
y)/N
Confiance
mesure la validité
de la règle:
pourcentage
d’exemples qui
vérifient la
conclusion
Conf(X ⇒ Y)
= Supp(X &
Y) / Supp(X)
DESCRIPTION d’exemple :
Un exemple classique de l’utilité de cette approche est le panier du
ménagère qui décrit un ensemble d’achats effectué au supermarché
Les règles d’association permet de découvrir de régularités dans l’ensemble de
transactions comme par exemple : Si fromage alors vin rouge, etc.
Ces règles permettent par exemple au gérant de proposer des bons de
réductions significatifs sur les achats futurs des clients ! !
Un domaine d’application donné doit être décrit par une liste limitée
d’atomes qu’on appelle items. Par exemple, pour l’application du panier de
ménagère la liste des items correspond à l’ensemble d’articles disponibles
dans le supermarché [vin; fromage; chocolat;..].
 Un ensemble d’items est une succession d’items exprimée dans un ordre
donné et prédéfini.
 Une transaction est un ensemble d’items I {i1, i2,i3,..} . Un ensemble de
transactions T {t1,t2,t3,t4, ..} correspond à un ensemble d’apprentissage
qu’on va utiliser dans la suite pour déterminer les règles d’associations.
Par exemple, deux transactions possibles qui décrivent les achats dans un
supermarché Sont :
t1 = {Vin Fromage Viande} et t2 = {Vin Fromage Chocolat}
Exemple
Représentation binaire de données
transactions
produits
Vin Fromage Chocolat Viande Coca chips
T1 1 1 1 0 0 0
T2 1 1 0 1 0 0
T3 0 1 1 1 0 0
T4 1 1 1 0 0 0
t5 1 0 0 0 1 1
minsupp =0,4
minconf=60%
Considérons la règle {vin , fromage} {chocolat}
Le support du l’ensemble {vin , fromage, chocolat} étant égal à 2
nombre total du transaction est égal à 5, le support de la règle est égal 2/5 =0.4
la confiance de cette règle est 2/3=0.67 (67%)
Considérons la règle { fromage} {viande}
Le support de cette règle est de 2/5=0,4
La confiance de cette règle est de (2/5)/(4/5)=50%
Le support est important parce qu’une règle qui à un support faible peut être
observé seulement par hasard.
Les algorithme utilisé
APRIORI (Agrawal & Srikant, 1994)
Close (Pasquier et al, 1998 )
OCD (Mannila & al, 1994)
GEN-REGLES (Agrawal & Al, 1994)
OPUS (Webb, G.I. (1995) )
GEN_RULES, Eclat, GUHA,Tertius…
Algorithme APRIORI
Principe de l’algorithme A Priori:
Génération d’ensembles d’items
Calcul des fréquences des ensembles d’items
On garde les ensembles d’items avec un support minimum:
les ensembles d’items fréquents
Points faibles (algorithme apriori) :
 Le calcul des supports est coûteux
 La générations des règles est coûteuse
 Le parcours des données initiales est récurrent
Algorithme Close
repose sur l'extraction de générateurs d'ensemble de mots
fermés fréquents
La fermeture d'un ensemble de mots A est un ensemble de mots
B tel que B apparait dans les mêmes textes que A.
Pour la calculer on utilise deux fonctions :
F : Associe à un ensemble de mots les textes où il apparait
g : associe à un ensemble de textes les mots qu'ils ont en commun
20
Principe de l’algorithme Close
Initialisation de l'ensemble des générateurs avec
l'ensemble des singletons formés par les mots du corpus
Calcul de la fermeture des générateurs de niveau k et
de leur support
Ajout des fermetures des générateurs à l'ensemble des
ensembles de mots fermes fréquents
Génération des générateurs de niveau k + 1
Règles d’association
Règles d’association
Règles d’association
Règles d’association
Règles d’association
Règles d’association
Règles d’association

Contenu connexe

Tendances

Cours data warehouse
Cours data warehouseCours data warehouse
Cours data warehousekhlifi z
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaireBoris Guarisma
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdfOuailChoukhairi
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business IntelligenceLilia Sfaxi
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4JLilia Sfaxi
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data MiningTakfarinas KENOUCHE
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQLLilia Sfaxi
 
5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoiresBoris Guarisma
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningHakim Nasaoui
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionMohamed Heny SELMI
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Mohamed Heny SELMI
 
Le passage du diagramme de classe vers le model objet relationnel
Le passage du diagramme de classe vers le model objet relationnelLe passage du diagramme de classe vers le model objet relationnel
Le passage du diagramme de classe vers le model objet relationnelHassen Sic
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : SparkLilia Sfaxi
 

Tendances (20)

Cours data warehouse
Cours data warehouseCours data warehouse
Cours data warehouse
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaire
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4J
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
Clustering
ClusteringClustering
Clustering
 
Les BD NoSQL
Les BD NoSQLLes BD NoSQL
Les BD NoSQL
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires5.4 Arbres et forêts aléatoires
5.4 Arbres et forêts aléatoires
 
Lab2-DB-Mongodb
Lab2-DB-MongodbLab2-DB-Mongodb
Lab2-DB-Mongodb
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
Arbre de décision
Arbre de décisionArbre de décision
Arbre de décision
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
Le passage du diagramme de classe vers le model objet relationnel
Le passage du diagramme de classe vers le model objet relationnelLe passage du diagramme de classe vers le model objet relationnel
Le passage du diagramme de classe vers le model objet relationnel
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 

Similaire à Règles d’association

Etude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVMEtude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVMSamirAwad14
 
Ben harrath arijtp3 les règles d'association
Ben harrath arijtp3 les règles d'association Ben harrath arijtp3 les règles d'association
Ben harrath arijtp3 les règles d'association ARIJ BenHarrath
 
Initiation à l'algorithmique
Initiation à l'algorithmiqueInitiation à l'algorithmique
Initiation à l'algorithmiqueAbdoulaye Dieng
 
Machine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptxMachine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptxbely26
 

Similaire à Règles d’association (6)

associations5.ppt
associations5.pptassociations5.ppt
associations5.ppt
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
Etude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVMEtude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVM
 
Ben harrath arijtp3 les règles d'association
Ben harrath arijtp3 les règles d'association Ben harrath arijtp3 les règles d'association
Ben harrath arijtp3 les règles d'association
 
Initiation à l'algorithmique
Initiation à l'algorithmiqueInitiation à l'algorithmique
Initiation à l'algorithmique
 
Machine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptxMachine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptx
 

Règles d’association

  • 1. Règles d’association Réaliser par : CHERIF ASMA && HASSINE HAMMAMI
  • 3. DATA MINING un processus itératif par lequel on extrait des connaissances: valides Nouvelles potentiellement utiles compréhensibles
  • 4. DATA MINING Descriptif Mettre en évidence des informations présentes Prédictif Extrapoler des nouvelles informations à partir de données existantes. Techniques prédictives •Classification •Régression •Association Techniques descriptives •Visualisation •Regroupement •Association
  • 5. Règles d’association  une implication conditionnelle entre ensembles d'attributs appelés items.  Le processus d’association se décompose en deux sous processus : la recherche des ensembles fréquents d'items la génération des règles d'association à partir de ces ensembles L’objectif est de trouver tous les ensembles d’items qui satisfont le seuil minsup.
  • 6. Association Support L’occurrence de règle dans la base Sup(x->y) = Segma(x & y)/N Confiance mesure la validité de la règle: pourcentage d’exemples qui vérifient la conclusion Conf(X ⇒ Y) = Supp(X & Y) / Supp(X)
  • 7. DESCRIPTION d’exemple : Un exemple classique de l’utilité de cette approche est le panier du ménagère qui décrit un ensemble d’achats effectué au supermarché Les règles d’association permet de découvrir de régularités dans l’ensemble de transactions comme par exemple : Si fromage alors vin rouge, etc. Ces règles permettent par exemple au gérant de proposer des bons de réductions significatifs sur les achats futurs des clients ! !
  • 8. Un domaine d’application donné doit être décrit par une liste limitée d’atomes qu’on appelle items. Par exemple, pour l’application du panier de ménagère la liste des items correspond à l’ensemble d’articles disponibles dans le supermarché [vin; fromage; chocolat;..].  Un ensemble d’items est une succession d’items exprimée dans un ordre donné et prédéfini.  Une transaction est un ensemble d’items I {i1, i2,i3,..} . Un ensemble de transactions T {t1,t2,t3,t4, ..} correspond à un ensemble d’apprentissage qu’on va utiliser dans la suite pour déterminer les règles d’associations. Par exemple, deux transactions possibles qui décrivent les achats dans un supermarché Sont : t1 = {Vin Fromage Viande} et t2 = {Vin Fromage Chocolat}
  • 10. Représentation binaire de données transactions produits Vin Fromage Chocolat Viande Coca chips T1 1 1 1 0 0 0 T2 1 1 0 1 0 0 T3 0 1 1 1 0 0 T4 1 1 1 0 0 0 t5 1 0 0 0 1 1 minsupp =0,4 minconf=60%
  • 11. Considérons la règle {vin , fromage} {chocolat} Le support du l’ensemble {vin , fromage, chocolat} étant égal à 2 nombre total du transaction est égal à 5, le support de la règle est égal 2/5 =0.4 la confiance de cette règle est 2/3=0.67 (67%)
  • 12. Considérons la règle { fromage} {viande} Le support de cette règle est de 2/5=0,4 La confiance de cette règle est de (2/5)/(4/5)=50% Le support est important parce qu’une règle qui à un support faible peut être observé seulement par hasard.
  • 13. Les algorithme utilisé APRIORI (Agrawal & Srikant, 1994) Close (Pasquier et al, 1998 ) OCD (Mannila & al, 1994) GEN-REGLES (Agrawal & Al, 1994) OPUS (Webb, G.I. (1995) ) GEN_RULES, Eclat, GUHA,Tertius…
  • 14. Algorithme APRIORI Principe de l’algorithme A Priori: Génération d’ensembles d’items Calcul des fréquences des ensembles d’items On garde les ensembles d’items avec un support minimum: les ensembles d’items fréquents
  • 15.
  • 16. Points faibles (algorithme apriori) :  Le calcul des supports est coûteux  La générations des règles est coûteuse  Le parcours des données initiales est récurrent
  • 17. Algorithme Close repose sur l'extraction de générateurs d'ensemble de mots fermés fréquents La fermeture d'un ensemble de mots A est un ensemble de mots B tel que B apparait dans les mêmes textes que A. Pour la calculer on utilise deux fonctions : F : Associe à un ensemble de mots les textes où il apparait g : associe à un ensemble de textes les mots qu'ils ont en commun 20
  • 18.
  • 19. Principe de l’algorithme Close Initialisation de l'ensemble des générateurs avec l'ensemble des singletons formés par les mots du corpus Calcul de la fermeture des générateurs de niveau k et de leur support Ajout des fermetures des générateurs à l'ensemble des ensembles de mots fermes fréquents Génération des générateurs de niveau k + 1