SlideShare une entreprise Scribd logo
1  sur  108
Télécharger pour lire hors ligne
Étude comportementale des mesures
d’intérêt d’extraction de connaissances
Présentée par: Dhouha Grissa
dgrissa@isima.fr
Directeurs: Engelbert Mephu Nguifo & Sadok Ben Yahia
Co-encadrant: Sylvie Guillaume
02 Décembre, 2013
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 1 / 100
Positionnement
Les grandes étapes d’un processus ECD (Extraction de Connaissances
à partir des Données)
Émergence de données volumineuses.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 2 / 100
Positionnement
La fouille de données (FD)
Ses caractéristiques :
Une étape au coeur du processus d’ECD :
• analyser des données volumineuses.
• rechercher des connaissances valides, nouvelles et potentiellement
utiles (Fayyad et al., 1996).
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 3 / 100
Motivations
Objectifs de l’analyse des règles
Identifier des profils ou associations entre les items ou variables
binaires dans les bases de données transactionnelles, relationnelles,
ou dans les entrepôts de données.
S’intéresser aux règles valides.
Intérêt des mesures
Évaluer l’intérêt d’une règle d’association.
Aider l’utilisateur dans sa prise de décision.
Confirmer (ou infirmer) les hypothèses d’un expert.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 4 / 100
Motivations
Catégories de mesures
Deux catégories de mesures d’intérêt :
Mesures subjectives : dépendent des connaissances de l’utilisateur
sur le domaine.
Mesures objectives : dépendent des données.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 5 / 100
Motivations
Catégories de mesures
Deux catégories de mesures d’intérêt :
Mesures subjectives : dépendent des connaissances de l’utilisateur
sur le domaine.
Mesures objectives : dépendent des données.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 6 / 100
Motivations
Quelle(s) mesure(s) d’intérêt faut-il choisir ?
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 7 / 100
Plan de la Présentation
1 Introduction
2 Étude formelle
3 Étude empirique
4 Conclusion et Perspectives
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 8 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
I- Introduction
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 9 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Pertinence ou validité d’une règle
Définition
Étant donné : T la base transactionnelle, TX un ensemble de
transactions, I un ensemble d’items, tels que X ⊆ I, Y ⊆ I et
X ∩ Y = ∅.
Soit r : X ⇒ Y une règle d’association.
support(r) = support(X ∪ Y )
confiance(r) = support(X∪Y )
support(X)
Règles Valides
Support(X → Y ) minsup (fréquence)
Confiance(X → Y ) minconf (force)
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 10 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Pertinence ou validité d’une règle
Approche support/confiance
Avantages :
Vertus algorithmiques accélératrices.
Interprétation facile.
Inconvénients :
Génération d’un nombre très élevé de règles.
Obtention de règles non pertinentes.
⇒ Ces mesures sont insuffisantes !
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 11 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Insuffisance des mesures
Génération d’un nombre très élevé de règles
Obtention de règles non pertinentes
Étape supplémentaire pour analyser les règles extraites
Utilisation et proposition d’autres mesures objectives ;
Identification d’une soixantaine de mesures.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 12 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Quelques mesures d’intérêt
Extrait de 61 mesures d’intérêt
Nom Formule
Cohen ou Kappa 2 P(XY )−P(X)P(Y )
P(X)P(Y )+P(X)P(Y )
Confiance Causale 1 − 1
2
1
P(X) + 1
P(Y ) P(XY )
Facteur Bayésien P(XY )P(Y )
P(XY )P(Y )
Intensité d Implication P Poisson(nP(X)P(Y )) ≥ P(XY )
Loevinger 1 − P(XY )
P(X)P(Y )
Conviction P(X)P(Y )
P(XY )
Pearl P(X)|P(XY )
P(X) − P(Y )|
− − − − − − − − − −−
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 13 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Contexte
Problème
Problème de choix de mesures d’intérêt.
Solutions
Études formelles
Études empiriques
Objectifs
Aider l’utilisateur dans le choix de mesures d’intérêt.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 14 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Contexte
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 15 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Introduction :
État de l’art
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 16 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
État de l’art
Étude des
mesures d’intérêt
Étude
empirique
Étude formelle
Deux axes de recherche :
1. Étude formelle ;
2. Étude empirique.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 17 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
État de l’art
Travaux # mesures # propriétés # jeux Méthodes d’analyse
Tan et al,
2002
21 8 6 Évaluation des mesures
+ Ordonnancement
Heravi et
Zaiane, 2010
53 11 20 Évaluation des mesures
Hunyh et al,
2006
36 5 2 Évaluation des mesures
+ Classification des
mesures
B. Vaillant,
2006
20 9 10 Évaluation des mesures
+ Classification des
mesures (CAH)
Lallich et
Teytaud,
2004
15 13 — Classification des me-
sures selon des critères
Blanchard et
al, 2004
19 4 — Classification des me-
sures selon des critères
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 18 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
État de l’art
Travaux # mesures # propriétés # jeux Méthodes d’analyse
Geng et Ha-
milton, 2007
38 11 – Évaluation des mesures
Y. Le Bras,
2011
42 6 — Classification des me-
sures selon des critères
Hunyh et al,
2006
36 5 2 Classification des
mesures (ordonnance-
ment, corrélation)
Heravi et
Zaiane, 2010
53 11 20 Recherche de la
meilleure mesure
Carvalho et
al, 2005
11 — 8 Recherche de la
meilleure mesure
(Ordonnancement)
Hébert et
Crémilleux,
2007
17 3 1 Proposition d’un envi-
ronnement unificateur
des mesures
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 19 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Limites de l’existant
Nombre limité de mesures ;
Étude formelle :
Nombre restreint de propriétés ;
Classification selon un nombre restreint de critères ;
Méthodes de classification non variées.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 20 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Limites de l’existant
Étude empirique :
Petits jeux de données ;
Nombre réduit de jeux de données ;
⇒ problème de robustesse et de validité des résultats.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 21 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Contributions
D’un point de vue formel :
Étude d’un nombre plus important de mesures d’intérêt ;
Étude de l’ensemble des propriétés ;
Formalisation des propriétés ;
Classification des mesures :
• méthodes sans recouvrement : CAH et k-moyennes ;
• méthodes avec recouvrement : méthode d’analyse factorielle des
données binaires (AFB).
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 22 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Mesures d’intérêt
Aide au choix des mesures
État de l’art
Limites de l’existant
Contributions
Contributions
D’un point de vue empirique :
Validation des résultats de la classification formelle ;
Étude d’un nombre plus important de mesures d’intérêt ;
Variation de la taille et la nature des jeux de données ;
Classification des mesures :
• calcul de la matrice de similarité entre les mesures.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 23 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
II- Étude formelle
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 24 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Les propriétés des mesures
22 propriétés dégagées dans la littérature.
Formalisation de l’ensemble de ces propriétés.
2 propriétés jugées subjectives :
a. Compréhensibilité de la mesure ;
b. Facilité à fixer un seuil.
1 propriété nécessite des moyens de calculs performants :
c. Robustesse de la mesure.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 25 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Les propriétés des mesures
22 propriétés dégagées de la littérature.
Formalisation de l’ensemble de ces propriétés.
2 propriétés jugées subjectives :
a. Compréhensibilité de la mesure ;
b. Facilité à fixer un seuil.
1 propriété nécessite des moyens de calculs performants :
c. Robustesse de la mesure.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 26 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Les propriétés des mesures
22 propriétés dégagées de la littérature.
3 propriétés n’ont pas été étudiées.
19 propriétés de mesures
sont alors retenues !
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 27 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemples de propriétés
5 séries de propriétés
Non symétrie
Valeurs fixes pour différents niveaux d’implication
Évolution des mesures en fonction de paramètres
Relations entre règles positives et négatives
Discriminante en présence de données volumineuses
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 28 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemples de propriétés
5 séries de propriétés
Non symétrie
Valeurs fixes pour différents niveaux d’implication
Évolution des mesures en fonction de paramètres
Relations entre règles positives et négatives
Discriminante en présence de données volumineuses
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 28 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemples de propriétés
Non symétrie
∃X → Y /m(X → Y) = m(Y → X)
∀X → Y m(X → Y) = m(Y → X)
Oui : 1
Non : 0
Exemple
∀X → Y Support(X → Y ) = Support(Y → X) Non : 0
∃X → Y / Confiance(X → Y ) = Confiance(Y → X) Oui : 1
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 29 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Les séries de propriétés
5 séries de propriétés
Non symétrie
Valeurs fixes pour différents niveaux d’implication
Évolution des mesures en fonction de paramètres
Relations entre règles positives et négatives
Discriminante en présence de données volumineuses
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 30 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemples de propriétés
Valeurs fixes pour différents niveaux d’implication
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 31 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Les séries de propriétés
5 séries de propriétés
Non symétrie
Valeurs fixes pour différents niveaux d’implication
Évolution des mesures en fonction de paramètres
Relations entre règles positives et négatives
Discriminante en présence de données volumineuses
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 32 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemples de propriétés
Évolution des mesures en fonction de
paramètres
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 33 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Les séries de propriétés
5 séries de propriétés
Non symétrie
Valeurs fixes pour différents niveaux d’implication
Évolution des mesures en fonction de paramètres
Relations entre règles positives et négatives
Discriminante en présence de données volumineuses
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 34 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemples de propriétés
Relations entre règles positives et négatives
∀X → Y m(X → Y) = −m(X → Y)
Oui : 1
Non : 0
Exemple
∃X → Y Support(X → Y ) = −Support(X → Y ) Non : 0
∀X → Y Pavillon(X → Y ) = −Pavillon(X → Y ) Oui : 1
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 35 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Les séries de propriétés
5 séries de propriétés
Non symétrie
Valeurs fixes pour différents niveaux d’implication
Évolution des mesures en fonction de paramètres
Relations entre règles positives et négatives
Discriminante en présence de données volumineuses
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 36 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemples de propriétés
Discriminante en présence de données
volumineuses
Mesures restituant des valeurs distinctes pour des niveaux
d’implication différents
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 37 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
5 séries de propriétés
Non symétrie
Valeurs fixes pour différents niveaux d’implication
Évolution des mesures en fonction de paramètres
Relations entre règles positives et négatives
Discriminante en présence de données volumineuses
=⇒ Évaluation des propriétés sur les mesures
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 38 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Matrice Mesures-propriétés
Étude de 61 mesures d’intérêt × 19 propriétés
⇓
Construction de la matrice
(Extrait)
Mes/Prop P3 P4 P6 P7 P8 P9 P14 P18 P20 P21
Cohen 0 1 1 1 1 1 1 1 0 1
Confiance 1 1 1 0 0 0 1 0 0 1
FB 1 1 1 1 1 1 0 0 0 1
II 1 1 1 1 1 1 2 0 1 0
Jaccard 0 1 1 0 1 0 0 0 0 1
MGK 1 1 1 1 0 1 1 0 0 1
Pearl 0 0 0 0 0 1 1 1 0 1
Y de Yule 0 1 1 1 0 1 0 1 0 1
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 39 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemple d’évaluation de mesures
Mesures non symétriques (P3)
Mes/Prop P3 P4 P6 P7 P8 P9 P14 P18 P20 P21
Cohen 0 1 1 1 1 1 1 1 0 1
Confiance 1 1 1 0 0 0 1 0 0 1
FB 1 1 1 1 1 1 0 0 0 1
II 1 1 1 1 1 1 2 0 1 0
Jaccard 0 1 1 0 1 0 0 0 0 1
MGK 1 1 1 1 0 1 1 0 0 1
Pearl 0 0 0 0 0 1 1 1 0 1
Y de Yule 0 1 1 1 0 1 0 1 0 1
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 40 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Publications
S. Guillaume and D. Grissa and E. Mephu Nguifo (2010). Propriétés
des mesures d’intérêt pour l’extraction des règles
Dans Actes de l’atelier QDC de la conférence EGC, pages 15–28,
Hammamet, Tunisie.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 41 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Catégorisation des mesures d’intérêt
Différentes méthodes sont utilisées pour la catégorisation des
mesures :
1 Méthodes sans recouvrement : une méthode hiérarchique CAH et
une méthode de partitionnement, des k-moyennes ;
2 Méthode avec recouvrement : la méthode d’analyse factorielle
booléenne.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 42 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Catégorisation des mesures d’intérêt
Simplification de la matrice :
1 Recherche de mesures aux comportements identiques :
valeurs identiques pour les 19 propriétés ;
⇒ 7 groupes de mesures ;
⇒ 52 mesures d’intérêt.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 43 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Catégorisation des mesures d’intérêt
Simplification de la matrice d’évaluation des mesures selon les
propriétés :
1 Recherche de mesures aux comportements identiques.
2 Recherche de propriétés redondantes :
valeurs identiques pour les 52 mesures ;
aucune propriété redondante.
⇒ 19 propriétés.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 44 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Catégorisation des mesures d’intérêt
Simplification de la matrice d’évaluation des mesures selon les
propriétés :
1 Recherche de mesures aux comportements identiques.
2 Recherche de propriétés redondantes :
matrice
52 mesures × 19 propriétés
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 45 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Catégorisation des mesures d’intérêt
1 Méthodes sans recouvrement : une méthode
hiérarchique CAH et une méthode de partitionnement, des
k-moyennes ;
2 Méthode avec recouvrement : la méthode d’analyse factorielle booléenne.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 46 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Méthodes sans recouvrement
Deux méthodes de classification non supervisées sans recouvrement
sont appliquées :
1. Une méthode de classification ascendante hiérarchique
distance euclidienne entre paires de mesures
distance de Ward pour la phase d’agrégation
⇒ 8 groupes de mesures
2. Une méthode des k-moyennes
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 47 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Méthodes sans recouvrement
Deux méthodes de classification non supervisée sans recouvrement
sont appliquées :
1. Une méthode de la classification ascendante hiérarchique
2. Une méthode des k-moyennes
distance euclidienne
k = 8
10 itérations
⇒ Consensus (entre les 2 méthodes)
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 48 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Consensus sur la classification
7 classes de
mesures
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 49 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Consensus sur la classification
Divergence pour
12 mesures
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 50 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Consensus sur la classification
Classes fortes
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 51 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Étude des classes disjointes
Interprétation des différentes classes :
a. Étape a : trouver des relations mathématiques ou une interprétation
sémantique ;
b. Étape b : étudier le comportement des mesures selon les propriétés
formelles ;
c. Étape c : appliquer une classification ascendante hiérarchique.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 52 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemple d’interprétation de la classe C7
a. Étape a : trouver des relations mathématiques ou une interprétation
sémantique entre les mesures.
Exemple : Classe 7 (10 mesures d’intérêt)
• Gain Informationnel = log2(Intérêt)
• Support double sens = P(X) × Support sens unique
• Pavillon = P(Y ) × Facteur de certitude
• Klosgen = P(X) × pavillon
• Facteur bayésien = Conviction × Intérêt
• Facteur de certitude = (Risque relatif ×p(Y |X))−p(Y )
p(Y )
• Support double unique = P(XY )log2(Intérêt)
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 53 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemple d’interprétation de la classe C7
a. Étape a : trouver des relations mathématiques ou une interprétation
sémantique entre les mesures :
• Gain Informationnel = log2(Intérêt)
• Support double sens = P(X) × Support sens unique
• Pavillon = P(Y ) × Facteur de certitude
• Klosgen = P(X) × pavillon
• Facteur bayésien = Conviction × Intérêt
• Facteur de certitude =
(Risque relatif ×p(Y |X))−p(Y )
p(Y )
• Support double sens = P(XY )log2(Intérêt)
⇒ Il n’existe pas de liaison entre toutes les mesures de C7
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 53 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemple d’interprétation de la classe C7
b. Étape b : étudier le comportement des mesures de la classe 7 selon
les propriétés formelles :
Vérification des 11 propriétés suivantes :
P4, P7, P9, P11, P12, P13, P16, P18, P19, P20 et P21.
Mesures de C7 :
• descriptives, discriminantes,
• croissent en fonction de l’ensemble des données,
• invariables à l’équilibre,
• permettent l’identification des zones d’attraction et de répulsion.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 53 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemple d’interprétation de la classe C7
b. Étape c : appliquer une méthode de CAH :
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 53 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Exemple d’interprétation de la classe C7
b. Étape c : appliquer une classification ascendante hiérarchique
Le sous-groupe {Support double sens (SSU), Klosgen (Klos),
Support sens unique (SDS)} :
• Support double sens = P(X) × Support sens unique ;
• Évaluation identique de toutes les propriétés, sauf P3 (non
symétrie) ;
• Support sens unique proche de Klosgen : 18 propriétés communes ;
• Confirmation par les valeurs des distances :
d(SSU, SDS) = d(SSU, Klos) = 1, 41.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 53 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Proposition de mesure(s) référente(s)
Interprétation des différentes classes :
a. Étape a : trouver des relations mathématiques ou une interprétation
sémantique ;
b. Étape b : étudier le comportement des mesures selon les propriétés
formelles ;
c. Étape c : appliquer une classification ascendante hiérarchique.
Proposition d’une ou plusieurs mesure(s) référente(s).
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 54 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Proposition de mesure(s) référente(s)
Proposition d’une ou plusieurs mesure(s) référente(s) :
• Consultation de la table de distance entre chaque mesure et le centre
de gravité ;
• Mesures les plus proches du centre sont les mesures référentes.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 54 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Proposition de mesure(s) référente(s)
Exemple : Mesure(s) référente(s) de la classe C7 :
Sous-groupe Mesures C7
Gc1
Facteur Certitude 4,18
Pavillon 2,98
Gc2
Facteur Bayésien 2,38
Conviction 1,98
Risque Relatif 0,78
Gc3
Gain Informationnel 2,58
Intérêt 2,18
Gc4
Support Double Sens 2,38
Support Sens Unique 1,58
Klosgen 3,18
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 54 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Catégorisation des mesures d’intérêt
Différentes méthodes sont utilisées pour la catégorisation des mesures :
1 Méthodes sans recouvrement : une méthode hiérarchique CAH et une
méthode de partitionnement, des k-moyennes ;
2 Méthode avec recouvrement : la méthode d’analyse
factorielle booléenne.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 55 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Méthode avec recouvrement : AFB
Analyse Factorielle Booléenne (AFB) = décomposition de la matrice
de données binaires objet-attribut I en un produit booléen de la matrice
A objet-facteur et de la matrice B facteur-attribut.
Iij = (A ◦ B)ij =
k
max
l=1
min(Ail , Blj )
Ail = 1 . . . facteur l s’applique à l’objet i
Blj = 1 . . . attribut j est l’une des manifestations du facteur l
(A ◦ B)ij . . . “l’objet i possède un attribut j ssi il existe un facteur l tel
que l s’applique à i et j est l’une des manifestations de l”
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 56 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Méthode avec recouvrement : AFB
PROBLÈME : trouver le plus petit nombre k de facteurs !




1 1 0 0 0
1 1 0 0 1
1 1 1 1 0
1 0 0 0 1



 =
k




1 0 0 1
1 0 1 0
1 1 0 0
0 0 1 0



 ◦




1 1 0 0 0
0 0 1 1 0
1 0 0 0 1
0 1 0 0 0







k
Les matrices A et B sont construites à partir de l’ensemble F de
concepts formels des données d’entrée I, appelés concepts factoriels.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 57 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
AFB : Processus de travail
Méthodologie
Extension de la matrice originale :
• 61 × 19 (originale) ;
• 61 × 21 (binarisation d’une propriété) ;
L’ajout pour chaque propriété de sa négation :
• 61 × 42 (nouvelle) ;
⇒ Obtention de 38 facteurs, dénotés F1,.....F38.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 58 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Interprétation des résultats
Obtention de 38 facteurs :
21 premiers facteurs couvrent 94% de la matrice d’entrée
mesure-propriété.
dix premiers couvrent 73%.
cinq premiers couvrent 52.4%.
Couverture cumulative de la matrice
d’entrée
cumulativecover(%)
number of factors
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38
0
10
20
30
40
50
60
70
80
90
100
dix premiers couvrent toutes les mesures.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 59 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Diagramme de Venn des Facteurs Booléens
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 60 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Interprétation
Interprétation des 10 premiers facteurs :
Une forte similarité avec les 7 autres classes de mesures.
Des groupes de mesures significatifs qui se recouvrent.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 61 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des propriétés des mesures
Classification formelle
Catégorisation des mesures : méthodes sans recouvrement
Catégorisation des mesures : méthodes avec recouvrement
Publications
Dans une revue internationale :
• R. Belohlavek, D. Grissa, S. Guillaume, E. Mephu Nguifo and J.
Outrata (2013). Boolean factors as a means of clustering of
interestingness measures of association rules.
Dans AMAI Journal, volume 67, Springer Netherlands.
Dans CLA’2011, pages 207–222.
Dans une revue nationale :
• S. Guillaume and D. Grissa and E. Mephu Nguifo (2011).
Catégorisation des mesures d’intérêt pour l’extraction des
connaissances.
Dans Revue des Nouvelles Technologies de l’Information, RNTI.
pages 117–144.
Dans EGC’2011, pages 551–562.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 62 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
III- Étude empirique
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 63 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Objectifs
Étude empirique : validation des 7 groupes de mesures
Regrouper les mesures ayant un comportement semblable :
Toutes les mesures d’une même classe devraient sélectionner les
mêmes N meilleures règles pour différentes bases de données.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 64 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Environnement de travail
Utilisation de la plateforme expérimentale Weka
Introduction de mesures d’intérêt
Application de l’algorithme Apriori
Analyse de 2 types de jeux de données
NomBase Type T :# Tran I :# Item L :Moy.Tran
Réelle
CONNECT Dense 67557 129 74
PUMSB Dense 49046 7117 43
CHESS Dense 3196 75 37
IPUMS ? 88443 1889 60
Synthétique
T135L23I60 éparse 135 60 23
T100L10I40 éparse 100 40 10
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 65 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Méthodologie suivie
Étape 1 : Extraction des N meilleures règles
Étape 2 : Élaboration de matrices de similarité entre les mesures
Étape 3 : Calcul d’un degré de similarité entre les mesures
Étape 4 : Catégorisation des mesures par le calcul de l’écart-type
des degrés de similarité
Étape 5 : Visualisation graphique des mesures au comportement
similaire
Étape 6 : Interprétation des résultats
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 66 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Méthodologie suivie
Étape 1 : Extraction des N meilleures règles
Étape 2 : Élaboration de matrices de similarité entre les mesures
Étape 3 : Calcul d’un degré de similarité entre les mesures
Étape 4 : Catégorisation des mesures par le calcul de l’écart-type des
degrés de similarité
Étape 5 : Visualisation graphique des mesures au comportement similaire
Étape 6 : Interprétation des résultats
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 66 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 1 : Extraction des N meilleures règles
Extraction des N meilleures règles :
Variation du nombre N de règles extraites : 10, 50, 100, 200 et 400
Obtention d’un ensemble de règles ordonnées avec la mesure mi
pour la base Bk
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 67 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Méthodologie suivie
Étape 1 : Extraction des N meilleures règles
Étape 2 : Élaboration de matrices de
similarité entre les mesures
Étape 3 : Calcul d’un degré de similarité entre les mesures
Étape 4 : Catégorisation des mesures par le calcul de l’écart-type des
degrés de similarité
Étape 5 : Visualisation graphique des mesures au comportement similaire
Étape 6 : Interprétation des résultats
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 68 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 2 : Élaboration de matrices de similarité
Calcul du taux de ressemblance entre les mesures mi et mj pour la
base Bk :
τij Bk
=
| Eik ∩ Ejk |
N
(1)
où Eik ∩ Ejk est l’ensemble de règles sélectionnées avec les mesures mi et
mj .
⇒ Obtention de 6 matrices de taux similarité
(6 jeux de données)
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 69 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 2 : Élaboration de matrices de similarité
Cas d’une base réelle : Chess
Mesures N=10 N=50 N=100 N=200 N=400
Ganascia & Confiance 10 50 98 184 366
Ganascia & Pearl 0 0 0 0 0
Ganascia & Laplace 10 50 100 200 400
Confiance & Pearl 0 0 0 0 0
Confiance & Laplace 10 50 98 184 366
Pearl & Laplace 0 0 0 0 0
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 70 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 2 : Élaboration de matrices de similarité
Cas d’une base réelle : Chess
Mesures N=10 N=50 N=100 N=200 N=400
Ganascia & Confiance 10 50 98 184 366
Ganascia & Pearl 0 0 0 0 0
Ganascia & Laplace 10 50 100 200 400
Confiance & Pearl 0 0 0 0 0
Confiance & Laplace 10 50 98 184 366
Pearl & Laplace 0 0 0 0 0
⇒ Forte similarité entre Ganascia et Laplace
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 71 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 2 : Élaboration de matrices de similarité
Cas d’une base réelle : Chess
Mesures N=10 N=50 N=100 N=200 N=400
Ganascia & Confiance 10 50 98 184 366
Ganascia & Pearl 0 0 0 0 0
Ganascia & Laplace 10 50 100 200 400
Confiance & Pearl 0 0 0 0 0
Confiance & Laplace 10 50 98 184 366
Pearl & Laplace 0 0 0 0 0
⇒ Forte dissimilarité entre Ganascia et Pearl
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 72 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Méthodologie suivie
Étape 1 : Extraction des N meilleures règles
Étape 2 : Élaboration de matrices de similarité entre les mesures
Étape 3 : Calcul d’un degré de similarité entre
les mesures
Étape 4 : Catégorisation des mesures par le calcul de l’écart-type des
degrés de similarité
Étape 5 : Visualisation graphique des mesures au comportement similaire
Étape 6 : Interprétation des résultats
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 73 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 3 : Calcul d’un degré de similarité
Calcul du degré de similarité IS pour chaque couple de mesures (mi ,
mj ) :
IS (mi , mj ) =
p
k=1 τij Bk
p
p est le nombre de bases de données étudiées.
Obtention d’une nouvelle matrice
de similarité
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 74 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 3 : Calcul d’un degré de similarité
Extrait de la matrice de similarité
Mesures ipums chess pumsb connect T135 T100 Moy
Ganascia & Confiance 0,32 0,98 0,00 0,90 0,27 1,00 0,57
Ganascia & Pearl 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Ganascia & Laplace 1,00 1,00 1,00 1,00 1,00 1,00 1,00
Confiance & Pearl 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Confiance & Laplace 0,32 0,98 0,00 0,90 0,27 1,00 0,57
Pearl & Laplace 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 75 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Méthodologie suivie
Étape 1 : Extraction des N meilleures règles
Étape 2 : Élaboration de matrices de similarité entre les mesures
Étape 3 : Calcul d’un degré de similarité entre les mesures
Étape 4 : Catégorisation des mesures par le
calcul de l’écart-type des degrés de similarité
Étape 5 : Visualisation graphique des mesures au comportement similaire
Étape 6 : Interprétation des résultats
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 76 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 4 : Catégorisation des mesures
Calcul de l’écart-type σ des degrés de similarité IS pour chaque
couple de mesures (mi , mj ) :
σ(mi , mj ) =
p
k=1 τij Bk
−IS (mi ,mj )
2
p
p est le nombre de bases de données étudiées.
Catégorisation des mesures
grâce à IS et σ
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 77 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 4 : Catégorisation des mesures
3 catégories de mesures
Catégorie Indice IS Écart-type σ
mesures au comportement
similaire
IS (mi , mj ) ≥ 1 − ε1 σ(mi , mj ) ≤ ε2
mesures au comportement
différent
IS (mi , mj ) ≤ ε1 σ(mi , mj ) ≤ ε2
mesures au comportement
indéterminé
— σ(mi , mj ) ≥ 1 − ε2
Avec : 1 − ε1 = 0, 95, ε2 = 0, 1
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 78 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 4 : Catégorisation des mesures
Catégorie Indice IS Écart-type σ
mesures au comportement
similaire
IS (mi , mj ) ≥ 0, 95 σ(mi , mj ) ≤ 0, 1
1. mesures au comportement identique : lorsque IS est proche de 1 et
σ est faible ;
Mesure Conviction Fiabilité négative
– IS σ IS σ
Facteur bayésien 0,95 0,06 0,60 0,38
Loevinger 0,00 0,00 0,00 0,00
Confiance causale 0,58 0,37 1,00 0,00
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 79 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 4 : Catégorisation des mesures
Catégorie Indice IS Écart-type σ
mesures au comportement
différent
IS (mi , mj ) ≤ 0, 05 σ(mi , mj ) ≤ 0, 1
2. mesures au comportement différent : lorsque IS et σ ont des
faibles valeurs ;
Mesure Conviction Fiabilité négative
– IS σ IS σ
Facteur bayésien 0,95 0,06 0,60 0,38
Loevinger 0,00 0,00 0,00 0,00
Confiance causale 0,58 0,37 1,00 0,00
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 80 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 4 : Catégorisation des mesures
Catégorie Indice IS Écart-type σ
mesures au comportement
indéterminé
— σ(mi , mj ) ≥ 0, 9
3. mesures au comportement indéterminé, en fonction des bases
de données :
(a) en présence d’une faible valeur pour IS et une forte valeur pour σ ;
(b) en présence d’une forte valeur pour IS et σ.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 81 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 4 : Catégorisation des mesures
3. mesures au comportement indéterminé, en fonction des bases
de données :
(a) en présence d’une faible valeur pour IS et une forte valeur pour σ ;
(b) en présence d’une forte valeur pour IS et σ.
Mesure Conviction Fiabilité négative
– IS σ IS σ
Facteur bayésien 0,95 0,06 0,60 0,38
Loevinger 0,00 0,00 0,00 0,00
Confiance causale 0,58 0,37 1,00 0,00
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 82 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Méthodologie suivie
Étape 1 : Extraction des N meilleures règles
Étape 2 : Élaboration de matrices de similarité entre les mesures
Étape 3 : Calcul d’un degré de similarité entre les mesures
Étape 4 : Catégorisation des mesures par le calcul de l’écart-type des
degrés de similarité
Étape 5 : Visualisation graphique des mesures
au comportement similaire
Étape 6 : Interprétation des résultats
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 83 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 5 : Visualisation
Obtention de 8 graphes connexes
Exemple :
Pea : Pearl
Nov : Nouveauté
Lev : Leverage
PS : Piatetsky-shapiro
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 84 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Méthodologie suivie
Étape 1 : Extraction des N meilleures règles
Étape 2 : Élaboration de matrices de similarité entre les mesures
Étape 3 : Calcul d’un degré de similarité entre les mesures
Étape 4 : Catégorisation des mesures par le calcul de l’écart-type des
degrés de similarité
Étape 5 : Visualisation graphique des mesures au comportement similaire
Étape 6 : Interprétation des résultats
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 85 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 6 : Interprétation
La démarche suivie pour l’interprétation des résultats :
Étape a : Recherche de relations mathématiques entre les mesures ;
Étape b : Validation de la classification grâce à des études
similaires ;
Étape c : Vérification de l’ordonnancement similaire des règles par
les mesures d’un même groupe.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 86 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 6 : Interprétation
Étape a : Recherche de relations mathématiques entre les mesures
Justifier le regroupement par des liens de proportionnalité :
Exemple : groupe Gst5 = {Jaccard, Kulczynski, Czekanowski}
Kulczynski = Jaccard
1−Jaccard
Jaccard = Czekanowski
2−Czekanowski
Aucune relation intéressante n’est détectée =⇒ passer à l’étape b.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 87 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 6 : Interprétation
Étape b : Validation de la classification grâce à des études
similaires
Confrontation de la classification avec des travaux de la littérature
Exemple : groupe Gst5 = {Jaccard, Kulczynski, Czekanowski}
Validation par la classification formelle,
Validation par les travaux de Y. Le Bras 2011.
Non validation des résultats =⇒ passer à l’étape c.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 88 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 6 : Interprétation
Étape c : Vérification de l’ordonnancement similaire des règles par
les mesures d’un même groupe
Vérification de la relation d’ordre entre les mesures (m1, m2) d’un
même groupe :
∀X → Y , ∀V → W Si m1(X → Y ) ≤ m1(V → W )
alors m2(X → Y ) ≤ m2(V → W )
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 89 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 6 : Interprétation
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 90 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Étape 6 : Interprétation
Exemple de mesures de Gst2
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 91 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Confrontation des résultats
Confrontation
formel &
empirique
⇒ Validation
étude
formelle.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 92 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Étude des jeux de données
Méthodologie expérimentale
Publications
D. Grissa (2013). Étude comportementale de mesures d’intérêt de
règles d’association.
Dans 11èmes
Rencontres des Jeunes Chercheurs en Intelligence
Artificielle, RJCIA’13, Lille-France.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 93 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Conclusion
Perspectives
IV- Conclusion et Perspectives
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 94 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Conclusion
Perspectives
Conclusion
Objectif : aider l’utilisateur dans le choix de mesures
Étude formelle :
Soixantaine de mesures,
Vingtaine de propriétés formelles ;
Formalisation des propriétés de mesures ;
Étude des mesures selon les propriétés.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 95 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Conclusion
Perspectives
Conclusion
Classification des mesures d’intérêt :
1 CAH et k-moyennes
⇒ 7 classes de mesures disjointes
2 AFB
⇒ 8 classes de mesures recouvrantes
Interprétation des classes de mesures.
Proposition de mesures représentatives.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 96 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Conclusion
Perspectives
Conclusion
Étude empirique :
Étude des mesures selon des jeux de données de nature différente.
Identification de 3 catégories de mesures :
1 Les mesures au comportement similaire ;
⇒ 8 groupes de mesures stables.
Interprétation des groupes de mesures stables.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 97 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Conclusion
Perspectives
Conclusion
Étude comparative avec les autres travaux :
• Travail de Vaillant : à la fois accord/désaccord ;
• Travail de Huynh et al : une grande similarité ;
• Travail de Heravi et Zaiane : à la fois accord/désaccord ;
Travaux # me-
sures
#
jeux
#
groupes
Techniques utilisées
Tew et al.
2013
61 110 21 Ordonnancement des règles,
calcul de la corrélation, CAH
Jiménez et
al. 2013
12 1 —- Ordonnancement de
groupes règles, matrice
de similarité
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 98 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Conclusion
Perspectives
Perspectives
Envisager des propriétés complémentaires pour l’étude du
comportement des mesures ;
Étudier l’ordonnancement des règles ;
Identification de caractéristiques pertinentes d’un ensemble de
données : indiquer la mesure d’intérêt la mieux appropriée ;
Agrégation de mesures ;
Projection sur d’autres types de motifs.
Réalisation d’un cadre applicatif réel.
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 99 / 100
Introduction
Étude formelle
Étude empirique
Conclusion et Perspectives
Conclusion
Perspectives
Merci pour votre attention !
Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt
100 /
100

Contenu connexe

En vedette

PERIODO SENSORIOMOTOR
PERIODO SENSORIOMOTORPERIODO SENSORIOMOTOR
PERIODO SENSORIOMOTOREuler
 
Aplicación De Las Herramientas Sociales Web 2
Aplicación De Las Herramientas Sociales  Web 2Aplicación De Las Herramientas Sociales  Web 2
Aplicación De Las Herramientas Sociales Web 2Liz Pagan
 
Understand.Invitation
Understand.InvitationUnderstand.Invitation
Understand.Invitationalice ayel
 
Doc présentation espace rdv
Doc présentation espace rdvDoc présentation espace rdv
Doc présentation espace rdvJulien Audran
 
Chirurgie cardiaque fp 12 06 12
Chirurgie cardiaque fp 12 06 12Chirurgie cardiaque fp 12 06 12
Chirurgie cardiaque fp 12 06 12raymondteyrouz
 
BRIGITTE BARDOT
BRIGITTE BARDOT BRIGITTE BARDOT
BRIGITTE BARDOT Lena
 
Del diseño 1.0 al diseño 2.0
Del diseño 1.0 al diseño 2.0Del diseño 1.0 al diseño 2.0
Del diseño 1.0 al diseño 2.0Paulo Saavedra
 
Configuración de la audiencia
Configuración de la audienciaConfiguración de la audiencia
Configuración de la audienciaRonny Isuiz
 
Tic Palabras Point
Tic Palabras PointTic Palabras Point
Tic Palabras Pointari
 
Taller Experimental de Ciencia I - Mecatrónica UTAL 2008
Taller Experimental de Ciencia I - Mecatrónica UTAL 2008Taller Experimental de Ciencia I - Mecatrónica UTAL 2008
Taller Experimental de Ciencia I - Mecatrónica UTAL 2008Universidad de Talca
 
Asturias
AsturiasAsturias
Asturiaszyanya5
 
Digitalización de Bienes Culturales
Digitalización de Bienes CulturalesDigitalización de Bienes Culturales
Digitalización de Bienes CulturalesPatricia Bertolotti
 
Calendrier des infirmières
Calendrier des infirmièresCalendrier des infirmières
Calendrier des infirmièreslyago
 
Informe Comunidad De Practica Enero 2009
Informe Comunidad De Practica Enero 2009Informe Comunidad De Practica Enero 2009
Informe Comunidad De Practica Enero 2009Liz Pagan
 
La música en el tractor
La música en el tractorLa música en el tractor
La música en el tractorJose Catalan
 
S’inscrire comme contributeur au blogue de la classe
S’inscrire comme contributeur au blogue de la classeS’inscrire comme contributeur au blogue de la classe
S’inscrire comme contributeur au blogue de la classeleclercconseil
 

En vedette (20)

PERIODO SENSORIOMOTOR
PERIODO SENSORIOMOTORPERIODO SENSORIOMOTOR
PERIODO SENSORIOMOTOR
 
Aplicación De Las Herramientas Sociales Web 2
Aplicación De Las Herramientas Sociales  Web 2Aplicación De Las Herramientas Sociales  Web 2
Aplicación De Las Herramientas Sociales Web 2
 
Lamour
LamourLamour
Lamour
 
El Vino
El VinoEl Vino
El Vino
 
Understand.Invitation
Understand.InvitationUnderstand.Invitation
Understand.Invitation
 
Doc présentation espace rdv
Doc présentation espace rdvDoc présentation espace rdv
Doc présentation espace rdv
 
Chirurgie cardiaque fp 12 06 12
Chirurgie cardiaque fp 12 06 12Chirurgie cardiaque fp 12 06 12
Chirurgie cardiaque fp 12 06 12
 
BRIGITTE BARDOT
BRIGITTE BARDOT BRIGITTE BARDOT
BRIGITTE BARDOT
 
Del diseño 1.0 al diseño 2.0
Del diseño 1.0 al diseño 2.0Del diseño 1.0 al diseño 2.0
Del diseño 1.0 al diseño 2.0
 
Configuración de la audiencia
Configuración de la audienciaConfiguración de la audiencia
Configuración de la audiencia
 
Tic Palabras Point
Tic Palabras PointTic Palabras Point
Tic Palabras Point
 
Taller Experimental de Ciencia I - Mecatrónica UTAL 2008
Taller Experimental de Ciencia I - Mecatrónica UTAL 2008Taller Experimental de Ciencia I - Mecatrónica UTAL 2008
Taller Experimental de Ciencia I - Mecatrónica UTAL 2008
 
Asturias
AsturiasAsturias
Asturias
 
Digitalización de Bienes Culturales
Digitalización de Bienes CulturalesDigitalización de Bienes Culturales
Digitalización de Bienes Culturales
 
III Junta de OOoES
III Junta de OOoESIII Junta de OOoES
III Junta de OOoES
 
Calendrier des infirmières
Calendrier des infirmièresCalendrier des infirmières
Calendrier des infirmières
 
Informe Comunidad De Practica Enero 2009
Informe Comunidad De Practica Enero 2009Informe Comunidad De Practica Enero 2009
Informe Comunidad De Practica Enero 2009
 
La música en el tractor
La música en el tractorLa música en el tractor
La música en el tractor
 
S’inscrire comme contributeur au blogue de la classe
S’inscrire comme contributeur au blogue de la classeS’inscrire comme contributeur au blogue de la classe
S’inscrire comme contributeur au blogue de la classe
 
Academico
AcademicoAcademico
Academico
 

Similaire à Thesis_Presentation

Introduction au Data Marketing
Introduction au Data MarketingIntroduction au Data Marketing
Introduction au Data MarketingAmar LAKEL, PhD
 
De la recherche à la pratique : la veille stratégique comme soutien à la pris...
De la recherche à la pratique : la veille stratégique comme soutien à la pris...De la recherche à la pratique : la veille stratégique comme soutien à la pris...
De la recherche à la pratique : la veille stratégique comme soutien à la pris...Elsa Drevon
 
Methodologie générale (1).pdf
Methodologie générale (1).pdfMethodologie générale (1).pdf
Methodologie générale (1).pdfraciaamaad
 
La veille stratégique dans le secteur public de la santé au Québec
La veille stratégique dans le secteur public de la santé au QuébecLa veille stratégique dans le secteur public de la santé au Québec
La veille stratégique dans le secteur public de la santé au QuébecElsa Drevon
 
PadLAD - un outil de Conception participative de tableaux de bord d’apprentis...
PadLAD - un outil de Conception participative de tableaux de bord d’apprentis...PadLAD - un outil de Conception participative de tableaux de bord d’apprentis...
PadLAD - un outil de Conception participative de tableaux de bord d’apprentis...Jean-Marie Gilliot
 
Du_Concept_à_la_pratique_la_veille_strategique_ste_tunisienne_Asma HD
Du_Concept_à_la_pratique_la_veille_strategique_ste_tunisienne_Asma HDDu_Concept_à_la_pratique_la_veille_strategique_ste_tunisienne_Asma HD
Du_Concept_à_la_pratique_la_veille_strategique_ste_tunisienne_Asma HDAsmaHAFSIDHAOUADI
 
Améliorer l'anticipation et la réflexivité
Améliorer l'anticipation et la réflexivitéAméliorer l'anticipation et la réflexivité
Améliorer l'anticipation et la réflexivitéRRI Tools
 
RRITools - questions pratiques pour améliorer l'anticipation et la réflexivité
RRITools - questions pratiques pour améliorer l'anticipation et la réflexivitéRRITools - questions pratiques pour améliorer l'anticipation et la réflexivité
RRITools - questions pratiques pour améliorer l'anticipation et la réflexivitéMalvina ARTHEAU
 

Similaire à Thesis_Presentation (8)

Introduction au Data Marketing
Introduction au Data MarketingIntroduction au Data Marketing
Introduction au Data Marketing
 
De la recherche à la pratique : la veille stratégique comme soutien à la pris...
De la recherche à la pratique : la veille stratégique comme soutien à la pris...De la recherche à la pratique : la veille stratégique comme soutien à la pris...
De la recherche à la pratique : la veille stratégique comme soutien à la pris...
 
Methodologie générale (1).pdf
Methodologie générale (1).pdfMethodologie générale (1).pdf
Methodologie générale (1).pdf
 
La veille stratégique dans le secteur public de la santé au Québec
La veille stratégique dans le secteur public de la santé au QuébecLa veille stratégique dans le secteur public de la santé au Québec
La veille stratégique dans le secteur public de la santé au Québec
 
PadLAD - un outil de Conception participative de tableaux de bord d’apprentis...
PadLAD - un outil de Conception participative de tableaux de bord d’apprentis...PadLAD - un outil de Conception participative de tableaux de bord d’apprentis...
PadLAD - un outil de Conception participative de tableaux de bord d’apprentis...
 
Du_Concept_à_la_pratique_la_veille_strategique_ste_tunisienne_Asma HD
Du_Concept_à_la_pratique_la_veille_strategique_ste_tunisienne_Asma HDDu_Concept_à_la_pratique_la_veille_strategique_ste_tunisienne_Asma HD
Du_Concept_à_la_pratique_la_veille_strategique_ste_tunisienne_Asma HD
 
Améliorer l'anticipation et la réflexivité
Améliorer l'anticipation et la réflexivitéAméliorer l'anticipation et la réflexivité
Améliorer l'anticipation et la réflexivité
 
RRITools - questions pratiques pour améliorer l'anticipation et la réflexivité
RRITools - questions pratiques pour améliorer l'anticipation et la réflexivitéRRITools - questions pratiques pour améliorer l'anticipation et la réflexivité
RRITools - questions pratiques pour améliorer l'anticipation et la réflexivité
 

Thesis_Presentation

  • 1. Étude comportementale des mesures d’intérêt d’extraction de connaissances Présentée par: Dhouha Grissa dgrissa@isima.fr Directeurs: Engelbert Mephu Nguifo & Sadok Ben Yahia Co-encadrant: Sylvie Guillaume 02 Décembre, 2013 Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 1 / 100
  • 2. Positionnement Les grandes étapes d’un processus ECD (Extraction de Connaissances à partir des Données) Émergence de données volumineuses. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 2 / 100
  • 3. Positionnement La fouille de données (FD) Ses caractéristiques : Une étape au coeur du processus d’ECD : • analyser des données volumineuses. • rechercher des connaissances valides, nouvelles et potentiellement utiles (Fayyad et al., 1996). Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 3 / 100
  • 4. Motivations Objectifs de l’analyse des règles Identifier des profils ou associations entre les items ou variables binaires dans les bases de données transactionnelles, relationnelles, ou dans les entrepôts de données. S’intéresser aux règles valides. Intérêt des mesures Évaluer l’intérêt d’une règle d’association. Aider l’utilisateur dans sa prise de décision. Confirmer (ou infirmer) les hypothèses d’un expert. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 4 / 100
  • 5. Motivations Catégories de mesures Deux catégories de mesures d’intérêt : Mesures subjectives : dépendent des connaissances de l’utilisateur sur le domaine. Mesures objectives : dépendent des données. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 5 / 100
  • 6. Motivations Catégories de mesures Deux catégories de mesures d’intérêt : Mesures subjectives : dépendent des connaissances de l’utilisateur sur le domaine. Mesures objectives : dépendent des données. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 6 / 100
  • 7. Motivations Quelle(s) mesure(s) d’intérêt faut-il choisir ? Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 7 / 100
  • 8. Plan de la Présentation 1 Introduction 2 Étude formelle 3 Étude empirique 4 Conclusion et Perspectives Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 8 / 100
  • 9. Introduction Étude formelle Étude empirique Conclusion et Perspectives Mesures d’intérêt Aide au choix des mesures État de l’art Limites de l’existant Contributions I- Introduction Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 9 / 100
  • 10. Introduction Étude formelle Étude empirique Conclusion et Perspectives Mesures d’intérêt Aide au choix des mesures État de l’art Limites de l’existant Contributions Pertinence ou validité d’une règle Définition Étant donné : T la base transactionnelle, TX un ensemble de transactions, I un ensemble d’items, tels que X ⊆ I, Y ⊆ I et X ∩ Y = ∅. Soit r : X ⇒ Y une règle d’association. support(r) = support(X ∪ Y ) confiance(r) = support(X∪Y ) support(X) Règles Valides Support(X → Y ) minsup (fréquence) Confiance(X → Y ) minconf (force) Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 10 / 100
  • 11. Introduction Étude formelle Étude empirique Conclusion et Perspectives Mesures d’intérêt Aide au choix des mesures État de l’art Limites de l’existant Contributions Pertinence ou validité d’une règle Approche support/confiance Avantages : Vertus algorithmiques accélératrices. Interprétation facile. Inconvénients : Génération d’un nombre très élevé de règles. Obtention de règles non pertinentes. ⇒ Ces mesures sont insuffisantes ! Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 11 / 100
  • 12. Introduction Étude formelle Étude empirique Conclusion et Perspectives Mesures d’intérêt Aide au choix des mesures État de l’art Limites de l’existant Contributions Insuffisance des mesures Génération d’un nombre très élevé de règles Obtention de règles non pertinentes Étape supplémentaire pour analyser les règles extraites Utilisation et proposition d’autres mesures objectives ; Identification d’une soixantaine de mesures. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 12 / 100
  • 13. Introduction Étude formelle Étude empirique Conclusion et Perspectives Mesures d’intérêt Aide au choix des mesures État de l’art Limites de l’existant Contributions Quelques mesures d’intérêt Extrait de 61 mesures d’intérêt Nom Formule Cohen ou Kappa 2 P(XY )−P(X)P(Y ) P(X)P(Y )+P(X)P(Y ) Confiance Causale 1 − 1 2 1 P(X) + 1 P(Y ) P(XY ) Facteur Bayésien P(XY )P(Y ) P(XY )P(Y ) Intensité d Implication P Poisson(nP(X)P(Y )) ≥ P(XY ) Loevinger 1 − P(XY ) P(X)P(Y ) Conviction P(X)P(Y ) P(XY ) Pearl P(X)|P(XY ) P(X) − P(Y )| − − − − − − − − − −− Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 13 / 100
  • 14. Introduction Étude formelle Étude empirique Conclusion et Perspectives Mesures d’intérêt Aide au choix des mesures État de l’art Limites de l’existant Contributions Contexte Problème Problème de choix de mesures d’intérêt. Solutions Études formelles Études empiriques Objectifs Aider l’utilisateur dans le choix de mesures d’intérêt. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 14 / 100
  • 15. Introduction Étude formelle Étude empirique Conclusion et Perspectives Mesures d’intérêt Aide au choix des mesures État de l’art Limites de l’existant Contributions Contexte Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 15 / 100
  • 16. Introduction Étude formelle Étude empirique Conclusion et Perspectives Mesures d’intérêt Aide au choix des mesures État de l’art Limites de l’existant Contributions Introduction : État de l’art Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 16 / 100
  • 17. Introduction Étude formelle Étude empirique Conclusion et Perspectives Mesures d’intérêt Aide au choix des mesures État de l’art Limites de l’existant Contributions État de l’art Étude des mesures d’intérêt Étude empirique Étude formelle Deux axes de recherche : 1. Étude formelle ; 2. Étude empirique. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 17 / 100
  • 18. Introduction Étude formelle Étude empirique Conclusion et Perspectives Mesures d’intérêt Aide au choix des mesures État de l’art Limites de l’existant Contributions État de l’art Travaux # mesures # propriétés # jeux Méthodes d’analyse Tan et al, 2002 21 8 6 Évaluation des mesures + Ordonnancement Heravi et Zaiane, 2010 53 11 20 Évaluation des mesures Hunyh et al, 2006 36 5 2 Évaluation des mesures + Classification des mesures B. Vaillant, 2006 20 9 10 Évaluation des mesures + Classification des mesures (CAH) Lallich et Teytaud, 2004 15 13 — Classification des me- sures selon des critères Blanchard et al, 2004 19 4 — Classification des me- sures selon des critères Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 18 / 100
  • 19. Introduction Étude formelle Étude empirique Conclusion et Perspectives Mesures d’intérêt Aide au choix des mesures État de l’art Limites de l’existant Contributions État de l’art Travaux # mesures # propriétés # jeux Méthodes d’analyse Geng et Ha- milton, 2007 38 11 – Évaluation des mesures Y. Le Bras, 2011 42 6 — Classification des me- sures selon des critères Hunyh et al, 2006 36 5 2 Classification des mesures (ordonnance- ment, corrélation) Heravi et Zaiane, 2010 53 11 20 Recherche de la meilleure mesure Carvalho et al, 2005 11 — 8 Recherche de la meilleure mesure (Ordonnancement) Hébert et Crémilleux, 2007 17 3 1 Proposition d’un envi- ronnement unificateur des mesures Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 19 / 100
  • 20. Introduction Étude formelle Étude empirique Conclusion et Perspectives Mesures d’intérêt Aide au choix des mesures État de l’art Limites de l’existant Contributions Limites de l’existant Nombre limité de mesures ; Étude formelle : Nombre restreint de propriétés ; Classification selon un nombre restreint de critères ; Méthodes de classification non variées. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 20 / 100
  • 21. Introduction Étude formelle Étude empirique Conclusion et Perspectives Mesures d’intérêt Aide au choix des mesures État de l’art Limites de l’existant Contributions Limites de l’existant Étude empirique : Petits jeux de données ; Nombre réduit de jeux de données ; ⇒ problème de robustesse et de validité des résultats. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 21 / 100
  • 22. Introduction Étude formelle Étude empirique Conclusion et Perspectives Mesures d’intérêt Aide au choix des mesures État de l’art Limites de l’existant Contributions Contributions D’un point de vue formel : Étude d’un nombre plus important de mesures d’intérêt ; Étude de l’ensemble des propriétés ; Formalisation des propriétés ; Classification des mesures : • méthodes sans recouvrement : CAH et k-moyennes ; • méthodes avec recouvrement : méthode d’analyse factorielle des données binaires (AFB). Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 22 / 100
  • 23. Introduction Étude formelle Étude empirique Conclusion et Perspectives Mesures d’intérêt Aide au choix des mesures État de l’art Limites de l’existant Contributions Contributions D’un point de vue empirique : Validation des résultats de la classification formelle ; Étude d’un nombre plus important de mesures d’intérêt ; Variation de la taille et la nature des jeux de données ; Classification des mesures : • calcul de la matrice de similarité entre les mesures. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 23 / 100
  • 24. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement II- Étude formelle Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 24 / 100
  • 25. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Les propriétés des mesures 22 propriétés dégagées dans la littérature. Formalisation de l’ensemble de ces propriétés. 2 propriétés jugées subjectives : a. Compréhensibilité de la mesure ; b. Facilité à fixer un seuil. 1 propriété nécessite des moyens de calculs performants : c. Robustesse de la mesure. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 25 / 100
  • 26. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Les propriétés des mesures 22 propriétés dégagées de la littérature. Formalisation de l’ensemble de ces propriétés. 2 propriétés jugées subjectives : a. Compréhensibilité de la mesure ; b. Facilité à fixer un seuil. 1 propriété nécessite des moyens de calculs performants : c. Robustesse de la mesure. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 26 / 100
  • 27. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Les propriétés des mesures 22 propriétés dégagées de la littérature. 3 propriétés n’ont pas été étudiées. 19 propriétés de mesures sont alors retenues ! Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 27 / 100
  • 28. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Exemples de propriétés 5 séries de propriétés Non symétrie Valeurs fixes pour différents niveaux d’implication Évolution des mesures en fonction de paramètres Relations entre règles positives et négatives Discriminante en présence de données volumineuses Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 28 / 100
  • 29. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Exemples de propriétés 5 séries de propriétés Non symétrie Valeurs fixes pour différents niveaux d’implication Évolution des mesures en fonction de paramètres Relations entre règles positives et négatives Discriminante en présence de données volumineuses Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 28 / 100
  • 30. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Exemples de propriétés Non symétrie ∃X → Y /m(X → Y) = m(Y → X) ∀X → Y m(X → Y) = m(Y → X) Oui : 1 Non : 0 Exemple ∀X → Y Support(X → Y ) = Support(Y → X) Non : 0 ∃X → Y / Confiance(X → Y ) = Confiance(Y → X) Oui : 1 Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 29 / 100
  • 31. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Les séries de propriétés 5 séries de propriétés Non symétrie Valeurs fixes pour différents niveaux d’implication Évolution des mesures en fonction de paramètres Relations entre règles positives et négatives Discriminante en présence de données volumineuses Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 30 / 100
  • 32. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Exemples de propriétés Valeurs fixes pour différents niveaux d’implication Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 31 / 100
  • 33. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Les séries de propriétés 5 séries de propriétés Non symétrie Valeurs fixes pour différents niveaux d’implication Évolution des mesures en fonction de paramètres Relations entre règles positives et négatives Discriminante en présence de données volumineuses Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 32 / 100
  • 34. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Exemples de propriétés Évolution des mesures en fonction de paramètres Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 33 / 100
  • 35. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Les séries de propriétés 5 séries de propriétés Non symétrie Valeurs fixes pour différents niveaux d’implication Évolution des mesures en fonction de paramètres Relations entre règles positives et négatives Discriminante en présence de données volumineuses Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 34 / 100
  • 36. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Exemples de propriétés Relations entre règles positives et négatives ∀X → Y m(X → Y) = −m(X → Y) Oui : 1 Non : 0 Exemple ∃X → Y Support(X → Y ) = −Support(X → Y ) Non : 0 ∀X → Y Pavillon(X → Y ) = −Pavillon(X → Y ) Oui : 1 Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 35 / 100
  • 37. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Les séries de propriétés 5 séries de propriétés Non symétrie Valeurs fixes pour différents niveaux d’implication Évolution des mesures en fonction de paramètres Relations entre règles positives et négatives Discriminante en présence de données volumineuses Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 36 / 100
  • 38. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Exemples de propriétés Discriminante en présence de données volumineuses Mesures restituant des valeurs distinctes pour des niveaux d’implication différents Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 37 / 100
  • 39. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement 5 séries de propriétés Non symétrie Valeurs fixes pour différents niveaux d’implication Évolution des mesures en fonction de paramètres Relations entre règles positives et négatives Discriminante en présence de données volumineuses =⇒ Évaluation des propriétés sur les mesures Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 38 / 100
  • 40. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Matrice Mesures-propriétés Étude de 61 mesures d’intérêt × 19 propriétés ⇓ Construction de la matrice (Extrait) Mes/Prop P3 P4 P6 P7 P8 P9 P14 P18 P20 P21 Cohen 0 1 1 1 1 1 1 1 0 1 Confiance 1 1 1 0 0 0 1 0 0 1 FB 1 1 1 1 1 1 0 0 0 1 II 1 1 1 1 1 1 2 0 1 0 Jaccard 0 1 1 0 1 0 0 0 0 1 MGK 1 1 1 1 0 1 1 0 0 1 Pearl 0 0 0 0 0 1 1 1 0 1 Y de Yule 0 1 1 1 0 1 0 1 0 1 Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 39 / 100
  • 41. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Exemple d’évaluation de mesures Mesures non symétriques (P3) Mes/Prop P3 P4 P6 P7 P8 P9 P14 P18 P20 P21 Cohen 0 1 1 1 1 1 1 1 0 1 Confiance 1 1 1 0 0 0 1 0 0 1 FB 1 1 1 1 1 1 0 0 0 1 II 1 1 1 1 1 1 2 0 1 0 Jaccard 0 1 1 0 1 0 0 0 0 1 MGK 1 1 1 1 0 1 1 0 0 1 Pearl 0 0 0 0 0 1 1 1 0 1 Y de Yule 0 1 1 1 0 1 0 1 0 1 Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 40 / 100
  • 42. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Publications S. Guillaume and D. Grissa and E. Mephu Nguifo (2010). Propriétés des mesures d’intérêt pour l’extraction des règles Dans Actes de l’atelier QDC de la conférence EGC, pages 15–28, Hammamet, Tunisie. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 41 / 100
  • 43. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Catégorisation des mesures d’intérêt Différentes méthodes sont utilisées pour la catégorisation des mesures : 1 Méthodes sans recouvrement : une méthode hiérarchique CAH et une méthode de partitionnement, des k-moyennes ; 2 Méthode avec recouvrement : la méthode d’analyse factorielle booléenne. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 42 / 100
  • 44. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Catégorisation des mesures d’intérêt Simplification de la matrice : 1 Recherche de mesures aux comportements identiques : valeurs identiques pour les 19 propriétés ; ⇒ 7 groupes de mesures ; ⇒ 52 mesures d’intérêt. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 43 / 100
  • 45. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Catégorisation des mesures d’intérêt Simplification de la matrice d’évaluation des mesures selon les propriétés : 1 Recherche de mesures aux comportements identiques. 2 Recherche de propriétés redondantes : valeurs identiques pour les 52 mesures ; aucune propriété redondante. ⇒ 19 propriétés. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 44 / 100
  • 46. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Catégorisation des mesures d’intérêt Simplification de la matrice d’évaluation des mesures selon les propriétés : 1 Recherche de mesures aux comportements identiques. 2 Recherche de propriétés redondantes : matrice 52 mesures × 19 propriétés Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 45 / 100
  • 47. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Catégorisation des mesures d’intérêt 1 Méthodes sans recouvrement : une méthode hiérarchique CAH et une méthode de partitionnement, des k-moyennes ; 2 Méthode avec recouvrement : la méthode d’analyse factorielle booléenne. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 46 / 100
  • 48. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Méthodes sans recouvrement Deux méthodes de classification non supervisées sans recouvrement sont appliquées : 1. Une méthode de classification ascendante hiérarchique distance euclidienne entre paires de mesures distance de Ward pour la phase d’agrégation ⇒ 8 groupes de mesures 2. Une méthode des k-moyennes Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 47 / 100
  • 49. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Méthodes sans recouvrement Deux méthodes de classification non supervisée sans recouvrement sont appliquées : 1. Une méthode de la classification ascendante hiérarchique 2. Une méthode des k-moyennes distance euclidienne k = 8 10 itérations ⇒ Consensus (entre les 2 méthodes) Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 48 / 100
  • 50. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Consensus sur la classification 7 classes de mesures Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 49 / 100
  • 51. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Consensus sur la classification Divergence pour 12 mesures Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 50 / 100
  • 52. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Consensus sur la classification Classes fortes Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 51 / 100
  • 53. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Étude des classes disjointes Interprétation des différentes classes : a. Étape a : trouver des relations mathématiques ou une interprétation sémantique ; b. Étape b : étudier le comportement des mesures selon les propriétés formelles ; c. Étape c : appliquer une classification ascendante hiérarchique. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 52 / 100
  • 54. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Exemple d’interprétation de la classe C7 a. Étape a : trouver des relations mathématiques ou une interprétation sémantique entre les mesures. Exemple : Classe 7 (10 mesures d’intérêt) • Gain Informationnel = log2(Intérêt) • Support double sens = P(X) × Support sens unique • Pavillon = P(Y ) × Facteur de certitude • Klosgen = P(X) × pavillon • Facteur bayésien = Conviction × Intérêt • Facteur de certitude = (Risque relatif ×p(Y |X))−p(Y ) p(Y ) • Support double unique = P(XY )log2(Intérêt) Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 53 / 100
  • 55. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Exemple d’interprétation de la classe C7 a. Étape a : trouver des relations mathématiques ou une interprétation sémantique entre les mesures : • Gain Informationnel = log2(Intérêt) • Support double sens = P(X) × Support sens unique • Pavillon = P(Y ) × Facteur de certitude • Klosgen = P(X) × pavillon • Facteur bayésien = Conviction × Intérêt • Facteur de certitude = (Risque relatif ×p(Y |X))−p(Y ) p(Y ) • Support double sens = P(XY )log2(Intérêt) ⇒ Il n’existe pas de liaison entre toutes les mesures de C7 Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 53 / 100
  • 56. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Exemple d’interprétation de la classe C7 b. Étape b : étudier le comportement des mesures de la classe 7 selon les propriétés formelles : Vérification des 11 propriétés suivantes : P4, P7, P9, P11, P12, P13, P16, P18, P19, P20 et P21. Mesures de C7 : • descriptives, discriminantes, • croissent en fonction de l’ensemble des données, • invariables à l’équilibre, • permettent l’identification des zones d’attraction et de répulsion. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 53 / 100
  • 57. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Exemple d’interprétation de la classe C7 b. Étape c : appliquer une méthode de CAH : Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 53 / 100
  • 58. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Exemple d’interprétation de la classe C7 b. Étape c : appliquer une classification ascendante hiérarchique Le sous-groupe {Support double sens (SSU), Klosgen (Klos), Support sens unique (SDS)} : • Support double sens = P(X) × Support sens unique ; • Évaluation identique de toutes les propriétés, sauf P3 (non symétrie) ; • Support sens unique proche de Klosgen : 18 propriétés communes ; • Confirmation par les valeurs des distances : d(SSU, SDS) = d(SSU, Klos) = 1, 41. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 53 / 100
  • 59. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Proposition de mesure(s) référente(s) Interprétation des différentes classes : a. Étape a : trouver des relations mathématiques ou une interprétation sémantique ; b. Étape b : étudier le comportement des mesures selon les propriétés formelles ; c. Étape c : appliquer une classification ascendante hiérarchique. Proposition d’une ou plusieurs mesure(s) référente(s). Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 54 / 100
  • 60. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Proposition de mesure(s) référente(s) Proposition d’une ou plusieurs mesure(s) référente(s) : • Consultation de la table de distance entre chaque mesure et le centre de gravité ; • Mesures les plus proches du centre sont les mesures référentes. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 54 / 100
  • 61. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Proposition de mesure(s) référente(s) Exemple : Mesure(s) référente(s) de la classe C7 : Sous-groupe Mesures C7 Gc1 Facteur Certitude 4,18 Pavillon 2,98 Gc2 Facteur Bayésien 2,38 Conviction 1,98 Risque Relatif 0,78 Gc3 Gain Informationnel 2,58 Intérêt 2,18 Gc4 Support Double Sens 2,38 Support Sens Unique 1,58 Klosgen 3,18 Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 54 / 100
  • 62. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Catégorisation des mesures d’intérêt Différentes méthodes sont utilisées pour la catégorisation des mesures : 1 Méthodes sans recouvrement : une méthode hiérarchique CAH et une méthode de partitionnement, des k-moyennes ; 2 Méthode avec recouvrement : la méthode d’analyse factorielle booléenne. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 55 / 100
  • 63. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Méthode avec recouvrement : AFB Analyse Factorielle Booléenne (AFB) = décomposition de la matrice de données binaires objet-attribut I en un produit booléen de la matrice A objet-facteur et de la matrice B facteur-attribut. Iij = (A ◦ B)ij = k max l=1 min(Ail , Blj ) Ail = 1 . . . facteur l s’applique à l’objet i Blj = 1 . . . attribut j est l’une des manifestations du facteur l (A ◦ B)ij . . . “l’objet i possède un attribut j ssi il existe un facteur l tel que l s’applique à i et j est l’une des manifestations de l” Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 56 / 100
  • 64. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Méthode avec recouvrement : AFB PROBLÈME : trouver le plus petit nombre k de facteurs !     1 1 0 0 0 1 1 0 0 1 1 1 1 1 0 1 0 0 0 1     = k     1 0 0 1 1 0 1 0 1 1 0 0 0 0 1 0     ◦     1 1 0 0 0 0 0 1 1 0 1 0 0 0 1 0 1 0 0 0        k Les matrices A et B sont construites à partir de l’ensemble F de concepts formels des données d’entrée I, appelés concepts factoriels. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 57 / 100
  • 65. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement AFB : Processus de travail Méthodologie Extension de la matrice originale : • 61 × 19 (originale) ; • 61 × 21 (binarisation d’une propriété) ; L’ajout pour chaque propriété de sa négation : • 61 × 42 (nouvelle) ; ⇒ Obtention de 38 facteurs, dénotés F1,.....F38. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 58 / 100
  • 66. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Interprétation des résultats Obtention de 38 facteurs : 21 premiers facteurs couvrent 94% de la matrice d’entrée mesure-propriété. dix premiers couvrent 73%. cinq premiers couvrent 52.4%. Couverture cumulative de la matrice d’entrée cumulativecover(%) number of factors 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 0 10 20 30 40 50 60 70 80 90 100 dix premiers couvrent toutes les mesures. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 59 / 100
  • 67. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Diagramme de Venn des Facteurs Booléens Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 60 / 100
  • 68. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Interprétation Interprétation des 10 premiers facteurs : Une forte similarité avec les 7 autres classes de mesures. Des groupes de mesures significatifs qui se recouvrent. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 61 / 100
  • 69. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des propriétés des mesures Classification formelle Catégorisation des mesures : méthodes sans recouvrement Catégorisation des mesures : méthodes avec recouvrement Publications Dans une revue internationale : • R. Belohlavek, D. Grissa, S. Guillaume, E. Mephu Nguifo and J. Outrata (2013). Boolean factors as a means of clustering of interestingness measures of association rules. Dans AMAI Journal, volume 67, Springer Netherlands. Dans CLA’2011, pages 207–222. Dans une revue nationale : • S. Guillaume and D. Grissa and E. Mephu Nguifo (2011). Catégorisation des mesures d’intérêt pour l’extraction des connaissances. Dans Revue des Nouvelles Technologies de l’Information, RNTI. pages 117–144. Dans EGC’2011, pages 551–562. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 62 / 100
  • 70. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale III- Étude empirique Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 63 / 100
  • 71. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Objectifs Étude empirique : validation des 7 groupes de mesures Regrouper les mesures ayant un comportement semblable : Toutes les mesures d’une même classe devraient sélectionner les mêmes N meilleures règles pour différentes bases de données. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 64 / 100
  • 72. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Environnement de travail Utilisation de la plateforme expérimentale Weka Introduction de mesures d’intérêt Application de l’algorithme Apriori Analyse de 2 types de jeux de données NomBase Type T :# Tran I :# Item L :Moy.Tran Réelle CONNECT Dense 67557 129 74 PUMSB Dense 49046 7117 43 CHESS Dense 3196 75 37 IPUMS ? 88443 1889 60 Synthétique T135L23I60 éparse 135 60 23 T100L10I40 éparse 100 40 10 Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 65 / 100
  • 73. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Méthodologie suivie Étape 1 : Extraction des N meilleures règles Étape 2 : Élaboration de matrices de similarité entre les mesures Étape 3 : Calcul d’un degré de similarité entre les mesures Étape 4 : Catégorisation des mesures par le calcul de l’écart-type des degrés de similarité Étape 5 : Visualisation graphique des mesures au comportement similaire Étape 6 : Interprétation des résultats Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 66 / 100
  • 74. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Méthodologie suivie Étape 1 : Extraction des N meilleures règles Étape 2 : Élaboration de matrices de similarité entre les mesures Étape 3 : Calcul d’un degré de similarité entre les mesures Étape 4 : Catégorisation des mesures par le calcul de l’écart-type des degrés de similarité Étape 5 : Visualisation graphique des mesures au comportement similaire Étape 6 : Interprétation des résultats Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 66 / 100
  • 75. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 1 : Extraction des N meilleures règles Extraction des N meilleures règles : Variation du nombre N de règles extraites : 10, 50, 100, 200 et 400 Obtention d’un ensemble de règles ordonnées avec la mesure mi pour la base Bk Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 67 / 100
  • 76. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Méthodologie suivie Étape 1 : Extraction des N meilleures règles Étape 2 : Élaboration de matrices de similarité entre les mesures Étape 3 : Calcul d’un degré de similarité entre les mesures Étape 4 : Catégorisation des mesures par le calcul de l’écart-type des degrés de similarité Étape 5 : Visualisation graphique des mesures au comportement similaire Étape 6 : Interprétation des résultats Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 68 / 100
  • 77. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 2 : Élaboration de matrices de similarité Calcul du taux de ressemblance entre les mesures mi et mj pour la base Bk : τij Bk = | Eik ∩ Ejk | N (1) où Eik ∩ Ejk est l’ensemble de règles sélectionnées avec les mesures mi et mj . ⇒ Obtention de 6 matrices de taux similarité (6 jeux de données) Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 69 / 100
  • 78. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 2 : Élaboration de matrices de similarité Cas d’une base réelle : Chess Mesures N=10 N=50 N=100 N=200 N=400 Ganascia & Confiance 10 50 98 184 366 Ganascia & Pearl 0 0 0 0 0 Ganascia & Laplace 10 50 100 200 400 Confiance & Pearl 0 0 0 0 0 Confiance & Laplace 10 50 98 184 366 Pearl & Laplace 0 0 0 0 0 Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 70 / 100
  • 79. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 2 : Élaboration de matrices de similarité Cas d’une base réelle : Chess Mesures N=10 N=50 N=100 N=200 N=400 Ganascia & Confiance 10 50 98 184 366 Ganascia & Pearl 0 0 0 0 0 Ganascia & Laplace 10 50 100 200 400 Confiance & Pearl 0 0 0 0 0 Confiance & Laplace 10 50 98 184 366 Pearl & Laplace 0 0 0 0 0 ⇒ Forte similarité entre Ganascia et Laplace Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 71 / 100
  • 80. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 2 : Élaboration de matrices de similarité Cas d’une base réelle : Chess Mesures N=10 N=50 N=100 N=200 N=400 Ganascia & Confiance 10 50 98 184 366 Ganascia & Pearl 0 0 0 0 0 Ganascia & Laplace 10 50 100 200 400 Confiance & Pearl 0 0 0 0 0 Confiance & Laplace 10 50 98 184 366 Pearl & Laplace 0 0 0 0 0 ⇒ Forte dissimilarité entre Ganascia et Pearl Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 72 / 100
  • 81. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Méthodologie suivie Étape 1 : Extraction des N meilleures règles Étape 2 : Élaboration de matrices de similarité entre les mesures Étape 3 : Calcul d’un degré de similarité entre les mesures Étape 4 : Catégorisation des mesures par le calcul de l’écart-type des degrés de similarité Étape 5 : Visualisation graphique des mesures au comportement similaire Étape 6 : Interprétation des résultats Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 73 / 100
  • 82. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 3 : Calcul d’un degré de similarité Calcul du degré de similarité IS pour chaque couple de mesures (mi , mj ) : IS (mi , mj ) = p k=1 τij Bk p p est le nombre de bases de données étudiées. Obtention d’une nouvelle matrice de similarité Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 74 / 100
  • 83. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 3 : Calcul d’un degré de similarité Extrait de la matrice de similarité Mesures ipums chess pumsb connect T135 T100 Moy Ganascia & Confiance 0,32 0,98 0,00 0,90 0,27 1,00 0,57 Ganascia & Pearl 0,00 0,00 0,00 0,00 0,00 0,00 0,00 Ganascia & Laplace 1,00 1,00 1,00 1,00 1,00 1,00 1,00 Confiance & Pearl 0,00 0,00 0,00 0,00 0,00 0,00 0,00 Confiance & Laplace 0,32 0,98 0,00 0,90 0,27 1,00 0,57 Pearl & Laplace 0,00 0,00 0,00 0,00 0,00 0,00 0,00 Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 75 / 100
  • 84. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Méthodologie suivie Étape 1 : Extraction des N meilleures règles Étape 2 : Élaboration de matrices de similarité entre les mesures Étape 3 : Calcul d’un degré de similarité entre les mesures Étape 4 : Catégorisation des mesures par le calcul de l’écart-type des degrés de similarité Étape 5 : Visualisation graphique des mesures au comportement similaire Étape 6 : Interprétation des résultats Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 76 / 100
  • 85. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 4 : Catégorisation des mesures Calcul de l’écart-type σ des degrés de similarité IS pour chaque couple de mesures (mi , mj ) : σ(mi , mj ) = p k=1 τij Bk −IS (mi ,mj ) 2 p p est le nombre de bases de données étudiées. Catégorisation des mesures grâce à IS et σ Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 77 / 100
  • 86. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 4 : Catégorisation des mesures 3 catégories de mesures Catégorie Indice IS Écart-type σ mesures au comportement similaire IS (mi , mj ) ≥ 1 − ε1 σ(mi , mj ) ≤ ε2 mesures au comportement différent IS (mi , mj ) ≤ ε1 σ(mi , mj ) ≤ ε2 mesures au comportement indéterminé — σ(mi , mj ) ≥ 1 − ε2 Avec : 1 − ε1 = 0, 95, ε2 = 0, 1 Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 78 / 100
  • 87. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 4 : Catégorisation des mesures Catégorie Indice IS Écart-type σ mesures au comportement similaire IS (mi , mj ) ≥ 0, 95 σ(mi , mj ) ≤ 0, 1 1. mesures au comportement identique : lorsque IS est proche de 1 et σ est faible ; Mesure Conviction Fiabilité négative – IS σ IS σ Facteur bayésien 0,95 0,06 0,60 0,38 Loevinger 0,00 0,00 0,00 0,00 Confiance causale 0,58 0,37 1,00 0,00 Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 79 / 100
  • 88. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 4 : Catégorisation des mesures Catégorie Indice IS Écart-type σ mesures au comportement différent IS (mi , mj ) ≤ 0, 05 σ(mi , mj ) ≤ 0, 1 2. mesures au comportement différent : lorsque IS et σ ont des faibles valeurs ; Mesure Conviction Fiabilité négative – IS σ IS σ Facteur bayésien 0,95 0,06 0,60 0,38 Loevinger 0,00 0,00 0,00 0,00 Confiance causale 0,58 0,37 1,00 0,00 Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 80 / 100
  • 89. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 4 : Catégorisation des mesures Catégorie Indice IS Écart-type σ mesures au comportement indéterminé — σ(mi , mj ) ≥ 0, 9 3. mesures au comportement indéterminé, en fonction des bases de données : (a) en présence d’une faible valeur pour IS et une forte valeur pour σ ; (b) en présence d’une forte valeur pour IS et σ. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 81 / 100
  • 90. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 4 : Catégorisation des mesures 3. mesures au comportement indéterminé, en fonction des bases de données : (a) en présence d’une faible valeur pour IS et une forte valeur pour σ ; (b) en présence d’une forte valeur pour IS et σ. Mesure Conviction Fiabilité négative – IS σ IS σ Facteur bayésien 0,95 0,06 0,60 0,38 Loevinger 0,00 0,00 0,00 0,00 Confiance causale 0,58 0,37 1,00 0,00 Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 82 / 100
  • 91. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Méthodologie suivie Étape 1 : Extraction des N meilleures règles Étape 2 : Élaboration de matrices de similarité entre les mesures Étape 3 : Calcul d’un degré de similarité entre les mesures Étape 4 : Catégorisation des mesures par le calcul de l’écart-type des degrés de similarité Étape 5 : Visualisation graphique des mesures au comportement similaire Étape 6 : Interprétation des résultats Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 83 / 100
  • 92. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 5 : Visualisation Obtention de 8 graphes connexes Exemple : Pea : Pearl Nov : Nouveauté Lev : Leverage PS : Piatetsky-shapiro Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 84 / 100
  • 93. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Méthodologie suivie Étape 1 : Extraction des N meilleures règles Étape 2 : Élaboration de matrices de similarité entre les mesures Étape 3 : Calcul d’un degré de similarité entre les mesures Étape 4 : Catégorisation des mesures par le calcul de l’écart-type des degrés de similarité Étape 5 : Visualisation graphique des mesures au comportement similaire Étape 6 : Interprétation des résultats Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 85 / 100
  • 94. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 6 : Interprétation La démarche suivie pour l’interprétation des résultats : Étape a : Recherche de relations mathématiques entre les mesures ; Étape b : Validation de la classification grâce à des études similaires ; Étape c : Vérification de l’ordonnancement similaire des règles par les mesures d’un même groupe. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 86 / 100
  • 95. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 6 : Interprétation Étape a : Recherche de relations mathématiques entre les mesures Justifier le regroupement par des liens de proportionnalité : Exemple : groupe Gst5 = {Jaccard, Kulczynski, Czekanowski} Kulczynski = Jaccard 1−Jaccard Jaccard = Czekanowski 2−Czekanowski Aucune relation intéressante n’est détectée =⇒ passer à l’étape b. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 87 / 100
  • 96. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 6 : Interprétation Étape b : Validation de la classification grâce à des études similaires Confrontation de la classification avec des travaux de la littérature Exemple : groupe Gst5 = {Jaccard, Kulczynski, Czekanowski} Validation par la classification formelle, Validation par les travaux de Y. Le Bras 2011. Non validation des résultats =⇒ passer à l’étape c. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 88 / 100
  • 97. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 6 : Interprétation Étape c : Vérification de l’ordonnancement similaire des règles par les mesures d’un même groupe Vérification de la relation d’ordre entre les mesures (m1, m2) d’un même groupe : ∀X → Y , ∀V → W Si m1(X → Y ) ≤ m1(V → W ) alors m2(X → Y ) ≤ m2(V → W ) Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 89 / 100
  • 98. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 6 : Interprétation Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 90 / 100
  • 99. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Étape 6 : Interprétation Exemple de mesures de Gst2 Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 91 / 100
  • 100. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Confrontation des résultats Confrontation formel & empirique ⇒ Validation étude formelle. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 92 / 100
  • 101. Introduction Étude formelle Étude empirique Conclusion et Perspectives Étude des jeux de données Méthodologie expérimentale Publications D. Grissa (2013). Étude comportementale de mesures d’intérêt de règles d’association. Dans 11èmes Rencontres des Jeunes Chercheurs en Intelligence Artificielle, RJCIA’13, Lille-France. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 93 / 100
  • 102. Introduction Étude formelle Étude empirique Conclusion et Perspectives Conclusion Perspectives IV- Conclusion et Perspectives Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 94 / 100
  • 103. Introduction Étude formelle Étude empirique Conclusion et Perspectives Conclusion Perspectives Conclusion Objectif : aider l’utilisateur dans le choix de mesures Étude formelle : Soixantaine de mesures, Vingtaine de propriétés formelles ; Formalisation des propriétés de mesures ; Étude des mesures selon les propriétés. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 95 / 100
  • 104. Introduction Étude formelle Étude empirique Conclusion et Perspectives Conclusion Perspectives Conclusion Classification des mesures d’intérêt : 1 CAH et k-moyennes ⇒ 7 classes de mesures disjointes 2 AFB ⇒ 8 classes de mesures recouvrantes Interprétation des classes de mesures. Proposition de mesures représentatives. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 96 / 100
  • 105. Introduction Étude formelle Étude empirique Conclusion et Perspectives Conclusion Perspectives Conclusion Étude empirique : Étude des mesures selon des jeux de données de nature différente. Identification de 3 catégories de mesures : 1 Les mesures au comportement similaire ; ⇒ 8 groupes de mesures stables. Interprétation des groupes de mesures stables. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 97 / 100
  • 106. Introduction Étude formelle Étude empirique Conclusion et Perspectives Conclusion Perspectives Conclusion Étude comparative avec les autres travaux : • Travail de Vaillant : à la fois accord/désaccord ; • Travail de Huynh et al : une grande similarité ; • Travail de Heravi et Zaiane : à la fois accord/désaccord ; Travaux # me- sures # jeux # groupes Techniques utilisées Tew et al. 2013 61 110 21 Ordonnancement des règles, calcul de la corrélation, CAH Jiménez et al. 2013 12 1 —- Ordonnancement de groupes règles, matrice de similarité Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 98 / 100
  • 107. Introduction Étude formelle Étude empirique Conclusion et Perspectives Conclusion Perspectives Perspectives Envisager des propriétés complémentaires pour l’étude du comportement des mesures ; Étudier l’ordonnancement des règles ; Identification de caractéristiques pertinentes d’un ensemble de données : indiquer la mesure d’intérêt la mieux appropriée ; Agrégation de mesures ; Projection sur d’autres types de motifs. Réalisation d’un cadre applicatif réel. Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 99 / 100
  • 108. Introduction Étude formelle Étude empirique Conclusion et Perspectives Conclusion Perspectives Merci pour votre attention ! Dhouha Grissa Décembre 2013 Étude comportementale des mesures d’intérêt 100 / 100