Taxonomie des motifs et outils de fouille de motifs sur les données relationnelles
1. Réalisé par : REZKELLAH BILAL
• Sujet proposé par : Mme KHOURI 2017-2018
Taxonomie des motifs et outils de fouille
de motifs sur les données relationnelles
Dans le cadre du module RDCR
3. Introduction
1
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? Régularisation
L’ère de l'information nous a fourni d'énormes dépôts de données qui ne peuvent plus être analysés
manuellement. La valeur commerciale potentiellement élevée des connaissances qui peuvent être
acquises, conduit la recherche pour des méthodes d'analyse automatisées qui peuvent gérer de
grandes quantités de données. Aujourd’hui la plupart des données sont stockées dans des systèmes
de gestion de bases de données relationnelles (SGBDR). Cela motive le besoin de recherche
d'algorithmes d'exploration de données qui peuvent fonctionner avec des bases de données
relationnelles, sans nécessiter de transformation manuelle et de prétraitement des données.
Problématique Extraction de connaissance à partir des données BDD Relationnelle et BDD Formelle
Motifs ou patterns Extraction de motifs sur une BDD relationnelle
4. Introduction
2
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? Régularisation
L’Extraction de Connaissances à partir de Données (ECD
ou KDD pour ”Knowledge Discovery in Databases”) a été
définie par Piatetsky- Shapiro et Frawley comme étant le :
“processus non trivial d’extraction d’informations
potentiellement utiles, implicites, et inconnues auparavant
à partir d’un ensemble de données”.
Problématique Extraction de connaissance à partir des données
Motifs
ou
Patterns
Interprétation
Connaissances
BDD Relationnelle et BDD Formelle
Motifs ou patterns Extraction de motifs sur une BDD relationnelle
5. Introduction
3
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? RégularisationProblématique Extraction de connaissance à partir des données BDD Relationnelle et BDD Formelle
Une base de données relationnelle est une
base de données où l'information est
organisée dans des tableaux à deux
dimensions appelés relations ou tables
[Codd, 1970]. Elle consiste en une ou
plusieurs relations. Les lignes de ces
relations sont appelées enregistrements. Les
BDD Relationnelle
La version de base de l’extraction de
motifs fréquents permet de faire la
fouille dans une table d’une base de
données relationnelle dont les valeurs
sont des booléens indiquant la
présence ou l’absence d’une propriété.
BDD Formelle
Motifs ou patterns Extraction de motifs sur une BDD relationnelle
6. Introduction
4
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? RégularisationConcepts de base
Motifs ou patterns
Motif :
Considèrent P = {a, b, c, d, e} l’ensemble des attributs de
la BDD formelle à droite.
Un motifs est un élément de l’ensemble des parties de P
noté 2p
Support d’un motif:
Le Support d’un motif m est la proportion d’objets ou d’enregistrements qui possèdent
m.
Exemples:
Support(a) = 3/6 Support(b) = 5/6 Support(ab) = 2/6
Motif fréquent :
Un motif est dit fréquent si son Support est supérieure ou égale à un certain seuil
σ définit par l’utilisateur tel que σ ∊ [0,1]
Motifs fréquents types et exemple d’application Méthodes classique pour la recherche des MF
Extraction de motifs sur une BDD relationnelle
7. Introduction
5
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? RégularisationConcepts de base
Motifs ou patterns
Types des motifs (modèles) fréquents:
Motifs globaux : description globale des données par un modèle, comme les arbres de
décision et les réseaux de neurones.
Motifs locaux : description de propriétés locales des données, comme la recherche
d’ensemble d’items fréquents (itemset fréquents).
Motifs fréquents types et exemple d’application Méthodes classique pour la recherche des MF
Exemples :
L’analyse d’ADN en biologie afin de comprendre les propriétés génétiques des espèces.
L’analyse du climat en météorologie afin de mieux orienter l’agriculture ou choisir
l’orientation des pistes des aérodromes.
L’analyse du panier du marché, pour comprendre les habitudes des clients afin de mieux
organiser les rayons d’articles, organiser les promotions, ...etc.
Extraction de motifs sur une BDD relationnelle
8. Introduction
6
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? RégularisationConcepts de base
Motifs ou patterns
Motifs fréquents types et exemple d’application Méthodes classique pour la recherche des MF
Motifs locaux :
Les supermarchés représentent l'exemple le plus suggestif d'applications des motifs
fréquents. Dans un supermarché on trouve une multitude de produits avec des
demandes/consommations déférentes.
Itemset fréquents Règles
d’associations
Motifs Séquentiels
Extraction de motifs sur une BDD relationnelle
9. Introduction
7
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? RégularisationConcepts de base
Motifs ou patterns
Approche naïve : parcourir l’ensemble de tous les motifs, calculer leurs nombres
d’occurrences (support) et ne garder que les plus fréquents.
Problème: approche trop consommatrice en temps et en ressources. En effet, le nombre de
motifs est 2p (p est le nombre d’attributs), et en pratique, on veut manipuler des bases ayant
un grand nombre d’attributs.
Motifs fréquents types et exemple d’application Méthodes classiques pour la recherche des MFs
L’algorithme Apriori : [Agrawal et al, 1994] L’idée est d’effectuer une extraction par
niveaux selon le principe suivant :
On commence par chercher les motifs fréquents de longueur 1 ;
On combine ces motifs pour obtenir des motifs de longueur 2 et on ne garde que les
fréquents ;
On combine ces motifs pour obtenir des motifs de longueur 3 et on ne garde que les
fréquents ;
Extraction de motifs sur une BDD relationnelle
10. Introduction
8
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? RégularisationC ’est quoi le problème ?
Motifs ou patterns
Pourquoi ne pas appliqué les techniques d’extraction classiques ? problème dans
l’étape de Prétraitement
Extraction de motifs sur une BDD relationnelle
Les techniques classique sont appliquées à des BDD formelles
Même dans le cas d’une BDD relationnelle à une seule table, une transformation
vers une forme transactionnelle est nécessaire pour appliquer les techniques
classiques, du fait que les attributs d’une table relationnelle peuvent prendre
plusieurs valeurs(non binaire). [Agrawal et al., 1996]
La transformation est plus facile si les attributs sont qualitatifs.
Les BDDs relationnelles contient en réalité plusieurs tables -> la transformation est
impossible sans perte d’informations
Solution proposée Rule query language RQL
11. Introduction
8
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? RégularisationC ’est quoi le problème ?
Motifs ou patterns
Idée : Puisque les requêtes sont largement utilisées afin de récupérer des sous-ensembles de données
à partir des bases de données, elles peuvent également être considérées comme des descriptions pour
ces sous-ensembles de données.
Extraction de motifs sur une BDD relationnelle
Solution proposée
les règles l'association sont aussi facilement définies en considérant des requêtes et des requêtes
plus spécifiques (contenant plus de restrictions).
Illustration : considérant [IMDB, 2008] contenant presque toutes les informations possibles sur des
films, des acteurs et tout ce qui s'y rapporte.
considérons la requête qui demande tous les acteurs qui ont joué dans un film du genre «drame»,
et la requête plus spécifique qui demande tous les acteurs qui ont joué dans un film du genre
«drame», et dans un film du genre «comédie». Supposons maintenant que la réponse à la première
requête se compose de 1000 acteurs, et la réponse à la seconde requête consiste de 900 acteurs.
Cette règle d'association révèle le motif (modèle) potentiellement intéressant que 90% des acteurs
jouant dans les films « dramatiques » jouent aussi dans un film de "comédie".
Rule query language RQL
12. Introduction
8
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? RégularisationC ’est quoi le problème ?
Motifs ou patterns
RQL :approche déclarative permettant l’exploration et l’exploitation des données relationnelles
via l’extraction des motifs fréquents à partir des BD, [Chardin et al, 2016].
Rule query language RQL
Extraction de motifs sur une BDD relationnelle
Solution proposée
Exemple :
Soit la table employé ci-dessous, Soit la requête Q1 suivante écrite sous RQL :
Q1: FINDRULES
OVER Empno , Lastname , Workdept , Job , Sex , Bonus
SCOPE t1 , t2 Emp
CONDITION ON $A IS t1.$A = t2.$A
Q1 découvre les DFs de Emp sur le sous-ensemble d'attributs spécifiés dans la clause OVER.
Empno →Lastname et Workdept → Job hold
13. RDCR
Qu’est ce que un bon modèle ?
Extraction de motifs sur une BDD relationnelle Conclusion Recherche documentaire
CONCLUSION
L’exploration des bases de données relationnelles présente encore
plusieurs challenges. Malgré multitude de techniques proposées ces 20
dernières années pour l'exploration de motifs, peu d'entre elles sont
étroitement couplés avec un SGBD. La plupart du temps, un pré-
traitement doit être effectué et les données doivent être formatées et
échangées entre différents systèmes, transformant l'ingénierie en un
cauchemar. C’est pourquoi l’utilisation des langages de requêtes basés
sur SQL semble fournir un outil applicable à tous les SGBDR
disponibles. Ainsi RQL semble partir sur de bonnes bases pour
répondre à cette problématique, et nous espérons contribuer durant le
stage de fin d’étude à l’amélioration de cet outil qui pourrai rapporter
gros pour le domaine de fouille de données. 10
14. RDCR Extraction de motifs sur une BDD relationnelle Conclusion Recherche documentaire
11
4
3
2
1
Définir le sujet
Concepts et mots clés : Motifs, BDDR, fouille de
données, DFs….
Contexte de recherche : langue (français et
anglais), période ( pas de délimitation).
Sélectionner les sources d’information
Type de documents : article scientifique, thèses, compte
rendu de conférence.
Types de ressource à interroger: HAL-Archives ouvertes,
Google Sholar, Web of knowledge
Critère Poids
Conformité avec le sujet de
recherche
5
Réputation de l’auteur 4
Pertinence des information 3.5
Récence des documents 2
Recherche et choix des documents
Elaborer les requêtes pour la recherche
Tenir un journal de bord
Sélectionner les documents pertinents
Mettre en place une veille documentaire
Déclarer des alertes sur les requêtes de
recherche via des outils comme Google Alerts
ou Google Scholar
Notes de l'éditeur
Prétraitement : Sélection et transformation
On a besoin de connaître les produits les plus demandés pour des décisions de prix, de promotions ou de rangement
Ensuite on a besoin de connaître des associations de produits qui se vendent ensemble
En ajoutant une caractéristique temporelle à un ensemble d'articles, on obtient par exemple que :
APRIORI un algorithme de base qui fonctionne sur une base ayant plusieurs milliers d’attributs et plusieurs millions d’enregistrements.
Bdd formelle : transactionnel avec des données binaire