SlideShare une entreprise Scribd logo
1  sur  15
 Réalisé par : REZKELLAH BILAL
• Sujet proposé par : Mme KHOURI 2017-2018
Taxonomie des motifs et outils de fouille
de motifs sur les données relationnelles
Dans le cadre du module RDCR
SOMMAIRE
1
2
3
4
5
Introduction
Motifs ou Patterns
Extraction de motifs sur une BDD relationnelle
Conclusion
Recherche documentaire
Introduction
1
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? Régularisation
L’ère de l'information nous a fourni d'énormes dépôts de données qui ne peuvent plus être analysés
manuellement. La valeur commerciale potentiellement élevée des connaissances qui peuvent être
acquises, conduit la recherche pour des méthodes d'analyse automatisées qui peuvent gérer de
grandes quantités de données. Aujourd’hui la plupart des données sont stockées dans des systèmes
de gestion de bases de données relationnelles (SGBDR). Cela motive le besoin de recherche
d'algorithmes d'exploration de données qui peuvent fonctionner avec des bases de données
relationnelles, sans nécessiter de transformation manuelle et de prétraitement des données.
Problématique Extraction de connaissance à partir des données BDD Relationnelle et BDD Formelle
Motifs ou patterns Extraction de motifs sur une BDD relationnelle
Introduction
2
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? Régularisation
L’Extraction de Connaissances à partir de Données (ECD
ou KDD pour ”Knowledge Discovery in Databases”) a été
définie par Piatetsky- Shapiro et Frawley comme étant le :
“processus non trivial d’extraction d’informations
potentiellement utiles, implicites, et inconnues auparavant
à partir d’un ensemble de données”.
Problématique Extraction de connaissance à partir des données
Motifs
ou
Patterns
Interprétation
Connaissances
BDD Relationnelle et BDD Formelle
Motifs ou patterns Extraction de motifs sur une BDD relationnelle
Introduction
3
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? RégularisationProblématique Extraction de connaissance à partir des données BDD Relationnelle et BDD Formelle
Une base de données relationnelle est une
base de données où l'information est
organisée dans des tableaux à deux
dimensions appelés relations ou tables
[Codd, 1970]. Elle consiste en une ou
plusieurs relations. Les lignes de ces
relations sont appelées enregistrements. Les
BDD Relationnelle
La version de base de l’extraction de
motifs fréquents permet de faire la
fouille dans une table d’une base de
données relationnelle dont les valeurs
sont des booléens indiquant la
présence ou l’absence d’une propriété.
BDD Formelle
Motifs ou patterns Extraction de motifs sur une BDD relationnelle
Introduction
4
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? RégularisationConcepts de base
Motifs ou patterns
Motif :
Considèrent P = {a, b, c, d, e} l’ensemble des attributs de
la BDD formelle à droite.
Un motifs est un élément de l’ensemble des parties de P
noté 2p
Support d’un motif:
Le Support d’un motif m est la proportion d’objets ou d’enregistrements qui possèdent
m.
Exemples:
Support(a) = 3/6 Support(b) = 5/6 Support(ab) = 2/6
Motif fréquent :
Un motif est dit fréquent si son Support est supérieure ou égale à un certain seuil
σ définit par l’utilisateur tel que σ ∊ [0,1]
Motifs fréquents types et exemple d’application Méthodes classique pour la recherche des MF
Extraction de motifs sur une BDD relationnelle
Introduction
5
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? RégularisationConcepts de base
Motifs ou patterns
Types des motifs (modèles) fréquents:
Motifs globaux : description globale des données par un modèle, comme les arbres de
décision et les réseaux de neurones.
Motifs locaux : description de propriétés locales des données, comme la recherche
d’ensemble d’items fréquents (itemset fréquents).
Motifs fréquents types et exemple d’application Méthodes classique pour la recherche des MF
Exemples :
L’analyse d’ADN en biologie afin de comprendre les propriétés génétiques des espèces.
L’analyse du climat en météorologie afin de mieux orienter l’agriculture ou choisir
l’orientation des pistes des aérodromes.
L’analyse du panier du marché, pour comprendre les habitudes des clients afin de mieux
organiser les rayons d’articles, organiser les promotions, ...etc.
Extraction de motifs sur une BDD relationnelle
Introduction
6
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? RégularisationConcepts de base
Motifs ou patterns
Motifs fréquents types et exemple d’application Méthodes classique pour la recherche des MF
Motifs locaux :
Les supermarchés représentent l'exemple le plus suggestif d'applications des motifs
fréquents. Dans un supermarché on trouve une multitude de produits avec des
demandes/consommations déférentes.
Itemset fréquents Règles
d’associations
Motifs Séquentiels
Extraction de motifs sur une BDD relationnelle
Introduction
7
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? RégularisationConcepts de base
Motifs ou patterns
Approche naïve : parcourir l’ensemble de tous les motifs, calculer leurs nombres
d’occurrences (support) et ne garder que les plus fréquents.
Problème: approche trop consommatrice en temps et en ressources. En effet, le nombre de
motifs est 2p (p est le nombre d’attributs), et en pratique, on veut manipuler des bases ayant
un grand nombre d’attributs.
Motifs fréquents types et exemple d’application Méthodes classiques pour la recherche des MFs
L’algorithme Apriori : [Agrawal et al, 1994] L’idée est d’effectuer une extraction par
niveaux selon le principe suivant :
 On commence par chercher les motifs fréquents de longueur 1 ;
 On combine ces motifs pour obtenir des motifs de longueur 2 et on ne garde que les
fréquents ;
On combine ces motifs pour obtenir des motifs de longueur 3 et on ne garde que les
fréquents ;
Extraction de motifs sur une BDD relationnelle
Introduction
8
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? RégularisationC ’est quoi le problème ?
Motifs ou patterns
Pourquoi ne pas appliqué les techniques d’extraction classiques ? problème dans
l’étape de Prétraitement
Extraction de motifs sur une BDD relationnelle
 Les techniques classique sont appliquées à des BDD formelles
 Même dans le cas d’une BDD relationnelle à une seule table, une transformation
vers une forme transactionnelle est nécessaire pour appliquer les techniques
classiques, du fait que les attributs d’une table relationnelle peuvent prendre
plusieurs valeurs(non binaire). [Agrawal et al., 1996]
 La transformation est plus facile si les attributs sont qualitatifs.
 Les BDDs relationnelles contient en réalité plusieurs tables -> la transformation est
impossible sans perte d’informations
Solution proposée Rule query language RQL
Introduction
8
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? RégularisationC ’est quoi le problème ?
Motifs ou patterns
Idée : Puisque les requêtes sont largement utilisées afin de récupérer des sous-ensembles de données
à partir des bases de données, elles peuvent également être considérées comme des descriptions pour
ces sous-ensembles de données.
Extraction de motifs sur une BDD relationnelle
Solution proposée
 les règles l'association sont aussi facilement définies en considérant des requêtes et des requêtes
plus spécifiques (contenant plus de restrictions).
Illustration : considérant [IMDB, 2008] contenant presque toutes les informations possibles sur des
films, des acteurs et tout ce qui s'y rapporte.
 considérons la requête qui demande tous les acteurs qui ont joué dans un film du genre «drame»,
et la requête plus spécifique qui demande tous les acteurs qui ont joué dans un film du genre
«drame», et dans un film du genre «comédie». Supposons maintenant que la réponse à la première
requête se compose de 1000 acteurs, et la réponse à la seconde requête consiste de 900 acteurs.
Cette règle d'association révèle le motif (modèle) potentiellement intéressant que 90% des acteurs
jouant dans les films « dramatiques » jouent aussi dans un film de "comédie".
Rule query language RQL
Introduction
8
Cross validationSur-apprentissage et Sous-apprentissage
RDCR
Qu’est ce que un bon modèle ? RégularisationC ’est quoi le problème ?
Motifs ou patterns
RQL :approche déclarative permettant l’exploration et l’exploitation des données relationnelles
via l’extraction des motifs fréquents à partir des BD, [Chardin et al, 2016].
Rule query language RQL
Extraction de motifs sur une BDD relationnelle
Solution proposée
Exemple :
Soit la table employé ci-dessous, Soit la requête Q1 suivante écrite sous RQL :
Q1: FINDRULES
OVER Empno , Lastname , Workdept , Job , Sex , Bonus
SCOPE t1 , t2 Emp
CONDITION ON $A IS t1.$A = t2.$A
Q1 découvre les DFs de Emp sur le sous-ensemble d'attributs spécifiés dans la clause OVER.
Empno →Lastname et Workdept → Job hold
RDCR
Qu’est ce que un bon modèle ?
Extraction de motifs sur une BDD relationnelle Conclusion Recherche documentaire
CONCLUSION
L’exploration des bases de données relationnelles présente encore
plusieurs challenges. Malgré multitude de techniques proposées ces 20
dernières années pour l'exploration de motifs, peu d'entre elles sont
étroitement couplés avec un SGBD. La plupart du temps, un pré-
traitement doit être effectué et les données doivent être formatées et
échangées entre différents systèmes, transformant l'ingénierie en un
cauchemar. C’est pourquoi l’utilisation des langages de requêtes basés
sur SQL semble fournir un outil applicable à tous les SGBDR
disponibles. Ainsi RQL semble partir sur de bonnes bases pour
répondre à cette problématique, et nous espérons contribuer durant le
stage de fin d’étude à l’amélioration de cet outil qui pourrai rapporter
gros pour le domaine de fouille de données. 10
RDCR Extraction de motifs sur une BDD relationnelle Conclusion Recherche documentaire
11
4
3
2
1
Définir le sujet
 Concepts et mots clés : Motifs, BDDR, fouille de
données, DFs….
 Contexte de recherche : langue (français et
anglais), période ( pas de délimitation).
Sélectionner les sources d’information
 Type de documents : article scientifique, thèses, compte
rendu de conférence.
 Types de ressource à interroger: HAL-Archives ouvertes,
Google Sholar, Web of knowledge
Critère Poids
Conformité avec le sujet de
recherche
5
Réputation de l’auteur 4
Pertinence des information 3.5
Récence des documents 2
Recherche et choix des documents
 Elaborer les requêtes pour la recherche
 Tenir un journal de bord
 Sélectionner les documents pertinents
Mettre en place une veille documentaire
 Déclarer des alertes sur les requêtes de
recherche via des outils comme Google Alerts
ou Google Scholar
Taxonomie des motifs et outils de fouille de motifs sur les données relationnelles

Contenu connexe

Similaire à Taxonomie des motifs et outils de fouille de motifs sur les données relationnelles

Introduction aux bases de données
Introduction aux bases de donnéesIntroduction aux bases de données
Introduction aux bases de donnéesAbdoulaye Dieng
 
Bd relationnelles
Bd relationnellesBd relationnelles
Bd relationnellesmakram05
 
Alphorm.com Formation Power BI : Transformation de Données avec DAX et Power ...
Alphorm.com Formation Power BI : Transformation de Données avec DAX et Power ...Alphorm.com Formation Power BI : Transformation de Données avec DAX et Power ...
Alphorm.com Formation Power BI : Transformation de Données avec DAX et Power ...Alphorm
 
Chap1Concepts-FondamentauxBD.pdf
Chap1Concepts-FondamentauxBD.pdfChap1Concepts-FondamentauxBD.pdf
Chap1Concepts-FondamentauxBD.pdfBoubakerMedanas
 
analysez-des-donnees-avec-excel documen.pdf
analysez-des-donnees-avec-excel documen.pdfanalysez-des-donnees-avec-excel documen.pdf
analysez-des-donnees-avec-excel documen.pdfLeonLovensky
 
Hajer mhimdi-ppt11 pfe-mr2 siw
Hajer mhimdi-ppt11 pfe-mr2 siwHajer mhimdi-ppt11 pfe-mr2 siw
Hajer mhimdi-ppt11 pfe-mr2 siwhajer mhimdi
 
Base de Données Chapitre I .pptx
Base de Données Chapitre I .pptxBase de Données Chapitre I .pptx
Base de Données Chapitre I .pptxAbdoulayeTraore48
 
7. information modelling
7. information modelling7. information modelling
7. information modellingsugogo
 
01-introduction (2).ppt
01-introduction (2).ppt01-introduction (2).ppt
01-introduction (2).pptSouha Bennani
 
Text mining pour industrie
Text mining pour industrieText mining pour industrie
Text mining pour industrieAli Kabbadj
 
Les modèles NoSQL
Les modèles NoSQLLes modèles NoSQL
Les modèles NoSQLebiznext
 
Serveur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développementServeur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développementLudovic REUS
 
4 ModeleRelationnel.pdf
4 ModeleRelationnel.pdf4 ModeleRelationnel.pdf
4 ModeleRelationnel.pdfAzedineSariye
 
metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011Y. Nicolas
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning Novagen Conseil
 
Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Amani Baklouti
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 
cours base de données
cours base de donnéescours base de données
cours base de donnéesYassine Badri
 
00_intro_PrincipRelatConceptOracle.pdf
00_intro_PrincipRelatConceptOracle.pdf00_intro_PrincipRelatConceptOracle.pdf
00_intro_PrincipRelatConceptOracle.pdfLaaouissiAzed
 

Similaire à Taxonomie des motifs et outils de fouille de motifs sur les données relationnelles (20)

Introduction aux bases de données
Introduction aux bases de donnéesIntroduction aux bases de données
Introduction aux bases de données
 
Bd relationnelles
Bd relationnellesBd relationnelles
Bd relationnelles
 
Alphorm.com Formation Power BI : Transformation de Données avec DAX et Power ...
Alphorm.com Formation Power BI : Transformation de Données avec DAX et Power ...Alphorm.com Formation Power BI : Transformation de Données avec DAX et Power ...
Alphorm.com Formation Power BI : Transformation de Données avec DAX et Power ...
 
Chap1Concepts-FondamentauxBD.pdf
Chap1Concepts-FondamentauxBD.pdfChap1Concepts-FondamentauxBD.pdf
Chap1Concepts-FondamentauxBD.pdf
 
analysez-des-donnees-avec-excel documen.pdf
analysez-des-donnees-avec-excel documen.pdfanalysez-des-donnees-avec-excel documen.pdf
analysez-des-donnees-avec-excel documen.pdf
 
Hajer mhimdi-ppt11 pfe-mr2 siw
Hajer mhimdi-ppt11 pfe-mr2 siwHajer mhimdi-ppt11 pfe-mr2 siw
Hajer mhimdi-ppt11 pfe-mr2 siw
 
Base de Données Chapitre I .pptx
Base de Données Chapitre I .pptxBase de Données Chapitre I .pptx
Base de Données Chapitre I .pptx
 
7. information modelling
7. information modelling7. information modelling
7. information modelling
 
01-introduction (2).ppt
01-introduction (2).ppt01-introduction (2).ppt
01-introduction (2).ppt
 
01-introduction.ppt
01-introduction.ppt01-introduction.ppt
01-introduction.ppt
 
Text mining pour industrie
Text mining pour industrieText mining pour industrie
Text mining pour industrie
 
Les modèles NoSQL
Les modèles NoSQLLes modèles NoSQL
Les modèles NoSQL
 
Serveur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développementServeur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développement
 
4 ModeleRelationnel.pdf
4 ModeleRelationnel.pdf4 ModeleRelationnel.pdf
4 ModeleRelationnel.pdf
 
metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Cours fouille de donn+®es part1
Cours fouille de donn+®es part1
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
cours base de données
cours base de donnéescours base de données
cours base de données
 
00_intro_PrincipRelatConceptOracle.pdf
00_intro_PrincipRelatConceptOracle.pdf00_intro_PrincipRelatConceptOracle.pdf
00_intro_PrincipRelatConceptOracle.pdf
 

Taxonomie des motifs et outils de fouille de motifs sur les données relationnelles

  • 1.  Réalisé par : REZKELLAH BILAL • Sujet proposé par : Mme KHOURI 2017-2018 Taxonomie des motifs et outils de fouille de motifs sur les données relationnelles Dans le cadre du module RDCR
  • 2. SOMMAIRE 1 2 3 4 5 Introduction Motifs ou Patterns Extraction de motifs sur une BDD relationnelle Conclusion Recherche documentaire
  • 3. Introduction 1 Cross validationSur-apprentissage et Sous-apprentissage RDCR Qu’est ce que un bon modèle ? Régularisation L’ère de l'information nous a fourni d'énormes dépôts de données qui ne peuvent plus être analysés manuellement. La valeur commerciale potentiellement élevée des connaissances qui peuvent être acquises, conduit la recherche pour des méthodes d'analyse automatisées qui peuvent gérer de grandes quantités de données. Aujourd’hui la plupart des données sont stockées dans des systèmes de gestion de bases de données relationnelles (SGBDR). Cela motive le besoin de recherche d'algorithmes d'exploration de données qui peuvent fonctionner avec des bases de données relationnelles, sans nécessiter de transformation manuelle et de prétraitement des données. Problématique Extraction de connaissance à partir des données BDD Relationnelle et BDD Formelle Motifs ou patterns Extraction de motifs sur une BDD relationnelle
  • 4. Introduction 2 Cross validationSur-apprentissage et Sous-apprentissage RDCR Qu’est ce que un bon modèle ? Régularisation L’Extraction de Connaissances à partir de Données (ECD ou KDD pour ”Knowledge Discovery in Databases”) a été définie par Piatetsky- Shapiro et Frawley comme étant le : “processus non trivial d’extraction d’informations potentiellement utiles, implicites, et inconnues auparavant à partir d’un ensemble de données”. Problématique Extraction de connaissance à partir des données Motifs ou Patterns Interprétation Connaissances BDD Relationnelle et BDD Formelle Motifs ou patterns Extraction de motifs sur une BDD relationnelle
  • 5. Introduction 3 Cross validationSur-apprentissage et Sous-apprentissage RDCR Qu’est ce que un bon modèle ? RégularisationProblématique Extraction de connaissance à partir des données BDD Relationnelle et BDD Formelle Une base de données relationnelle est une base de données où l'information est organisée dans des tableaux à deux dimensions appelés relations ou tables [Codd, 1970]. Elle consiste en une ou plusieurs relations. Les lignes de ces relations sont appelées enregistrements. Les BDD Relationnelle La version de base de l’extraction de motifs fréquents permet de faire la fouille dans une table d’une base de données relationnelle dont les valeurs sont des booléens indiquant la présence ou l’absence d’une propriété. BDD Formelle Motifs ou patterns Extraction de motifs sur une BDD relationnelle
  • 6. Introduction 4 Cross validationSur-apprentissage et Sous-apprentissage RDCR Qu’est ce que un bon modèle ? RégularisationConcepts de base Motifs ou patterns Motif : Considèrent P = {a, b, c, d, e} l’ensemble des attributs de la BDD formelle à droite. Un motifs est un élément de l’ensemble des parties de P noté 2p Support d’un motif: Le Support d’un motif m est la proportion d’objets ou d’enregistrements qui possèdent m. Exemples: Support(a) = 3/6 Support(b) = 5/6 Support(ab) = 2/6 Motif fréquent : Un motif est dit fréquent si son Support est supérieure ou égale à un certain seuil σ définit par l’utilisateur tel que σ ∊ [0,1] Motifs fréquents types et exemple d’application Méthodes classique pour la recherche des MF Extraction de motifs sur une BDD relationnelle
  • 7. Introduction 5 Cross validationSur-apprentissage et Sous-apprentissage RDCR Qu’est ce que un bon modèle ? RégularisationConcepts de base Motifs ou patterns Types des motifs (modèles) fréquents: Motifs globaux : description globale des données par un modèle, comme les arbres de décision et les réseaux de neurones. Motifs locaux : description de propriétés locales des données, comme la recherche d’ensemble d’items fréquents (itemset fréquents). Motifs fréquents types et exemple d’application Méthodes classique pour la recherche des MF Exemples : L’analyse d’ADN en biologie afin de comprendre les propriétés génétiques des espèces. L’analyse du climat en météorologie afin de mieux orienter l’agriculture ou choisir l’orientation des pistes des aérodromes. L’analyse du panier du marché, pour comprendre les habitudes des clients afin de mieux organiser les rayons d’articles, organiser les promotions, ...etc. Extraction de motifs sur une BDD relationnelle
  • 8. Introduction 6 Cross validationSur-apprentissage et Sous-apprentissage RDCR Qu’est ce que un bon modèle ? RégularisationConcepts de base Motifs ou patterns Motifs fréquents types et exemple d’application Méthodes classique pour la recherche des MF Motifs locaux : Les supermarchés représentent l'exemple le plus suggestif d'applications des motifs fréquents. Dans un supermarché on trouve une multitude de produits avec des demandes/consommations déférentes. Itemset fréquents Règles d’associations Motifs Séquentiels Extraction de motifs sur une BDD relationnelle
  • 9. Introduction 7 Cross validationSur-apprentissage et Sous-apprentissage RDCR Qu’est ce que un bon modèle ? RégularisationConcepts de base Motifs ou patterns Approche naïve : parcourir l’ensemble de tous les motifs, calculer leurs nombres d’occurrences (support) et ne garder que les plus fréquents. Problème: approche trop consommatrice en temps et en ressources. En effet, le nombre de motifs est 2p (p est le nombre d’attributs), et en pratique, on veut manipuler des bases ayant un grand nombre d’attributs. Motifs fréquents types et exemple d’application Méthodes classiques pour la recherche des MFs L’algorithme Apriori : [Agrawal et al, 1994] L’idée est d’effectuer une extraction par niveaux selon le principe suivant :  On commence par chercher les motifs fréquents de longueur 1 ;  On combine ces motifs pour obtenir des motifs de longueur 2 et on ne garde que les fréquents ; On combine ces motifs pour obtenir des motifs de longueur 3 et on ne garde que les fréquents ; Extraction de motifs sur une BDD relationnelle
  • 10. Introduction 8 Cross validationSur-apprentissage et Sous-apprentissage RDCR Qu’est ce que un bon modèle ? RégularisationC ’est quoi le problème ? Motifs ou patterns Pourquoi ne pas appliqué les techniques d’extraction classiques ? problème dans l’étape de Prétraitement Extraction de motifs sur une BDD relationnelle  Les techniques classique sont appliquées à des BDD formelles  Même dans le cas d’une BDD relationnelle à une seule table, une transformation vers une forme transactionnelle est nécessaire pour appliquer les techniques classiques, du fait que les attributs d’une table relationnelle peuvent prendre plusieurs valeurs(non binaire). [Agrawal et al., 1996]  La transformation est plus facile si les attributs sont qualitatifs.  Les BDDs relationnelles contient en réalité plusieurs tables -> la transformation est impossible sans perte d’informations Solution proposée Rule query language RQL
  • 11. Introduction 8 Cross validationSur-apprentissage et Sous-apprentissage RDCR Qu’est ce que un bon modèle ? RégularisationC ’est quoi le problème ? Motifs ou patterns Idée : Puisque les requêtes sont largement utilisées afin de récupérer des sous-ensembles de données à partir des bases de données, elles peuvent également être considérées comme des descriptions pour ces sous-ensembles de données. Extraction de motifs sur une BDD relationnelle Solution proposée  les règles l'association sont aussi facilement définies en considérant des requêtes et des requêtes plus spécifiques (contenant plus de restrictions). Illustration : considérant [IMDB, 2008] contenant presque toutes les informations possibles sur des films, des acteurs et tout ce qui s'y rapporte.  considérons la requête qui demande tous les acteurs qui ont joué dans un film du genre «drame», et la requête plus spécifique qui demande tous les acteurs qui ont joué dans un film du genre «drame», et dans un film du genre «comédie». Supposons maintenant que la réponse à la première requête se compose de 1000 acteurs, et la réponse à la seconde requête consiste de 900 acteurs. Cette règle d'association révèle le motif (modèle) potentiellement intéressant que 90% des acteurs jouant dans les films « dramatiques » jouent aussi dans un film de "comédie". Rule query language RQL
  • 12. Introduction 8 Cross validationSur-apprentissage et Sous-apprentissage RDCR Qu’est ce que un bon modèle ? RégularisationC ’est quoi le problème ? Motifs ou patterns RQL :approche déclarative permettant l’exploration et l’exploitation des données relationnelles via l’extraction des motifs fréquents à partir des BD, [Chardin et al, 2016]. Rule query language RQL Extraction de motifs sur une BDD relationnelle Solution proposée Exemple : Soit la table employé ci-dessous, Soit la requête Q1 suivante écrite sous RQL : Q1: FINDRULES OVER Empno , Lastname , Workdept , Job , Sex , Bonus SCOPE t1 , t2 Emp CONDITION ON $A IS t1.$A = t2.$A Q1 découvre les DFs de Emp sur le sous-ensemble d'attributs spécifiés dans la clause OVER. Empno →Lastname et Workdept → Job hold
  • 13. RDCR Qu’est ce que un bon modèle ? Extraction de motifs sur une BDD relationnelle Conclusion Recherche documentaire CONCLUSION L’exploration des bases de données relationnelles présente encore plusieurs challenges. Malgré multitude de techniques proposées ces 20 dernières années pour l'exploration de motifs, peu d'entre elles sont étroitement couplés avec un SGBD. La plupart du temps, un pré- traitement doit être effectué et les données doivent être formatées et échangées entre différents systèmes, transformant l'ingénierie en un cauchemar. C’est pourquoi l’utilisation des langages de requêtes basés sur SQL semble fournir un outil applicable à tous les SGBDR disponibles. Ainsi RQL semble partir sur de bonnes bases pour répondre à cette problématique, et nous espérons contribuer durant le stage de fin d’étude à l’amélioration de cet outil qui pourrai rapporter gros pour le domaine de fouille de données. 10
  • 14. RDCR Extraction de motifs sur une BDD relationnelle Conclusion Recherche documentaire 11 4 3 2 1 Définir le sujet  Concepts et mots clés : Motifs, BDDR, fouille de données, DFs….  Contexte de recherche : langue (français et anglais), période ( pas de délimitation). Sélectionner les sources d’information  Type de documents : article scientifique, thèses, compte rendu de conférence.  Types de ressource à interroger: HAL-Archives ouvertes, Google Sholar, Web of knowledge Critère Poids Conformité avec le sujet de recherche 5 Réputation de l’auteur 4 Pertinence des information 3.5 Récence des documents 2 Recherche et choix des documents  Elaborer les requêtes pour la recherche  Tenir un journal de bord  Sélectionner les documents pertinents Mettre en place une veille documentaire  Déclarer des alertes sur les requêtes de recherche via des outils comme Google Alerts ou Google Scholar

Notes de l'éditeur

  1. Prétraitement : Sélection et transformation
  2. On a besoin de connaître les produits les plus demandés pour des décisions de prix, de promotions ou de rangement Ensuite on a besoin de connaître des associations de produits qui se vendent ensemble En ajoutant une caractéristique temporelle à un ensemble d'articles, on obtient par exemple que :
  3. APRIORI un algorithme de base qui fonctionne sur une base ayant plusieurs milliers d’attributs et plusieurs millions d’enregistrements.
  4. Bdd formelle : transactionnel avec des données binaire