Intégra(on	
  Incrémentale	
  de	
  Données	
  
                  Basée	
  sur	
  les	
  Retours	
  U(lisateur	
  	
  


 ...
Intégra(on	
  de	
  Données	
  

                                     Quels	
  sont	
  le	
  protéines	
  disponibles	
  d...
Intégra(on	
  Incrémentale	
  de	
  Données	
  

  Intégra(on	
  de	
  Données	
  
    –  La	
  spécifica(on	
  de	
  mapp...
Intégra(on	
  Incrémentale	
  de	
  Données	
  

                                           Quels	
  sont	
  le	
  protéin...
Pay-­‐as-­‐you-­‐go	
  Data	
  Integra(on	
  

 Nous	
  considérons	
  que	
  les	
  schémas	
  des	
  sources	
  et	
  l...
Plan	
  


  Retour	
  U(lisateur	
  (feedback)	
  


  Annota(on	
  de	
  Mappings	
  


  Sélec(on	
  de	
  Mappings	...
Retour	
  U(lisateur	
  
  Requête:	
  Quels	
  sont	
  le	
  protéines	
  disponibles	
  de	
  la	
  mouche	
  des	
  fr...
Retour	
  U(lisateur	
  (cont.)	
  

	
       Considérons	
  m	
  un	
  mapping,	
  et	
  UF	
  un	
  ensemble	
  de	
  re...
Plan	
  


 Retour	
  U(lisateur	
  (feedback)	
  


  Annota(on	
  de	
  Mappings	
  


  Sélec(on	
  de	
  Mappings	
...
Annota(on	
  de	
  Mappings	
  

On	
  peut	
  u(liser	
  un	
  schéma	
  d’annota(on	
  simple	
  pour	
  é(queter	
  
le...
Annota(on	
  de	
  Mappings	
  (cont.)	
  
Nous	
  avons	
  u(lisé	
  et	
  adapté	
  les	
  no(ons	
  de	
  précision	
  ...
Annota(on	
  de	
  Mappings:	
  Valida(on	
  


Ques(ons:	
  	
  

            –  Combien	
  de	
  retours	
  u(lisateur	
...
Annota(on	
  de	
  Mappings:	
  Valida(on	
  
                          (cont.)	
  
Expérience:	
  
  Données:	
  
    – ...
Annota(on	
  de	
  Mappings:	
  	
  
    Error	
  
                          Erreur	
  dans	
  la	
  Precision	
  




18	...
Mapping	
  Annota(on:	
  	
  
    Error	
  
                         Erreur	
  dans	
  le	
  rappel	
  




18	
  juin	
  ...
Plan	
  


 Retour	
  U(lisateur	
  (feedback)	
  


 Annota(on	
  de	
  Mappings	
  


  Sélec(on	
  de	
  Mappings	
 ...
Sélec(on	
  de	
  Mappings	
  

  La	
  sélec(on	
  de	
  mappings	
  doit	
  être	
  adaptée	
  pour	
  répondre	
  aux	...
Sélec(on	
  de	
  Mappings:	
  Precision	
  



                         Est-­‐ce	
  que	
  ceme	
  méthode	
  permet	
  d...
Sélec(on	
  de	
  Mappings:	
  Rappel	
  



                         Est-­‐ce	
  que	
  ceme	
  méthode	
  permet	
  de	
...
Plan	
  


 Retour	
  U(lisateur	
  (feedback)	
  


 Annota(on	
  de	
  Mappings	
  


 Sélec(on	
  de	
  Mappings	
  ...
raffinement	
  de	
  Mappings	
  

	
       Nous	
  dis(nguons	
  deux	
  types	
  de	
  Raffinement:	
  

  Raffinement	
  de	...
Mapping	
  Refinement:	
  Exemple	
  
                                                                     Je veux les
    ...
Raffinement	
  de	
  Mappings:	
  	
  
                               l'espace	
  des	
  solu(ons	
  

      L'espace	
  des...
Explora(on	
  de	
  l'Espace	
  des	
  Solu(ons	
  

  L'espace	
  des	
  mappings	
  qui	
  peuvent	
  être	
  obtenus	
...
Algorithm	
  pour	
  le	
  Raffinement	
  de	
  
                    Mappings	
  




18	
  juin	
  2010	
      Valenciennes...
Raffinement	
  de	
  Mappings:	
  
                               Valida(on	
  
  Ques(on:	
  
	
   Est-­‐ce	
  qu’on	
  pe...
Raffinement	
  de	
  Mappings:	
  Valida(on	
  (cont.)	
  




18	
  juin	
  2010	
              Valenciennes	
             ...
Conclusions	
  
	
       Annota(on	
  incrémentale	
  de	
  Mappings	
  
  Nous	
  avons	
  montré	
  comment	
  les	
  m...
Travaux	
  en	
  Cours	
  
  Propaga(on	
  de	
  retour	
  u(lisateur	
  et	
  des	
  annota(ons.	
  

  Retours	
  u(li...
Intégra(on	
  Incrémentale	
  de	
  Données	
  
                  Basée	
  sur	
  les	
  Retours	
  U(lisateur	
  


     ...
Prochain SlideShare
Chargement dans…5
×

Intégration incrémentale de données (Valenciennes juin 2010)

712 vues

Publié le

An invited talk at the University of Valenciennes-France on

Publié dans : Business
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
712
Sur SlideShare
0
Issues des intégrations
0
Intégrations
4
Actions
Partages
0
Téléchargements
4
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Intégration incrémentale de données (Valenciennes juin 2010)

  1. 1. Intégra(on  Incrémentale  de  Données   Basée  sur  les  Retours  U(lisateur     Khalid Belhajjame Université de Manchester Royaume Uni 18  juin  2010   Valenciennes   1  
  2. 2. Intégra(on  de  Données   Quels  sont  le  protéines  disponibles  de  la  mouche  des  fruits?     Chercheur        Schéma        central   Mappings   PedroDB   PepSeeker   Pride   GPMDB   18  juin  2010   Valenciennes   2  
  3. 3. Intégra(on  Incrémentale  de  Données     Intégra(on  de  Données   –  La  spécifica(on  de  mappings  est  une  ac(vité  couteuse  qui  requière   une  connaissance  profonde  des  sources  de  données  aussi  bien  que  les   besoins  des  u(lisateurs.     Dataspaces:  Pay-­‐as-­‐you-­‐go  Data  Integra3on  [Franklin  et  al.  2005]   –  Réduire  le  temps  d’installa(on  du  système  d’intégra(on  de  données.     –  Améliore  les  services  fournis  par  le  system  d’une  façon  incrémentale   en  interagissant  avec  les  u(lisateurs.   M.  J.  Franklin,  A.  Y.  Halevy,  and  D.  Maier.  From  databases  to  dataspaces:  a  new  abstrac(on  for  informa(on   management.  SIGMOD  Record,  34(4):27–33,  2005.   18  juin  2010   Valenciennes   3  
  4. 4. Intégra(on  Incrémentale  de  Données   Quels  sont  le  protéines  disponibles  de  la  mouche  des  fruits?     Chercheur   Schéma   central   Bootstrap   Dataspaces   Mappings   PedroDB   PepSeeker   Pride   GPMDB   Objec(ve:     Étudiez  l'annota(on,  la  sélec(on  et  le  raffinement  incrémental  des  mappings   18  juin  2010   Valenciennes   4  
  5. 5. Pay-­‐as-­‐you-­‐go  Data  Integra(on    Nous  considérons  que  les  schémas  des  sources  et  le  schéma  central  sont   rela(onels,  et  que  les  mappings  u(lisés  pour  peupler  les  éléments  du  schéma   central  sont  glabal-­‐as-­‐view  de  la  forme  suivante  : ⟨r,qs⟩ r est une relation du schéma central et qs est une requête spécifiée en terme de sources.  Une  rela(on  du  schéma  central  peut  être  associée  avec  plusieurs  mappings   candidates  pour  sa  popula(on  :  Nous  considérons  une  configura(on  dans   laquelle  mul(ple  mécanismes  de  matching  et  de  mapping  de  schémas  sont   u(lisés. 18  juin  2010   Valenciennes   5  
  6. 6. Plan     Retour  U(lisateur  (feedback)     Annota(on  de  Mappings     Sélec(on  de  Mappings  Considérant  les  Besoins  U(lisateur     Raffinement  de  Mappings     18  juin  2010   Valenciennes   6  
  7. 7. Retour  U(lisateur     Requête:  Quels  sont  le  protéines  disponibles  de  la  mouche  des  fruits?       Results:   Feedback   ✔   ✖   ✖   ✔   18  juin  2010   Valenciennes   7  
  8. 8. Retour  U(lisateur  (cont.)     Considérons  m  un  mapping,  et  UF  un  ensemble  de  retours  u(lisateur   (feedback  instances):       tp(m,UF):  les  tuples  qui  sont  prévus  par  l'u(lisateur  et  qui  sont  retournés   par  le  mapping  m.     fp(m,UF):  les  tuples  qui  ne  sont  pas  prévus  par  l'u(lisateur  et  qui  sont   retournés  par  le  mapping  m.       fn(m,UF):  les  tuples  qui  sont  prévus  par  l'u(lisateur  et  qui  ne  sont  pas   retournés  par  le  mapping  m.   18  juin  2010   Valenciennes   8  
  9. 9. Plan    Retour  U(lisateur  (feedback)     Annota(on  de  Mappings     Sélec(on  de  Mappings  Considérant  les  Besoins  U(lisateur     Raffinement  de  Mappings     18  juin  2010   Valenciennes   9  
  10. 10. Annota(on  de  Mappings   On  peut  u(liser  un  schéma  d’annota(on  simple  pour  é(queter   les  mappings  comme:    Correct      Incorrect     L'ensemble  de  mappings  peut  être  incomplete,  et,  par   consequent,  nous  allows  tout  simplement  annoter  tout  les   mappings  comme  incorrect,  ce  qui  est  inu(le.   Pour  ceme  raison,  nous  u(lisons  un  schéma  plus  fine  pour   l’annota(on  de  mappings.   18  juin  2010   Valenciennes   10  
  11. 11. Annota(on  de  Mappings  (cont.)   Nous  avons  u(lisé  et  adapté  les  no(ons  de  précision  et  de  rappel   u(lisés  dans  la  recherche  d'informa(on  pour  mesurer  la  qualité   d'un  mapping.    Precision:      Rappel:      F  mésure:     18  juin  2010   Valenciennes   11  
  12. 12. Annota(on  de  Mappings:  Valida(on   Ques(ons:     –  Combien  de  retours  u(lisateur  (feedback  instances)  faut-­‐il   pour  rapprocher  la  précision  et  le  rappel  réels,  c'est  à  dire   calculés  on  se  basant  sur  la  connaissance  complète  des   résultats  prévues?   –  Est  ce  que  la  philosophie  “pay-­‐as-­‐you-­‐go”  préconisée  par  la   vision  espaces  de  données  (dataspaces)  est  valide  dans  ce   context?   18  juin  2010   Valenciennes   12  
  13. 13. Annota(on  de  Mappings:  Valida(on   (cont.)   Expérience:     Données:   –  Deux  collec(ons  de  données:  la  base  de  données  géographiques   Mondial  et  la  base  de  données  bibliographique  amalgames.   –  Les  mappings  candidats:  créés  en  u(lisant  IBM  InfoSphere  Data   Architect.       Processus:  nous  avons  appliqué  le  processus  illustrées  ci-­‐dessous  pour  de   mul(ples  itéra(ons.   1.  Générer  un  échan(llon  de  retours  u(lisateur  (feedback  instances).   2.  Calculer  la  précision  et  le  rappel  des  mappings  candidats  en  u(lisant   le  retours  u(lisateur  cumulés.   18  juin  2010   Valenciennes   13  
  14. 14. Annota(on  de  Mappings:     Error   Erreur  dans  la  Precision   18  juin  2010   Valenciennes   14  
  15. 15. Mapping  Annota(on:     Error   Erreur  dans  le  rappel   18  juin  2010   Valenciennes   15  
  16. 16. Plan    Retour  U(lisateur  (feedback)    Annota(on  de  Mappings     Sélec(on  de  Mappings  Considérant  les  Besoins  U(lisateur     Raffinement  de  Mappings     18  juin  2010   Valenciennes   16  
  17. 17. Sélec(on  de  Mappings     La  sélec(on  de  mappings  doit  être  adaptée  pour  répondre  aux  besoins  des   u(lisateurs.     Nous  u(lisons  une  méthode  de  sélec(on  qui  vise  à  maximiser  le  rappel  de  telle   sorte  que  la  précision  des  résultats  est  supérieur  à  un  seuil  de  précision  donnée.     Nous  avons  défini  ceme  méthode    comme  un  problème  d’op(misa(on  qui  vise  à   maximiser  la  fonc(on  d'u(lité  suivantes:   D.  A.  Menascé  and  V.  Dubey.  U(lity-­‐based  qos  brokering  in  service  oriented  architectures.  In  ICWS,  pages   422–430.  IEEE  CS,  2007.   18  juin  2010   Valenciennes   17  
  18. 18. Sélec(on  de  Mappings:  Precision   Est-­‐ce  que  ceme  méthode  permet  de  respecter  la  précision   spécifiée  par  l'u(lisateur?   18  juin  2010   Valenciennes   18  
  19. 19. Sélec(on  de  Mappings:  Rappel   Est-­‐ce  que  ceme  méthode  permet  de  maximiser  le  rappel?   18  juin  2010   Valenciennes   19  
  20. 20. Plan    Retour  U(lisateur  (feedback)    Annota(on  de  Mappings    Sélec(on  de  Mappings  Considérant  les  Besoins  U(lisateur     raffinement  de  Mappings     18  juin  2010   Valenciennes   20  
  21. 21. raffinement  de  Mappings     Nous  dis(nguons  deux  types  de  Raffinement:     Raffinement  de  mappings  qui  vise  à  réduire  le  nombre  de  faux  posi(fs     Un  mapping  candidat  est  affinée  par  la  modifica(on  de  sa  requête   source  de  sorte  que  le  nombre  de  faux  posi(fs  retournés  est  réduit.       Raffinement  de  mappings  qui  vise  à  accroître  le  nombre  de  vrais  posi(fs     Un  mapping  candidat  est  affinée  par  la  modifica(on  de  sa  requête   source  de  sorte  que  le  nombre  de  faux  posi(fs  retournés  est  accrue.     18  juin  2010   Valenciennes   21  
  22. 22. Mapping  Refinement:  Exemple   Je veux les proteins de mouche de fruit Schéma Protein cebtral Accession name gene m = <Protein, ProteinEntry> Schéma source 18  juin  2010   Valenciennes   22  
  23. 23. Raffinement  de  Mappings:     l'espace  des  solu(ons   L'espace  des  solu(ons  est  composé  des  mappings  qui  peuvent  être   construits  à  par(r  des  mappings  candidats  ini(aux.  Plus  précisément,  les   mappings  obtenu  en:   i. appliquant  la  jointure  à  la  requête  source  d’un  mapping,     ii. augmentant  la  requête  source  d'un  mapping  avec  une  condi(on  de     sélec(on,   iii. assouplissant  la  condi(on  de  sélec(on  de  la  requête  source  d’un     mapping,   iv. combinant  les  requêtes  sources  de  deux  ou  plusieurs  mappings  en     u(lisant  l'Union,  la  différence  et  intersec(on.   18  juin  2010   Valenciennes   23  
  24. 24. Explora(on  de  l'Espace  des  Solu(ons     L'espace  des  mappings  qui  peuvent  être  obtenus  par  raffinement   est  poten(ellement  large.     Un  algorithme  de  recherche  qui  explore  tout  l'espace  des  mappings   possibles  peut  ne  pas  être  en  mésure  de  trouver  une  solu(on  dans   un  temps  limité.     Dans  le  cadre  du  présent  travail,  nous  avons  u(lisé  un  algorithme   évolu(onnaire  pour  explorer  l'espace  de  mappings  qui  peuvent  être   obtenus  par  raffinement.   18  juin  2010   Valenciennes   24  
  25. 25. Algorithm  pour  le  Raffinement  de   Mappings   18  juin  2010   Valenciennes   25  
  26. 26. Raffinement  de  Mappings:   Valida(on     Ques(on:     Est-­‐ce  qu’on  peut  améliorer  la  qualité  des  mappings   candidats  iniDaux  par  raffinement,  et,  si  c’est  le  cas,  à  quel   prix,  à  savoir,  combien  de  retours  uDlisateur  sont  requis?         Expérience:  Pour  répondre  à  la  ques(on  ci-­‐dessus,  nous  avons   appliqué  le  processus  suivant  pour  de  mul(ples  itéra(ons.   1) Générer  un  échan(llon  de  retours  u(lisateur   2) Annoter  l'ensemble  des  mappings  candidats.   3) Raffiner  les  mappings  candidats.   18  juin  2010   Valenciennes   26  
  27. 27. Raffinement  de  Mappings:  Valida(on  (cont.)   18  juin  2010   Valenciennes   27  
  28. 28. Conclusions     Annota(on  incrémentale  de  Mappings     Nous  avons  montré  comment  les  mappings  peuvent  être  annoter   progressivement  en  fonc(on  des  retours  u(lisateurs.     Nous  avons  également  montré  à  travers  un  exercice  d'évalua(on  que  plus   de  retours  u(lisateur  nous  avons,  meilleur  est  la  qualité  des  annota(ons   calculées.       Applica(on:  Sélec(on  et  Raffinement  des  mappings     Les  annota(ons  calculées  sont  u(lisées  comme  entrée  pour  permemre  la   sélec(on  et  le  raffinement  de  mappings.     Les  exercices  d'évalua(on  ont  également  montré  que  le  raffinement   mappings  est  plus  rentable  (cost-­‐effec(ve)  dans  les  itéra(ons  premiers.   18  juin  2010   Valenciennes   28  
  29. 29. Travaux  en  Cours     Propaga(on  de  retour  u(lisateur  et  des  annota(ons.     Retours  u(lisateur  inconsistant.   18  juin  2010   Valenciennes   29  
  30. 30. Intégra(on  Incrémentale  de  Données   Basée  sur  les  Retours  U(lisateur   Khalid Belhajjame Université de Manchester Royaume Uni 18  juin  2010   Valenciennes   30  

×