Le web de données             enssib :: 12 octobre 2012
Plan• Partir de ce qu’on connaît :  – Base de données + Web = web de données• Vertus de RDF• Champs de bataille  – Syntaxe...
Le web de données,              c’est pas quoi ?                      Base              WebDocuments             GED      ...
Le Web, web de documents   Données      Documents   Base de   données                       Hyperlien   Base de   données
http://fyeah-icebergs.tumblr.com/post/1063474140
Un archipel d’icebergs• Les données sont cachées sous les pages HTML  (deep web)• Seules les pages HTML sont liées entre e...
Le web de données liées             Données   Documents             Base de             donnéesLiens entre les            ...
Le web de données liées               Données       Documents               Base de               donnéesLiens entre les  ...
Persée                  Une base de données                                          DOCUMENTS     id                     ...
Sudoc + IdRef                            Une autre                         base de données                                ...
DOCUMENTS                                        #1 Comment lier                                                          ...
COMMENT ARRIVER À ÇA ?
Le nuage du web de données liées
Le nuage du web de données liées
Les données ABES sur le web dedonnées, avec IdRef pour pivot
RDFUN MODÈLE GÉNÉRAL POURDÉCRIRE … N’IMPORTE QUOI
RDF = Graphes                                                                                 « Paul Veyne »              ...
Nommer les relations                                                              « Paul Veyne »                          ...
Nommer les ressources                                                         « Paul Veyne   »                            ...
Des graphes aux triplets                                                               « Paul Veyne   »                   ...
2 bases séparées                                                                    « Paul Veyne   »                      ...
On agrège les 2 bases                                                             « Paul Veyne   »                        ...
2 bases séparées                                                                     « Paul Veyne   »                     ...
2 bases séparées                                                                 « Paul Veyne   »                         ...
On agrège les 2 bases                                                                  « Paul Veyne   »         owl:sameAs...
Paul Veyne dans le RDF de VIAF                                     http://viaf.org/viaf/108250528/rdf.xml  http://viaf.org...
On ajoute un peu de sémantique                       rda:subject                                          http://id.loc.go...
On en déduit que…                        rda:subject                                          http://id.loc.gov/au     sko...
Aujourd’hui                     Fonds                               Calames               Livre              Sudoc        ...
Demain                     Fonds                          Calames          Livre         Sudoc                            ...
+ articles, éditions                                                                           scientifiques,  Après-demai...
VERTUS
Vertu                                  EffetRDF offre un modèle universel   Inutile de chercher le format  qui permet d’ex...
Vertu                                EffetRDF n’impose pas de schéma    Devons-nous utiliser RDA,  unique. On peut mixer l...
Vertu                           EffetRDF rend les données   La notice d’autorité n’a pas  extensibles.             besoin ...
DOCUMENTSid                   auteur             titredoi :10.3406/mefr.   auteur_mefr_1904   Retractatio1959.7458        ...
id                      auteur             type                       id                  titre            type   doi :10....
Vertu                                 EffetRDF permet de raisonner sur    Dans le projet SudocAD, on a  les données, pour ...
Vertu                             EffetRDF a son propre langage   SPARQL permet d’interroger  d’interrogation des        l...
Les données<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dc:title « Retractatio ».<http://dx.doi.org/doi:10.3406/mefr.195...
Vertu                              EffetRDF, c’est pas réservé aux   Les bibliothèques peuvent  bibliothécaires           ...
CHAMPS DE BATAILLE
Quelle(s) syntaxe(s) RDF ?Différentes syntaxes possibles   Ce qui compte• RDF en XML                     • C’est le modèle...
Quel(s) vocabulaire(s) RDF ?Différentes manières de dire lamême chose                        Questions ?• dc:title        ...
Quel(s) vocabulaire(s) RDF dans quelle  syntaxe ? Un compromis possibleCôté cour                         Côté jardin• Util...
Workflows.          Du RDF à tous les étages ?RDF pas partout                 Questions• Ouverture des données OK      • R...
Les grossistes du RDFActeurs•   Moteurs de recherche généralistes    • La publication des     – Google (dont Freebase)    ...
En savoir plus• Infos : http://punktokomo.abes.fr/tag/semantique-web/• Outil : inspector.sindice.com• Tutos : http://web-s...
web de données / bib
Prochain SlideShare
Chargement dans…5
×

web de données / bib

1 241 vues

Publié le

Intervention de 90' dans le cadre d'un stage enssib sur l'avenir des catalogues de bibliothèque

Publié dans : Formation

web de données / bib

  1. 1. Le web de données enssib :: 12 octobre 2012
  2. 2. Plan• Partir de ce qu’on connaît : – Base de données + Web = web de données• Vertus de RDF• Champs de bataille – Syntaxes – Vocabulaires – Workflows – Agrégateurs
  3. 3. Le web de données, c’est pas quoi ? Base WebDocuments GED Le Web = Web de documents Données Base de données Web de données
  4. 4. Le Web, web de documents Données Documents Base de données Hyperlien Base de données
  5. 5. http://fyeah-icebergs.tumblr.com/post/1063474140
  6. 6. Un archipel d’icebergs• Les données sont cachées sous les pages HTML (deep web)• Seules les pages HTML sont liées entre elles• Les pages HTML sont faites pour les humains• Ce que veulent les machines, ce sont des données • et des données liées – car elles se complètent les unes les autres – car les liens permettent de naviguer et de découvrir • Et des liens qualifiés, signifiants – au-delà du « voir aussi » des hyperliens
  7. 7. Le web de données liées Données Documents Base de donnéesLiens entre les Hyperlienbases de données Base de données
  8. 8. Le web de données liées Données Documents Base de donnéesLiens entre les Hyperlienbases de données Base de données
  9. 9. Persée Une base de données DOCUMENTS id auteur titre doi :10.3406/mefr.1959.7458 auteur_mefr_1904 RetractatioLien interne à la base AUTEURS id nom auteur_mefr_1904 Paul Veyne
  10. 10. Sudoc + IdRef Une autre base de données LIVRES id z7XX titrepropre editeur 068391307 027182800 Le Pain et le cirque Le SeuilLien interne à la base PERSONNES id nom personnetype 027182800 Veyne, Paul (1930-…. 0
  11. 11. DOCUMENTS #1 Comment lier la donnée d’une baseid auteur titre à la donnée de l’autre base ?doi :10.3406/mefr. auteur_mefr_1904 Retractatio1959.7458 #2 Comment lier deux bases AUTEURS qui n’ont pas le même schémaid nom #3 Comment qualifierauteur_mefr_1904 Paul Veyne la nature de ce lien ? #4 Comment faire tout ça sur le Web, en surface ? LIVRES id z7XX titrepropre editeur 068391307 027182800 Le Pain et le Le Seuil cirque PERSONNES est la même id nom personnetype entité que 027182800 Veyne, Paul (1930-…. 0
  12. 12. COMMENT ARRIVER À ÇA ?
  13. 13. Le nuage du web de données liées
  14. 14. Le nuage du web de données liées
  15. 15. Les données ABES sur le web dedonnées, avec IdRef pour pivot
  16. 16. RDFUN MODÈLE GÉNÉRAL POURDÉCRIRE … N’IMPORTE QUOI
  17. 17. RDF = Graphes « Paul Veyne » auteur_mefr_1904 doi:10.3406/ mefr.1959.7458 « Retractatio »En RDF, • une ressource (qch) est en relation avec a telle relation avec • soit une autre ressource qch qch • soit un mot qch a telle relation avec « mot »
  18. 18. Nommer les relations « Paul Veyne » auteur_mefr_1904 doi:10.3406/ mefr.1959.7458 « Retractatio »Les relations (prédicats) ont un nom précis.Ce nom est une URL. ex : dc:title = http://purl.org/dc/elements/1.1/title rda:title | abes:title | isbd:title
  19. 19. Nommer les ressources « Paul Veyne » http://www.per see.fr/auteur_m efr_1904/id http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 « Retractatio »Les entités (ressources) ont un nom précis.Ce nom est une URL. ex : http://dx.doi.org/doi:10.3406/mefr.1959.7458 ex : http://www.sudoc.fr/092673007/id
  20. 20. Des graphes aux triplets « Paul Veyne » http://www.per see.fr/auteur_m efr_1904/id http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 « Retractatio » Ecrire ce graphe<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dc:title « Retractatio ».<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dcterms:creator <http://www.persee.fr/auteur_mefr_1904/id>.< http://www.persee.fr/auteur_mefr_1904/id > foaf:name « Paul Veyne ». Triplets RDF
  21. 21. 2 bases séparées « Paul Veyne » http://www.per see.fr/auteur_m efr_1904/id http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 « Retractatio » http://dx.doi.org/ truc:subject http://id.loc.gov/au skos:prefLabel doi:10.3406/ thorities/subjects/s « Credit » mefr.1959.7458 h85033856Deux sites en RDF peuvent parler de la même chose – explicitement ici (même nom (URL)).
  22. 22. On agrège les 2 bases « Paul Veyne » http://www.per see.fr/auteur_me fr_1904/id http://dx.doi.org/ « Retractatio » doi:10.3406/ mefr.1959.7458 http://id.loc.gov/au skos:prefLabel thorities/subjects/s « Credit » h85033856L’agrégation des données est immédiateDeux sites en RDF peuvent parler de la même chose.Mais pas forcément de la même manière (pas de schéma ou de vocabulaire unique)
  23. 23. 2 bases séparées « Paul Veyne » http://www.per see.fr/auteur_m efr_1904/id http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 « Retractatio » truc:subject http://id.loc.gov/au skos:prefLabel http://www.truc. « Credit » thorities/subjects/s co.nz/wyz123 h85033856Deux sites en RDF peuvent parler de la même chose – implicitement ici (deux noms différents !) Problème pour les agréger
  24. 24. 2 bases séparées « Paul Veyne » http://www.per see.fr/auteur_m efr_1904/id http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 « Retractatio » truc:subject http://id.loc.gov/au skos:prefLabel http://www.truc. « Credit » thorities/subjects/s co.nz/wyz123 h85033856 http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 Dire explicitement qu’il s’agit de la même entité avec owl:sameAs
  25. 25. On agrège les 2 bases « Paul Veyne » owl:sameAs http://www.per see.fr/auteur_me fr_1904/id http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 « Retractatio » http://id.loc.gov/au skos:prefLabel http://www.truc. « Credit » thorities/subjects/s co.nz/wyz123 truc:subject h85033856 owl:sameAsGrâce à owl:sameAS, la fusion est totale : tout ce qu’on dit de l’un est aussi vrai de l’autre
  26. 26. Paul Veyne dans le RDF de VIAF http://viaf.org/viaf/108250528/rdf.xml http://viaf.org /viaf/108250528 Le Veyne owl:sameAs de VIAF et le Veyne d’IdRef ne font qu’unhttp://www.idref.fr /027182800/id
  27. 27. On ajoute un peu de sémantique rda:subject http://id.loc.gov/au skos:prefLabel http://www.truc. « Credit » thorities/subjects/s co.nz/wyz123 h85033856 rdfs:subPropertyOf Schémas RDF rda:subject dcterms:subject OntologiesLe schéma RDF ajoute des informations sur le vocabulaire utilisé (propriétés des propriétés etdes classes)Ce qui permet de faire du raisonnement 
  28. 28. On en déduit que… rda:subject http://id.loc.gov/au skos:prefLabel http://www.truc. « Credit » thorities/subjects/s co.nz/wyz123 h85033856 rdfs:subPropertyOf Schémas RDF rda:subject dcterms:subject Ontologies http://www.truc. dcterms:subject http://id.loc.gov/au co.nz/wyz123 thorities/subjects/s Triplets déduits h85033856Le raisonnement permet d’ajouter des informations (triplets).En l’occurrence, il permet d’exprimer automatiquement en Dublin Core un triplet qui utilisaitun vocabulaire truc non standard
  29. 29. Aujourd’hui Fonds Calames Livre Sudoc Auteur IdRef Thèse theses.fr owl:sameAs Auteur VIAF Auteur BnF owl:sameAs Auteur Auteur ISNI Wikipedia
  30. 30. Demain Fonds Calames Livre Sudoc Auteur IdRef Thèse theses.fr owl:sameAs Auteur VIAF Auteur BnF Auteur Auteur ISNI Wikipedia
  31. 31. + articles, éditions scientifiques, Après-demain peut-être ? Fonds numérisation, etc. Calames Livre Worldcat Livre Sudoc cite Auteur IdRef Données Thèse brutes theses.fr a pour owl:sameAs+ brevets,projets ANR, dérivéetc. Auteur HAL CCSD Auteur VIAF Article HAL CCSD Auteur BnF owl:sameAs + CrossRef, revues, indicateurs d’usage, etc. Auteur Auteur ISNI Wikipedia
  32. 32. VERTUS
  33. 33. Vertu EffetRDF offre un modèle universel Inutile de chercher le format qui permet d’exprimer toute miracle qui marchera pour donnée, quelle que soit la le MARC du Sudoc et norme de description. d’IdRef, le TEF deCela rend bien plus facile STAR, l’EAD de l’agrégation de données Calames, l’ONIX de tel diverses éditeur, le A++ de Springer (Lic. Nat.), le Bloubiboulga de tel autre, etc. #abes #hubdedonnées
  34. 34. Vertu EffetRDF n’impose pas de schéma Devons-nous utiliser RDA, unique. On peut mixer les Dublin Core ou un vocabulaires vocabulaire bibliographique à nous ? On peut faire les trois. On peut aussi utiliser un vocabulaire dont le schéma explicite ses relations avec un vocabulaire standard (cf. truc:subject et dcterms:subject) #ouverturedesdonnées #hubdedonnées
  35. 35. Vertu EffetRDF rend les données La notice d’autorité n’a pas extensibles. besoin de tout stocker sur une personne. Il vaut mieux en dire le strict nécessaire et faire des liens vers d’autres sources (ex : dictionnaires biographiques … en RDF) Idem pour les données bibliographiques (prix, recensions, influences, etc.) #idref #ist #wikipedia #webofdata
  36. 36. DOCUMENTSid auteur titredoi :10.3406/mefr. auteur_mefr_1904 Retractatio1959.7458 AUTEURSid nomauteur_mefr_1904 Paul Veyne LIVRES id z7XX titrepropre editeur 068391307 027182800 Le Pain et le Le Seuil cirque PERSONNES est la même id nom personnetype entité que 027182800 Veyne, Paul (1930-…. 0
  37. 37. id auteur type id titre type doi :10.3406/mefr. auteur_mefr_1904 Document doi :10.3406/mef Retractatio Document 1959.7458 r.1959.7458 2 2 id nom type id sameAs auteur_mefr_1904 Paul Veyne Personne 2 auteur_mefr_1904 027182800 1 On éclate nos bases ! Tel ID désigne la même entité que tel autre ID A la limite, 1 base = 1 triplet068391307 titrepropre «Le Pain et le cirque» id S’applique à id titrepropre z7XX Personne 068391307 Le Pain et le cirque 1 1 La relation z7XX porte toujours id editeur id type sur des entités de type Personne. 068391307 Le Seuil 068391307 Livre 1 1 Donc, on peut en conclure que 027182800 est de type Personne. id z7XX id nom 068391307 027182800 027182800 Veyne, Paul (1930-…. [Pas la peine de le dire, 1 1 on le déduit (Raisonnement)]
  38. 38. Vertu EffetRDF permet de raisonner sur Dans le projet SudocAD, on a les données, pour les essayé de déduire quelle enrichir ou contrôler leur est la bonne autorité à lier à cohérence une notice bibliographique. #hubdedonnées #sudocad #qualinca
  39. 39. Vertu EffetRDF a son propre langage SPARQL permet d’interroger d’interrogation des les données telles qu’on les données : SPARQL a modélisées – et non l’inverse : modéliser de telle manière pour pouvoir interroger ceci ou cela #marché #niche #ouvrezlesfenêtres
  40. 40. Les données<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dc:title « Retractatio ».<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dcterms:creator <http://www.persee.fr/auteur904/id>.< http://www.persee.fr/auteur904/id > foaf:name « Paul Veyne ». La requêteSELECT ?truc {?truc dc:title « Retractatio ».?truc dcterms:creator ?bidule.? bidule foaf:name « Paul Veyne ».} La réponse<http://dx.doi.org/doi:10.3406/mefr.1959.7458>
  41. 41. Vertu EffetRDF, c’est pas réservé aux Les bibliothèques peuvent bibliothécaires accéder à un marché générique : – Logiciels – Services – Ressources humaines – Formations – Consultants #marché #niche #ouvrezlesfenêtres
  42. 42. CHAMPS DE BATAILLE
  43. 43. Quelle(s) syntaxe(s) RDF ?Différentes syntaxes possibles Ce qui compte• RDF en XML • C’est le modèle (spo) et le• RDF Ntriples contenu (tel vocabulaire…)• RDF N3• RDF Turtle • RDF dans la page web ou• RDFa dans une autre page ?• Microdata • Ou dans les deux ? – Et alors, même contenu ou variantes ?• Excel-RDF ;) #rdf #syntaxe #rdf #rdfa #microdata
  44. 44. Quel(s) vocabulaire(s) RDF ?Différentes manières de dire lamême chose Questions ?• dc:title • Utiliser un vocabulaire pro• rda:title spécialisé (RDA, FRBRoo) ou un vocabulaire « grand – rda:titleProper public (schema.org,• schema:name Facebook Open Graph) ?• og:title • Les deux (redondance, un• Etc. peu, bcp…) • En principe, un outil de raisonnement peut passer d’un vocabulaire à l’autre, mais dans les faits… #rdf #vocabulaires
  45. 45. Quel(s) vocabulaire(s) RDF dans quelle syntaxe ? Un compromis possibleCôté cour Côté jardin• Utiliser un vocabulaire • Utiliser les vocabulaires pro grand public dans le RDF dans des pages dédiées aux des pages HTML (RDFa) métadonnées (RDF/XML, – Notamment pour les moteurs NTriples…) de recherche comme Google ou Yahoo #rdf #vocabulaires
  46. 46. Workflows. Du RDF à tous les étages ?RDF pas partout Questions• Ouverture des données OK • RDF juste pour l’extérieur ?• Stockage des données ? • Technologies assez mures et• Manipulation des données ? performantes pour• Edition des données par un stockage, manipulation et utilisateur professionnel ? recherche à grande échelle ? • L’utilisateur professionnel doit-il comprendre RDF ? Jusqu’où ? #rdf #technologies #formation
  47. 47. Les grossistes du RDFActeurs• Moteurs de recherche généralistes • La publication des – Google (dont Freebase) métadonnées RDF peut et doit – Yahoo être décentralisée (sources de• Moteurs de recherche RDF référence) généralistes – Sindice • Mais il faut bien agréger pour – FactForge – Recherche intégrée• Moteur de recherche RDF – Enrichissement spécialisé • Garder les données ouvertes – Isidore – Quelles conditions juridiques ?• Hébergeur de données et de – Métadonnées de provenance services – Kasabi • Gérer les doublons de triplets – Sindice – Provenance, confiance… – Freebase – Et autre data marketplaces cf #rdf #opendata #centralisation #web
  48. 48. En savoir plus• Infos : http://punktokomo.abes.fr/tag/semantique-web/• Outil : inspector.sindice.com• Tutos : http://web-semantique.developpez.com/tutoriels/

×