Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Chargement dans…3
×

Consultez-les par la suite

1 sur 56 Publicité

Plus De Contenu Connexe

Similaire à Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données" (20)

Plus par ABES (20)

Publicité

Plus récents (20)

Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"

  1. 1. Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011
  2. 2. Vers le Web de données Application Lancement Format RDF Données à jour Richesse des liens Calames 2008 RDFa Oui + theses.fr 2010 RDFa + RDF/XML 2011 Oui + IdRef 2010 RDF/XML + RDFa 2011 Oui ++ Sudoc 2011 RDF/XML 2011 Oui +++
  3. 3. Il faut participer au Web de données [Acquis]
  4. 4. Objectifs de l’atelier • Faire un bilan d’étape • Montrer les données • Justifier certains choix • Expliquer comment ça marche • Manipuler quelques outils simples • Esquisser la suite du travail à mener – Nous – Vous
  5. 5. Partons du connu
  6. 6. S’agit-il de données RDF ou d’une simple notice Dublin Core ?
  7. 7. RDF nu
  8. 8. about • En RDF, il faut expliciter de quoi on parle en l’identifiant par une URL : http://www.sudoc.fr/013041932/id • http://www.sudoc.fr/013041932/id est l’identifiant du document décrit • http://www.sudoc.fr/013041932/id est décrit à cette page-là http://www.sudoc.fr/013041932
  9. 9. triplets • En RDF, tout est décomposé en triplets • Chaque triplet est indépendant • Chaque triplet pourrait être stocké séparément  Pas de notice finie  Une autre source peut la compléter, si elle parle de la même chose : http://www.sudoc.fr/013041932/id  Interopérabilité. Extensibilité.
  10. 10. Identifier la langue avec le référentiel Lexvo
  11. 11. Mettre en relation un document et une langue • La langue n’est pas un code (‘fre’) • La langue est une entité à part entière – Avec son propre identifiant http://lexvo.org/id/iso639-3/fra – et ses propres propriétés • La propriété dcterms:language met en relation deux entités
  12. 12. http://www.lexvo.org/id/iso639-3/fra décrite en HTML
  13. 13. http://www.lexvo.org/id/iso639-3/fra décrite en RDF
  14. 14. De fil en aiguille • La description de la langue poursuit la description du document Sudoc • Où s’arrêter ? • C’est sans fin • C’est le Web de données
  15. 15. Identifier les personnes avec IdRef
  16. 16. IdRef, fournisseur d’identifiants et de référentiels • www.idref.fr = application Web ouverte – Ouverte sur le Web de données – Ouverte à d’autres applications IST (France) • Par son Web Service de recherche • Par ses fonctions d’intégration (Javascript) • Différents moyens/services pour récupérer et exploiter les identifiants et les données des autorités Sudoc ABES.
  17. 17. IDREF Autorités Sudoc Sudoc et IdRef Sudoc
  18. 18. Autorités Sudoc Les autorités Sudoc, pivot du Linked data ABES theses.fr Calames Sudoc Thèses soutenues et Thèses en cours (2011)
  19. 19. RDFa de Calames • Pas de page RDF/XML • Le RDF est caché dans le HTML de http://www.calames.abes.fr/pub/ms/Calames-2010914119419211 Pour révéler le RDF caché , utiliser un outil comme
  20. 20. RDFa de Calames http://www.calames.abes.fr/pub/ms/Calames-2010914119419211
  21. 21. RDFa de theses.fr • Pas encore de page RDF/XML • Le RDF est caché dans le HTML de http://www.theses.fr/2009TOUR3802 Pour révéler le RDF caché , utiliser un outil comme
  22. 22. Les thèses portant sur les correspondants de Goethe PREFIX foaf: <http://xmlns.com/foaf/0.1/> PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX ead: <info:ms#> PREFIX tef: <http://www.abes.fr/abes/documents/tef/> SELECT ?these { ?ms dc:creator <http://www.abes.fr/su/res/026895528>. ?ms ead:destinataire ?destinataire. ?these a tef:Thesis. ?these dc:subject ?destinataire } La requête exploite les données Calames et STAR
  23. 23. Lier les données à IdRef, au-delà de l’ABES
  24. 24. Autorités Sudoc Linked data IST.fr ? theses.fr Calames Sudoc Thèses soutenues et Thèses en cours ( 2011) HAL ? revues. org ? Persée ? Presses univ. de Y ? Plateforme pédagogiq. ? ?
  25. 25. IdRef comme nœud régional • Positionnement d’IdRef : IST français • En complémentarité avec d’autres fournisseurs d’identifiants et de référentiels : – Local : identifiants propres à une application, à un annuaire – Régional : BnF, auteurs HAL, CERL, DAI (NL) – Global : VIAF, DBpedia
  26. 26. Autorités Sudoc theses.fr Calames Sudoc HAL ? revues. org ? Persée ? Presses univ. de Y ? Plateforme pédagogiq. ? Autorités BnF DBpedia VIAF
  27. 27. Lier les données de l’IST entre elles, au-delà d’IdRef
  28. 28. Autorités Sudoc Linked data IST.fr ? Les labos ! theses.fr Calames Sudoc HAL revues. org Persée Presses univ. de Y Plateforme pédagogiqu e X ? Référentiel des laboratoires
  29. 29. Autorités Sudoc Linked data IST.fr ? Les affiliations theses.fr Calames Sudoc HAL revues. org Persée Presses univ.s de Y Plateforme pédagogiqu e X PRISMES (AMUE) locaux Référentiel des laboratoires
  30. 30. On parle de la même chose • owl:sameAs
  31. 31. Identifier et nommer les personnes avec IdRef
  32. 32. Identifier les concepts avec IdRef et RAMEAU
  33. 33. IdRef et Rameau • Identifiants IdRef pour Rameau • A lier aux identifiants canoniques, ceux du centre national Rameau (BnF) quand ils seront officiellement publiés. • MeSH • Dewey
  34. 34. Préciser le rôle des agents avec les MARC Relators
  35. 35. L’embarras du choix ? • dcterms:creator • dcterms:contributor • marcrel:aut • rda:authorWork • tef:auteur ?
  36. 36. Qui utilise explicitement marcrel:aut utilise implicitement dc:contributor
  37. 37. Raisonnement Le Sudoc dit : http://www.sudoc.fr/012367206/id marcrel:aut http://www.idref.fr/ 026975262 /id La Bibliothèque du Congrès dit (ici) : Marcrel:aut rdfs:subPropertyOf dc:contributor Un outil de raisonnement pourra en déduire que : http://www.sudoc.fr/012367206/id dc:contributor http://www.idref.fr/ 026975262 /id
  38. 38. Qui utilise marcrel:aut peut également tef:auteur, malgré la redondance apparente
  39. 39. tef:auteur • Ne semble rien dire de plus que marcrel:aut • Mais possède une propriété intéressante : C’est une propriété fonctionnelle = Une thèse ne peut avoir qu’un auteur = si une thèse a deux auteurs, c’est deux fois le même !
  40. 40. Raisonnement Quelqu’un dit : http://www.sudoc.fr/012367206/id tef:auteur http://www.idref.fr/035200898/id Quelqu’un d’autre dit : http://www.sudoc.fr/012367206/id tef:auteur http://www.viaf.org/123456789 Une ontologie TEF dit : http://www.abes.fr/tef/auteur rdf:type owl:ObjectProperty owl:FunctionalProperty (une thèse ne peut avoir qu’1 auteur, au sens de tef:auteur) (mais elle peut avoir 2 dc:creator) Un outil de raisonnement pourra en déduire que : http://www.idref.fr/035200898/id owl:sameAs http://www.viaf.org/123456789
  41. 41. DÉMO Fichier (fusion des triplets RDF) : http://193.52.69.127/xml/rdf/sperber_turtle.txt Outils de raisonnement : http://www.ivan-herman.net/Misc/2008/owlrl/ http://inspector.sindice.com
  42. 42. Raisonnement • RDF, c’est de la logique • Travaux en cours avec le LIRMM pour ADONIS sur les données Persée • Oblige à qualité des données et rigueur de la modélisation • Sinon : on génère n’importe quoi ! • Usages : – Enrichir les données – Expliciter les données – Mettre au jour des incohérences
  43. 43. Page RDF complète
  44. 44. Une pincée de RDA et de FRBR
  45. 45. CONCLUSION
  46. 46. Convertir en RDF • Aussi indéterminé que « convertir en Excel » ! Quelle modélisation ? Quels vocabulaires réutiliser ? Forger son propre vocabulaire ? Nos données historiques sont-elles éligibles à ces nouvelles modélisations ? » cf. notre dc:format et notre dc:publisher
  47. 47. Trois lièvres à la fois Priorité Objectif Vocabulaires Parler à la cantonade Interopérabilité générale dc, foaf Modéliser de manière exhaustive nos données métier Se passer de MARC rda, isbd, frbr Faire raisonner les données Tirer le maximum des données Contrôler leur qualité Aide au catalogage ad hoc si nécessaire
  48. 48. La suite • Enrichir encore les conversions en RDF • Multiplier si nécessaire les vocabulaires employés, sans craindre les redondances • Ajouter des liens internes et externes (IST française, BnF, OCLC, Dbpedia, Freebase, etc.) • Encourager les partenaires à diffuser leurs données en RDF, en s’appuyant sur des référentiels communs (IdRef) • Continuer à exploiter ces données en RDF avec le LIRMM et d’autres

×