Du web sémantique 
à tous les étages ? 
Yann Nicolas – Michael Jeulin 
ABES 
SemWeb.Pro 2014 
Paris, 5/11/2014
Le Linked Data de l’ABES 
Trois bases de données autour d’un 
référentiel 
Système Universitaire de 
Documentation : 
Cata...
Exposer
L’ABES sur le web de données : 
pourquoi ? 
• Des données liées et structurées 
• pour les moteurs de recherche... 
• pour...
Méthode et principes 
• Une entreprise au long cours 
• Approche progressive, pragmatique et 
empirique 
• Choix de standa...
Les chantiers RDF 
Application Format Année RDF Dump SPARQL ? Qualité LOD 
Calames XML (EAD) 2008 RDFa Non Non 
★ ★ ★ ★ ★ ...
Quels modèles de données ? 
vocabulaires « métiers » 
quand nécessaire : ISBD, 
RDA (Sudoc) 
Proches des formats 
natifs, ...
Interroger les données 
Un Sparql endpoint pour le Sudoc et les 
autorités : on y travaille… 
– Usages : interopérabilité ...
Quel retour sur investissement ? 
• Des exemples encore limités de réutilisations 
(connues) 
– Limités par l’absence d’un...
Gérer 
en interne 
des données hétérogènes 
Le “hub de métadonnées” ABES
un hub de métadonnées 
• Une application 
• Une seule base de données 
• Une approche 
• Terrains d’application : 
• Aujou...
méta-données 
éditeur 
catalogues 
catalogues 
+ 
discovery 
tools 
+ 
… 
+ 
LOD
Principes de conception 
• Modélisation et conversion zéro déchet 
– ne rien perdre des données de départ 
– si nécessaire...
Conclusions avec des ? 
• Résister à la tentation de mettre du semweb partout 
#fétichisme 
• Cas d’usage les plus pertine...
Pour aller plus loin… 
Calames 
• http://calames.wordpress.com/2008/07/22/calames-yahoo-rdf/ 
IdRef 
• http://punktokomo.a...
Du web sémantique à tous les étages
Prochain SlideShare
Chargement dans…5
×

Du web sémantique à tous les étages

663 vues

Publié le

L'ABES a pour métier la gestion des métadonnées bibliographiques de l'enseignement supérieur français. Soit elle les récupère auprès de fournisseurs (autres catalogues, éditeurs), soit elle coordonne leur production par le réseau des bibliothèques universitaires.

Depuis 2008 et surtout 2010, l'ABES mise sur le web sémantique. Comme d'autres, elle a d'abord décidé de partager et de lier ses métadonnées sur le web de données. Cela concerne tous ses catalogues : le catalogue général Sudoc, le catalogue des archives et des manuscrits Calames, le catalogue theses.fr et sa base-référentiel de personnes, collectivités, concepts... IdRef. Ce travail d'ouverture est toujours en cours, car le principal format natif à traduire en RDF, appelé MARC, est très riche, et même touffu. Pour l'instant, l'exposition en RDF se fait à la volée, à partir d'une base XML qui stocke du MARC en XML. Passer à un triplestore semble tentant, mais on résiste... tout en cherchant une solution pour devenir interrogeable en SPARQL.

A partir de 2013, l'ABES a commencé à utiliser RDF comme pivot pour agréger et traiter des métadonnées fournies par des des tiers sous des formes très variées. Il s'agit donc de commencer à travailler en RDF, et plus seulement de l'utiliser en sortie.

Aujourd'hui, on commence à réfléchir à l'avenir des outils de production de métadonnées du réseau Sudoc. Là encore, faut-il aller vers du RDF natif ? Tout en retraçant ce cheminement qui touche tous les aspects de nos expertises et applications métier, nous tenterons d'expliciter les contraintes et les principes directeurs qui déterminent nos actions et nos interrogations.

Publié dans : Logiciels
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
663
Sur SlideShare
0
Issues des intégrations
0
Intégrations
3
Actions
Partages
0
Téléchargements
7
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Du web sémantique à tous les étages

  1. 1. Du web sémantique à tous les étages ? Yann Nicolas – Michael Jeulin ABES SemWeb.Pro 2014 Paris, 5/11/2014
  2. 2. Le Linked Data de l’ABES Trois bases de données autour d’un référentiel Système Universitaire de Documentation : Catalogue collectif de l’ enseignement supérieur Theses.fr : portail des thèses de doctorat soutenues et en préparation en France (applications STAR et STEP) IdRef : référentiel d’ autorités pour le Sudoc, Theses.fr et Calames Calames : catalogue des archives et manuscrits de l’enseignement supérieur
  3. 3. Exposer
  4. 4. L’ABES sur le web de données : pourquoi ? • Des données liées et structurées • pour les moteurs de recherche... • pour faciliter leur export et leur réutilisation • Ouverture et mutualisation des données : une tradition dans les bibliothèques ISBD, MARC, catalogage partagé, Z39-50… • Nouvelle étape : on ouvre plus, et à tout le monde OAI, webservices... et RDF
  5. 5. Méthode et principes • Une entreprise au long cours • Approche progressive, pragmatique et empirique • Choix de standards du web XML EAD, MARC/XML, TEF XSLT RDFa RDF/XML Pas de triplestore URL + sitemaps schema.org Conversion à la volée = pas de base RDF
  6. 6. Les chantiers RDF Application Format Année RDF Dump SPARQL ? Qualité LOD Calames XML (EAD) 2008 RDFa Non Non ★ ★ ★ ★ ★ IdRef MARC 2010 RDF/XML Oui (mais pas public) Non ★ ★ ★ ★ ★ Sudoc MARC 2011 RDF/XML + schema.org Oui (mais pas public) Non (en cours) ★ ★ ★ ★ ★ www.theses. fr XML (TEF) 2011 RDFa+RDF/XML Non Non ★ ★ ★ ★ ★ Linked open data : ★ non filtrées (presque) ★ ★ Structurées ★ ★ ★ Librement exploitables ★ ★ ★ ★ Identifiées (URL) ★ ★ ★ ★ ★ Données liées
  7. 7. Quels modèles de données ? vocabulaires « métiers » quand nécessaire : ISBD, RDA (Sudoc) Proches des formats natifs, mais mal adaptés au web de données… Vocabulaires déjà publiés et répandus : Dublin Core, Bibo, FOAF, bio, etc = Diffusion plus large, mais mal adapté aux données natives Vocabulaire ad hoc ? Et jusqu’où raffiner ?
  8. 8. Interroger les données Un Sparql endpoint pour le Sudoc et les autorités : on y travaille… – Usages : interopérabilité Sudoc/Hub, BnF… – Exigences : fraîcheur et exhaustivité – L’écueil : la volumétrie Sudoc + IdRef = près d’un milliard de triplets – Des alternatives au triplestore ? Exemple: D2RQ (en test) Oracle (SQL) XSLT Mapping SQL-RDF SPARQL D2RQ ?
  9. 9. Quel retour sur investissement ? • Des exemples encore limités de réutilisations (connues) – Limités par l’absence d’un requêteur – Et de dumps vraiment exploitables • Mais une montée en compétence réinvestie pour des usages internes
  10. 10. Gérer en interne des données hétérogènes Le “hub de métadonnées” ABES
  11. 11. un hub de métadonnées • Une application • Une seule base de données • Une approche • Terrains d’application : • Aujourd’hui : les métadonnées fournies par les éditeurs internationaux dans le cadre du programme ISTEX (achat en masse de littérature scientifique online)
  12. 12. méta-données éditeur catalogues catalogues + discovery tools + … + LOD
  13. 13. Principes de conception • Modélisation et conversion zéro déchet – ne rien perdre des données de départ – si nécessaire, forger classes et propriétés sans complexe • Corriger/Modifier dans la base RDF – pas dans le format natif • Ré-exposer dans le LOD, sans le spammer #demain – Si l’éditeur (ou un tiers) a déjà exposé les données, n’ exposer que nos enrichissements – Mais quid des corrections/contradictions ?
  14. 14. Conclusions avec des ? • Résister à la tentation de mettre du semweb partout #fétichisme • Cas d’usage les plus pertinents : • Ouverture des données • Gestion de données hétérogènes #hub • Conséquences sur les priorités pratiques : • Sparql OK, mais web services simples et efficaces avant • Produire les données en RDF ? • compliqué si données hétérogènes ? • inutile si données homogènes ?
  15. 15. Pour aller plus loin… Calames • http://calames.wordpress.com/2008/07/22/calames-yahoo-rdf/ IdRef • http://punktokomo.abes.fr/2012/05/11/idref-dans-viaf-identifiants/ • http://punktokomo.abes.fr/2011/07/05/idref-des-pages-html-et-rdf-plus-riches/ • http://documentation.abes.fr/aideidref/developpeur/ch03s02.html Thèses • http://documentation.abes.fr/aidethesesfr/accueil/ch03.html • http://punktokomo.abes.fr/2011/07/12/theses-fr-lapi-xml-des-theses/ • http://punktokomo.abes.fr/2011/07/12/theses-fr-lapi-xml-des-personnes/ Sudoc • http://punktokomo.abes.fr/2011/07/04/le-sudoc-sur-le-web-de-donnees/ • http://documentation.abes.fr/sudoc/manuels/administration/sudoc_rdf/ Hub de métadonnées • http://fil.abes.fr/2013/07/15/le-hub-de-metadonnees-rapport-final-et-plan-daction/ • http://fr.slideshare.net/abesweb/jabes14-yann-nicolasfocushub SudocAD/Qualinca • http://punktokomo.abes.fr/2012/02/02/sudocad-resume-du-projet/ • http://www.lirmm.fr/qualinca Exemples de réutilisations externes (présentations Jabes 2014): Julien Sicot, SCD Rennes 2 • http://fr.slideshare.net/abesweb/jabes14-julien-sicotutiliserwebservicesabes-35302040 Yves Tomic, SCD Université Paris Sud • http://fr.slideshare.net/abesweb/jabes14-yves-tomicapipourquoifaire • http://punktokomo.abes.fr/2014/02/18/domybiblio/

×