Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données", Yann Nicolas, Abes, chef du département "Études et Projets, dans le cadre des Journées Abes 2011
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données", Yann Nicolas, Abes, chef du département "Études et Projets, dans le cadre des Journées Abes 2011
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"
1.
Sudoc, Calames, theses.fr
et le Web de données
Atelier JABES2011
2.
Vers le Web de données
Application Lancement Format RDF Données à jour Richesse des liens
Calames 2008 RDFa Oui +
theses.fr 2010 RDFa + RDF/XML
2011
Oui +
IdRef 2010 RDF/XML + RDFa
2011
Oui ++
Sudoc 2011 RDF/XML
2011
Oui +++
4.
Objectifs de l’atelier
• Faire un bilan d’étape
• Montrer les données
• Justifier certains choix
• Expliquer comment ça marche
• Manipuler quelques outils simples
• Esquisser la suite du travail à mener
– Nous
– Vous
8.
about
• En RDF, il faut expliciter de quoi on parle en
l’identifiant par une URL :
http://www.sudoc.fr/013041932/id
• http://www.sudoc.fr/013041932/id est l’identifiant
du document décrit
• http://www.sudoc.fr/013041932/id est décrit à cette
page-là http://www.sudoc.fr/013041932
9.
triplets
• En RDF, tout est décomposé en triplets
• Chaque triplet est indépendant
• Chaque triplet pourrait être stocké séparément
Pas de notice finie
Une autre source peut la compléter, si elle parle de la même
chose : http://www.sudoc.fr/013041932/id
Interopérabilité. Extensibilité.
10.
Identifier la langue avec le référentiel Lexvo
11.
Mettre en relation un document et
une langue
• La langue n’est pas un code (‘fre’)
• La langue est une entité à part entière
– Avec son propre identifiant
http://lexvo.org/id/iso639-3/fra
– et ses propres propriétés
• La propriété dcterms:language met en relation
deux entités
12.
http://www.lexvo.org/id/iso639-3/fra décrite en
HTML
13.
http://www.lexvo.org/id/iso639-3/fra
décrite en RDF
14.
De fil en aiguille
• La description de la langue poursuit la
description du document Sudoc
• Où s’arrêter ?
• C’est sans fin
• C’est le Web de données
16.
IdRef,
fournisseur d’identifiants et de référentiels
• www.idref.fr = application Web ouverte
– Ouverte sur le Web de données
– Ouverte à d’autres applications IST (France)
• Par son Web Service de recherche
• Par ses fonctions d’intégration (Javascript)
• Différents moyens/services pour récupérer et
exploiter les identifiants et les données des
autorités Sudoc ABES.
18.
Autorités
Sudoc
Les autorités Sudoc,
pivot du Linked data ABES
theses.fr
Calames
Sudoc
Thèses soutenues
et
Thèses en cours (2011)
19.
RDFa de Calames
• Pas de page RDF/XML
• Le RDF est caché dans le HTML de
http://www.calames.abes.fr/pub/ms/Calames-2010914119419211
Pour révéler le RDF caché ,
utiliser un outil comme
20.
RDFa de Calames
http://www.calames.abes.fr/pub/ms/Calames-2010914119419211
21.
RDFa de theses.fr
• Pas encore de page RDF/XML
• Le RDF est caché dans le HTML de
http://www.theses.fr/2009TOUR3802
Pour révéler le RDF caché ,
utiliser un outil comme
22.
Les thèses
portant sur les correspondants de Goethe
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
PREFIX dc: <http://purl.org/dc/elements/1.1/>
PREFIX ead: <info:ms#>
PREFIX tef: <http://www.abes.fr/abes/documents/tef/>
SELECT ?these
{
?ms dc:creator <http://www.abes.fr/su/res/026895528>.
?ms ead:destinataire ?destinataire.
?these a tef:Thesis.
?these dc:subject ?destinataire
}
La requête exploite les données Calames et STAR
24.
Autorités
Sudoc
Linked data IST.fr ?
theses.fr
Calames
Sudoc
Thèses soutenues
et
Thèses en cours ( 2011)
HAL ?
revues.
org ?
Persée ?
Presses
univ. de Y ?
Plateforme
pédagogiq.
?
?
25.
IdRef comme nœud régional
• Positionnement d’IdRef : IST français
• En complémentarité avec d’autres
fournisseurs d’identifiants et de référentiels :
– Local : identifiants propres à une application, à un
annuaire
– Régional : BnF, auteurs HAL, CERL, DAI (NL)
– Global : VIAF, DBpedia
26.
Autorités
Sudoc
theses.fr
Calames
Sudoc
HAL ?
revues.
org ?
Persée ?
Presses
univ. de Y ?
Plateforme
pédagogiq.
?
Autorités
BnF
DBpedia
VIAF
27.
Lier les données de l’IST entre elles, au-delà d’IdRef
28.
Autorités
Sudoc
Linked data IST.fr ? Les labos !
theses.fr
Calames
Sudoc
HAL
revues.
org
Persée
Presses
univ. de Y
Plateforme
pédagogiqu
e X
?
Référentiel
des
laboratoires
29.
Autorités
Sudoc
Linked data IST.fr ? Les affiliations
theses.fr
Calames
Sudoc
HAL
revues.
org
Persée
Presses
univ.s de Y
Plateforme
pédagogiqu
e X
PRISMES
(AMUE)
locaux
Référentiel
des
laboratoires
33.
IdRef et Rameau
• Identifiants IdRef pour Rameau
• A lier aux identifiants canoniques, ceux du
centre national Rameau (BnF) quand ils seront
officiellement publiés.
• MeSH
• Dewey
34.
Préciser le rôle des agents avec les MARC Relators
36.
Qui utilise explicitement marcrel:aut
utilise implicitement dc:contributor
37.
Raisonnement
Le Sudoc dit :
http://www.sudoc.fr/012367206/id marcrel:aut http://www.idref.fr/ 026975262 /id
La Bibliothèque du Congrès dit (ici) :
Marcrel:aut rdfs:subPropertyOf dc:contributor
Un outil de raisonnement pourra en déduire que :
http://www.sudoc.fr/012367206/id dc:contributor http://www.idref.fr/ 026975262 /id
38.
Qui utilise marcrel:aut
peut également tef:auteur,
malgré la redondance apparente
39.
tef:auteur
• Ne semble rien dire de plus que marcrel:aut
• Mais possède une propriété intéressante :
C’est une propriété fonctionnelle
=
Une thèse ne peut avoir qu’un auteur
=
si une thèse a deux auteurs, c’est deux fois le même !
40.
Raisonnement
Quelqu’un dit :
http://www.sudoc.fr/012367206/id tef:auteur http://www.idref.fr/035200898/id
Quelqu’un d’autre dit :
http://www.sudoc.fr/012367206/id tef:auteur http://www.viaf.org/123456789
Une ontologie TEF dit :
http://www.abes.fr/tef/auteur rdf:type owl:ObjectProperty owl:FunctionalProperty
(une thèse ne peut avoir qu’1 auteur, au sens de tef:auteur)
(mais elle peut avoir 2 dc:creator)
Un outil de raisonnement pourra en déduire que :
http://www.idref.fr/035200898/id owl:sameAs http://www.viaf.org/123456789
41.
DÉMO
Fichier (fusion des triplets RDF) :
http://193.52.69.127/xml/rdf/sperber_turtle.txt
Outils de raisonnement :
http://www.ivan-herman.net/Misc/2008/owlrl/
http://inspector.sindice.com
42.
Raisonnement
• RDF, c’est de la logique
• Travaux en cours avec le LIRMM pour ADONIS sur
les données Persée
• Oblige à qualité des données et rigueur de la
modélisation
• Sinon : on génère n’importe quoi !
• Usages :
– Enrichir les données
– Expliciter les données
– Mettre au jour des incohérences
46.
Convertir en RDF
• Aussi indéterminé que « convertir en Excel » !
Quelle modélisation ?
Quels vocabulaires réutiliser ?
Forger son propre vocabulaire ?
Nos données historiques sont-elles éligibles à
ces nouvelles modélisations ?
» cf. notre dc:format et notre dc:publisher
47.
Trois lièvres à la fois
Priorité Objectif Vocabulaires
Parler à la cantonade Interopérabilité générale dc, foaf
Modéliser de manière
exhaustive nos données
métier
Se passer de MARC rda, isbd, frbr
Faire raisonner les données Tirer le maximum des données
Contrôler leur qualité
Aide au catalogage
ad hoc si
nécessaire
48.
La suite
• Enrichir encore les conversions en RDF
• Multiplier si nécessaire les vocabulaires
employés, sans craindre les redondances
• Ajouter des liens internes et externes (IST
française, BnF, OCLC, Dbpedia, Freebase, etc.)
• Encourager les partenaires à diffuser leurs
données en RDF, en s’appuyant sur des
référentiels communs (IdRef)
• Continuer à exploiter ces données en RDF avec le
LIRMM et d’autres
Il semblerait que vous ayez déjà ajouté cette diapositive à .
Créer un clipboard
Vous avez clippé votre première diapositive !
En clippant ainsi les diapos qui vous intéressent, vous pourrez les revoir plus tard. Personnalisez le nom d’un clipboard pour mettre de côté vos diapositives.
Créer un clipboard
Partager ce SlideShare
Vous avez les pubs en horreur?
Obtenez SlideShare sans publicité
Bénéficiez d'un accès à des millions de présentations, documents, e-books, de livres audio, de magazines et bien plus encore, sans la moindre publicité.
Offre spéciale pour les lecteurs de SlideShare
Juste pour vous: Essai GRATUIT de 60 jours dans la plus grande bibliothèque numérique du monde.
La famille SlideShare vient de s'agrandir. Profitez de l'accès à des millions de livres numériques, livres audio, magazines et bien plus encore sur Scribd.
Apparemment, vous utilisez un bloqueur de publicités qui est en cours d'exécution. En ajoutant SlideShare à la liste blanche de votre bloqueur de publicités, vous soutenez notre communauté de créateurs de contenu.
Vous détestez les publicités?
Nous avons mis à jour notre politique de confidentialité.
Nous avons mis à jour notre politique de confidentialité pour nous conformer à l'évolution des réglementations mondiales en matière de confidentialité et pour vous informer de la manière dont nous utilisons vos données de façon limitée.
Vous pouvez consulter les détails ci-dessous. En cliquant sur Accepter, vous acceptez la politique de confidentialité mise à jour.