Support 3 de la journée d'études du 09 déc. 2013 sur l'évolution des catalogues et du catalogage organisée par le CRFCB de Marseille et le sous-groupe formations du groupe technique sur l'adoption de RDA en France.
2. Architecture du Web (1)
• World Wide Web : toile d'araignée de serveurs
d'informations reliés les uns aux autres par des
liens physiques (le réseau matériel) et des liens
logiques (les liens hypertextes)
• Architecture du Web = les standards
définissant l’infrastructure technologique
• Rôle du W3C (World Wide Web Consortium) :
s’occupe de la standardisation de l’architecture
du Web
3. Les objectifs du W3C
• Accessibilité pour les logiciels et machines
–
–
–
–
Interopérabilité et portabilité
Production de contenu Web facilitée
Réduction du volume des pages
Meilleure visibilité et indexationtrès éloigné de
Pas par les moteurs
recherche
des missions des
– Compatibilité
– Pérennité des documents bibliothèques
publiques tout ça !!
• Accessibilité universelle aux contenus
3
4. Architecture du Web (2)
Repose sur 3 technologies :
Un protocole : HTTP (Hypertext Transfer Protocol)
Un langage : HTML (Hypertext Markup Language)
Standard défini par le W3C pour la diffusion de documents sur
le Web pour pouvoir afficher de l'information à l'aide de balises
dont le nombre est limité. Il est interprété par le navigateur
Des identifiants : URI (Uniform Resource
Identifier)
Une ressource : tout objet
Ressource identifiées de manière univoque par une URI :
chaîne de caractères normalisée permettant d'identifier de
manière permanente une ressource abstraite ou physique,
accessible ou non sur Internet (personne, organisme, lieu,
évènement, concept, …)
5. Les URI
2 déclinaisons :
URN (Uniform Resource Name)
URI d’identification d’une ressource par son nom unique dans
un espace de noms
Utilisé pour identifier une ressource sans s’occuper de son
emplacement ou de la manière de la référencer
Exemple :
urn:isbn:978-2-10-057294-6
= URI de référence à une publication
URL (Uniform Resource Locator)
URI spécifiant l'adresse physique de localisation d'une
ressource sur Internet et la méthode permettant d'y accéder
http://www.idref.fr/027219100/id
= URI donnant accès à la ressource
6. Évolutions du web
Web 1.0 web de documents
permet aux usagers de naviguer facilement sur
Internet en utilisant des liens hypertexte
format : HTML (HyperText Markup Language)
une page = un document
ne permet que la mise en forme
Web 2.0 web collaboratif
évolution du Web du point de vue des technologies
employées et des usages
Internet n’est plus simplement un media mais une
plate-forme de services et d'applications en ligne
Permet aux internautes d'interagir sur le contenu
des pages et de dialoguer entre eux
7. Le Web de documents
Données
Documents
Base de
données
Hyperlien
Base de
données
Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
8. Limites du Web de documents
MARC, sors de ta chambre !
Va jouer dehors avec les autres !
9. Le Web de données ?
Web de données ou Linked Data ou Web of Data
Mouvement de l’Open Data
Mise à disposition de données publiques ouvertes
(etalab, creative comm.) librement accessibles
sans restriction de copyright, licence payante…
Données pouvant être réutilisées, reproduites,
redistribuées librement et sans discrimination (cf.
http://www.opendefinition.org/okd/)
+ Mise en relation pour construire un réseau
global qui permet, à partir d’une donnée, d’accéder
aux autres données liées du Web
10. Le Web de données ?
Un Web constitué de données accessibles,
structurées, dans un format non-propriétaire,
identifiées et liées entre elles sémantiquement
(Définition de Tim Berners-Lee dès 1999)
Objectif : Mettre à disposition des données en
utilisant des techniques standardisées qui
garantissent l’interopérabilité :
11. Le Web de données liées
Données
Documents
Base de
données
Liens entre les
bases de
données
Hyperlien
Base de
données
Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
13. Pour nous offrir ça par exemple :
(non exhaustif) : « Jules César de Haendel »
Haendel, Georg
Friedrich (16851759)
compositeur
Concert conférence le 24
janvier 2014 sur Jules César
de Haendel à l’Eglise St
Blaise, Valbonne
Enregistrement
concert de la Cité
de la musique
Jules César
HWV17
Opéra
(1723)
Haym, Nicola
Francesco (16781729)
librettiste
Œuvre
Wikipédia
Livret
Partition
Partition numérisée
Catalogue de la Cité de la musique
http://mediatheque.cite-musique.fr/masc/
Opéras 18e
Internet
Archive
Disque à la vente
Julio Cesare de
Händel, Georg
Petrou dir.
Sites
marchands
14. RDF
RDF = Resource Description Framework
Standard permettant de décrire les ressources
Web et métadonnées qui y sont associées
Proposé en 1999 par le W3C
Permet de décrire, représenter et relier simplement
toute ressource du Web :
page Web, image, video, personne, objet, évènement,
produit, service, …
tout ce qui peut être identifié par un URI peut être
considéré comme une ressource
Objectif : partager les métadonnées pour des
ressources identiques par l’utilisation d’une
syntaxe commune applicable à tous les
domaines
15. RDF ??
C’est aussi simple que ça :
PREDICAT
OBJET
SUJET
Sujet :
Charles Darwin
Prédicat :
A écrit
= Creator
Objet :
The origin of species
16. RDF : un modèle conceptuel
Principe de base : toute chose peut être décrite
avec des phrases minimales composées d’un
verbe, d’un sujet et d’un complément =
déclaration RDF
Exemple :
Honoré de Balzac a écrit "La Comédie humaine"
Sujet : Honoré de Balzac
Ressource
Verbe : a écrit
Prédicat
Complément : La Comédie humaine
Objet
16
17. RDF : Graphe
La déclaration est représentée visuellement par
un graphe (système de nœuds reliés par des
flèches) qui permet de parcourir l'information de
lien en lien
PREDICAT
SUJET
OBJET
17
18. RDF : modèle de graphe
Chaque membre du triplet est une ressource
qui peut être le sujet ou l’objet d’autres
déclarations
On construit ainsi un modèle de graphe
19. RDF : modèle de graphe (2)
L’objet d’un triplet peut aussi être :
un littéral = chaîne de caractères, nombre, date
Sujet : :
Sujet
Charles
Charles
Darwin
Darwin
Objet : The
origin of
species
Prédicat :
A écrit
Prédicat :
Est né
«1809»
«1809»
Prédicat :
Comprend
Sujet : The
origin of
species
Objet : An
introduction on
the origin of
species
20. EXEMPLE DE GRAPHE
est
contemporain de
est une
a créé
est né en
est né en
est né à
1840
est né à
est conservée à
représente
1850
est mort en
est mort à
est un
est situé à
21. RDF : lever toute ambiguité
pour les machines
Honoré de Balzac est né à Paris
Paris ???
22. De MARC à RDF ?
• Les données des catalogues en MARC sont très
structurées, et donc ré exploitables.
• Tout le travail effectué jusqu’à présent n’est donc
pas perdu (ouf !) et sera utilisé pour :
• Définir des ontologies en RDF, c’est-à-dire exprimer
en RDF les concepts spécifiques aux données
bibliographiques (les attributs FRBR par exemple)
• Inclure les concepts génériques applicables aux
données bibliographiques
• Définir des modèles de données en RDF (ce que
veut faire la LC avec BIBFRAME)
23. Exemple d’enrichissement de pages web
Pourquoi pas nous ?
By Thomas Francart
Voir aussi : http://labs.sparna.fr/
http://sparna.fr/linked-data-demo.html
Informations issues de DBPedia.org
<p>Récemment j'ai déménagé
à <span class="tag" rel="dc:subject" resource="http://fr.dbpedia.org/resource/Tours">Tours</span>
et… </p>
(Code source)
24. 000 cam 22 3 450
001FRBNF42226398000000X
003http://catalogue.bnf.fr/ark:/12148/cb42226398b
010 $a978-2-603-01444-8$brel.
100 $a20100624d2005 m y0frey50 ba
1011 $afre
102 $aFR
105 $a||||z 00|||
106 $ar
2001 $aGuide des chenilles d'Europe$bTexte imprimé$eles chenilles de plus de
500 espèces de papillons sur 165 plantes hôtes$fD.J. Carter$g[ill.] B. Hargreaves
210 $aParis$cDelachaux et Niestlé$dDL 2005
215 $a1 vol. (311 p.)$cill.$d20 cm
2252 $aˆLes ‰guides du naturaliste
300 $aBibliogr. p. 301-303
http://catalogue.bnf.fr/ark:/12148/cb34235813n
410 0$034235813$tˆLes ‰Guides du naturaliste$x1022-2707$d2005
454 1$tField guide to caterpillars of butterflies and moths in Britain and Europe
606 $312000511$aChenilles$311931301$yEurope$311975688$xGuides pratiques
et mémentos$2rameau
676 $a595.781 39$v22
http://catalogue.bnf.fr/ark:/12148/cb120136648
700 1$312013664$aCarter$bDavid$f1943-....$4070
http://catalogue.bnf.fr/ark:/12148/cb12367696d
702 1$312367696$aHargreaves$bBrian$4440
25. Des URI
pour désigner les ressources
http://catalogue.bnf.fr/ark:/12148/cb42226398b
Guide des chenilles d'Europe / D.J. Carter ; [ill.] B. Hargreaves
. - Paris : Delachaux et Niestlé, DL 2005
http://catalogue.bnf.fr/ark:/12148/cb34235813n
Les Guides du naturaliste
http://catalogue.bnf.fr/ark:/12148/cb120136648
Carter, David (1943-....)
http://catalogue.bnf.fr/ark:/12148/cb12367696d
Hargreaves, Brian
26. Des URI
pour exprimer les relations
DC : Title
http://purl.org/dc/elements/1.1/title
ISBD : has title proper
http://iflastandards.info/ns/isbd/elements/P1004
RDA : Title proper
http://rdvocab.info/Elements/titleProper
DC : Creator
http://purl.org/dc/elements/1.1/creator
RDA : Author
http://rdvocab.info/roles/author
27. Une syntaxe normalisée
2001 $aGuide des chenilles d'Europe
Cet ouvrage
a pour titre propre
"Guide des chenilles d'Europe"
http://catalogue.bnf.fr/ark:/12148/cb42226398b
http://iflastandards.info/ns/isbd/elements/P1004
"Guide des chenilles d’Europe"
Le sujet est
toujours une URI
Le prédicat est
toujours une URI
sujet
verbe
prédicat L’objet peut être
un texte (« littéral »)
complément une URI
objet
ou d’objet
28. Un réseau
de relations entre des données
"Guide des chenilles d’Europe"
ts/P1004
isbd/elemen
ards.info/ns/
d
http://iflastan
propre
A pour titre
A pou
http:/
/rdvoc r auteur
ab.inf
o/role
s/auth
or
http://catalogue.bnf.fr/ark:/12148/cb42226398b
http:/
/rdvo
cab.i
nfo/R
D
Appa ARelation
rtient
ships
à
WEM
yme ame
N
tron
r pa /family
u
A po af/0.1
fo
om/
ns.c
ml
p://x
"Carter"
htt
http
:/
"David"
http://xmlns.com/foaf/0.1/givenName
/rdv
oca
A pour prénom
http://catalogue.bnf.fr/ark:/12148/cb120136648
b. i n
fo/E
Ap
our leme
I/con
n
da t
taine
e d tsGr2
dInM
/
en
anife
ais dateO
statio
san
f
n
ce Birth
http://data.bnf.fr/what-happened/date-1943
1943
é
A pour titre cl
http://catalogue.bnf.fr/ark:/12148/cb34235813n
ments/P1033
fo/ns/isbd/ele
standards.in
http://ifla
"Les Guides du naturaliste"
29. Pour aller vers le Web de données
tué s de es
sti ent
s l
on ém
C
lié res
l
d’é nées aut
don aux
uns
Vers le web de données
L
Vers le web sémantique es
À condition d’utiliser
les standards du web
3 avril 2012 -- Bordeaux -Urfist/Médiaquitaine
Philippe Le Pape -- ABES
données portent
en elles leur
identification
et
leur fonction (
leur
« sens »), selo
n une
syntaxe lisible
par
les « machines
du
web »
30. Devenir acteur du web de données pour :
•
•
•
•
•
•
Relier les catalogues des bibliothèques avec
d’autres données existantes
Ouverture à d’autres communautés (libraires,
éditeurs, …)
Navigation par les utilisateurs sans avoir à
connaître les formats des bases de données et les
langages de requête spécifiques
Plus de visibilité par les moteurs de recherche
Tirer parti des données structurées des catalogue
et des référentiels
Interopérabilité = Souplesse pour la réutilisation
des données
32. Des exemples
Isidore :
http://www.rechercheisidore.fr
Plateforme de recherche permettant
l’accès aux données numériques des
sciences humaines et sociales
Données en accès libre (open access)
Moissonnage ciblé des métadonnées et
données scientifiques structurées
Enrichissement des métadonnées selon
les principes du Web de données
33. Encore des exemples
Data.bnf.fr
: http://data.bnf.fr
Fiches descriptives des auteurs, des œuvres et des
sujets
Possibilité de télécharger le RDF associé à la fiche
descriptive (exemple : le projet opencat)
VIAF (Virtual International Authority File)
http://viaf.org/
Valoriser les fichiers d'autorité des bibliothèques
(visibilité et liens entre les données)
Rationnaliser la gestion des fichiers d’autorités
34.
35. Tous les chemins mènent à…
Organisation de
l’information
bibliographique :
Formats
d’encodage
MARC
ISBD
FRBR
Format
compatible
RDF
(BIBFRAME ?)
Web de
données !
Web de
données !
Normes de
catalogage
AACR
Afnor
REICAT
Etc…
RDA?
Web de
données !
Notes de l'éditeur
On distingue 2 types de ressources :
les ressources informationnelles : ressources dont on peut obtenir une représentation via HTTP, comme une page web ou une image
les ressources non-informationnelles : ressources dont on ne peut pas obtenir de représentation via HTTP mais sur lesquels on va diffuser des informations (ex. : un monument, un lieu, un concept)
Ce sont surtout les URL qui sont utilisés sur le réseau Internet.
Exemples d’autres applications de la notion d’URI dans le « monde réel » ISBN, code barre
Web 2.0 :
Le développement d’interfaces plus riches et assistées
L’offre d’outils accessibles en ligne : : suites bureautiques en ligne (Google Docs, Zoho, …), d’outils de gestion de projet (Basecamp , …), de calendrier partagé (Google Calendar, …)
Des plates-formes éditoriales avec le développement des CMS
Des plates-formes collaboratives : Wikis, agendas collaboratifs
La syndication de contenus avec les flux RSS
Les communautés de partage : systèmes de publication d’objets numériques dans un espace personnel (ex. :Youtube, Flickr, Picasa, …)
Les réseaux sociaux : construction de réseaux d’affinité pour créer un profil en ligne, échanger avec son réseau de contacts, promouvoir son activité (Facebook, Linkedin, Viadeo, …)
Volonté de relier des données isolées dans des « silos »
- Standard URI pour nomme ce que l’on décrit
- Standard RDF pour décrire les URI
- Liens RDF vers d’autres URI pour fournir des données liées
- Utilisation d’ontologies pour permettre l’interconnexion des différentes sources de données
RDF fournit une structure de données standard et un modèle pour encoder des données et des métadonnées sur n’importe quel sujet sur le Web. Ces sujets sont appelés des ressources et sont identifiés par des URI
Sujet = ressource sur laquelle porte la déclaration, et c'est toujours un indicateur de ressource uniforme (URI)
Prédicat = nom d'une propriété de la ressource et c'est toujours une adresse URI
Objet = valeur de cette propriété qui peut être une adresse URI ou un littéral (texte, nombre, date, etc.)
En utilisant ce standard, les ressources Werb sont plus facilement accessibles pour les moteures de recherche.
On peut enrichir des pages web avec des éléments issus de bases de connaissance (encyclopédiques), toujours à jour, expliquer…
Pourquoi nos notices ne bénéficieraient-elles pas de ces méthodes de diffusion ?