Intervention lors de la journée d'étude 2009 de l'ADBU : Quelle économie de l’IST en France ? et pour quelle politique ?
Je fais une intro ultra light au Web des données pour un public de décideurs des bibliothèques universitaires françaises.
J'annonce les futurs services de l'ABES autour des autorités Sudoc.
4. “Searchability and data formats are a problem in
a large number of member states.
Search functions are hard to use in several
countries. In some countries they are non-
existent.”
“Several countries do provide the whole data in
a CSV or XLS or other format – and this is
welcomed as good practice. Many countries do
not and worse still, a few countries appear to
have designed their websites with the deliberate
aim of obstructing screen scrapers.”
farmsubsidy.org , Evaluation of the implementation of transparency in CAP beneficiaries. Mai 2009
5. Association pour la transparence des données publiques
Va chercher les données « publiques », les nettoie, les
agrège, les republie, les rend exploitables par des
programmes informatiques(API)
Courtier ? Activiste ? Pirate ?
6. VERS
UNE POLITIQUE PUBLIQUE
DES DONNÉES
En général
Des données de l’IST en particulier
Fondée sur quels principes ?
7. MÉTADONNÉES = DONNÉES
DONNÉES = MÉTADONNÉES
Métadonnées = informations sur des documents ?
Nos métadonnées parlent de tout. Ex: portail des
thèses
Les métadonnées sont partout – et pas seulement
dans les métiers de la doc.
9. WEB DE DOCUMENTS
VS
WEB DE DONNÉES
Le Web est une collection de documents (HTML,
PDF…)
Le Web devient une collection de bases de données
(RDF, RDFa)
11. Données
Page HTML
LE CONTENU DES DONNÉES EST
UTILISÉ DANS UN DOCUMENT HTML
Le Document HTML est fait pour être lu par des
humains ;
pas pour être exploité par des programmes
13. Page HTML
Données
HTML + RDFa
LES DONNÉES SONT PRÉSENTES
DANS LE DOCUMENT HTML
Le Document HTML + RDFa peut être lu par des humains et
exploité par des programmes
La base de données est dans le Web, pas sous le Web (deep Web)
16. AVEC RDFa, LES DONNÉES DE
CALAMES SONT DANS LA BASE DE
YAHOO, SINDICE…
On parle bien des données dans toute leur richesse !
RDFa est désormais supporté par les « grossistes » du
Web : Google, Yahoo.
18. LE WEB DES DONNÉES DOIT AUSSI
CONCERNER L’INFORMATION
SCIENTIFIQUE, TECHNIQUE ET
PATRIMONIALE
Pas seulement les produits commerciaux, les congrès,
les vidéos…
Cibles : Sudoc, HAL, Star, Bases CNRS, Persée,
Revues.org,…
19. POUR UN SERVICES PUBLIC DES
DONNÉES BRUTES
LAISSER LES AUTRES LES
RÉUTILISER
Exposer les données « à la cantonade »
On ignore à qui, à quoi elles peuvent servir
Permettre à d’autres de les réutiliser
Usages nouveaux, variés, spécialisés. Visualisations.
Combinaisons de différents corpus (mashups)
Contre les monopoles privés et les monopoles publics
20. LIER LES DONNÉES ENTRE ELLES
LINKED DATA
Le Web comme collection de base de données ?
Ou le Web comme base de données ?
Interconnecter les bases
21.
22.
23.
24. 2 BASES DE DONNÉES EN RDF
DÉCRIVENT LA MÊME PERSONNE
Base RDF accessible en ligne Identifiant de Tricky (URL)
Dbpedia (Wikipedia en RDF) http://dbpedia.org/resource/Tricky
BBC Music http://www.bbc.co.uk/music/artists/5bf64d94-
efd9-4334-96fd-e6197b0b02b8#artist
25. CONNECTER LES DEUX BASES RDF
http://www.bbc.co.uk/music/artists/5bf64d
94-efd9-4334-96fd-e6197b0b02b8#artist
owl:sameAs
http://dbpedia.org/resource/Tricky
Les informations des deux bases peuvent fusionner
C’est le principe d’un Web de données liées
26. COMMENT INTERCONNECTER LES
BASES DE L’ABES ?
DE L’IST FRANÇAISE ?
Aligner les identifiants des uns et des autres (avec
owl:sameAs) ?
Mieux : si possible, partager à la source les mêmes
identifiants
27. LES AUTORITÉS SUDOC,
AU-DELÀ DU SUDOC
Normaliser les noms de personne en les liant aux autorités Sudoc,
pour :
. Star
. Calames
. Persée
. ORI-OAI
. Adonis
.?
28. POURQUOI SE LIER AUX AUTORITÉS
SUDOC ?
Qualité interne de chaque base *
Economies d’échelle *
Enrichir chaque base avec les informations des autres ***
A terme, permettre des requêtes et des explorations plus riches ***
29.
30. 2006 –
STAR ET CALAMES INTERROGENT
LES AUTORITÉS SUDOC EN Z 39.50
Solution provisoire
Limitations :
. Performances
. Index limités
. Et quand la notice d’autorité n’existe pas ?
31. 2010 T1
LES AUTORITÉS SUDOC COMME
SERVICE PUBLIC
POUR LES APPLICATIONS TIERCES
Lire et écrire !
Comme le réseau électrique ? Contribuer (solaire) et recevoir
Production décentralisée
Consommation décentralisée
33. 2010-2011
LES AUTORITÉS SUDOC AU
SERVICE DU MÉTA-PORTAIL
ADONIS
(SI FINANCEMENT CONFIRMÉ)
Méta-portail = risque de l’auberge espagnole
Les autorités Sudoc comme pivot
Harmoniser en masse les noms du méta-portail
Avec les technologies du Web sémantique (RDF, ontologies,
règles)
Avec le CNRS : équipe RCR du laboratoire LIRMM (Mtpellier)
34. DANS LE CADRE DU PROJET AVEC
ADONIS,
Corpus de Lien aux
métadonnées à autorités
enrichir
Données enrichies du lien aux autorités
L’UTILISATION DES TECHNOLOGIES
SÉMANTIQUE EST INTERNE
35. DEMAIN
LINKED DATA DE L’IST FRANÇAIS ?
Linked data : données ouvertes et liées
OUVRIR n’est pas le plus compliqué (sauf contraintes juridiques)
Le plus dur est de LIER - d’où l’importance des autorités
Ne suppose pas un Plan quinquennal centralisé
« Coopération décentralisée » des données