Métadonnées urbi et orbi Mécanismes et enjeux du Web de données, de l'échelle locale à l'échelle du Weby. nicolas  : abes :: formation enssib ::: dirbu 31 mars 2011
MétadonnéesC’est quoi les
Métadonnées = ?Information structurée et réutilisable sur (…)ExemplesUne page de titre papier est structurée, mais n’est pas réutilisableUne notice MARC  = un ensemble de métadonnées3
Cette thèse a pour directeur Untel4
Cette thèse a pour directeur UntelQui appartient à tel laboratoire5
Cette thèse a pour directeur UntelQui appartient à tel laboratoireQui a un partenariat avec telle entreprise6
Cette thèse a pour directeur UntelQui appartient à tel laboratoire Qui a un partenariat avec telle entrepriseQui a un partenariat avec tel laboratoire’7
Cette thèse a pour directeur UntelQui appartient à tel laboratoire Qui a un partenariat avec telle entrepriseQui a un partenariat avec tel laboratoire’
Qui est dirigé par tel chercheur’8
Cette thèse a pour directeur UntelQui appartient à tel laboratoire Qui a un partenariat avec telle entrepriseQui a un partenariat avec tel laboratoire’
Qui est dirigé par tel chercheur’Qui appartient au comité de telle revue9
Cette thèse a pour directeur UntelQui appartient à tel laboratoire Qui a un partenariat avec telle entrepriseQui a un partenariat avec tel laboratoire’
Qui est dirigé par tel chercheur’Qui appartient au comité de telle revueQui a publié tel chercheur’’10
Cette thèse a pour directeur UntelQui appartient à tel laboratoire Qui a un partenariat avec telle entrepriseQui a un partenariat avec tel laboratoire’
Qui est dirigé par tel chercheur’Qui appartient au comité de telle revueQui a publié tel chercheur’’Etc.Où s’arrêter ?11
MétadonnéesOù s’arrêter ?La notice n’est pas la frontièreLa base de données n’est pas la frontièreLe Web est la frontièreWeb de données (RDF)			Modèle du grapheDes réseaux qui peuvent s’étendre et s’interconnecter à l’infiniDes trajectoires directes ou non entre deux pointsA travers les frontières ordinaires (langues, administratives, normes…)12
13
Les métadonnées de thèse,c’est…toute information structurée … … qui concerne de près ou de loin la thèsepeu importe la structurepeu importe le formatpeut importe le type d’entité dont on parle :DocumentPersonneOrganismeConcept14
Les métadonnées ne se laissent pas enfermer dans un document-notice
Les métadonnées ne parlent pas que des documentsElles parlent de tout
Les métadonnées ne sont pas la seule affaire des bibliothécairesNos métadonnées ne sont pas seulement les nôtres
Les métadonnées, ce n’est pas ploucMême Google s’y intéresse
Google ne comprend que ses propres vocabulaires de métadonnées ?
Avec Good Relations, on voit que Google adopte un standard de métadonnées du e-commerce.Quid de nos standards à nous ?
Breaking News:Google is now officially recommending UNIMARC
Mais, être pris en considération par Google n’est pas le seul enjeu
Soucisenjeux
souciDilemme de l’interopérabilitéRiche et seulRéduire la richesse de ses métadonnées pour les mettre au niveau d’autres métadonnéesDublin CoreConserver la richesse de ses métadonnées mais sans pouvoir se faire comprendreMARCTEFEADSociable mais pauvre
souciAgréger des données hétérogènesDifficile de mixer des noticesOn juxtaposeOn fusionne parfoisOn n’agrège pas vraiment
souciFrontières institutionnellesInstitutions comme mères possessives des métadonnéesConflit d’intérêt chez chacuneProduire, gérer, publier les donnéesExploiter les données, construire des outils l’outil et des interfaces l’interfaceLutte pour le monopole entre ellesQui agrège les données des uns et des autres ?Coordination lourde et lente
Les questions techniques cachenttrèssouvent des problèmespolitiquesChristophe Pérales, 2010
Bibliothèque virtuelleMachin bureaucratique ou Mashup ?
Place de marché : producteurs et consommateurs
Les choix techniques peuventrésoudrecertainsproblèmespolitiquesBibi, 31 mars 2011
souciFrontières interprofessionnellesFaire cohabiter voire interagir les donnéesVaudeville :Calames : bibliothécaires et chercheursSudoc : bibliothécaires et éditeurs ou agrégateursSTAR et STEP (thèses en cours) : bibliothécaires et gestionnaires (scolarité, recherche)Theses.fr : public et privéEtc.
souciLes données prisonnières des outilsLes données et les traitements sur les données doivent survivre aux outils« Résultats fusionnés » = travail dissimulé sur les données
Recyclage : agréger, enrichir, republier
Un autre CCfr ?Inspection en coursProposition :Un opérateur agrège, traite, enrichit les données et les renvoie aux producteursUn autre opérateur construit une interface Web et des Web servicesQui veut construit d’autres interfaces, ad hoc, de niche, expérimentales, mashups …
souciManque d’imaginationBiaisThe coolest thing to do with your data will be thought of by someone elseRufus Pollock, 2007
souciQualité des donnéesOuverture des donnéesvsSoin des donnéesDilemme ?Cerclevertueux ?Qu’est-ceque de bonnesdonnées ?
Data quality is multidimensional, and involves data management, modelling and analysis, quality control and assurance, storage and presentation. (..) data quality is related to use and cannot be assessed independently of the user.Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for the Global Biodiversity Information Facility, Copenhagen.
souciQualité des donnéesBonnesdonnées = Bonnes à quoi ?Maissi les donnéessontouvertes, on ignore leur usage !AporieJusqu’oùaller ?QuellesconsignesdansSudoc, Calames, STAR ?Miser sur le contenutextuel ?Miser sur les liens aux référentielset à d’autresdonnéesfiables et stables ?
Vers un Web de métadonnéesRDF47
RDFStandard W3CExiste depuis 1998, mais décolle aujourd’huiResource Description FrameworkCadre général pour décrire n’importe quoiTout peut être « resource » à décrireRDF, modèle universel pour intégrer toute information au Web de données48
http://www.theses.fr/2009TOUR3802/iddcterms:creatorhttp://www.idref.fr/142976903/idCette thèse …… a pour auteur …… untel.49
http://www.theses.fr/2009TOUR3802/idhttp://purl.org/dc/terms/creatorhttp://www.idref.fr/142976903/idLa relation creator est également identifiée par une URL50
Démo52
Comment publier ses métadonnées en RDF ?Mettre du RDF dans ses pages HTMLRDFa (RDF dans les attributs HTML)CalamesThèses de STAR : www.theses.fr/{Numéro_national_de_Thèse}Publier un document RDF à partRDF en XML (ou autre format)Autorités Sudoc dans IdRef53
Et si je veux voir ce RDF ?Mais le RDF est pour les machines !
Mais je veux voir !
Outils
Tabulator: naviguer dans le RDF
Operator: extraire le RDF du HTML+RDFa
SindiceInspector: analyser et valider le RDF
RDFa distiller : extraire et valider le RDFa54
Nos métadonnées et les moteursGoogleRichsnippetsRDFa à la Google pour GooglePas possible de parler de thèses, de documentsMais on peut parler de personnes, d’entreprises, de produits…SindiceMoteur spécialisé dans les données sémantiquesLes moteurs explorent, moissonnentDe plus en plus vont agréger et faire raisonner nos métadonnéesSeulement le début…55
RDF :: Souci en moinsDilemme de l’interopérabilitéseul et sociablepauvre et richetef:auteurrdfs:subPropertyOfdc:creator
RDF :: moins de souciAgréger des données hétérogènesNe pas juxtaposer des noticesAgréger des triplets RDFEt plus si affinités (inférences)
RDF : moins de souciFrontières institutionnellesFrontières interprofessionnelles Manque d’imaginationBiaisPlus de frontièresTout le monde peut dire n’importe quoi sur n’importe quoiPour le meilleurPour le pire
RDF :: souci en moinsLes données prisonnières des outilsNi des outilsNi des formats (RDF n’est pas un format)Ni des vocabulairesMais :Attention à la conceptualisationAttention aux faux-amis
Souci toujoursQualité des donnéesLe problèmeresteentierMiser sur la qualité de nosdonnées !AOC des données (provenance)Les machines ne font pas tout !
Linked dataVers un Web de données liéesCredo :“Use URIs as names for things Use HTTP URIs so that people can look up those names. When someone looks up a URI, provide useful information, using the standards (RDF, SPARQL) Include links to other URIs. so that they can discover more things. “Tim Berners Lee, 2006
The Linking Open Data cloudLinking Open Data clouddiagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
DBpediaWikipedia en RDFhttp://dbpedia.org/AboutDe facto, vaste base de connaissance sur laquelle les corpus RDF se règlent.Le mapping : exemple BBC/DBPedia
http://www.w3.org/DesignIssues/LinkedData.html
Les métadonnées comme servicesABES65
Calendrier
Les autorités Sudoc,pivot du Linked data ABEStheses.frSudocThèses soutenuesetThèses en cours (2011)Autorités SudocCalames
Portail des thèses
Linked data IST.fr ??theses.frSudocThèses soutenuesetThèses en cours ( 2011)Autorités SudocPlateforme pédagogique XHALrevues.orgPresses univ. de YCalamesPersée
Linked data IST.fr ? Les labos !?theses.frSudocThèses soutenuesetThèses en cours ( 2011)Autorités SudocPlateforme pédagogique XHALrevues.orgPresses univ.s de YCalamesRéférentiel des laboratoiresPersée
Linked data IST.fr ? Les affiliationsPRISMES (AMUE) locauxtheses.frSudocAutorités SudocPlateforme pédagogique XHALrevues.orgPresses univ.s de YCalamesRéférentiel des laboratoiresPersée
Authentification, habilitation et données liéesProblème : dans theses.fr, on veut associer des droits spécifiques aux auteurs de thèse (stats, être contacté)Comment reconnaître un utilisateur en tant qu’auteurSolution ?Authentification Shibboleth avec « être l’auteur de telle thèse » comme propriété discriminante
Linked data IST.fr ? Les brevetsbrevetstheses.frSudocAutorités SudocPlateforme pédagogique XHALrevues.orgPresses univ.s de YCalamesRéférentiel des laboratoiresPersée+ données de recherche, cahiers de laboratoire, congrès…
Système(s) d’information de la rechercheInterconnecter nos basesNe pas enfermer les données dans de nouveaux outilsPartager ce qui peut l’êtreSe coordonner sans coopérer (sic)
Leibniz, Lettre à Arnauld, 30 avril 168777
ScénariosOn ouvre les données et « servez-vous ! »On offre aussi des services pour faciliter la tâcheC’est le sens d’IdRef
IdRefUne application sur mesure pour « servir » les Référentiels Sudoc et partager leurs Identifiants2 fonctions :Chercher des autorités et y lier ses donnéesEnrichir le référentiel d’autorités (créer, modifier)2 moyensSe « brancher » sur l’application Web 	cuitExploiter les Web Services 			mi-cuitDonnées ouvertes				cru

metadata_pour_dirbu_mars2011

  • 1.
    Métadonnées urbi etorbi Mécanismes et enjeux du Web de données, de l'échelle locale à l'échelle du Weby. nicolas : abes :: formation enssib ::: dirbu 31 mars 2011
  • 2.
  • 3.
    Métadonnées = ?Informationstructurée et réutilisable sur (…)ExemplesUne page de titre papier est structurée, mais n’est pas réutilisableUne notice MARC = un ensemble de métadonnées3
  • 4.
    Cette thèse apour directeur Untel4
  • 5.
    Cette thèse apour directeur UntelQui appartient à tel laboratoire5
  • 6.
    Cette thèse apour directeur UntelQui appartient à tel laboratoireQui a un partenariat avec telle entreprise6
  • 7.
    Cette thèse apour directeur UntelQui appartient à tel laboratoire Qui a un partenariat avec telle entrepriseQui a un partenariat avec tel laboratoire’7
  • 8.
    Cette thèse apour directeur UntelQui appartient à tel laboratoire Qui a un partenariat avec telle entrepriseQui a un partenariat avec tel laboratoire’
  • 9.
    Qui est dirigépar tel chercheur’8
  • 10.
    Cette thèse apour directeur UntelQui appartient à tel laboratoire Qui a un partenariat avec telle entrepriseQui a un partenariat avec tel laboratoire’
  • 11.
    Qui est dirigépar tel chercheur’Qui appartient au comité de telle revue9
  • 12.
    Cette thèse apour directeur UntelQui appartient à tel laboratoire Qui a un partenariat avec telle entrepriseQui a un partenariat avec tel laboratoire’
  • 13.
    Qui est dirigépar tel chercheur’Qui appartient au comité de telle revueQui a publié tel chercheur’’10
  • 14.
    Cette thèse apour directeur UntelQui appartient à tel laboratoire Qui a un partenariat avec telle entrepriseQui a un partenariat avec tel laboratoire’
  • 15.
    Qui est dirigépar tel chercheur’Qui appartient au comité de telle revueQui a publié tel chercheur’’Etc.Où s’arrêter ?11
  • 16.
    MétadonnéesOù s’arrêter ?Lanotice n’est pas la frontièreLa base de données n’est pas la frontièreLe Web est la frontièreWeb de données (RDF) Modèle du grapheDes réseaux qui peuvent s’étendre et s’interconnecter à l’infiniDes trajectoires directes ou non entre deux pointsA travers les frontières ordinaires (langues, administratives, normes…)12
  • 17.
  • 18.
    Les métadonnées dethèse,c’est…toute information structurée … … qui concerne de près ou de loin la thèsepeu importe la structurepeu importe le formatpeut importe le type d’entité dont on parle :DocumentPersonneOrganismeConcept14
  • 19.
    Les métadonnées nese laissent pas enfermer dans un document-notice
  • 20.
    Les métadonnées neparlent pas que des documentsElles parlent de tout
  • 21.
    Les métadonnées nesont pas la seule affaire des bibliothécairesNos métadonnées ne sont pas seulement les nôtres
  • 22.
    Les métadonnées, cen’est pas ploucMême Google s’y intéresse
  • 27.
    Google ne comprendque ses propres vocabulaires de métadonnées ?
  • 29.
    Avec Good Relations,on voit que Google adopte un standard de métadonnées du e-commerce.Quid de nos standards à nous ?
  • 30.
    Breaking News:Google isnow officially recommending UNIMARC
  • 31.
    Mais, être prisen considération par Google n’est pas le seul enjeu
  • 32.
  • 33.
    souciDilemme de l’interopérabilitéRicheet seulRéduire la richesse de ses métadonnées pour les mettre au niveau d’autres métadonnéesDublin CoreConserver la richesse de ses métadonnées mais sans pouvoir se faire comprendreMARCTEFEADSociable mais pauvre
  • 34.
    souciAgréger des donnéeshétérogènesDifficile de mixer des noticesOn juxtaposeOn fusionne parfoisOn n’agrège pas vraiment
  • 35.
    souciFrontières institutionnellesInstitutions commemères possessives des métadonnéesConflit d’intérêt chez chacuneProduire, gérer, publier les donnéesExploiter les données, construire des outils l’outil et des interfaces l’interfaceLutte pour le monopole entre ellesQui agrège les données des uns et des autres ?Coordination lourde et lente
  • 36.
    Les questions techniquescachenttrèssouvent des problèmespolitiquesChristophe Pérales, 2010
  • 40.
  • 41.
    Place de marché: producteurs et consommateurs
  • 42.
    Les choix techniquespeuventrésoudrecertainsproblèmespolitiquesBibi, 31 mars 2011
  • 43.
    souciFrontières interprofessionnellesFaire cohabitervoire interagir les donnéesVaudeville :Calames : bibliothécaires et chercheursSudoc : bibliothécaires et éditeurs ou agrégateursSTAR et STEP (thèses en cours) : bibliothécaires et gestionnaires (scolarité, recherche)Theses.fr : public et privéEtc.
  • 44.
    souciLes données prisonnièresdes outilsLes données et les traitements sur les données doivent survivre aux outils« Résultats fusionnés » = travail dissimulé sur les données
  • 45.
    Recyclage : agréger,enrichir, republier
  • 46.
    Un autre CCfr?Inspection en coursProposition :Un opérateur agrège, traite, enrichit les données et les renvoie aux producteursUn autre opérateur construit une interface Web et des Web servicesQui veut construit d’autres interfaces, ad hoc, de niche, expérimentales, mashups …
  • 47.
    souciManque d’imaginationBiaisThe coolestthing to do with your data will be thought of by someone elseRufus Pollock, 2007
  • 48.
    souciQualité des donnéesOuverturedes donnéesvsSoin des donnéesDilemme ?Cerclevertueux ?Qu’est-ceque de bonnesdonnées ?
  • 49.
    Data quality ismultidimensional, and involves data management, modelling and analysis, quality control and assurance, storage and presentation. (..) data quality is related to use and cannot be assessed independently of the user.Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for the Global Biodiversity Information Facility, Copenhagen.
  • 50.
    souciQualité des donnéesBonnesdonnées= Bonnes à quoi ?Maissi les donnéessontouvertes, on ignore leur usage !AporieJusqu’oùaller ?QuellesconsignesdansSudoc, Calames, STAR ?Miser sur le contenutextuel ?Miser sur les liens aux référentielset à d’autresdonnéesfiables et stables ?
  • 51.
    Vers un Webde métadonnéesRDF47
  • 52.
    RDFStandard W3CExiste depuis1998, mais décolle aujourd’huiResource Description FrameworkCadre général pour décrire n’importe quoiTout peut être « resource » à décrireRDF, modèle universel pour intégrer toute information au Web de données48
  • 53.
  • 54.
  • 56.
  • 57.
    Comment publier sesmétadonnées en RDF ?Mettre du RDF dans ses pages HTMLRDFa (RDF dans les attributs HTML)CalamesThèses de STAR : www.theses.fr/{Numéro_national_de_Thèse}Publier un document RDF à partRDF en XML (ou autre format)Autorités Sudoc dans IdRef53
  • 58.
    Et si jeveux voir ce RDF ?Mais le RDF est pour les machines !
  • 59.
  • 60.
  • 61.
  • 62.
    Operator: extraire leRDF du HTML+RDFa
  • 63.
  • 64.
    RDFa distiller :extraire et valider le RDFa54
  • 65.
    Nos métadonnées etles moteursGoogleRichsnippetsRDFa à la Google pour GooglePas possible de parler de thèses, de documentsMais on peut parler de personnes, d’entreprises, de produits…SindiceMoteur spécialisé dans les données sémantiquesLes moteurs explorent, moissonnentDe plus en plus vont agréger et faire raisonner nos métadonnéesSeulement le début…55
  • 66.
    RDF :: Soucien moinsDilemme de l’interopérabilitéseul et sociablepauvre et richetef:auteurrdfs:subPropertyOfdc:creator
  • 67.
    RDF :: moinsde souciAgréger des données hétérogènesNe pas juxtaposer des noticesAgréger des triplets RDFEt plus si affinités (inférences)
  • 68.
    RDF : moinsde souciFrontières institutionnellesFrontières interprofessionnelles Manque d’imaginationBiaisPlus de frontièresTout le monde peut dire n’importe quoi sur n’importe quoiPour le meilleurPour le pire
  • 69.
    RDF :: soucien moinsLes données prisonnières des outilsNi des outilsNi des formats (RDF n’est pas un format)Ni des vocabulairesMais :Attention à la conceptualisationAttention aux faux-amis
  • 70.
    Souci toujoursQualité desdonnéesLe problèmeresteentierMiser sur la qualité de nosdonnées !AOC des données (provenance)Les machines ne font pas tout !
  • 71.
    Linked dataVers unWeb de données liéesCredo :“Use URIs as names for things Use HTTP URIs so that people can look up those names. When someone looks up a URI, provide useful information, using the standards (RDF, SPARQL) Include links to other URIs. so that they can discover more things. “Tim Berners Lee, 2006
  • 72.
    The Linking OpenData cloudLinking Open Data clouddiagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
  • 73.
    DBpediaWikipedia en RDFhttp://dbpedia.org/AboutDefacto, vaste base de connaissance sur laquelle les corpus RDF se règlent.Le mapping : exemple BBC/DBPedia
  • 74.
  • 75.
  • 76.
  • 77.
    Les autorités Sudoc,pivotdu Linked data ABEStheses.frSudocThèses soutenuesetThèses en cours (2011)Autorités SudocCalames
  • 79.
  • 81.
    Linked data IST.fr??theses.frSudocThèses soutenuesetThèses en cours ( 2011)Autorités SudocPlateforme pédagogique XHALrevues.orgPresses univ. de YCalamesPersée
  • 82.
    Linked data IST.fr? Les labos !?theses.frSudocThèses soutenuesetThèses en cours ( 2011)Autorités SudocPlateforme pédagogique XHALrevues.orgPresses univ.s de YCalamesRéférentiel des laboratoiresPersée
  • 83.
    Linked data IST.fr? Les affiliationsPRISMES (AMUE) locauxtheses.frSudocAutorités SudocPlateforme pédagogique XHALrevues.orgPresses univ.s de YCalamesRéférentiel des laboratoiresPersée
  • 84.
    Authentification, habilitation etdonnées liéesProblème : dans theses.fr, on veut associer des droits spécifiques aux auteurs de thèse (stats, être contacté)Comment reconnaître un utilisateur en tant qu’auteurSolution ?Authentification Shibboleth avec « être l’auteur de telle thèse » comme propriété discriminante
  • 85.
    Linked data IST.fr? Les brevetsbrevetstheses.frSudocAutorités SudocPlateforme pédagogique XHALrevues.orgPresses univ.s de YCalamesRéférentiel des laboratoiresPersée+ données de recherche, cahiers de laboratoire, congrès…
  • 86.
    Système(s) d’information dela rechercheInterconnecter nos basesNe pas enfermer les données dans de nouveaux outilsPartager ce qui peut l’êtreSe coordonner sans coopérer (sic)
  • 87.
    Leibniz, Lettre àArnauld, 30 avril 168777
  • 88.
    ScénariosOn ouvre lesdonnées et « servez-vous ! »On offre aussi des services pour faciliter la tâcheC’est le sens d’IdRef
  • 89.
    IdRefUne application surmesure pour « servir » les Référentiels Sudoc et partager leurs Identifiants2 fonctions :Chercher des autorités et y lier ses donnéesEnrichir le référentiel d’autorités (créer, modifier)2 moyensSe « brancher » sur l’application Web cuitExploiter les Web Services mi-cuitDonnées ouvertes cru