metadata_pour_dirbu_mars2011

1 099 vues

Publié le

Ce 31 mars 2011, je devais causer des métadonnées aux nvx directeurs de BU, dans le cadre d'une formation enssib.
Durée : 3 h

Publié dans : Formation
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 099
Sur SlideShare
0
Issues des intégrations
0
Intégrations
5
Actions
Partages
0
Téléchargements
16
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

metadata_pour_dirbu_mars2011

  1. 1. Métadonnées urbi et orbi <br />Mécanismes et enjeux du Web de données, de l'échelle locale à l'échelle du Web<br />y. nicolas : abes :: formation enssib ::: dirbu 31 mars 2011<br />
  2. 2. Métadonnées<br />C’est quoi les<br />
  3. 3. Métadonnées = ?<br />Information structurée et réutilisable sur (…)<br />Exemples<br />Une page de titre papier est structurée, mais n’est pas réutilisable<br />Une notice MARC = un ensemble de métadonnées<br />3<br />
  4. 4. Cette thèse a pour directeur Untel<br />4<br />
  5. 5. Cette thèse a pour directeur Untel<br /><ul><li>Qui appartient à tel laboratoire</li></ul>5<br />
  6. 6. Cette thèse a pour directeur Untel<br /><ul><li>Qui appartient à tel laboratoire</li></ul>Qui a un partenariat avec telle entreprise<br />6<br />
  7. 7. Cette thèse a pour directeur Untel<br /><ul><li>Qui appartient à tel laboratoire </li></ul>Qui a un partenariat avec telle entreprise<br /><ul><li>Qui a un partenariat avec tel laboratoire’</li></ul>7<br />
  8. 8. Cette thèse a pour directeur Untel<br /><ul><li>Qui appartient à tel laboratoire </li></ul>Qui a un partenariat avec telle entreprise<br /><ul><li>Qui a un partenariat avec tel laboratoire’
  9. 9. Qui est dirigé par tel chercheur’</li></ul>8<br />
  10. 10. Cette thèse a pour directeur Untel<br /><ul><li>Qui appartient à tel laboratoire </li></ul>Qui a un partenariat avec telle entreprise<br /><ul><li>Qui a un partenariat avec tel laboratoire’
  11. 11. Qui est dirigé par tel chercheur’</li></ul>Qui appartient au comité de telle revue<br />9<br />
  12. 12. Cette thèse a pour directeur Untel<br /><ul><li>Qui appartient à tel laboratoire </li></ul>Qui a un partenariat avec telle entreprise<br /><ul><li>Qui a un partenariat avec tel laboratoire’
  13. 13. Qui est dirigé par tel chercheur’</li></ul>Qui appartient au comité de telle revue<br />Qui a publié tel chercheur’’<br />10<br />
  14. 14. Cette thèse a pour directeur Untel<br /><ul><li>Qui appartient à tel laboratoire </li></ul>Qui a un partenariat avec telle entreprise<br /><ul><li>Qui a un partenariat avec tel laboratoire’
  15. 15. Qui est dirigé par tel chercheur’</li></ul>Qui appartient au comité de telle revue<br />Qui a publié tel chercheur’’<br />Etc.<br />Où s’arrêter ?<br />11<br />
  16. 16. MétadonnéesOù s’arrêter ?<br />La notice n’est pas la frontière<br />La base de données n’est pas la frontière<br />Le Web est la frontière<br /><ul><li>Web de données (RDF) </li></ul>Modèle du graphe<br />Des réseaux qui peuvent s’étendre et s’interconnecter à l’infini<br />Des trajectoires directes ou non entre deux points<br />A travers les frontières ordinaires (langues, administratives, normes…)<br />12<br />
  17. 17. 13<br />
  18. 18. Les métadonnées de thèse,c’est…<br />toute information structurée …<br /> … qui concerne de près ou de loin la thèse<br />peu importe la structure<br />peu importe le format<br />peut importe le type d’entité dont on parle :<br />Document<br />Personne<br />Organisme<br />Concept<br />14<br />
  19. 19. Les métadonnées ne se laissent pas enfermer dans un document-notice<br />
  20. 20. Les métadonnées ne parlent pas que des documents<br />Elles parlent de tout<br />
  21. 21. Les métadonnées ne sont pas la seule affaire des bibliothécaires<br />Nos métadonnées ne sont pas seulement les nôtres<br />
  22. 22. Les métadonnées, ce n’est pas plouc<br />Même Google s’y intéresse<br />
  23. 23.
  24. 24.
  25. 25.
  26. 26.
  27. 27. Google ne comprend que ses propres vocabulaires de métadonnées ?<br />
  28. 28.
  29. 29. Avec Good Relations, on voit que Google adopte un standard de métadonnées du e-commerce.<br />Quid de nos standards à nous ?<br />
  30. 30. Breaking News:<br />Google is now officially recommending UNIMARC<br />
  31. 31. Mais, être pris en considération par Google n’est pas le seul enjeu<br />
  32. 32. Soucis<br />enjeux<br />
  33. 33. souciDilemme de l’interopérabilité<br />Riche et seul<br />Réduire la richesse de ses métadonnées pour les mettre au niveau d’autres métadonnées<br />Dublin Core<br />Conserver la richesse de ses métadonnées mais sans pouvoir se faire comprendre<br />MARC<br />TEF<br />EAD<br />Sociable mais pauvre<br />
  34. 34. souciAgréger des données hétérogènes<br />Difficile de mixer des notices<br />On juxtapose<br />On fusionne parfois<br />On n’agrège pas vraiment<br />
  35. 35. souciFrontières institutionnelles<br />Institutions comme mères possessives des métadonnées<br />Conflit d’intérêt chez chacune<br />Produire, gérer, publier les données<br />Exploiter les données, construire des outils l’outil et des interfaces l’interface<br />Lutte pour le monopole entre elles<br />Qui agrège les données des uns et des autres ?<br />Coordination lourde et lente<br />
  36. 36. Les questions techniques cachenttrèssouvent des problèmespolitiques<br />Christophe Pérales, 2010<br />
  37. 37.
  38. 38.
  39. 39.
  40. 40. Bibliothèque virtuelle<br />Machin bureaucratique ou <br />Mashup ?<br />
  41. 41. Place de marché : producteurs et consommateurs<br />
  42. 42. Les choix techniques <br />peuventrésoudre<br />certainsproblèmespolitiques<br />Bibi, 31 mars 2011<br />
  43. 43. souciFrontières interprofessionnelles<br />Faire cohabiter voire interagir les données<br />Vaudeville :<br />Calames : bibliothécaires et chercheurs<br />Sudoc : bibliothécaires et éditeurs ou agrégateurs<br />STAR et STEP (thèses en cours) : bibliothécaires et gestionnaires (scolarité, recherche)<br />Theses.fr : public et privé<br />Etc.<br />
  44. 44. souciLes données prisonnières des outils<br />Les données et les traitements sur les données doivent survivre aux outils<br />« Résultats fusionnés » = travail dissimulé sur les données<br />
  45. 45. Recyclage : agréger, enrichir, republier<br />
  46. 46. Un autre CCfr ?<br />Inspection en cours<br />Proposition :<br />Un opérateur agrège, traite, enrichit les données et les renvoie aux producteurs<br />Un autre opérateur construit une interface Web et des Web services<br />Qui veut construit d’autres interfaces, ad hoc, de niche, expérimentales, mashups …<br />
  47. 47. souciManque d’imaginationBiais<br />The coolest thing to do with your data will be thought of by someone else<br />Rufus Pollock, 2007<br />
  48. 48. souciQualité des données<br />Ouverture des donnéesvsSoin des données<br />Dilemme ?<br />Cerclevertueux ?<br />Qu’est-ceque de bonnesdonnées ?<br />
  49. 49. Data quality is multidimensional, and involves data management, modelling and analysis, quality control and assurance, storage and presentation. (..) data quality is related to use and cannot be assessed independently of the user.<br />Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for the Global Biodiversity Information Facility, Copenhagen.<br />
  50. 50. souciQualité des données<br />Bonnesdonnées = Bonnes à quoi ?<br />Maissi les donnéessontouvertes, on ignore leur usage !<br />Aporie<br />Jusqu’oùaller ?<br />QuellesconsignesdansSudoc, Calames, STAR ?<br />Miser sur le contenutextuel ?<br />Miser sur les liens aux référentielset à d’autresdonnéesfiables et stables ?<br />
  51. 51. Vers un Web de métadonnées<br />RDF<br />47<br />
  52. 52. RDF<br />Standard W3C<br />Existe depuis 1998, mais décolle aujourd’hui<br />Resource Description Framework<br />Cadre général pour décrire n’importe quoi<br />Tout peut être « resource » à décrire<br />RDF, modèle universel pour intégrer toute information au Web de données<br />48<br />
  53. 53. http://www.theses.fr/2009TOUR3802/id<br />dcterms:creator<br />http://www.idref.fr/142976903/id<br />Cette thèse …<br />… a pour auteur …<br />… untel.<br />49<br />
  54. 54. http://www.theses.fr/2009TOUR3802/id<br />http://purl.org/dc/terms/creator<br />http://www.idref.fr/142976903/id<br />La relation creator est également identifiée par une URL<br />50<br />
  55. 55.
  56. 56. Démo<br />52<br />
  57. 57. Comment publier ses métadonnées en RDF ?<br />Mettre du RDF dans ses pages HTML<br />RDFa (RDF dans les attributs HTML)<br />Calames<br />Thèses de STAR : www.theses.fr/{Numéro_national_de_Thèse}<br />Publier un document RDF à part<br />RDF en XML (ou autre format)<br />Autorités Sudoc dans IdRef<br />53<br />
  58. 58. Et si je veux voir ce RDF ?<br /><ul><li>Mais le RDF est pour les machines !
  59. 59. Mais je veux voir !
  60. 60. Outils
  61. 61. Tabulator: naviguer dans le RDF
  62. 62. Operator: extraire le RDF du HTML+RDFa
  63. 63. SindiceInspector: analyser et valider le RDF
  64. 64. RDFa distiller : extraire et valider le RDFa</li></ul>54<br />
  65. 65. Nos métadonnées et les moteurs<br />Google<br />Richsnippets<br />RDFa à la Google pour Google<br />Pas possible de parler de thèses, de documents<br />Mais on peut parler de personnes, d’entreprises, de produits…<br />Sindice<br />Moteur spécialisé dans les données sémantiques<br />Les moteurs explorent, moissonnent<br />De plus en plus vont agréger et faire raisonner nos métadonnées<br />Seulement le début…<br />55<br />
  66. 66. RDF :: Souci en moinsDilemme de l’interopérabilité<br />seul et sociable<br />pauvre et riche<br />tef:auteur<br />rdfs:subPropertyOf<br />dc:creator<br />
  67. 67. RDF :: moins de souciAgréger des données hétérogènes<br />Ne pas juxtaposer des notices<br />Agréger des triplets RDF<br />Et plus si affinités (inférences)<br />
  68. 68. RDF : moins de souciFrontières institutionnellesFrontières interprofessionnelles Manque d’imaginationBiais<br />Plus de frontières<br />Tout le monde peut dire n’importe quoi sur n’importe quoi<br />Pour le meilleur<br />Pour le pire<br />
  69. 69. RDF :: souci en moinsLes données prisonnières des outils<br />Ni des outils<br />Ni des formats (RDF n’est pas un format)<br />Ni des vocabulaires<br />Mais :<br />Attention à la conceptualisation<br />Attention aux faux-amis<br />
  70. 70. Souci toujoursQualité des données<br />Le problèmeresteentier<br />Miser sur la qualité de nosdonnées !<br />AOC des données (provenance)<br />Les machines ne font pas tout !<br />
  71. 71. Linked data<br />Vers un Web de données liées<br />Credo :<br />“Use URIs as names for things <br />Use HTTP URIs so that people can look up those names. <br />When someone looks up a URI, provide useful information, using the standards (RDF, SPARQL) <br />Include links to other URIs. so that they can discover more things. “<br />Tim Berners Lee, 2006<br />
  72. 72. The Linking Open Data cloud<br />Linking Open Data clouddiagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/<br />
  73. 73. DBpedia<br />Wikipedia en RDF<br />http://dbpedia.org/About<br />De facto, vaste base de connaissance sur laquelle les corpus RDF se règlent.<br />Le mapping : exemple BBC/DBPedia<br />
  74. 74. http://www.w3.org/DesignIssues/LinkedData.html<br />
  75. 75. Les métadonnées comme services<br />ABES<br />65<br />
  76. 76. Calendrier<br />
  77. 77. Les autorités Sudoc,pivot du Linked data ABES<br />theses.fr<br />Sudoc<br />Thèses soutenues<br />et<br />Thèses en cours (2011)<br />Autorités Sudoc<br />Calames<br />
  78. 78.
  79. 79. Portail des thèses<br />
  80. 80.
  81. 81. Linked data IST.fr ?<br />?<br />theses.fr<br />Sudoc<br />Thèses soutenues<br />et<br />Thèses en cours ( 2011)<br />Autorités Sudoc<br />Plateforme pédagogique X<br />HAL<br />revues.<br />org<br />Presses univ. de Y<br />Calames<br />Persée<br />
  82. 82. Linked data IST.fr ? Les labos !<br />?<br />theses.fr<br />Sudoc<br />Thèses soutenues<br />et<br />Thèses en cours ( 2011)<br />Autorités Sudoc<br />Plateforme pédagogique X<br />HAL<br />revues.<br />org<br />Presses univ.s de Y<br />Calames<br />Référentiel des laboratoires<br />Persée<br />
  83. 83. Linked data IST.fr ? Les affiliations<br />PRISMES (AMUE) locaux<br />theses.fr<br />Sudoc<br />Autorités Sudoc<br />Plateforme pédagogique X<br />HAL<br />revues.<br />org<br />Presses univ.s de Y<br />Calames<br />Référentiel des laboratoires<br />Persée<br />
  84. 84. Authentification, habilitation et données liées<br />Problème : <br />dans theses.fr, on veut associer des droits spécifiques aux auteurs de thèse (stats, être contacté)<br />Comment reconnaître un utilisateur en tant qu’auteur<br />Solution ?<br />Authentification Shibboleth avec « être l’auteur de telle thèse » comme propriété discriminante<br />
  85. 85. Linked data IST.fr ? Les brevets<br />brevets<br />theses.fr<br />Sudoc<br />Autorités Sudoc<br />Plateforme pédagogique X<br />HAL<br />revues.<br />org<br />Presses univ.s de Y<br />Calames<br />Référentiel des laboratoires<br />Persée<br />+ données de recherche, cahiers de laboratoire, congrès…<br />
  86. 86. Système(s) d’information de la recherche<br />Interconnecter nos bases<br />Ne pas enfermer les données dans de nouveaux outils<br />Partager ce qui peut l’être<br />Se coordonner sans coopérer (sic)<br />
  87. 87. Leibniz, Lettre à Arnauld, 30 avril 1687<br />77<br />
  88. 88. Scénarios<br />On ouvre les données et « servez-vous ! »<br />On offre aussi des services pour faciliter la tâche<br />C’est le sens d’IdRef<br />
  89. 89. IdRef<br />Une application sur mesure pour « servir » les Référentiels Sudoc et partager leurs Identifiants<br />2 fonctions :<br />Chercher des autorités et y lier ses données<br />Enrichir le référentiel d’autorités (créer, modifier)<br />2 moyens<br />Se « brancher » sur l’application Web cuit<br />Exploiter les Web Services mi-cuit<br />Données ouvertes cru<br />
  90. 90. Une interface Web<br />
  91. 91. Une application « pop up » pour ses applications « hôtes »<br />
  92. 92. Une application « pop up » pour ses applications « hôtes »<br />
  93. 93. Votre appli => IdRef => votre appli<br />
  94. 94. Contribuer au référentiel commun<br />
  95. 95. Des URL pérennes pour accéder aux données<br />
  96. 96. Des Web Services<br />
  97. 97. Bientôt un nouveau Web Service<br />
  98. 98. Web de données = (catalogage partagé)2<br />Contribuer au Web de données<br />Documentaire<br />Scientifique<br />Patrimonial<br />Miser sur l’ouverture et la qualité des données<br />Empêcher les monopoles sur les données<br />Moins dépendre des fournisseurs de logiciels<br />Utiliser et valoriser la force de frappe des catalogueurs<br />
  99. 99. nicolas@abes.fr<br />

×