Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Modèles de données et langages de description ouverts 5 - 2021-2022

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité

Consultez-les par la suite

1 sur 37 Publicité

Plus De Contenu Connexe

Diaporamas pour vous (19)

Similaire à Modèles de données et langages de description ouverts 5 - 2021-2022 (20)

Publicité

Plus récents (20)

Modèles de données et langages de description ouverts 5 - 2021-2022

  1. 1. Modèles de données et langages de description ouverts - 5 Licence DIST 2021-2022
  2. 2. Rappel programme global • Comprendre la notion de métadonnée, approche des langages à balises (s1) • Comprendre le XML et ses applications (s2-4) • Données ouvertes, traitements et matérialisations informatiques (s5-6)
  3. 3. Programme de ce cours 1. Rappel - formats XML en situation 2. Rappel MODS/MADS/METS 3. Quelques autres formats courants 4. Aligner les métadonnées 5. Les métadonnées demain ? 6. JSON et les flux 7. (selon temps disponible) travail sur dossiers
  4. 4. 1) Rappel formats XML en situation • Dublin Core ? –Groupe normé de métadonnées décrivant des objets numériques, exploité la plupart du temps en XML, facilitant l’interopérabilité notamment par le moissonnage selon le protocole OAI-PMH • EAD ? –Langage XML conçu pour la description des fonds d’archives, avec prise en compte des granularités différentes et de l’héritage des informations 4
  5. 5. Rappel formats XML en situation • TEI ? –Définition de validité pour le balisage des formes et contenus textuels A votre avis, quel format XML adapté pour : https://www.researchgate.net/publication/346014858_Preservi ng_complex_digital_objects_in_the_GLAM_community_through _Digital_Humanities_A_study_on_Ancient_Indian_scripts ? Réponse : https://github.com/performant-software/juxta-desktop/wiki/GettingStarted 5
  6. 6. 2) Rappel MODS/MADS/METS • MODS est un format bibliographique renouvelé dans un contexte numérique, plus spécifique que Dublin Core mais plus adapté aux nouveaux objets bibliographiques (ebooks, vidéos, sites web…) • MADS est un langage de description des autorités (lieux, personnes, sujets…) dans le contexte du MODS 6
  7. 7. Rappel MODS/MADS/METS • METS est un format XML capable d’intégrer dans un même conteneur les définitions de validité, le contenu décrit, et tous les types de métadonnées applicables (contenu / structure / droits / sur métadonnées) en XML • METS permet de ce fait de faciliter la réexploitation contextuelle du contenu • L’archivage pérenne est un usage courant du METS 7
  8. 8. 3) Quelques autres formats XML courants • Exemple de Zotero, outil de gestion de références bibliographique libre –Les styles utilisés sont exprimés dans un langage XML, le CSL –Les informations sur les ressources, pour être facilement récupérées par Zotero, sont insérées dans les balises SPAN du HTML : on utilise COinS (version abrégée de OpenURL Context Object in Span)
  9. 9. Quelques autres formats XML courants • Exemple de CSL : <?xml version="1.0" encoding="utf-8"?> <style xmlns="http://purl.org/net/xbiblio/csl" class="in-text" version="1.0" demote-non-dropping-particle="sort-only" default-locale="en-GB"> <info> <title>Nature</title> <id>http://www.zotero.org/styles/nature</id> <link href="http://www.zotero.org/styles/nature" rel="self"/> <link href="http://www.nature.com/nature/authors/gta/index.html#a5.4" rel="documentation"/> <link href="http://www.nature.com/srep/publish/guidelines#references" rel="documentation"/> <author> <name>Michael Berkowitz</name> <email>mberkowi@gmu.edu</email> </author> <category citation-format="numeric"/> <category field="science"/> <category field="generic-base"/> <issn>0028-0836</issn> <eissn>1476-4687</eissn> <updated>2018-10-24T18:43:45+00:00</updated> <rights license="http://creativecommons.org/licenses/by-sa/3.0/">This work is licensed under a Creative Commons Attribution-ShareAlike 3.0 License</rights> </info>
  10. 10. Quelques autres formats XML courants • Exemple de CSL : [...] <macro name="title"> <choose> <if type="bill book graphic legal_case legislation motion_picture report song" match="any"> <text variable="title" font-style="italic"/> </if> <else> <text variable="title"/> </else> </choose> </macro> <macro name="author"> <names variable="author"> <name sort-separator=", " delimiter=", " and="symbol" initialize-with=". " delimiter-precedes-last="never" name-as-sort-order="all"/> <label form="short" prefix=", "/> <et-al font-style="italic"/> </names> </macro> [...] </style>
  11. 11. Quelques autres formats XML courants • Exemple de COinS article médical tchèque : <span class="Z3988" title="ctx_ver=Z39.88-2004&amp; rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&amp; rfr_id=info%3Asid%2Focoins.info%3Agenerator&amp; rft.genre=article&amp; rft.atitle=Bioplyn z konského hnoja s kukuričnou silážou v procese anaeróbnej kofermentácie&amp; rft.title=Biom.cz&amp; rft.stitle=Biom.cz&amp; rft.issn=1801-2655&amp; rft.date=2007-11-23&amp; rft.volume=9&amp; rft.issue=11&amp; rft.au=Ladislav Košík&amp; rft.au=Ján Gaduš&amp; rft_id=http://biom.cz/clanky.stm?x=2058843&amp; rft.language=Czech"></span> Dans quelle partie de la balise se situent les informations en COinS ?
  12. 12. Quelques autres formats XML courants • OWL pour les ontologies (ill. Maha Al Yahya) • SKOS pour les thésaurus
  13. 13. Quelques autres formats XML courants • KML pour les cartes type Google Map • SVG pour les images vectorielles • RSS pour les flux d’articles de blog
  14. 14. Quelques autres formats XML courants • DOCX, XLSX, PPTX… pour les documents Microsoft Office; ODT, ODS, ODP pour OpenOffice XLSX Document XML PDF Doc XML XSL XSL DOCX PPTX 14
  15. 15. Quelques autres formats XML courants • PREMIS (PREservation Metadata Implementation Strategies) pour l’archivage (en + de METS)
  16. 16. 4) Aligner les métadonnées ● Plutôt que d’homogénéiser les métadonnées, dont chaque champ d’application est spécifique et difficilement réductible à un standard donné, on préfère aligner les métadonnées ● A ● B ● C ● D ● 1 ● 2 ● 3 ● 4 16
  17. 17. Aligner les métadonnées ● Il s’agit de créer une référence de correspondance entre les définitions de validité, XML en particulier Exemple : https://www.w3.org/TR/prov-dc/ pour un alignement entre Dublin Core (documents en ligne, générique) et PROV (métadonnées sur les sources / l’origine / la provenance de données ou documents) 17
  18. 18. Aligner les métadonnées •On parle parfois d’alignement des données: aligner les vocabulaires et non les grammaires ? En fait, dans la logique web 3 •Aucun alignement parfait entre les langages, comme dans la vraie vie
  19. 19. 5) Les métadonnées demain ? (= le web de données) Observez la page https://data.bnf.fr/fr/11904228/romain_gary/ Essai de représentation des données 19
  20. 20. Le web de données • Tim Berners-Lee, en particulier dans un article de 2001 “The Semantic Web” (Scientific American n°284), décrit comment devraient être structurées les données du web • Cette structure repose sur des analyses cognitives pour réduire l’information à des déclarations permettant déductions logiques: –Socrate est un chat –Tous les chats sont mortels –Socrate est mortel
  21. 21. Le web de données • Ces déclarations sont décomposés en : sujet - relation - prédicat, qu’on nomme des triplets (n-triples) • D’une logique de tables de données, on passe alors à un système de graphe de données (la structure des liens tissés par les triplets)
  22. 22. Le web de données
  23. 23. Le web de données -> Exemples : Rome (ville, état dans l’antiquité, lieu, lieu de publication) Les autobiographies en langue française Paris, Pâris, le Hilton de Paris, Paris Hilton… Les ordres, familles, espèces du vivant Les composés chimiques et leurs propriétés
  24. 24. Le web de données • Cette conception des métadonnées a pu prendre différents noms avec “colorations” différentes : –Web sémantique –Web de données –Web 3 –Squared Web (=“web au carré”) –Web des données liées –Données liées –Données en graphe
  25. 25. Le web de données • Le Web de données est avant tout un Web pour faciliter le travail des machines… encore plus que ne le font la plupart des langages à balises! • Gomme totalement la distinction entre données et métadonnées : toute métadonnée est une donnée. Toute donnée est une métadonnée potentielle.
  26. 26. Le web de données • Des forces indiscutables : –La levée d’ambiguïtés (URIs = uniform resource identifiers) –Une ouverture fondamentale (graphes et non tables) –La simplicité d’interprétation et d’inférence pour les machines : logique simpliste et partagée mondialement –Une possibilité de réutilisation sans fin
  27. 27. Le web de données • Des faiblesses : –Une grande place à l’imprévu quand on relie les graphes –La mesure d’utilisation des données liées ouvertes n’est pas actuellement maîtrisée –Un travail de conversion potentiellement énorme (cf. données des bibliothèques). Ce ne sera possible qu’avec l’aide de l’IA...
  28. 28. Le web de données • Cas d’utilisation le plus pertinent, à l’usage : quand on traite de la qualification, et non de la quantification (expérience de data.bnf.fr) –Bases de données en sociologie, en histoire, en chimie, dans la recherche d’exoplanètes… –Pas les bases de résultats des expériences du CERN
  29. 29. Le web de données Source : Karima Rafes - Wikipedia Commons
  30. 30. Le web de données Source : lod-cloud.net
  31. 31. Le web de données • Source pour le Web de données : World Wide Web Consortium (W3C) https://www.w3.org/standards/semanticweb/ • Le RDF, formalisation du web de données : https://www.w3.org/RDF/ https://www.w3.org/TR/rdf-syntax-grammar/ Et il existe le RDF en XML ! http://www.yoyodesign.org/doc/w3c/rdf-sch ema/
  32. 32. Le web de données • Le web de données est dans la suite de ce besoin fondamental auquel a répondu le développement des métadonnées : donner aux machines le pouvoir (...de travailler) • Ce n’est cependant pas le modèle ultime, le point indépassable des métadonnées (nous reviendrons en conclusion sur l’analyse de Gautier Poupeau dans son blog Les Petites Cases)
  33. 33. 6) JSON et les flux • Les formats de métadonnées adaptées au stockage ne sont pas forcément les mêmes que ceux adaptés aux échanges • JSON (JavaScript Object Notation) est un format qui s’impose de plus en plus pour l’exposition et la lecture de métadonnées en complément des formats de stockage
  34. 34. JSON et les flux • L’origine du JSON : le JavaScript, un langage de programmation (lui-même issu du Java) • Qualités –structuration très simple, légère –interprétation facile techniquement –intégrable dans toute instruction de programmation (requête web, programme Python ou C++, API) puisqu’il s’agit d’un modèle de représentation
  35. 35. JSON et les flux • Exemple XML <employees> <employee> <prenom>Paul</prenom> <nom>Atreides</nom> </employee> </employees> • Exemple JSON { "employees": [ { "prenom":"Paul", "nom":"Atreides" } ] }
  36. 36. 7) Travail sur dossiers • Questions restantes sur la modalité d’ évaluation ? • Questions sur les recherches en cours, sur les résultats ?
  37. 37. Calendrier prévu • 02/12/21 – Séance 6 : fin + évaluation finale

×