SlideShare une entreprise Scribd logo
Modèles de données
et langages de description ouverts - 5
Licence DIST
2021-2022
Rappel programme global
• Comprendre la notion de métadonnée,
approche des langages à balises (s1)
• Comprendre le XML et ses applications (s2-4)
• Données ouvertes, traitements et
matérialisations informatiques (s5-6)
Programme de ce cours
1. Rappel - formats XML en situation
2. Rappel MODS/MADS/METS
3. Quelques autres formats courants
4. Aligner les métadonnées
5. Les métadonnées demain ?
6. JSON et les flux
7. (selon temps disponible) travail sur dossiers
1) Rappel formats XML en situation
• Dublin Core ?
–Groupe normé de métadonnées décrivant des
objets numériques, exploité la plupart du temps
en XML, facilitant l’interopérabilité notamment
par le moissonnage selon le protocole OAI-PMH
• EAD ?
–Langage XML conçu pour la description des
fonds d’archives, avec prise en compte des
granularités différentes et de l’héritage des
informations
4
Rappel formats XML en situation
• TEI ?
–Définition de validité pour le balisage des
formes et contenus textuels
A votre avis, quel format XML adapté pour :
https://www.researchgate.net/publication/346014858_Preservi
ng_complex_digital_objects_in_the_GLAM_community_through
_Digital_Humanities_A_study_on_Ancient_Indian_scripts ?
Réponse : https://github.com/performant-software/juxta-desktop/wiki/GettingStarted
5
2) Rappel MODS/MADS/METS
• MODS est un format bibliographique
renouvelé dans un contexte numérique, plus
spécifique que Dublin Core mais plus adapté
aux nouveaux objets bibliographiques
(ebooks, vidéos, sites web…)
• MADS est un langage de description des
autorités (lieux, personnes, sujets…) dans le
contexte du MODS
6
Rappel MODS/MADS/METS
• METS est un format XML capable d’intégrer
dans un même conteneur les définitions de
validité, le contenu décrit, et tous les types de
métadonnées applicables (contenu /
structure / droits / sur métadonnées) en XML
• METS permet de ce fait de faciliter la
réexploitation contextuelle du contenu
• L’archivage pérenne est un usage courant du
METS
7
3) Quelques autres
formats XML courants
• Exemple de Zotero, outil de gestion de références
bibliographique libre
–Les styles utilisés sont exprimés dans un
langage XML, le CSL
–Les informations sur les ressources, pour être
facilement récupérées par Zotero, sont insérées
dans les balises SPAN du HTML : on utilise COinS
(version abrégée de OpenURL Context Object in
Span)
Quelques autres
formats XML courants
• Exemple de CSL :
<?xml version="1.0" encoding="utf-8"?>
<style xmlns="http://purl.org/net/xbiblio/csl" class="in-text" version="1.0"
demote-non-dropping-particle="sort-only" default-locale="en-GB">
<info>
<title>Nature</title>
<id>http://www.zotero.org/styles/nature</id>
<link href="http://www.zotero.org/styles/nature" rel="self"/>
<link href="http://www.nature.com/nature/authors/gta/index.html#a5.4" rel="documentation"/>
<link href="http://www.nature.com/srep/publish/guidelines#references" rel="documentation"/>
<author>
<name>Michael Berkowitz</name>
<email>mberkowi@gmu.edu</email>
</author>
<category citation-format="numeric"/>
<category field="science"/>
<category field="generic-base"/>
<issn>0028-0836</issn>
<eissn>1476-4687</eissn>
<updated>2018-10-24T18:43:45+00:00</updated>
<rights license="http://creativecommons.org/licenses/by-sa/3.0/">This work is licensed under a Creative
Commons Attribution-ShareAlike 3.0 License</rights>
</info>
Quelques autres
formats XML courants
• Exemple de CSL :
[...]
<macro name="title">
<choose>
<if type="bill book graphic legal_case legislation motion_picture report song" match="any">
<text variable="title" font-style="italic"/>
</if>
<else>
<text variable="title"/>
</else>
</choose>
</macro>
<macro name="author">
<names variable="author">
<name sort-separator=", " delimiter=", " and="symbol" initialize-with=". " delimiter-precedes-last="never"
name-as-sort-order="all"/>
<label form="short" prefix=", "/>
<et-al font-style="italic"/>
</names>
</macro>
[...]
</style>
Quelques autres
formats XML courants
• Exemple de COinS article médical tchèque :
<span class="Z3988" title="ctx_ver=Z39.88-2004&amp;
rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&amp;
rfr_id=info%3Asid%2Focoins.info%3Agenerator&amp;
rft.genre=article&amp;
rft.atitle=Bioplyn z konského hnoja s kukuričnou silážou v procese anaeróbnej
kofermentácie&amp;
rft.title=Biom.cz&amp;
rft.stitle=Biom.cz&amp;
rft.issn=1801-2655&amp;
rft.date=2007-11-23&amp;
rft.volume=9&amp;
rft.issue=11&amp;
rft.au=Ladislav Košík&amp;
rft.au=Ján Gaduš&amp;
rft_id=http://biom.cz/clanky.stm?x=2058843&amp;
rft.language=Czech"></span>
Dans quelle partie de la balise se situent les informations en COinS ?
Quelques autres
formats XML courants
• OWL pour
les ontologies
(ill. Maha
Al Yahya)
• SKOS pour les thésaurus
Quelques autres
formats XML courants
• KML pour les cartes type Google Map
• SVG pour les images vectorielles
• RSS pour les flux d’articles de blog
Quelques autres
formats XML courants
• DOCX, XLSX, PPTX… pour les documents Microsoft
Office; ODT, ODS, ODP pour OpenOffice
XLSX
Document
XML
PDF
Doc XML
XSL
XSL
DOCX
PPTX
14
Quelques autres
formats XML courants
• PREMIS (PREservation Metadata Implementation
Strategies) pour l’archivage (en + de METS)
4) Aligner les métadonnées
● Plutôt que d’homogénéiser les métadonnées,
dont chaque champ d’application est
spécifique et difficilement réductible à un
standard donné, on préfère aligner les
métadonnées
● A
● B
● C
● D
● 1
● 2
● 3
● 4
16
Aligner les métadonnées
● Il s’agit de créer une référence de
correspondance entre les définitions de
validité, XML en particulier
Exemple : https://www.w3.org/TR/prov-dc/
pour un alignement entre Dublin Core
(documents en ligne, générique) et PROV
(métadonnées sur les sources / l’origine / la
provenance de données ou documents)
17
Aligner les métadonnées
•On parle parfois d’alignement des données:
aligner les vocabulaires et non les
grammaires ? En fait, dans la logique web 3
•Aucun alignement parfait entre les langages,
comme dans la vraie vie
5) Les métadonnées demain ?
(= le web de données)
Observez la page
https://data.bnf.fr/fr/11904228/romain_gary/
Essai de représentation des données
19
Le web de données
• Tim Berners-Lee, en particulier dans un article
de 2001 “The Semantic Web” (Scientific
American n°284), décrit comment devraient
être structurées les données du web
• Cette structure repose sur des analyses
cognitives pour réduire l’information à des
déclarations permettant déductions logiques:
–Socrate est un chat
–Tous les chats sont mortels
–Socrate est mortel
Le web de données
• Ces déclarations sont décomposés en : sujet -
relation - prédicat, qu’on nomme des triplets
(n-triples)
• D’une logique de tables de données, on passe
alors à un système de graphe de données (la
structure des liens tissés par les triplets)
Le web de données
Le web de données
-> Exemples :
Rome (ville, état dans l’antiquité, lieu, lieu de publication)
Les autobiographies en langue française
Paris, Pâris, le Hilton de Paris, Paris Hilton…
Les ordres, familles, espèces du vivant
Les composés chimiques et leurs propriétés
Le web de données
• Cette conception des métadonnées a pu
prendre différents noms avec “colorations”
différentes :
–Web sémantique
–Web de données
–Web 3
–Squared Web (=“web au carré”)
–Web des données liées
–Données liées
–Données en graphe
Le web de données
• Le Web de données est avant tout un Web
pour faciliter le travail des machines… encore
plus que ne le font la plupart des langages à
balises!
• Gomme totalement la distinction entre
données et métadonnées : toute métadonnée
est une donnée. Toute donnée est une
métadonnée potentielle.
Le web de données
• Des forces indiscutables :
–La levée d’ambiguïtés (URIs = uniform
resource identifiers)
–Une ouverture fondamentale (graphes et non
tables)
–La simplicité d’interprétation et d’inférence
pour les machines : logique simpliste et partagée
mondialement
–Une possibilité de réutilisation sans fin
Le web de données
• Des faiblesses :
–Une grande place à l’imprévu quand on relie
les graphes
–La mesure d’utilisation des données liées
ouvertes n’est pas actuellement maîtrisée
–Un travail de conversion potentiellement
énorme (cf. données des bibliothèques). Ce ne
sera possible qu’avec l’aide de l’IA...
Le web de données
• Cas d’utilisation le plus pertinent, à l’usage :
quand on traite de la qualification, et non de
la quantification (expérience de data.bnf.fr)
–Bases de données en sociologie, en histoire,
en chimie, dans la recherche d’exoplanètes…
–Pas les bases de résultats des expériences du
CERN
Le web de données
Source : Karima Rafes -
Wikipedia Commons
Le web de données
Source : lod-cloud.net
Le web de données
• Source pour le Web de données : World Wide
Web Consortium (W3C)
https://www.w3.org/standards/semanticweb/
• Le RDF, formalisation du web de données :
https://www.w3.org/RDF/
https://www.w3.org/TR/rdf-syntax-grammar/
Et il existe le RDF en XML !
http://www.yoyodesign.org/doc/w3c/rdf-sch
ema/
Le web de données
• Le web de données est dans la suite de ce
besoin fondamental auquel a répondu le
développement des métadonnées : donner
aux machines le pouvoir (...de travailler)
• Ce n’est cependant pas le modèle ultime, le point
indépassable des métadonnées (nous reviendrons en
conclusion sur l’analyse de Gautier Poupeau dans son blog
Les Petites Cases)
6) JSON et les flux
• Les formats de métadonnées adaptées au
stockage ne sont pas forcément les mêmes
que ceux adaptés aux échanges
• JSON (JavaScript Object Notation) est un
format qui s’impose de plus en plus pour
l’exposition et la lecture de métadonnées en
complément des formats de stockage
JSON et les flux
• L’origine du JSON : le JavaScript, un langage
de programmation (lui-même issu du Java)
• Qualités
–structuration très simple, légère
–interprétation facile techniquement
–intégrable dans toute instruction de
programmation (requête web, programme Python
ou C++, API) puisqu’il s’agit d’un modèle de
représentation
JSON et les flux
• Exemple XML
<employees>
<employee>
<prenom>Paul</prenom>
<nom>Atreides</nom>
</employee>
</employees>
• Exemple JSON
{
"employees":
[
{
"prenom":"Paul",
"nom":"Atreides"
}
]
}
7) Travail sur dossiers
• Questions restantes sur la modalité d’
évaluation ?
• Questions sur les recherches en cours, sur les
résultats ?
Calendrier prévu
• 02/12/21 – Séance 6 : fin + évaluation finale

Contenu connexe

Tendances

Standards et outils XML
Standards et outils XMLStandards et outils XML
Standards et outils XML
Equipex Biblissima
 
Cours de C++, en français, 2002 - Cours 3.3
Cours de C++, en français, 2002 - Cours 3.3Cours de C++, en français, 2002 - Cours 3.3
Cours de C++, en français, 2002 - Cours 3.3
Laurent BUNIET
 
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partieRéalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
Gautier Poupeau
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libres
Robert Viseur
 
Découvrir le web sémantique en 15 minutes (Decideo 2014)
Découvrir le web sémantique en 15 minutes (Decideo 2014)Découvrir le web sémantique en 15 minutes (Decideo 2014)
Découvrir le web sémantique en 15 minutes (Decideo 2014)
François Belleau
 
Web3
Web3Web3
Web sémantique
Web sémantique Web sémantique
Web sémantique
Nour El Houda Megherbi
 
Open data & linked data
Open data & linked dataOpen data & linked data
Open data & linked data
VincentBroute
 
Échange et interopérabilité des données structurées sur le Web
Échange et interopérabilité des données structurées sur le WebÉchange et interopérabilité des données structurées sur le Web
Échange et interopérabilité des données structurées sur le Web
Antidot
 
Découverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALDécouverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HAL
Gautier Poupeau
 
Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)
BorderCloud
 
Web sémantique
Web sémantiqueWeb sémantique
Web sémantique
GreenIvory
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de données
Gautier Poupeau
 
États des lieux du Web sémantique
États des lieux du Web sémantiqueÉtats des lieux du Web sémantique
États des lieux du Web sémantique
Ivan Herman
 
ATED 2015 - Données numériques et Mémoire par Nicolas Larrousse (Huma-Num)
ATED 2015 - Données numériques et Mémoire par Nicolas Larrousse (Huma-Num)ATED 2015 - Données numériques et Mémoire par Nicolas Larrousse (Huma-Num)
ATED 2015 - Données numériques et Mémoire par Nicolas Larrousse (Huma-Num)
Phonothèque MMSH
 
Les ontologies et les graphes RDF
Les ontologies et les graphes RDFLes ontologies et les graphes RDF
Les ontologies et les graphes RDF
Radhouani Mejdi
 
Xml un panorama
Xml un panoramaXml un panorama
Xml un panorama
llobel
 
Introduction au web sémantique
Introduction au web sémantiqueIntroduction au web sémantique
Introduction au web sémantique
Stéphane Traumat
 

Tendances (19)

Standards et outils XML
Standards et outils XMLStandards et outils XML
Standards et outils XML
 
Cours de C++, en français, 2002 - Cours 3.3
Cours de C++, en français, 2002 - Cours 3.3Cours de C++, en français, 2002 - Cours 3.3
Cours de C++, en français, 2002 - Cours 3.3
 
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partieRéalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libres
 
Découvrir le web sémantique en 15 minutes (Decideo 2014)
Découvrir le web sémantique en 15 minutes (Decideo 2014)Découvrir le web sémantique en 15 minutes (Decideo 2014)
Découvrir le web sémantique en 15 minutes (Decideo 2014)
 
Web3
Web3Web3
Web3
 
Web sémantique
Web sémantique Web sémantique
Web sémantique
 
Open data & linked data
Open data & linked dataOpen data & linked data
Open data & linked data
 
Échange et interopérabilité des données structurées sur le Web
Échange et interopérabilité des données structurées sur le WebÉchange et interopérabilité des données structurées sur le Web
Échange et interopérabilité des données structurées sur le Web
 
Découverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALDécouverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HAL
 
Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)
 
Web sémantique
Web sémantiqueWeb sémantique
Web sémantique
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de données
 
États des lieux du Web sémantique
États des lieux du Web sémantiqueÉtats des lieux du Web sémantique
États des lieux du Web sémantique
 
ATED 2015 - Données numériques et Mémoire par Nicolas Larrousse (Huma-Num)
ATED 2015 - Données numériques et Mémoire par Nicolas Larrousse (Huma-Num)ATED 2015 - Données numériques et Mémoire par Nicolas Larrousse (Huma-Num)
ATED 2015 - Données numériques et Mémoire par Nicolas Larrousse (Huma-Num)
 
Les ontologies et les graphes RDF
Les ontologies et les graphes RDFLes ontologies et les graphes RDF
Les ontologies et les graphes RDF
 
Xml un panorama
Xml un panoramaXml un panorama
Xml un panorama
 
Xml un panorama
Xml un panoramaXml un panorama
Xml un panorama
 
Introduction au web sémantique
Introduction au web sémantiqueIntroduction au web sémantique
Introduction au web sémantique
 

Similaire à Modèles de données et langages de description ouverts 5 - 2021-2022

Adbs2012 presentation
Adbs2012 presentationAdbs2012 presentation
Adbs2012 presentation
Fleury Christine
 
Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02
ABES
 
Les catalogues sur le Web
Les catalogues sur le WebLes catalogues sur le Web
Les catalogues sur le Web
Figoblog
 
Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivi...
Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivi...Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivi...
Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivi...
Tobias Wildi
 
Le Matterhorn RDF Data Model
Le Matterhorn RDF Data ModelLe Matterhorn RDF Data Model
Le Matterhorn RDF Data Model
Forum des archivistes de l'arc lémanique
 
Serveur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développementServeur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développement
Ludovic REUS
 
Skos transformation
Skos transformationSkos transformation
Skos transformation
catherine roussey
 
03 Web Semantique
03  Web Semantique03  Web Semantique
03 Web Semantique
badirh
 
Sp6 Yann Nicolas
Sp6 Yann NicolasSp6 Yann Nicolas
Sp6 Yann Nicolas
ent12701
 
Du web sémantique à tous les étages
Du web sémantique à tous les étagesDu web sémantique à tous les étages
Du web sémantique à tous les étages
SemWebPro
 
ABES - intervention congrès Semweb pro (5-11-2014)
ABES - intervention congrès Semweb pro (5-11-2014)ABES - intervention congrès Semweb pro (5-11-2014)
ABES - intervention congrès Semweb pro (5-11-2014)
ABES
 
Metadonnees et SID
Metadonnees et SIDMetadonnees et SID
Metadonnees et SID
Sylvie Dalbin
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformation
catherine roussey
 
Medialille evolutions catalogage_avril2014_web-donnees
Medialille evolutions catalogage_avril2014_web-donneesMedialille evolutions catalogage_avril2014_web-donnees
Medialille evolutions catalogage_avril2014_web-donnees
nonue12
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
Serge Garlatti
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
Serge Garlatti
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
Serge Garlatti
 
Les éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EADLes éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EAD
Danis Habib
 
Séminaire Inria IST - Référentiels et interoperabilité (2)
Séminaire Inria IST - Référentiels et interoperabilité (2)Séminaire Inria IST - Référentiels et interoperabilité (2)
Séminaire Inria IST - Référentiels et interoperabilité (2)
Antoine Isaac
 

Similaire à Modèles de données et langages de description ouverts 5 - 2021-2022 (20)

Adbs2012 presentation
Adbs2012 presentationAdbs2012 presentation
Adbs2012 presentation
 
Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02
 
Semantic web introduction
Semantic web introductionSemantic web introduction
Semantic web introduction
 
Les catalogues sur le Web
Les catalogues sur le WebLes catalogues sur le Web
Les catalogues sur le Web
 
Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivi...
Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivi...Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivi...
Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivi...
 
Le Matterhorn RDF Data Model
Le Matterhorn RDF Data ModelLe Matterhorn RDF Data Model
Le Matterhorn RDF Data Model
 
Serveur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développementServeur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développement
 
Skos transformation
Skos transformationSkos transformation
Skos transformation
 
03 Web Semantique
03  Web Semantique03  Web Semantique
03 Web Semantique
 
Sp6 Yann Nicolas
Sp6 Yann NicolasSp6 Yann Nicolas
Sp6 Yann Nicolas
 
Du web sémantique à tous les étages
Du web sémantique à tous les étagesDu web sémantique à tous les étages
Du web sémantique à tous les étages
 
ABES - intervention congrès Semweb pro (5-11-2014)
ABES - intervention congrès Semweb pro (5-11-2014)ABES - intervention congrès Semweb pro (5-11-2014)
ABES - intervention congrès Semweb pro (5-11-2014)
 
Metadonnees et SID
Metadonnees et SIDMetadonnees et SID
Metadonnees et SID
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformation
 
Medialille evolutions catalogage_avril2014_web-donnees
Medialille evolutions catalogage_avril2014_web-donneesMedialille evolutions catalogage_avril2014_web-donnees
Medialille evolutions catalogage_avril2014_web-donnees
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
 
Les éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EADLes éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EAD
 
Séminaire Inria IST - Référentiels et interoperabilité (2)
Séminaire Inria IST - Référentiels et interoperabilité (2)Séminaire Inria IST - Référentiels et interoperabilité (2)
Séminaire Inria IST - Référentiels et interoperabilité (2)
 

Modèles de données et langages de description ouverts 5 - 2021-2022

  • 1. Modèles de données et langages de description ouverts - 5 Licence DIST 2021-2022
  • 2. Rappel programme global • Comprendre la notion de métadonnée, approche des langages à balises (s1) • Comprendre le XML et ses applications (s2-4) • Données ouvertes, traitements et matérialisations informatiques (s5-6)
  • 3. Programme de ce cours 1. Rappel - formats XML en situation 2. Rappel MODS/MADS/METS 3. Quelques autres formats courants 4. Aligner les métadonnées 5. Les métadonnées demain ? 6. JSON et les flux 7. (selon temps disponible) travail sur dossiers
  • 4. 1) Rappel formats XML en situation • Dublin Core ? –Groupe normé de métadonnées décrivant des objets numériques, exploité la plupart du temps en XML, facilitant l’interopérabilité notamment par le moissonnage selon le protocole OAI-PMH • EAD ? –Langage XML conçu pour la description des fonds d’archives, avec prise en compte des granularités différentes et de l’héritage des informations 4
  • 5. Rappel formats XML en situation • TEI ? –Définition de validité pour le balisage des formes et contenus textuels A votre avis, quel format XML adapté pour : https://www.researchgate.net/publication/346014858_Preservi ng_complex_digital_objects_in_the_GLAM_community_through _Digital_Humanities_A_study_on_Ancient_Indian_scripts ? Réponse : https://github.com/performant-software/juxta-desktop/wiki/GettingStarted 5
  • 6. 2) Rappel MODS/MADS/METS • MODS est un format bibliographique renouvelé dans un contexte numérique, plus spécifique que Dublin Core mais plus adapté aux nouveaux objets bibliographiques (ebooks, vidéos, sites web…) • MADS est un langage de description des autorités (lieux, personnes, sujets…) dans le contexte du MODS 6
  • 7. Rappel MODS/MADS/METS • METS est un format XML capable d’intégrer dans un même conteneur les définitions de validité, le contenu décrit, et tous les types de métadonnées applicables (contenu / structure / droits / sur métadonnées) en XML • METS permet de ce fait de faciliter la réexploitation contextuelle du contenu • L’archivage pérenne est un usage courant du METS 7
  • 8. 3) Quelques autres formats XML courants • Exemple de Zotero, outil de gestion de références bibliographique libre –Les styles utilisés sont exprimés dans un langage XML, le CSL –Les informations sur les ressources, pour être facilement récupérées par Zotero, sont insérées dans les balises SPAN du HTML : on utilise COinS (version abrégée de OpenURL Context Object in Span)
  • 9. Quelques autres formats XML courants • Exemple de CSL : <?xml version="1.0" encoding="utf-8"?> <style xmlns="http://purl.org/net/xbiblio/csl" class="in-text" version="1.0" demote-non-dropping-particle="sort-only" default-locale="en-GB"> <info> <title>Nature</title> <id>http://www.zotero.org/styles/nature</id> <link href="http://www.zotero.org/styles/nature" rel="self"/> <link href="http://www.nature.com/nature/authors/gta/index.html#a5.4" rel="documentation"/> <link href="http://www.nature.com/srep/publish/guidelines#references" rel="documentation"/> <author> <name>Michael Berkowitz</name> <email>mberkowi@gmu.edu</email> </author> <category citation-format="numeric"/> <category field="science"/> <category field="generic-base"/> <issn>0028-0836</issn> <eissn>1476-4687</eissn> <updated>2018-10-24T18:43:45+00:00</updated> <rights license="http://creativecommons.org/licenses/by-sa/3.0/">This work is licensed under a Creative Commons Attribution-ShareAlike 3.0 License</rights> </info>
  • 10. Quelques autres formats XML courants • Exemple de CSL : [...] <macro name="title"> <choose> <if type="bill book graphic legal_case legislation motion_picture report song" match="any"> <text variable="title" font-style="italic"/> </if> <else> <text variable="title"/> </else> </choose> </macro> <macro name="author"> <names variable="author"> <name sort-separator=", " delimiter=", " and="symbol" initialize-with=". " delimiter-precedes-last="never" name-as-sort-order="all"/> <label form="short" prefix=", "/> <et-al font-style="italic"/> </names> </macro> [...] </style>
  • 11. Quelques autres formats XML courants • Exemple de COinS article médical tchèque : <span class="Z3988" title="ctx_ver=Z39.88-2004&amp; rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&amp; rfr_id=info%3Asid%2Focoins.info%3Agenerator&amp; rft.genre=article&amp; rft.atitle=Bioplyn z konského hnoja s kukuričnou silážou v procese anaeróbnej kofermentácie&amp; rft.title=Biom.cz&amp; rft.stitle=Biom.cz&amp; rft.issn=1801-2655&amp; rft.date=2007-11-23&amp; rft.volume=9&amp; rft.issue=11&amp; rft.au=Ladislav Košík&amp; rft.au=Ján Gaduš&amp; rft_id=http://biom.cz/clanky.stm?x=2058843&amp; rft.language=Czech"></span> Dans quelle partie de la balise se situent les informations en COinS ?
  • 12. Quelques autres formats XML courants • OWL pour les ontologies (ill. Maha Al Yahya) • SKOS pour les thésaurus
  • 13. Quelques autres formats XML courants • KML pour les cartes type Google Map • SVG pour les images vectorielles • RSS pour les flux d’articles de blog
  • 14. Quelques autres formats XML courants • DOCX, XLSX, PPTX… pour les documents Microsoft Office; ODT, ODS, ODP pour OpenOffice XLSX Document XML PDF Doc XML XSL XSL DOCX PPTX 14
  • 15. Quelques autres formats XML courants • PREMIS (PREservation Metadata Implementation Strategies) pour l’archivage (en + de METS)
  • 16. 4) Aligner les métadonnées ● Plutôt que d’homogénéiser les métadonnées, dont chaque champ d’application est spécifique et difficilement réductible à un standard donné, on préfère aligner les métadonnées ● A ● B ● C ● D ● 1 ● 2 ● 3 ● 4 16
  • 17. Aligner les métadonnées ● Il s’agit de créer une référence de correspondance entre les définitions de validité, XML en particulier Exemple : https://www.w3.org/TR/prov-dc/ pour un alignement entre Dublin Core (documents en ligne, générique) et PROV (métadonnées sur les sources / l’origine / la provenance de données ou documents) 17
  • 18. Aligner les métadonnées •On parle parfois d’alignement des données: aligner les vocabulaires et non les grammaires ? En fait, dans la logique web 3 •Aucun alignement parfait entre les langages, comme dans la vraie vie
  • 19. 5) Les métadonnées demain ? (= le web de données) Observez la page https://data.bnf.fr/fr/11904228/romain_gary/ Essai de représentation des données 19
  • 20. Le web de données • Tim Berners-Lee, en particulier dans un article de 2001 “The Semantic Web” (Scientific American n°284), décrit comment devraient être structurées les données du web • Cette structure repose sur des analyses cognitives pour réduire l’information à des déclarations permettant déductions logiques: –Socrate est un chat –Tous les chats sont mortels –Socrate est mortel
  • 21. Le web de données • Ces déclarations sont décomposés en : sujet - relation - prédicat, qu’on nomme des triplets (n-triples) • D’une logique de tables de données, on passe alors à un système de graphe de données (la structure des liens tissés par les triplets)
  • 22. Le web de données
  • 23. Le web de données -> Exemples : Rome (ville, état dans l’antiquité, lieu, lieu de publication) Les autobiographies en langue française Paris, Pâris, le Hilton de Paris, Paris Hilton… Les ordres, familles, espèces du vivant Les composés chimiques et leurs propriétés
  • 24. Le web de données • Cette conception des métadonnées a pu prendre différents noms avec “colorations” différentes : –Web sémantique –Web de données –Web 3 –Squared Web (=“web au carré”) –Web des données liées –Données liées –Données en graphe
  • 25. Le web de données • Le Web de données est avant tout un Web pour faciliter le travail des machines… encore plus que ne le font la plupart des langages à balises! • Gomme totalement la distinction entre données et métadonnées : toute métadonnée est une donnée. Toute donnée est une métadonnée potentielle.
  • 26. Le web de données • Des forces indiscutables : –La levée d’ambiguïtés (URIs = uniform resource identifiers) –Une ouverture fondamentale (graphes et non tables) –La simplicité d’interprétation et d’inférence pour les machines : logique simpliste et partagée mondialement –Une possibilité de réutilisation sans fin
  • 27. Le web de données • Des faiblesses : –Une grande place à l’imprévu quand on relie les graphes –La mesure d’utilisation des données liées ouvertes n’est pas actuellement maîtrisée –Un travail de conversion potentiellement énorme (cf. données des bibliothèques). Ce ne sera possible qu’avec l’aide de l’IA...
  • 28. Le web de données • Cas d’utilisation le plus pertinent, à l’usage : quand on traite de la qualification, et non de la quantification (expérience de data.bnf.fr) –Bases de données en sociologie, en histoire, en chimie, dans la recherche d’exoplanètes… –Pas les bases de résultats des expériences du CERN
  • 29. Le web de données Source : Karima Rafes - Wikipedia Commons
  • 30. Le web de données Source : lod-cloud.net
  • 31. Le web de données • Source pour le Web de données : World Wide Web Consortium (W3C) https://www.w3.org/standards/semanticweb/ • Le RDF, formalisation du web de données : https://www.w3.org/RDF/ https://www.w3.org/TR/rdf-syntax-grammar/ Et il existe le RDF en XML ! http://www.yoyodesign.org/doc/w3c/rdf-sch ema/
  • 32. Le web de données • Le web de données est dans la suite de ce besoin fondamental auquel a répondu le développement des métadonnées : donner aux machines le pouvoir (...de travailler) • Ce n’est cependant pas le modèle ultime, le point indépassable des métadonnées (nous reviendrons en conclusion sur l’analyse de Gautier Poupeau dans son blog Les Petites Cases)
  • 33. 6) JSON et les flux • Les formats de métadonnées adaptées au stockage ne sont pas forcément les mêmes que ceux adaptés aux échanges • JSON (JavaScript Object Notation) est un format qui s’impose de plus en plus pour l’exposition et la lecture de métadonnées en complément des formats de stockage
  • 34. JSON et les flux • L’origine du JSON : le JavaScript, un langage de programmation (lui-même issu du Java) • Qualités –structuration très simple, légère –interprétation facile techniquement –intégrable dans toute instruction de programmation (requête web, programme Python ou C++, API) puisqu’il s’agit d’un modèle de représentation
  • 35. JSON et les flux • Exemple XML <employees> <employee> <prenom>Paul</prenom> <nom>Atreides</nom> </employee> </employees> • Exemple JSON { "employees": [ { "prenom":"Paul", "nom":"Atreides" } ] }
  • 36. 7) Travail sur dossiers • Questions restantes sur la modalité d’ évaluation ? • Questions sur les recherches en cours, sur les résultats ?
  • 37. Calendrier prévu • 02/12/21 – Séance 6 : fin + évaluation finale