SlideShare une entreprise Scribd logo
Modèles de données et langages de
description ouverts - 4
Licence DIST
2021-2022
Rappel programme global
• Comprendre la notion de métadonnée,
approche des langages à balises (s1)
• Comprendre le XML et ses applications (s2-4)
• Données ouvertes, traitements et
matérialisations informatiques (s5-6)
Programme de ce cours
1. Correction évaluation 1
2. Travaux sur dossier
3. Rappel - Les espaces de nom
4. Dublin Core
5. EAD
6. TEI
7. MODS, MADS, METS
1) Correction évaluation 1
2) Travaux sur dossier
Chacun a un sujet validé. A fournir:
- L'indication de 2 formats (DTD ou schéma XML)
au minimum privilégiés pour la situation donnée. - sur 5
pts (pertinence évaluée sur chaque format et
éventuellement sur la combinaison choisie)
- 5 fichiers-exemples de ce qu'on pourrait produire.
Les fichiers mettent en valeur l'intérêt des choix faits sur
les formats - sur 10 pts (2 points sur la conformité XML,
8 points sur la pertinence des exemples construits)
- 1 à 2 pages de présentation, personnelle, du choix
fait sur les formats choisis - sur 5 points (1 point
présentation, 4 points argumentation)
Travaux sur dossier
Formalisation sujets choisis
3) Rappel - Les espaces de noms
• Les espaces de nom (namespaces) définissent dans
un fichier XML les règles à suivre pour chaque balise
préfixée
<dc:title>Les Géants</dc:title>
• Les espaces de noms permettent de combiner les
validités (et les utilisations) pour un même fichier
(par exemple un fichier qui respecte à la fois le
Dublin Core et l’EAD, ou Dublin Core et MARCXML)
4) Dublin Core ?
8
2
Dublin Core !
9
Dublin Core
• 1995 : 15 éléments censés porter les
métadonnées sur tout document numérique,
toute “ressource”
• 3 des types canoniques de métadonnées
•métadonnées descriptives
•métadonnées de structure
•métadonnées administratives
• Son développement est actuellement porté
par la Dublin Core Metadata Initiative (DCMI)
10
Dublin Core
• DC : au départ, une grammaire de
métadonnées qui peut s’adapter à différents
modes de matérialisation
– Base de données relationnelles
– Langage à balises dans un document
– Triplets de données...
• Devenu un standard puis une norme (ISO
15836)
• Avec un objectif principal, l’interopérabilité
11
Dublin Core
Quoi de plus interopérable que le XML ?
• Traduction en définitions XML du Dublin Core
– “non-qualifié” (les 15 balises - dernière version
2002)
– “qualifié” (une centaine d’éléments de définition,
dont une soixantaine de balises - dernière version
2008)
Voir le site de la DCMI - spécifications
12
Dublin Core
Une exploitation majeure : OAI-PMH
13
Dublin Core
Une exploitation majeure : OAI-PMH
Serveur OAI
Serveur OAI
Serveur OAI
14
Dublin Core
Exemple d’application, HAL en tant qu’entrepôt
OAI-PMH :
http://api.archives-ouvertes.fr/oai/hal/?verb=G
etRecord&metadataPrefix=oai_dc&identifier=oa
i:HAL:tel-01930398v1
15
Dublin Core (et EAD)
DC
Document
XML
Page web
PDF
Doc XML
Feuille
de style
1
Feuille
de style
2
Feuille
de style
3
DC
Qualifié EAD
16
5) EAD
Que trouve-t-on dans une archive ? Quels
constituants ? Quelle description possible ?
17
EAD
Que trouve-t-on dans une archive ?
-> Une arborescence d’éléments (les pièces)
dont la séquence d’apparition est essentielle,
avec des niveaux différents de profondeur (= de
détail)...
Quoi de plus adapté que le XML ?
18
EAD
19
EAD
Définition XML héritée de la TEI et fixée en 2002
(DTD utilisé en France essentiellement, XML
Schema) - actuellement version 3 de 2015
Qualités essentielles : l’héritage, la granularité
variable, les possibilités de combinaison avec
d’autres définitions (par ex. bibliographique)
Répond aux préconisations de la norme ISAD (G)
20
EAD
Quels types de métadonnées dans l’EAD ?
● des éléments d'identification et d'information relatifs à l'instrument de recherche
lui-même : contexte de création de l'instrument de recherche, mentions de
responsabilité intellectuelle, informations administratives, techniques et de
gestion ;
● des éléments d'identification et de description du fonds ou de la collection :
identifiant, localisation, producteur et contexte de production, caractéristiques
matérielles, contenu et organisation, modalités d'accès ;
● des éléments de description de chacun des composants et sous-composants ;
● des éléments d'informations complémentaires : documents en relation,
références bibliographiques ;
● des éléments d'indexation.
(source : site BnF)
21
EAD
Quelle correspondance entre fonds d’archive et structure EAD ?
The-hierarchical-structure-of-an-archive-mapped-into-an-EAD-file - Gianmaria Silvello 22
Exercice d’application en EAD
• Un grand laboratoire pharmaceutique
lyonnais, Sanorieux, veut entièrement
numériser son processus d’archivage
administratif et technique.
Sans connaître dans le détail le
fonctionnement de l’EAD, vous devez
commencer à décrire dans un cahier des
charges les types de pièces enregistrées et les
besoins fonctionnels du logiciel métier
23
6) TEI
● La Text Encoding Initiative (TEI) est une
démarche ancienne qui s’est concrétisée en
devenant un langage XML.
● Elle tire profit de l’entrelac des balises avec le
texte pour décrire avec beaucoup de finesse
la forme et le contenu du texte
● Elle est intéressante pour les traitements
informatiques des corpus littéraires
24
TEI
● On distingue différentes étapes de la
définition XML TEI, signifiées par “P”+ un
numéro. Actuellement on en est à la P5.
● Une diffusion lente jusqu’à ce que les robots
d’identification “apprenants” se développent
après 2010 / 2015 (BILBO, Grobid…)
25
TEI
Utilisation par une base anglaise d’inscriptions
romaines
http://inslib.kcl.ac.uk/irt2009/inscr/xmlrepo.html
Exemple de fichier : http://inslib.kcl.ac.uk/irt2009/IRT001.xml
ISTEX enrichit les documents en licence
nationale avec de la TEI :
https://blog.istex.fr/tag/tei/ -
https://www.istex.fr/
26
7) MODS, MADS, METS
• La bibliothèque du congrès américain avait
identifié le besoin d’une meilleure description
des objets numériques mais dans un esprit
“bibliographique”
• Metadata Object Description Schema (MODS)
lancé en 2002 permet d’élargir les contextes
d’utilisation des métadonnées
bibliographiques
27
MODS, MADS, METS
• MODS “lite” : une correspondance avec DC
<titleInfo> dont <title>; <name> dont <namePart>;
<typeOfResource>; <genre>; <originInfo>; <dateIssued>;
<dateCreated>; <dateCaptured>; <dateOther>; <publisher>;
<language>; <physicalDescription>; <internetMediaType>;
<extent>; <form>; <abstract>; <tableOfContents>; <note>,
<subject> dont <topic>, <temporal>, <geographic> et
<cartographics>; <classification>; <relatedItem>; <identifier>;
<location> dont <url>; <accessCondition>
+ <recordInfo>
28
MODS, MADS, METS
• MODS est avant tout une définition de
validité pour des fichiers XML
• Espace de nom habituel :
<mods:....>
• MODS est aussi utilisé pour
– Des transferts de notices avec les protocoles
“modernes” SRU/SRW ou en tant que format
moissonnable
– En remplacement de MARCXML
29
MODS, MADS, METS
● MODS est plus riche que DC simple
● MODS est plus compatible avec les données
bibliographiques qu’ONIX (standard éditeurs)
● MODS est plus proche des besoins utilisateurs
que MARCXML, et plus simple qu’une notice
MARC
● … pourtant son usage restait relativement
limité (ça semble changer depuis 2-3 ans)
30
MODS, MADS, METS
● MADS (Metadata Authority Description
Schema) est le langage XML de description
des autorités pour les objets en MODS
-> Lieux, personnes, objets, sujets
● Il n’est utilisé qu’en contexte avec MODS
31
MODS, MADS, METS
•METS (Metadata Encoding and Transfer
Standard) est autant un standard qu’une
logique d’organisation et de traitement des
documents.
•Dans un fichier METS on trouve les
documents, leur description par des
métadonnées, les clés pour interpréter ces
métadonnées et les processus pour exploiter
les documents
32
Rappel organisation du XML
DTD ou
Schema
Document
XML
Page web
PDF
Doc XML
Feuille
de style
1
Feuille
de style
2
Feuille
de style
3
33
TEI
TEI
Document
XML
Page web
PDF
Doc XML
Feuille
de style
1
Feuille
de style
2
Feuille
de style
3
34
MODS
MODS
Document
XML
Page web
PDF
Doc XML
Feuille
de style
1
Feuille
de style
2
Feuille
de style
3
35
METS
MODS
Doc
XML
Page
web
PDF
Doc
XML
METS
DC …
36
MODS, MADS, METS
•METS en 7 parties :
–METS header (metsHdr) permet d'indiquer les
références du fichier METS (les métadonnées du
fichier de métadonnées...), en particulier le
producteur du fichier
–Description Metadata Section (dmdsec) permet
de renseigner les métadonnées descriptives de
l'objet principal décrit par le fichier METS et
éventuellement des objets le composant.
37
MODS, MADS, METS
•METS en 7 parties :
–Administrative Metadata Section (amdSec)
permet de renseigner l'ensemble des
métadonnées administratives de l'objet principal
et éventuellement des objets le composant
–File Section (fileSec) permet de décrire
l'emplacement physique de chaque fichier (et le
fichier lui-même éventuellement)
38
MODS, MADS, METS
•METS en 7 parties :
–Structural Map (structMap) permet d'organiser
selon une structure hiérarchique les objets
composant l'objet principal décrit dans les
parties dmdSec, amdSec et/ou fileSec.
–Structural Map Linking (structLink) permet de
décrire les liens éventuels entre des divisions
–Behaviour section (behaviourSec) permet
d'indiquer des comportements entre différents
objets décrits dans le fichier METS.
39
MODS, MADS, METS
Source : Rick Beaubien
40
MODS, MADS, METS
La plate-forme de revues numérisées Persée se
fonde sur une organisation en METS de ses
ressources documentaires
http://www.persee.fr/disciplines
L’archivage au CINES (centre d’archivage
pérenne pour l’enseignement supérieur) se fait
en passant par des fichiers METS
41
Calendrier prévu
• 18/11/21 – Séance 5 :
•Travaux sur dossier
•Données liées
• 02/12/21 – Séance 6 :
•modélisations informatiques des métadonnées
•évaluation finale

Contenu connexe

Tendances

Standards et outils XML
Standards et outils XMLStandards et outils XML
Standards et outils XML
Equipex Biblissima
 
Xml un panorama
Xml un panoramaXml un panorama
Xml un panorama
llobel
 
Introduction à XML
Introduction à XMLIntroduction à XML
Introduction à XML
Saïd Radhouani
 
Web3
Web3Web3
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partieRéalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
Gautier Poupeau
 
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
ABES
 
Cours de C++, en français, 2002 - Cours 3.3
Cours de C++, en français, 2002 - Cours 3.3Cours de C++, en français, 2002 - Cours 3.3
Cours de C++, en français, 2002 - Cours 3.3
Laurent BUNIET
 
Découvrir le web sémantique en 15 minutes (Decideo 2014)
Découvrir le web sémantique en 15 minutes (Decideo 2014)Découvrir le web sémantique en 15 minutes (Decideo 2014)
Découvrir le web sémantique en 15 minutes (Decideo 2014)
François Belleau
 
Web sémantique
Web sémantique Web sémantique
Web sémantique
Nour El Houda Megherbi
 
Open data & linked data
Open data & linked dataOpen data & linked data
Open data & linked data
VincentBroute
 
Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)
BorderCloud
 
Découverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALDécouverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HAL
Gautier Poupeau
 
java BDD jdbc
java BDD jdbcjava BDD jdbc
java BDD jdbc
vangogue
 
SGBDR vs NoSQL, Différences et Uses Cases. Focus sur ArangoDB
SGBDR vs NoSQL, Différences et Uses Cases. Focus sur ArangoDBSGBDR vs NoSQL, Différences et Uses Cases. Focus sur ArangoDB
SGBDR vs NoSQL, Différences et Uses Cases. Focus sur ArangoDB
Romain Cambien
 
Java et les bases de données
Java et les bases de donnéesJava et les bases de données
Java et les bases de données
Guillaume Harry
 
Échange et interopérabilité des données structurées sur le Web
Échange et interopérabilité des données structurées sur le WebÉchange et interopérabilité des données structurées sur le Web
Échange et interopérabilité des données structurées sur le Web
Antidot
 
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Hatim CHAHDI
 
Les ontologies et les graphes RDF
Les ontologies et les graphes RDFLes ontologies et les graphes RDF
Les ontologies et les graphes RDF
Radhouani Mejdi
 

Tendances (19)

Standards et outils XML
Standards et outils XMLStandards et outils XML
Standards et outils XML
 
Xml un panorama
Xml un panoramaXml un panorama
Xml un panorama
 
Xml un panorama
Xml un panoramaXml un panorama
Xml un panorama
 
Introduction à XML
Introduction à XMLIntroduction à XML
Introduction à XML
 
Web3
Web3Web3
Web3
 
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partieRéalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
 
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
Jabes 2021 - Session "Repenser le SI de l'Abes en période de transition(s)"
 
Cours de C++, en français, 2002 - Cours 3.3
Cours de C++, en français, 2002 - Cours 3.3Cours de C++, en français, 2002 - Cours 3.3
Cours de C++, en français, 2002 - Cours 3.3
 
Découvrir le web sémantique en 15 minutes (Decideo 2014)
Découvrir le web sémantique en 15 minutes (Decideo 2014)Découvrir le web sémantique en 15 minutes (Decideo 2014)
Découvrir le web sémantique en 15 minutes (Decideo 2014)
 
Web sémantique
Web sémantique Web sémantique
Web sémantique
 
Open data & linked data
Open data & linked dataOpen data & linked data
Open data & linked data
 
Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)
 
Découverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALDécouverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HAL
 
java BDD jdbc
java BDD jdbcjava BDD jdbc
java BDD jdbc
 
SGBDR vs NoSQL, Différences et Uses Cases. Focus sur ArangoDB
SGBDR vs NoSQL, Différences et Uses Cases. Focus sur ArangoDBSGBDR vs NoSQL, Différences et Uses Cases. Focus sur ArangoDB
SGBDR vs NoSQL, Différences et Uses Cases. Focus sur ArangoDB
 
Java et les bases de données
Java et les bases de donnéesJava et les bases de données
Java et les bases de données
 
Échange et interopérabilité des données structurées sur le Web
Échange et interopérabilité des données structurées sur le WebÉchange et interopérabilité des données structurées sur le Web
Échange et interopérabilité des données structurées sur le Web
 
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
 
Les ontologies et les graphes RDF
Les ontologies et les graphes RDFLes ontologies et les graphes RDF
Les ontologies et les graphes RDF
 

Similaire à Modèles de données et langages de description ouverts 4 - 2021-2022

Metadonnees et SID
Metadonnees et SIDMetadonnees et SID
Metadonnees et SID
Sylvie Dalbin
 
Les éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EADLes éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EAD
Danis Habib
 
Le Matterhorn RDF Data Model
Le Matterhorn RDF Data ModelLe Matterhorn RDF Data Model
Le Matterhorn RDF Data Model
Forum des archivistes de l'arc lémanique
 
7. information modelling
7. information modelling7. information modelling
7. information modelling
sugogo
 
MDweb: outil libre de catalogage et de localisation de l'information
MDweb: outil libre de catalogage et de localisation de l'informationMDweb: outil libre de catalogage et de localisation de l'information
MDweb: outil libre de catalogage et de localisation de l'information
Desconnets Jean-Christophe
 
Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02
ABES
 
Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivi...
Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivi...Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivi...
Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivi...
Tobias Wildi
 
Introduction aux bases de données
Introduction aux bases de donnéesIntroduction aux bases de données
Introduction aux bases de données
Abdoulaye Dieng
 
Présentation genève 20130617
Présentation genève 20130617Présentation genève 20130617
Présentation genève 20130617
Tobias Wildi
 
Vers une intégration complète des standards de description du Conseil interna...
Vers une intégration complète des standards de description du Conseil interna...Vers une intégration complète des standards de description du Conseil interna...
Vers une intégration complète des standards de description du Conseil interna...
Forum des archivistes de l'arc lémanique
 
MDweb: un composant pour le catalogage et la localisation de l'information en...
MDweb: un composant pour le catalogage et la localisation de l'information en...MDweb: un composant pour le catalogage et la localisation de l'information en...
MDweb: un composant pour le catalogage et la localisation de l'information en...
Desconnets Jean-Christophe
 
Diaporamas-Bases de données.pdf
Diaporamas-Bases de données.pdfDiaporamas-Bases de données.pdf
Diaporamas-Bases de données.pdf
EST-UMI de Meknès
 
Serveur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développementServeur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développement
Ludovic REUS
 
Les catalogues sur le Web
Les catalogues sur le WebLes catalogues sur le Web
Les catalogues sur le Web
Figoblog
 
11 visual basic .net - acces aux donnees avec ado .net
11 visual basic .net - acces aux donnees avec ado .net11 visual basic .net - acces aux donnees avec ado .net
11 visual basic .net - acces aux donnees avec ado .net
Hamza SAID
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQL
Antoine Augusti
 
CRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDACRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDA
nonue12
 
Text mining pour industrie
Text mining pour industrieText mining pour industrie
Text mining pour industrie
Ali Kabbadj
 
Séminaire sur l'information structurée
Séminaire sur l'information structuréeSéminaire sur l'information structurée
Séminaire sur l'information structurée
SEGIC
 
A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)
Abdelkader OUARED
 

Similaire à Modèles de données et langages de description ouverts 4 - 2021-2022 (20)

Metadonnees et SID
Metadonnees et SIDMetadonnees et SID
Metadonnees et SID
 
Les éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EADLes éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EAD
 
Le Matterhorn RDF Data Model
Le Matterhorn RDF Data ModelLe Matterhorn RDF Data Model
Le Matterhorn RDF Data Model
 
7. information modelling
7. information modelling7. information modelling
7. information modelling
 
MDweb: outil libre de catalogage et de localisation de l'information
MDweb: outil libre de catalogage et de localisation de l'informationMDweb: outil libre de catalogage et de localisation de l'information
MDweb: outil libre de catalogage et de localisation de l'information
 
Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02
 
Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivi...
Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivi...Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivi...
Alain Dubois, Tobias Wildi. Le Matterhorn RDF Data Model: Description archivi...
 
Introduction aux bases de données
Introduction aux bases de donnéesIntroduction aux bases de données
Introduction aux bases de données
 
Présentation genève 20130617
Présentation genève 20130617Présentation genève 20130617
Présentation genève 20130617
 
Vers une intégration complète des standards de description du Conseil interna...
Vers une intégration complète des standards de description du Conseil interna...Vers une intégration complète des standards de description du Conseil interna...
Vers une intégration complète des standards de description du Conseil interna...
 
MDweb: un composant pour le catalogage et la localisation de l'information en...
MDweb: un composant pour le catalogage et la localisation de l'information en...MDweb: un composant pour le catalogage et la localisation de l'information en...
MDweb: un composant pour le catalogage et la localisation de l'information en...
 
Diaporamas-Bases de données.pdf
Diaporamas-Bases de données.pdfDiaporamas-Bases de données.pdf
Diaporamas-Bases de données.pdf
 
Serveur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développementServeur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développement
 
Les catalogues sur le Web
Les catalogues sur le WebLes catalogues sur le Web
Les catalogues sur le Web
 
11 visual basic .net - acces aux donnees avec ado .net
11 visual basic .net - acces aux donnees avec ado .net11 visual basic .net - acces aux donnees avec ado .net
11 visual basic .net - acces aux donnees avec ado .net
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQL
 
CRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDACRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDA
 
Text mining pour industrie
Text mining pour industrieText mining pour industrie
Text mining pour industrie
 
Séminaire sur l'information structurée
Séminaire sur l'information structuréeSéminaire sur l'information structurée
Séminaire sur l'information structurée
 
A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)A Brief History of Database Management (SQL, NoSQL, NewSQL)
A Brief History of Database Management (SQL, NoSQL, NewSQL)
 

Modèles de données et langages de description ouverts 4 - 2021-2022

  • 1. Modèles de données et langages de description ouverts - 4 Licence DIST 2021-2022
  • 2. Rappel programme global • Comprendre la notion de métadonnée, approche des langages à balises (s1) • Comprendre le XML et ses applications (s2-4) • Données ouvertes, traitements et matérialisations informatiques (s5-6)
  • 3. Programme de ce cours 1. Correction évaluation 1 2. Travaux sur dossier 3. Rappel - Les espaces de nom 4. Dublin Core 5. EAD 6. TEI 7. MODS, MADS, METS
  • 5. 2) Travaux sur dossier Chacun a un sujet validé. A fournir: - L'indication de 2 formats (DTD ou schéma XML) au minimum privilégiés pour la situation donnée. - sur 5 pts (pertinence évaluée sur chaque format et éventuellement sur la combinaison choisie) - 5 fichiers-exemples de ce qu'on pourrait produire. Les fichiers mettent en valeur l'intérêt des choix faits sur les formats - sur 10 pts (2 points sur la conformité XML, 8 points sur la pertinence des exemples construits) - 1 à 2 pages de présentation, personnelle, du choix fait sur les formats choisis - sur 5 points (1 point présentation, 4 points argumentation)
  • 7. 3) Rappel - Les espaces de noms • Les espaces de nom (namespaces) définissent dans un fichier XML les règles à suivre pour chaque balise préfixée <dc:title>Les Géants</dc:title> • Les espaces de noms permettent de combiner les validités (et les utilisations) pour un même fichier (par exemple un fichier qui respecte à la fois le Dublin Core et l’EAD, ou Dublin Core et MARCXML)
  • 10. Dublin Core • 1995 : 15 éléments censés porter les métadonnées sur tout document numérique, toute “ressource” • 3 des types canoniques de métadonnées •métadonnées descriptives •métadonnées de structure •métadonnées administratives • Son développement est actuellement porté par la Dublin Core Metadata Initiative (DCMI) 10
  • 11. Dublin Core • DC : au départ, une grammaire de métadonnées qui peut s’adapter à différents modes de matérialisation – Base de données relationnelles – Langage à balises dans un document – Triplets de données... • Devenu un standard puis une norme (ISO 15836) • Avec un objectif principal, l’interopérabilité 11
  • 12. Dublin Core Quoi de plus interopérable que le XML ? • Traduction en définitions XML du Dublin Core – “non-qualifié” (les 15 balises - dernière version 2002) – “qualifié” (une centaine d’éléments de définition, dont une soixantaine de balises - dernière version 2008) Voir le site de la DCMI - spécifications 12
  • 13. Dublin Core Une exploitation majeure : OAI-PMH 13
  • 14. Dublin Core Une exploitation majeure : OAI-PMH Serveur OAI Serveur OAI Serveur OAI 14
  • 15. Dublin Core Exemple d’application, HAL en tant qu’entrepôt OAI-PMH : http://api.archives-ouvertes.fr/oai/hal/?verb=G etRecord&metadataPrefix=oai_dc&identifier=oa i:HAL:tel-01930398v1 15
  • 16. Dublin Core (et EAD) DC Document XML Page web PDF Doc XML Feuille de style 1 Feuille de style 2 Feuille de style 3 DC Qualifié EAD 16
  • 17. 5) EAD Que trouve-t-on dans une archive ? Quels constituants ? Quelle description possible ? 17
  • 18. EAD Que trouve-t-on dans une archive ? -> Une arborescence d’éléments (les pièces) dont la séquence d’apparition est essentielle, avec des niveaux différents de profondeur (= de détail)... Quoi de plus adapté que le XML ? 18
  • 20. EAD Définition XML héritée de la TEI et fixée en 2002 (DTD utilisé en France essentiellement, XML Schema) - actuellement version 3 de 2015 Qualités essentielles : l’héritage, la granularité variable, les possibilités de combinaison avec d’autres définitions (par ex. bibliographique) Répond aux préconisations de la norme ISAD (G) 20
  • 21. EAD Quels types de métadonnées dans l’EAD ? ● des éléments d'identification et d'information relatifs à l'instrument de recherche lui-même : contexte de création de l'instrument de recherche, mentions de responsabilité intellectuelle, informations administratives, techniques et de gestion ; ● des éléments d'identification et de description du fonds ou de la collection : identifiant, localisation, producteur et contexte de production, caractéristiques matérielles, contenu et organisation, modalités d'accès ; ● des éléments de description de chacun des composants et sous-composants ; ● des éléments d'informations complémentaires : documents en relation, références bibliographiques ; ● des éléments d'indexation. (source : site BnF) 21
  • 22. EAD Quelle correspondance entre fonds d’archive et structure EAD ? The-hierarchical-structure-of-an-archive-mapped-into-an-EAD-file - Gianmaria Silvello 22
  • 23. Exercice d’application en EAD • Un grand laboratoire pharmaceutique lyonnais, Sanorieux, veut entièrement numériser son processus d’archivage administratif et technique. Sans connaître dans le détail le fonctionnement de l’EAD, vous devez commencer à décrire dans un cahier des charges les types de pièces enregistrées et les besoins fonctionnels du logiciel métier 23
  • 24. 6) TEI ● La Text Encoding Initiative (TEI) est une démarche ancienne qui s’est concrétisée en devenant un langage XML. ● Elle tire profit de l’entrelac des balises avec le texte pour décrire avec beaucoup de finesse la forme et le contenu du texte ● Elle est intéressante pour les traitements informatiques des corpus littéraires 24
  • 25. TEI ● On distingue différentes étapes de la définition XML TEI, signifiées par “P”+ un numéro. Actuellement on en est à la P5. ● Une diffusion lente jusqu’à ce que les robots d’identification “apprenants” se développent après 2010 / 2015 (BILBO, Grobid…) 25
  • 26. TEI Utilisation par une base anglaise d’inscriptions romaines http://inslib.kcl.ac.uk/irt2009/inscr/xmlrepo.html Exemple de fichier : http://inslib.kcl.ac.uk/irt2009/IRT001.xml ISTEX enrichit les documents en licence nationale avec de la TEI : https://blog.istex.fr/tag/tei/ - https://www.istex.fr/ 26
  • 27. 7) MODS, MADS, METS • La bibliothèque du congrès américain avait identifié le besoin d’une meilleure description des objets numériques mais dans un esprit “bibliographique” • Metadata Object Description Schema (MODS) lancé en 2002 permet d’élargir les contextes d’utilisation des métadonnées bibliographiques 27
  • 28. MODS, MADS, METS • MODS “lite” : une correspondance avec DC <titleInfo> dont <title>; <name> dont <namePart>; <typeOfResource>; <genre>; <originInfo>; <dateIssued>; <dateCreated>; <dateCaptured>; <dateOther>; <publisher>; <language>; <physicalDescription>; <internetMediaType>; <extent>; <form>; <abstract>; <tableOfContents>; <note>, <subject> dont <topic>, <temporal>, <geographic> et <cartographics>; <classification>; <relatedItem>; <identifier>; <location> dont <url>; <accessCondition> + <recordInfo> 28
  • 29. MODS, MADS, METS • MODS est avant tout une définition de validité pour des fichiers XML • Espace de nom habituel : <mods:....> • MODS est aussi utilisé pour – Des transferts de notices avec les protocoles “modernes” SRU/SRW ou en tant que format moissonnable – En remplacement de MARCXML 29
  • 30. MODS, MADS, METS ● MODS est plus riche que DC simple ● MODS est plus compatible avec les données bibliographiques qu’ONIX (standard éditeurs) ● MODS est plus proche des besoins utilisateurs que MARCXML, et plus simple qu’une notice MARC ● … pourtant son usage restait relativement limité (ça semble changer depuis 2-3 ans) 30
  • 31. MODS, MADS, METS ● MADS (Metadata Authority Description Schema) est le langage XML de description des autorités pour les objets en MODS -> Lieux, personnes, objets, sujets ● Il n’est utilisé qu’en contexte avec MODS 31
  • 32. MODS, MADS, METS •METS (Metadata Encoding and Transfer Standard) est autant un standard qu’une logique d’organisation et de traitement des documents. •Dans un fichier METS on trouve les documents, leur description par des métadonnées, les clés pour interpréter ces métadonnées et les processus pour exploiter les documents 32
  • 33. Rappel organisation du XML DTD ou Schema Document XML Page web PDF Doc XML Feuille de style 1 Feuille de style 2 Feuille de style 3 33
  • 34. TEI TEI Document XML Page web PDF Doc XML Feuille de style 1 Feuille de style 2 Feuille de style 3 34
  • 35. MODS MODS Document XML Page web PDF Doc XML Feuille de style 1 Feuille de style 2 Feuille de style 3 35
  • 37. MODS, MADS, METS •METS en 7 parties : –METS header (metsHdr) permet d'indiquer les références du fichier METS (les métadonnées du fichier de métadonnées...), en particulier le producteur du fichier –Description Metadata Section (dmdsec) permet de renseigner les métadonnées descriptives de l'objet principal décrit par le fichier METS et éventuellement des objets le composant. 37
  • 38. MODS, MADS, METS •METS en 7 parties : –Administrative Metadata Section (amdSec) permet de renseigner l'ensemble des métadonnées administratives de l'objet principal et éventuellement des objets le composant –File Section (fileSec) permet de décrire l'emplacement physique de chaque fichier (et le fichier lui-même éventuellement) 38
  • 39. MODS, MADS, METS •METS en 7 parties : –Structural Map (structMap) permet d'organiser selon une structure hiérarchique les objets composant l'objet principal décrit dans les parties dmdSec, amdSec et/ou fileSec. –Structural Map Linking (structLink) permet de décrire les liens éventuels entre des divisions –Behaviour section (behaviourSec) permet d'indiquer des comportements entre différents objets décrits dans le fichier METS. 39
  • 40. MODS, MADS, METS Source : Rick Beaubien 40
  • 41. MODS, MADS, METS La plate-forme de revues numérisées Persée se fonde sur une organisation en METS de ses ressources documentaires http://www.persee.fr/disciplines L’archivage au CINES (centre d’archivage pérenne pour l’enseignement supérieur) se fait en passant par des fichiers METS 41
  • 42. Calendrier prévu • 18/11/21 – Séance 5 : •Travaux sur dossier •Données liées • 02/12/21 – Séance 6 : •modélisations informatiques des métadonnées •évaluation finale