SlideShare une entreprise Scribd logo
1  sur  50
Télécharger pour lire hors ligne
Modèles de données et langages
de description ouverts
Licence DIST
2021-2022
Présentation personnelle
<nom>François-Xavier Boffy</nom>
<statut>Conservateur bibliothèques</statut>
<fonction>Responsable système d’information
documentaire à la BU de Lyon 1</fonction>
<role>Information Coordinator section IT</role>
#gamedesign #digitalhumanities #metadata
#TransitionBiblio #webservices #ADBU #IFLA
2
Programme initial
• Objectif global : maîtriser la logique des
modélisations de métadonnées, comprendre
les méthodes pour exploiter les plus courantes
selon leur contexte d’utilisation et leur
matérialisation technique
• Planning général :
– Comprendre la notion de métadonnée, approche
des langages à balises (s1)
– Comprendre le XML et ses applications (s2-4)
– Données ouvertes, traitements et matérialisations
informatiques (s5-6)
3
Modalités d’évaluation
• Une évaluation intermédiaire en séance 3 (1/5
de la note)
• Un travail par sous-groupe, commenté
individuellement (2/5 de la note)
• Une évaluation finale sur QCM + questions en
situation (2/5 de la note)
4
En situation
5
Extrait d’offre d’emploi parue fin août 2021, Université de Paris, Direction des Bibliothèques et
Musées
A vous de jouer…
6
Qui pourra avoir le contrat ?
Avant de se lancer…
• Des questions, des propositions ?
7
Programme de ce cours
1. Introduction à la notion de métadonnée
2. Introduction aux langages à balises
3. Exercice de découpage d’information
4. Principes des langages à balises
5. Fonctionnement d’un langage à balises
6. Exercices pratiques
7. Bref historique SGML, HTML, XML
8
1) Les métadonnées
• Définition « essentielle » : ce sont des
données sur des données
(« data about data », James Martin)
– Pour lier au mouvement actuel de développement
de l’internet des objets (IoT), parlons de
« données sur le donné »
• La notion a précédé l’informatique, mais est
devenue un enjeu décisif dans le traitement
informatique des données (et des documents)
9
Comme monsieur Jourdain…
Quand on utilise des données sur un objet, on
utilise des méta-données
DATA META
10
Comme monsieur Jourdain…
On fait des métadonnées depuis très longtemps
sans s’en rendre compte
Villeurbanne 69100
CP
Sous-préfecture
Adm.
147 712 hab. (2017)
POP
11
Pour quoi faire, les métadonnées ?
12
© Nick Borelli
Exemples de métadonnées
● Votre numéro de sécurité sociale – les machines
peuvent gérer votre dossier
● Vos prénoms – on peut vous identifier plus
précisément qu'avec un seul (alternative : date
voire lieu de naissance)
● Votre taille – on peut savoir quel vêtement (= une
autre donnée) pourrait « s'agencer » avec vous;
mais elle varie au cours de la vie
● La cuisson de la viande au restaurant – question
de vocabulaire (bleu, à point...)
13
Exemples de métadonnées (2)
14
Exemples de métadonnées (3)
15
Vous en avez d’autres à l’esprit ?
Les métadonnées au pouvoir
Sir Francis Bacon - Par Inconnu — National Portrait Gallery: NPG 520
“Savoir, c’est
pouvoir”
#bigdata
#identiténumérique
#IoT #IA
#Bacon
16
Les métadonnées au pouvoir
La qualité des
17
Le désert dessiné par une IA...
Caractérisation des métadonnées
• Les métadonnées sont des données sur les
données, donc on peut classer les
métadonnées selon le type des données
• Distinction traditionnelle entre
– Métadonnées descriptives (du contenu)
– Métadonnées administratives (droits)
– Métadonnées de structure (relations)
– Métadonnées sur les métadonnées
18
Exemple en Dublin Core qualifié
● title décrit le nom d'usage du contenu
● rights décrit des droits sur le document
● hasPart signale une sous-partie du document
● metametadata / contribute décrit l'origine des
métadonnées
19
Des limites à cette
caractérisation…
• Anne Franck, Journal
– Thème (livre sur…)
– Auteur ou co-auteur (livre de…)
– « droits d’exploitation » ? (responsabilité patr.)
=> La limite entre les métadonnées et les
données est constamment remise en cause, on
est de plus en plus dans une logique de
sujet-prédicat (voir cours n°5)
20
2) Introduction aux langages à balises
• Parmi les organisations possibles des
métadonnées, l’option de mêler données et
métadonnées
• Besoin d’utiliser des signaux « forts » pour se
faire comprendre par ces animaux bêtes que
sont les ordinateurs
21
Avant l’informatique
« Les phrases affichées sont-elles exprimées
dans un langage à balises ?
¿ Habla espagñol ?
Je suis sûr que vous avez d’autres exemples de
langage mis en forme selon un système de
balises. »
22
Définition
La caractéristique principale des langages de
balisage est d'utiliser des balises. Le rôle des
balises est de proposer une syntaxe pour
délimiter une séquence de caractères ou pour
marquer une position précise dans un flux de
caractères.
Wikipedia
En anglais on utilise l’expression “Markup Langage”, d’où les
nombreux “...ML” de ce cours
23
Pourquoi découper le réel ?
• Pour le comprendre
– leur « goleador » fait une « Neymar » (leur
attaquant buteur se roule par terre)
– [humour] je hais le langage XML [/humour]
• Pour le traiter
– 3 + 10 – 22 / 2 =
– sijeplacetousmesmotsàlasuitesansséparationilestp
lusdifficiledecomprendrecequej’
écrisetparexemplelecorrecteurd’orthographenepo
urraplusm’aider
24
Pourquoi découper le réel ?
Publicité
25
Découper des informations
• Les langages à balises permettent de
structurer de l’information dans des
arborescences
• Il est possible de coder ces structures et leur
contenu dans des fichiers pour les échanger
Titre
Auteur Thème
Hugo, Victor
Quatre
vingt-treize
Paris Terreur Marat
26
3) Exercice de découpage
• Au choix:
a. Décrivez-vous vous-même avec des
métadonnées (si possible originales)
b. Décrivez votre oeuvre préférée, un
événement ou un lieu que vous connaissez
bien et indiquez quelles métadonnées vous
semblent utiles pour comparer à d’autres du
même genre
27
4) Principes des langages à balise :
le vocabulaire descriptif
• Arbre
• Nœud (fils | père, ancêtres et descendants)
• Racine
• Chemin (suite de nœuds)
• Branche (chemin vers une feuille)
• Feuille
• Taille d’un arbre
• Profondeur
28
Parcours d’un arbre
29
Parcours d’un arbre
30
A la place d’une machine…
31
Quand vous cherchez un fichier…
32
Nécessité de règles
33
5) Fonctionnement d’un langage à balises
34
Langages à balises
Métadonnées
Informations
Des exemples non-XML pour commencer à observer:
Markdown (https://en.wikipedia.org/wiki/Markdown); Wiki (https://en.wikipedia.org/wiki/Wiki#Editing)
Exemple Markdown
35
Exemple Wiki
36
Grammaire et vocabulaire
• Un langage à balises a pour but de représenter
de l’information structurée. Il s’appuie sur
– Un vocabulaire, prédéfini ou auto-déclaré = le
nom des éléments, des balises ou les signes utiles
– Une grammaire, qui définit les règles d’utilisation
du vocabulaire et de structuration des éléments =
la norme ou le standard du langage à balises
– Un système d’attributs éventuellement, qui
précise les modalités d’interprétation du
vocabulaire
37
Une « famille » de langages
• XML, HTML, Dublin Core... reposent sur des
principes communs mais des vocabulaires,
grammaires différents
• Positionnement différent, plus ou moins
proche de l’expression des métadonnées
Langages à balise
XML
DC
38
L’avantage d’intégrer les métadonnées
dans les données
• Les langages à balises offrent la possibilité de
distinguer la structure logique (balises) et la
structure physique (visible)
– Possibilité de manipulation de la structure logique
(extraction, etc.)
– Possibilité de produire plusieurs structures
physiques à partir d’une structure logique
(publication responsive...)
39
6) Un peu de pratique…
• Décrivez-vous vous-même avec des balises,
profondeur d’arbre 3 niveaux
• Décrivez l’oeuvre, l’événement ou lieu choisi
précédemment en utilisant les 4 types de
métadonnées habituellement identifiés
• Si un auteur est né et est mort à Paris,
comment peut-on représenter cela sous forme
d’arbre ?
40
7) Bref historique SGML, HTML, XML
• A la fin des années 1960 IBM invente un
langage de description, GML (Generalized
Markup Langage ou Goldfarb - Mosher - Lorie,
du nom des inventeurs).
• Charles Goldfarb, co-inventeur du GML
développe ensuite un successeur appelé SGML
(Standard Generalized Markup Language),
publié en 1986 comme norme ISO (ISO
8879:1986)
41
Bref historique SGML, HTML, XML
• Tim Berners-Lee choisit de décliner le SGML
en une version simplifiée pour structurer les
pages web :
HTML (HyperText Markup Language)
• De la grande simplicité du début (tag soup)…
• Aux 104 éléments définis dans HTML 5
42
Bref historique SGML, HTML, XML
Exemple HTML :
<!DOCTYPE html>
<html>
<head>
<title>Titre de page</title>
</head>
<body>
<h1>Titre de section niveau 1</h1>
<p>Paragraphe</p>
</body>
</html>
43
Bref historique SGML, HTML, XML
Exemple HTML :
<!DOCTYPE html>
<html>
<head>
<title>Titre de page</title>
</head>
<body>
<h1>Titre de section niveau 1</h1>
<p>Paragraphe</p>
</body>
</html>
Question piège : en bleu, grammaire ou vocabulaire du HTML ?
44
Bref historique SGML, HTML, XML
• Les principes du HTML sont liés aux principes
du Web:
– Notion d’hypertexte
– Des serveurs fournissent des documents
– Les documents sont décrits selon une grammaire
SGML
– Les clients (navigateurs) peuvent lire les
documents
45
Bref historique SGML, HTML, XML
• Dès la mise en place du web, pour structurer
les pages web un nouveau langage semble
nécessaire
– Echanger des informations avec d’autres logiciels
que les navigateurs
– Utiliser une syntaxe plus rigoureuse
– Simplifier l’adaptation du langage aux besoins
– Poursuivre la séparation des fonctions de balises
46
Bref historique SGML, HTML, XML
Exemple HTML :
<!DOCTYPE html>
<html>
<head>
<title>Titre de page</title>
</head>
<body>
<h1>Titre de section niveau 1</h1>
<p>Paragraphe</p>
</body>
</html>
47
Bref historique SGML, HTML, XML
• XML pour
eXtensible Markup Language
48
En guise de bibliographie initiale…
Et illustration d’un autre modèle de métadonnées!
LDR:
01316cam 2200337 i 4500
001: PPN185273734
005: 20150511165758.000
008: 150429t20152015fr a fr 001 0 fre d
020: $a 978-2-7460-9446-8 (br) $c 29,90 EUR
024: 30 $a 9782746094468
035: $a (OCoLC)908173313
040: $a ABES $b fre $e AFNOR
082: 0 $a 006.74 $2 22
100: 1 $a Boulanger, Thierry $d (1972-....). $4 aut. $e Auteur
245: 10 $a XML par la pratique : $b bases indispensables, concepts et cas pratiques / $c [Thierry Boulanger].
250: $a 3e édition.
260: $a St Herblain (Loire-Atlantique) : $b ENI, $c cop. 2015.
300: $a 1 vol. (377 p.) : $b ill., couv. ill. en coul. ; $c 22 cm.
336: $b txt $2 rdacontent
337: $b n $2 rdamedia
337: $b y $2 isbdmedia
490: 1 $a Ressources informatiques, $x 1627-8224
504: $a Index.
538: $a Fichiers complémentaires à télécharger sur le site de l'éditeur : www.editions-eni.fr.
650: 7 $a XML (langage de balisage) $x Guides pratiques et mémentos. $2 ram
650: 7 $a Échange électronique d'information. $2 ram
650: 0 $a XML (Document markup language). $2 lc
650: 0 $a Electronic data interchange. $2 lc
830: 0 $a Ressources informatiques (Nantes)
886: 2 $2 unimarc $a 181 $a i# $b xxxe##
930: $5 692662101:53034694X $b 692662101 $a 006.74 BOU $j u
49
Devoirs pour la prochaine fois
Regarder des playlists Spotify ou Youtube, des
résultats de recherche dans un moteur de
recherche, regarder des boîtiers de DVD, des
recettes, ou des paquets de céréales… bref tout
ce qui peut porter des métadonnées !
50

Contenu connexe

Tendances

Cours de C++, en français, 2002 - Cours 3.3
Cours de C++, en français, 2002 - Cours 3.3Cours de C++, en français, 2002 - Cours 3.3
Cours de C++, en français, 2002 - Cours 3.3Laurent BUNIET
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresRobert Viseur
 
Découvrir le web sémantique en 15 minutes (Decideo 2014)
Découvrir le web sémantique en 15 minutes (Decideo 2014)Découvrir le web sémantique en 15 minutes (Decideo 2014)
Découvrir le web sémantique en 15 minutes (Decideo 2014)François Belleau
 
Les ontologies et les graphes RDF
Les ontologies et les graphes RDFLes ontologies et les graphes RDF
Les ontologies et les graphes RDFRadhouani Mejdi
 
Web sémantique
Web sémantiqueWeb sémantique
Web sémantiqueGreenIvory
 
Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)BorderCloud
 
Open data & linked data
Open data & linked dataOpen data & linked data
Open data & linked dataVincentBroute
 
Structuration de données, recherche et édition
Structuration de données, recherche et éditionStructuration de données, recherche et édition
Structuration de données, recherche et éditionEquipex Biblissima
 
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partieRéalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partieGautier Poupeau
 
Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?Antidot
 
ATED 2015 - Données numériques et Mémoire par Nicolas Larrousse (Huma-Num)
ATED 2015 - Données numériques et Mémoire par Nicolas Larrousse (Huma-Num)ATED 2015 - Données numériques et Mémoire par Nicolas Larrousse (Huma-Num)
ATED 2015 - Données numériques et Mémoire par Nicolas Larrousse (Huma-Num)Phonothèque MMSH
 
Échange et interopérabilité des données structurées sur le Web
Échange et interopérabilité des données structurées sur le WebÉchange et interopérabilité des données structurées sur le Web
Échange et interopérabilité des données structurées sur le WebAntidot
 
Introduction au web sémantique
Introduction au web sémantiqueIntroduction au web sémantique
Introduction au web sémantiqueStéphane Traumat
 
Applications du Web Sémantique
Applications du Web SémantiqueApplications du Web Sémantique
Applications du Web SémantiqueYves Otis
 
A la découverte du Web sémantique
A la découverte du Web sémantiqueA la découverte du Web sémantique
A la découverte du Web sémantiqueGautier Poupeau
 
Le Web de données et les bibliothèques
Le Web de données et les bibliothèquesLe Web de données et les bibliothèques
Le Web de données et les bibliothèquesGautier Poupeau
 

Tendances (20)

Cours de C++, en français, 2002 - Cours 3.3
Cours de C++, en français, 2002 - Cours 3.3Cours de C++, en français, 2002 - Cours 3.3
Cours de C++, en français, 2002 - Cours 3.3
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libres
 
Découvrir le web sémantique en 15 minutes (Decideo 2014)
Découvrir le web sémantique en 15 minutes (Decideo 2014)Découvrir le web sémantique en 15 minutes (Decideo 2014)
Découvrir le web sémantique en 15 minutes (Decideo 2014)
 
Les ontologies et les graphes RDF
Les ontologies et les graphes RDFLes ontologies et les graphes RDF
Les ontologies et les graphes RDF
 
Web sémantique
Web sémantique Web sémantique
Web sémantique
 
Web sémantique
Web sémantiqueWeb sémantique
Web sémantique
 
Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)
 
Open data & linked data
Open data & linked dataOpen data & linked data
Open data & linked data
 
Structuration de données, recherche et édition
Structuration de données, recherche et éditionStructuration de données, recherche et édition
Structuration de données, recherche et édition
 
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partieRéalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
 
Standards et outils XML
Standards et outils XMLStandards et outils XML
Standards et outils XML
 
Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?
 
ATED 2015 - Données numériques et Mémoire par Nicolas Larrousse (Huma-Num)
ATED 2015 - Données numériques et Mémoire par Nicolas Larrousse (Huma-Num)ATED 2015 - Données numériques et Mémoire par Nicolas Larrousse (Huma-Num)
ATED 2015 - Données numériques et Mémoire par Nicolas Larrousse (Huma-Num)
 
Échange et interopérabilité des données structurées sur le Web
Échange et interopérabilité des données structurées sur le WebÉchange et interopérabilité des données structurées sur le Web
Échange et interopérabilité des données structurées sur le Web
 
Introduction au web sémantique
Introduction au web sémantiqueIntroduction au web sémantique
Introduction au web sémantique
 
Applications du Web Sémantique
Applications du Web SémantiqueApplications du Web Sémantique
Applications du Web Sémantique
 
Adbs2012 presentation
Adbs2012 presentationAdbs2012 presentation
Adbs2012 presentation
 
RDF en quelques slides
RDF en quelques slidesRDF en quelques slides
RDF en quelques slides
 
A la découverte du Web sémantique
A la découverte du Web sémantiqueA la découverte du Web sémantique
A la découverte du Web sémantique
 
Le Web de données et les bibliothèques
Le Web de données et les bibliothèquesLe Web de données et les bibliothèques
Le Web de données et les bibliothèques
 

Similaire à Modèles de données et langages de description ouverts 2021-2022 - 1

N. Dufournaud : XML TEI un outil méthodologique pour la recherche en SHS
N. Dufournaud : XML TEI un outil méthodologique pour la recherche en SHSN. Dufournaud : XML TEI un outil méthodologique pour la recherche en SHS
N. Dufournaud : XML TEI un outil méthodologique pour la recherche en SHSOpenEdition
 
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueVisite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueGautier Poupeau
 
Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02ABES
 
Serveur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développementServeur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développementLudovic REUS
 
Introduction aux bases de données
Introduction aux bases de donnéesIntroduction aux bases de données
Introduction aux bases de donnéesAbdoulaye Dieng
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information SystemsSerge Garlatti
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information SystemsSerge Garlatti
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information SystemsSerge Garlatti
 
Presentation dublincore l3
Presentation dublincore l3Presentation dublincore l3
Presentation dublincore l3DublinCore2b
 
Informatique documentaire - Cours Licence pro bib 2013
Informatique documentaire - Cours Licence pro bib 2013Informatique documentaire - Cours Licence pro bib 2013
Informatique documentaire - Cours Licence pro bib 2013Sylvain Machefert
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information SystemsSerge Garlatti
 
Programmation orientee aspect 201401 - Ensim
Programmation orientee aspect 201401 - EnsimProgrammation orientee aspect 201401 - Ensim
Programmation orientee aspect 201401 - EnsimLaurent Broudoux
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationcatherine roussey
 
Databases for Bioinformatics
Databases for BioinformaticsDatabases for Bioinformatics
Databases for BioinformaticsKarim Mezhoud
 
Les catalogues sur le Web
Les catalogues sur le WebLes catalogues sur le Web
Les catalogues sur le WebFigoblog
 

Similaire à Modèles de données et langages de description ouverts 2021-2022 - 1 (20)

N. Dufournaud : XML TEI un outil méthodologique pour la recherche en SHS
N. Dufournaud : XML TEI un outil méthodologique pour la recherche en SHSN. Dufournaud : XML TEI un outil méthodologique pour la recherche en SHS
N. Dufournaud : XML TEI un outil méthodologique pour la recherche en SHS
 
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueVisite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
 
Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02
 
Sem info system_2012
Sem info system_2012Sem info system_2012
Sem info system_2012
 
Metadonnees et SID
Metadonnees et SIDMetadonnees et SID
Metadonnees et SID
 
La bibliothèque numérique
La bibliothèque numériqueLa bibliothèque numérique
La bibliothèque numérique
 
Serveur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développementServeur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développement
 
Introduction aux bases de données
Introduction aux bases de donnéesIntroduction aux bases de données
Introduction aux bases de données
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
 
Presentation dublincore l3
Presentation dublincore l3Presentation dublincore l3
Presentation dublincore l3
 
Introduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielleIntroduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielle
 
Informatique documentaire - Cours Licence pro bib 2013
Informatique documentaire - Cours Licence pro bib 2013Informatique documentaire - Cours Licence pro bib 2013
Informatique documentaire - Cours Licence pro bib 2013
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
 
Programmation orientee aspect 201401 - Ensim
Programmation orientee aspect 201401 - EnsimProgrammation orientee aspect 201401 - Ensim
Programmation orientee aspect 201401 - Ensim
 
Skos transformation
Skos transformationSkos transformation
Skos transformation
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformation
 
Databases for Bioinformatics
Databases for BioinformaticsDatabases for Bioinformatics
Databases for Bioinformatics
 
Les catalogues sur le Web
Les catalogues sur le WebLes catalogues sur le Web
Les catalogues sur le Web
 

Modèles de données et langages de description ouverts 2021-2022 - 1

  • 1. Modèles de données et langages de description ouverts Licence DIST 2021-2022
  • 2. Présentation personnelle <nom>François-Xavier Boffy</nom> <statut>Conservateur bibliothèques</statut> <fonction>Responsable système d’information documentaire à la BU de Lyon 1</fonction> <role>Information Coordinator section IT</role> #gamedesign #digitalhumanities #metadata #TransitionBiblio #webservices #ADBU #IFLA 2
  • 3. Programme initial • Objectif global : maîtriser la logique des modélisations de métadonnées, comprendre les méthodes pour exploiter les plus courantes selon leur contexte d’utilisation et leur matérialisation technique • Planning général : – Comprendre la notion de métadonnée, approche des langages à balises (s1) – Comprendre le XML et ses applications (s2-4) – Données ouvertes, traitements et matérialisations informatiques (s5-6) 3
  • 4. Modalités d’évaluation • Une évaluation intermédiaire en séance 3 (1/5 de la note) • Un travail par sous-groupe, commenté individuellement (2/5 de la note) • Une évaluation finale sur QCM + questions en situation (2/5 de la note) 4
  • 5. En situation 5 Extrait d’offre d’emploi parue fin août 2021, Université de Paris, Direction des Bibliothèques et Musées
  • 6. A vous de jouer… 6 Qui pourra avoir le contrat ?
  • 7. Avant de se lancer… • Des questions, des propositions ? 7
  • 8. Programme de ce cours 1. Introduction à la notion de métadonnée 2. Introduction aux langages à balises 3. Exercice de découpage d’information 4. Principes des langages à balises 5. Fonctionnement d’un langage à balises 6. Exercices pratiques 7. Bref historique SGML, HTML, XML 8
  • 9. 1) Les métadonnées • Définition « essentielle » : ce sont des données sur des données (« data about data », James Martin) – Pour lier au mouvement actuel de développement de l’internet des objets (IoT), parlons de « données sur le donné » • La notion a précédé l’informatique, mais est devenue un enjeu décisif dans le traitement informatique des données (et des documents) 9
  • 10. Comme monsieur Jourdain… Quand on utilise des données sur un objet, on utilise des méta-données DATA META 10
  • 11. Comme monsieur Jourdain… On fait des métadonnées depuis très longtemps sans s’en rendre compte Villeurbanne 69100 CP Sous-préfecture Adm. 147 712 hab. (2017) POP 11
  • 12. Pour quoi faire, les métadonnées ? 12 © Nick Borelli
  • 13. Exemples de métadonnées ● Votre numéro de sécurité sociale – les machines peuvent gérer votre dossier ● Vos prénoms – on peut vous identifier plus précisément qu'avec un seul (alternative : date voire lieu de naissance) ● Votre taille – on peut savoir quel vêtement (= une autre donnée) pourrait « s'agencer » avec vous; mais elle varie au cours de la vie ● La cuisson de la viande au restaurant – question de vocabulaire (bleu, à point...) 13
  • 15. Exemples de métadonnées (3) 15 Vous en avez d’autres à l’esprit ?
  • 16. Les métadonnées au pouvoir Sir Francis Bacon - Par Inconnu — National Portrait Gallery: NPG 520 “Savoir, c’est pouvoir” #bigdata #identiténumérique #IoT #IA #Bacon 16
  • 17. Les métadonnées au pouvoir La qualité des 17 Le désert dessiné par une IA...
  • 18. Caractérisation des métadonnées • Les métadonnées sont des données sur les données, donc on peut classer les métadonnées selon le type des données • Distinction traditionnelle entre – Métadonnées descriptives (du contenu) – Métadonnées administratives (droits) – Métadonnées de structure (relations) – Métadonnées sur les métadonnées 18
  • 19. Exemple en Dublin Core qualifié ● title décrit le nom d'usage du contenu ● rights décrit des droits sur le document ● hasPart signale une sous-partie du document ● metametadata / contribute décrit l'origine des métadonnées 19
  • 20. Des limites à cette caractérisation… • Anne Franck, Journal – Thème (livre sur…) – Auteur ou co-auteur (livre de…) – « droits d’exploitation » ? (responsabilité patr.) => La limite entre les métadonnées et les données est constamment remise en cause, on est de plus en plus dans une logique de sujet-prédicat (voir cours n°5) 20
  • 21. 2) Introduction aux langages à balises • Parmi les organisations possibles des métadonnées, l’option de mêler données et métadonnées • Besoin d’utiliser des signaux « forts » pour se faire comprendre par ces animaux bêtes que sont les ordinateurs 21
  • 22. Avant l’informatique « Les phrases affichées sont-elles exprimées dans un langage à balises ? ¿ Habla espagñol ? Je suis sûr que vous avez d’autres exemples de langage mis en forme selon un système de balises. » 22
  • 23. Définition La caractéristique principale des langages de balisage est d'utiliser des balises. Le rôle des balises est de proposer une syntaxe pour délimiter une séquence de caractères ou pour marquer une position précise dans un flux de caractères. Wikipedia En anglais on utilise l’expression “Markup Langage”, d’où les nombreux “...ML” de ce cours 23
  • 24. Pourquoi découper le réel ? • Pour le comprendre – leur « goleador » fait une « Neymar » (leur attaquant buteur se roule par terre) – [humour] je hais le langage XML [/humour] • Pour le traiter – 3 + 10 – 22 / 2 = – sijeplacetousmesmotsàlasuitesansséparationilestp lusdifficiledecomprendrecequej’ écrisetparexemplelecorrecteurd’orthographenepo urraplusm’aider 24
  • 25. Pourquoi découper le réel ? Publicité 25
  • 26. Découper des informations • Les langages à balises permettent de structurer de l’information dans des arborescences • Il est possible de coder ces structures et leur contenu dans des fichiers pour les échanger Titre Auteur Thème Hugo, Victor Quatre vingt-treize Paris Terreur Marat 26
  • 27. 3) Exercice de découpage • Au choix: a. Décrivez-vous vous-même avec des métadonnées (si possible originales) b. Décrivez votre oeuvre préférée, un événement ou un lieu que vous connaissez bien et indiquez quelles métadonnées vous semblent utiles pour comparer à d’autres du même genre 27
  • 28. 4) Principes des langages à balise : le vocabulaire descriptif • Arbre • Nœud (fils | père, ancêtres et descendants) • Racine • Chemin (suite de nœuds) • Branche (chemin vers une feuille) • Feuille • Taille d’un arbre • Profondeur 28
  • 31. A la place d’une machine… 31
  • 32. Quand vous cherchez un fichier… 32
  • 34. 5) Fonctionnement d’un langage à balises 34 Langages à balises Métadonnées Informations Des exemples non-XML pour commencer à observer: Markdown (https://en.wikipedia.org/wiki/Markdown); Wiki (https://en.wikipedia.org/wiki/Wiki#Editing)
  • 37. Grammaire et vocabulaire • Un langage à balises a pour but de représenter de l’information structurée. Il s’appuie sur – Un vocabulaire, prédéfini ou auto-déclaré = le nom des éléments, des balises ou les signes utiles – Une grammaire, qui définit les règles d’utilisation du vocabulaire et de structuration des éléments = la norme ou le standard du langage à balises – Un système d’attributs éventuellement, qui précise les modalités d’interprétation du vocabulaire 37
  • 38. Une « famille » de langages • XML, HTML, Dublin Core... reposent sur des principes communs mais des vocabulaires, grammaires différents • Positionnement différent, plus ou moins proche de l’expression des métadonnées Langages à balise XML DC 38
  • 39. L’avantage d’intégrer les métadonnées dans les données • Les langages à balises offrent la possibilité de distinguer la structure logique (balises) et la structure physique (visible) – Possibilité de manipulation de la structure logique (extraction, etc.) – Possibilité de produire plusieurs structures physiques à partir d’une structure logique (publication responsive...) 39
  • 40. 6) Un peu de pratique… • Décrivez-vous vous-même avec des balises, profondeur d’arbre 3 niveaux • Décrivez l’oeuvre, l’événement ou lieu choisi précédemment en utilisant les 4 types de métadonnées habituellement identifiés • Si un auteur est né et est mort à Paris, comment peut-on représenter cela sous forme d’arbre ? 40
  • 41. 7) Bref historique SGML, HTML, XML • A la fin des années 1960 IBM invente un langage de description, GML (Generalized Markup Langage ou Goldfarb - Mosher - Lorie, du nom des inventeurs). • Charles Goldfarb, co-inventeur du GML développe ensuite un successeur appelé SGML (Standard Generalized Markup Language), publié en 1986 comme norme ISO (ISO 8879:1986) 41
  • 42. Bref historique SGML, HTML, XML • Tim Berners-Lee choisit de décliner le SGML en une version simplifiée pour structurer les pages web : HTML (HyperText Markup Language) • De la grande simplicité du début (tag soup)… • Aux 104 éléments définis dans HTML 5 42
  • 43. Bref historique SGML, HTML, XML Exemple HTML : <!DOCTYPE html> <html> <head> <title>Titre de page</title> </head> <body> <h1>Titre de section niveau 1</h1> <p>Paragraphe</p> </body> </html> 43
  • 44. Bref historique SGML, HTML, XML Exemple HTML : <!DOCTYPE html> <html> <head> <title>Titre de page</title> </head> <body> <h1>Titre de section niveau 1</h1> <p>Paragraphe</p> </body> </html> Question piège : en bleu, grammaire ou vocabulaire du HTML ? 44
  • 45. Bref historique SGML, HTML, XML • Les principes du HTML sont liés aux principes du Web: – Notion d’hypertexte – Des serveurs fournissent des documents – Les documents sont décrits selon une grammaire SGML – Les clients (navigateurs) peuvent lire les documents 45
  • 46. Bref historique SGML, HTML, XML • Dès la mise en place du web, pour structurer les pages web un nouveau langage semble nécessaire – Echanger des informations avec d’autres logiciels que les navigateurs – Utiliser une syntaxe plus rigoureuse – Simplifier l’adaptation du langage aux besoins – Poursuivre la séparation des fonctions de balises 46
  • 47. Bref historique SGML, HTML, XML Exemple HTML : <!DOCTYPE html> <html> <head> <title>Titre de page</title> </head> <body> <h1>Titre de section niveau 1</h1> <p>Paragraphe</p> </body> </html> 47
  • 48. Bref historique SGML, HTML, XML • XML pour eXtensible Markup Language 48
  • 49. En guise de bibliographie initiale… Et illustration d’un autre modèle de métadonnées! LDR: 01316cam 2200337 i 4500 001: PPN185273734 005: 20150511165758.000 008: 150429t20152015fr a fr 001 0 fre d 020: $a 978-2-7460-9446-8 (br) $c 29,90 EUR 024: 30 $a 9782746094468 035: $a (OCoLC)908173313 040: $a ABES $b fre $e AFNOR 082: 0 $a 006.74 $2 22 100: 1 $a Boulanger, Thierry $d (1972-....). $4 aut. $e Auteur 245: 10 $a XML par la pratique : $b bases indispensables, concepts et cas pratiques / $c [Thierry Boulanger]. 250: $a 3e édition. 260: $a St Herblain (Loire-Atlantique) : $b ENI, $c cop. 2015. 300: $a 1 vol. (377 p.) : $b ill., couv. ill. en coul. ; $c 22 cm. 336: $b txt $2 rdacontent 337: $b n $2 rdamedia 337: $b y $2 isbdmedia 490: 1 $a Ressources informatiques, $x 1627-8224 504: $a Index. 538: $a Fichiers complémentaires à télécharger sur le site de l'éditeur : www.editions-eni.fr. 650: 7 $a XML (langage de balisage) $x Guides pratiques et mémentos. $2 ram 650: 7 $a Échange électronique d'information. $2 ram 650: 0 $a XML (Document markup language). $2 lc 650: 0 $a Electronic data interchange. $2 lc 830: 0 $a Ressources informatiques (Nantes) 886: 2 $2 unimarc $a 181 $a i# $b xxxe## 930: $5 692662101:53034694X $b 692662101 $a 006.74 BOU $j u 49
  • 50. Devoirs pour la prochaine fois Regarder des playlists Spotify ou Youtube, des résultats de recherche dans un moteur de recherche, regarder des boîtiers de DVD, des recettes, ou des paquets de céréales… bref tout ce qui peut porter des métadonnées ! 50