MétadonnéesReprésentation et accès à l’information                  INRIA           Seminaire 2008           par Sylvie Da...
Fil conducteur de l’intervention1. Contexte de l’intervention          1. Contexte du séminaire          2. Contexte profe...
1.     1. CONTEXTE DE     L’INTERVENTION     Contexte du séminaire     Contexte professionnel
1.1                  Contexte du séminaire  • Introduction au thème de la semaine Inria  • S’ouvrir aux différents mondes ...
1.2                   Contexte professionnel  • Du livre aux ressources        •   Du papier au numérique - Du mono- au pl...
2.     2. METADONNEES            Définition     Processus de conception              Outils           Architecture
2.1      Métadonnée : représentation + codage      Représentation réinterprétable      dune information, sous forme      c...
2.2                 Processus de conception      La Vie,      Les Choses de la Vie            A - Représentation Métier   ...
2.2       Processus A : Représentation métier                                      Favoriser la guérison en         Une ré...
2.2           Processus B : Représentation SI                  B1 - Concevoir            ClaML Classification Markup      ...
2.2       Outils: langages à tous les étages  Le langage : moyen dexpression et de représentation  • Langages de représent...
2.3      Outils : modèle entité-relation-attribut  Outil de modélisation de données de haut niveau  Modèle « Entité-Associ...
2.3       Outils : modèle entité-relation-attribut                 Une représentation (partielle) du domaine Musique      ...
2.4  Architecture des composants fonctionnels      Réservoirs de connaissances                        Référentiel         ...
Fonction d’administrationAdministration des métadonnées    Qualité des Référentiels
2.5        Administration des métadonnées  • Les applications s’auto-référencent ?        • Elaborer une documentation « i...
2.5      Métadonnée « Contribution person »  INRIA IST - Session introductive sur les métadonnées par Sylvie D            ...
2.5                  Qualité des référentiels  • Qualité de quoi ?      – la qualité du modèle initial      – La qualité d...
3.     3. AXES D’EVOLUTION      Quelques axes d’évolution      dans ce nouveau contexte
3.          Présentation de 4 axes d’évolution     1. Des listes d’autorité aux répertoires sémantiques                Le...
3.1           #1. Des listes d’autorité         aux répertoires sémantiques      Le cas du Catalogue de la Cité de la Musi...
3.1             Référentiel sémantique (1)  INRIA IST - Session introductive sur les métadonnées par Sylvie D             ...
3.1               Référentiel sémantique (2)  • Schémas de métadonnées      – Cohérents et coordonnés  • Répertoires contr...
3.1               Référentiel sémantique (3)  • Finalités      – Ré-exploitations multiples         • Grâce aux Entités - ...
3.2            #2. Métadonnées composites                 et choix d’encodage                       Les normes du Web     ...
3.2           Représentation des langues (1)  • Analyse du problème posé      – Langue             – la langue écrite dans...
3.2           Représentation des langues (2)  • Métadonnée composite du W3C      – Sur la base de la RFC 4646 (Tags for Id...
3.2          Représentation des langues (3)  • Quelles évolutions ? Jusqu’où aller ?      – Représentation et encodage fin...
3.3         #3. Convergence et spécificités                 des modèles      Le cas des modèles éditorial, bibliothéconomi...
3.3             Modèles documentaires (1)  • Points de vue variés sur des objets informationnels    ou des activités des A...
3.3              Modèles documentaires (2)  A. Structuration orientée par l’objet physique        1. Modélisation éditor...
3.3             Modèles documentaires (3)  1. Modélisation éditoriale        • L’objet pris comme un tout, appartenant à u...
3.3             Modèles documentaires (4)  3. Modélisation Contenu de 1er niveau        • L’objet pris comme un tout, appa...
3.3             Modèles documentaires (5)  5. Modélisation Genre        • L’objet pris comme un tout, appartenant à une fa...
3.3              Modèles documentaires (6)  7. Modélisation Collection      – Intégration des objets au sein d’un schéma d...
3.3             Modèles documentaires (6)  • Granularité de l’unité de traitement choisie  INRIA IST - Session introductiv...
3.3         Modèle documentaire générique  INRIA IST - Session introductive sur les métadonnées par Sylvie D              ...
3.4       #4. Accès immédiat      aux corpus numériques          Le cas des thèses
3.4                  Le cas des thèses (1)  • Recommandation TEF de 2006        • « définit un jeu de métadonnées pour les...
3.4                   Le cas des thèses (2)  • Améliorer aussi l’exploitation des thèses        • Accès immédiat au corpus...
3.4                          Le cas des thèses (3)                                                  C. Roussey - Une métho...
4.     Conclusion provisoire…
4.             Complexité de mise en oeuvre     • Malgré les qualités des technologies du Web           • Ouverture, inter...
Prochain SlideShare
Chargement dans…5
×

Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre /

848 vues

Publié le

INRIA 2008 (1) - Métadonnées : mutations et perspectives
http://www.adbs.fr/metadonnees-mutations-et-perspectives-46545.htm

Publié dans : Technologie
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Représentation et accès: continuités et transformations. Chapitre 1. Transformations à l'oeuvre /

  1. 1. MétadonnéesReprésentation et accès à l’information INRIA Seminaire 2008 par Sylvie Dalbin - ATD sylvieATD@aol.com (1)
  2. 2. Fil conducteur de l’intervention1. Contexte de l’intervention 1. Contexte du séminaire 2. Contexte professionnel2. Métadonnées 1. Définition 2. Processus de conception 3. Outils de modélisation 4. Architecture 5. Administration et qualité3. Axes d’évolution 1. Des listes d’autorité aux répertoires sémantiques 2. Représenter des langues 3. Convergence et spécificités des modèles 4. Accès immédiat aux corpus numériques : le cas des thèses4. ConclusionINRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  3. 3. 1. 1. CONTEXTE DE L’INTERVENTION Contexte du séminaire Contexte professionnel
  4. 4. 1.1 Contexte du séminaire • Introduction au thème de la semaine Inria • S’ouvrir aux différents mondes qui se rencontrent – Les mondes des différents intervenants et les vôtres – Autour de la notion de métadonnées • Sur les plans fonctionnel et technique • Et des notions connexes : granularité, notation, terminologie, … – Par une mise en perspective inter-professionnel (Archives, Documentation, Bibliothèques, Musée) – En partant de la réalité d’hier et d’aujourd’hui • En complément (mardi 30 sept) : – « Métadonnées et normalisation », Atelier INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  5. 5. 1.2 Contexte professionnel • Du livre aux ressources • Du papier au numérique - Du mono- au pluri- et multi-média • D’un objet (le livre) à des grains d’information contextualisés • Immédiateté ; Flux et volumes • Métadonnées plus riches, mieux contrôlées • Métadonnées métiers : à la source • Des contenus exploitables • Accès à l’information à l’ère de la Société de l’Info • Tout citoyen dans ses activités professionnelles (et personnelles) • Des besoins étendus, fréquents, diversifiés • Dont la nature diffère de celle du « chercheur » (scientifique) • Automates : le cœur des systèmes • Moteurs et automatisme : quelle place pour l’Humain • Interopérabilité (à distinguer de centralisation) INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  6. 6. 2. 2. METADONNEES Définition Processus de conception Outils Architecture
  7. 7. 2.1 Métadonnée : représentation + codage Représentation réinterprétable dune information, sous forme conventionnelle convenant à la communication, à linterprétation ou au traitement. membres.lycos.fr/jjww/50.htm . INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  8. 8. 2.2 Processus de conception La Vie, Les Choses de la Vie A - Représentation Métier A1 - Modéliser et formaliser le modèle métier A2 - Développer des Référentiels métier B - Représentation Informatique B1 - Concevoir un modèle informatique sur la base du modèle conceptuel métier B2 - Développer un schéma de données INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  9. 9. 2.2 Processus A : Représentation métier Favoriser la guérison en Une réalité - Un objectif décrivant précisément les maladies A1 - Modéliser « Modèle conceptuel biomédical » des Formaliser ce modèle conséquences des maladies, années 1940 A2 - Développer Langage médical : des Référentiels métier Classification internationale des pour alimenter ces modèles maladies (CIM) INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  10. 10. 2.2 Processus B : Représentation SI B1 - Concevoir ClaML Classification Markup Language un modèle informatique sur « support the transfer of the majority of la base du modèle hierarchical healthcare classification conceptuel métier systems » <Class kind="category"> <Symbol>A04</Symbol> <SuperClass>A00-A09</SuperClass> <Rubric xml:lang=“en" kind="preferred">Other bacterial B2 - Développer intestinal infections</Rubric> un schéma de données <Rubric xml:lang=“en" - représentation des ressources kind="excludes">foodborne intoxications, - Représentation des référentiels bacterial (<Reference>A05</Reference>)</Rubric> <Rubric xml:lang=“en" kind="excludes">tuberculous enteritis (<Reference>A18.3</Reference>)</Rubri> </Class> INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  11. 11. 2.2 Outils: langages à tous les étages Le langage : moyen dexpression et de représentation • Langages de représentation des SI – Représention graphique UML, entité-attribut-classe, Schémas XML • Langages de représentation des ressources – Des champs aux schémas de métadonnées • Langages de représentation de concepts/entités – Langages documentaires, langage d’indexation, de recherche – Langages de représentation d’entités nommées » Des listes d’autorité aux référentiels sémantiques – Langages de représentation Métier ou Domaine représentation des activités et non des ressources seules  Représenter les activités - pas uniquement les ressources Repositionner les notions de classes, concepts, sujet INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  12. 12. 2.3 Outils : modèle entité-relation-attribut Outil de modélisation de données de haut niveau Modèle « Entité-Association » (1970->) – Entité – Objet pourvu d’une existence : un ou des individus (un auteur, une société, un gène, etc.), une chose concrète ou abstraite (publication, pays, etc.), un événement (facture, manifestation, etc.). – Relation – Association fonctionnelle entre deux entités ou classes d’entités. – Attribut ou propriété – Données élémentaires sur une entité (date ou lieu de naissance d’une personne) ou sur une relation. – Cardinalité – Dimension ou degré de la relation; nombre dentités impliquées dans cette relation : une seule entité (réflexive), minimum (0 ou 1) et maximum (n). INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  13. 13. 2.3 Outils : modèle entité-relation-attribut Une représentation (partielle) du domaine Musique identifiant relationInstance de la entités attributs Instance de laclasse Oeuvre classe Personne INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  14. 14. 2.4 Architecture des composants fonctionnels Réservoirs de connaissances Référentiel Accès Ontologie (structure des connaissances) Recherche Administrer Base de connaissances So what de Miles Davis Vocabulaires contrôlés Thésaurus Taxonomie de navigation Métadonnées Métadonnées Métiers Œuvres, Personnes, Concerts,… Données Moteur de Autres métadonnées Indexer vidéo, photo, Titre, format, support,… texte, artefact recherche Vocabulaire enrichi Synonymes et traductions Autres relations INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  15. 15. Fonction d’administrationAdministration des métadonnées Qualité des Référentiels
  16. 16. 2.5 Administration des métadonnées • Les applications s’auto-référencent ? • Elaborer une documentation « informatique » et « métier » • Documenter le référentiel des applications • Règle de documentation : norme ISO 11179 (MDR) • Autres règles : ISO 9735-2:2002 pour les données composites • Enregistrer schémas et profils d’application • les « agences d’enregistrement » de l’ISO 11179 • Profils d’application: schéma + règle + système d’encodage + tableau de concordance • Reprise du projet « Registry » au sein du Dublin Core INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  17. 17. 2.5 Métadonnée « Contribution person » INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  18. 18. 2.5 Qualité des référentiels • Qualité de quoi ? – la qualité du modèle initial – La qualité des données elles-mêmes – La qualité interne du schéma de métadonnées – La qualité externe du schéma de métadonnées – La qualité des vocabulaires d’encodage • Quel contrôle ? – Pour chacune de ces catégories – Par échantillonnage sur les données et leurs usages à la recherche et à l’indexation INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  19. 19. 3. 3. AXES D’EVOLUTION Quelques axes d’évolution dans ce nouveau contexte
  20. 20. 3. Présentation de 4 axes d’évolution 1. Des listes d’autorité aux répertoires sémantiques  Le cas du Catalogue de la Cité de la Musique 2. Métadonnées composites et choix d’encodage • Les normes du Web  Le cas de la représentation des « langues » (rfc 4646) 3. Convergence et spécificités des modèles  Le cas des modèles éditorial, bibliothéconomique, archivistique et documentaire 4. Accès immédiat aux corpus numériques  Le cas des thèses INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  21. 21. 3.1 #1. Des listes d’autorité aux répertoires sémantiques Le cas du Catalogue de la Cité de la Musique
  22. 22. 3.1 Référentiel sémantique (1) INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  23. 23. 3.1 Référentiel sémantique (2) • Schémas de métadonnées – Cohérents et coordonnés • Répertoires contrôlés et enrichis : des ressources – Des entités identifiées (identifiant, uri) – Des entités contrôlées Les Titres de partition, d’œuvres, d’ouvrages, de concerts,… Les Noms des musiciens, compositeurs, éditeurs …. Les Noms des instruments Les Fonctions/Rôles – Des entités enrichies par des attributs Les valeurs de certains attributs sont elles-mêmes contrôlées INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  24. 24. 3.1 Référentiel sémantique (3) • Finalités – Ré-exploitations multiples • Grâce aux Entités - Attributs - Relations – Logiques de recherche/navigation du Web – Optimisation économique • Quelles évolutions ? – Connaissances sur le domaine, plus que catalogue de documents • La Musique à travers ses compositeurs, ses œuvres, ses instruments, ses interprétations,… – Fluidité des liens entre « nœuds » versus rigidité des notices – Offres construites avec des applications composites mêlant des ressources pas toujours homogènes • Interopérabilité structurelle INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  25. 25. 3.2 #2. Métadonnées composites et choix d’encodage Les normes du Web Le cas de la représentation des « langues » (rfc 4646)
  26. 26. 3.2 Représentation des langues (1) • Analyse du problème posé – Langue – la langue écrite dans un système d’écriture particulier » la langue chinoise - alphabet chinois ou romanisé (pinyin) – La langue parlée – Dans une région précise du monde » En-UK, En-US, en-CA – Unité traitée – La langue d’un document textuel, d’une mention sur une affiche, du sous-titrage, de leurs traductions, d’annotations.. – Supports plurilangues – Dans le temps – Prise en compte de l’évolution des Pays en particulier – Des langues anciennes – Langues et pays : écriture éponyme » deu et non ger – Règles d’encodage du Web - XHTML, HTML, CSS INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  27. 27. 3.2 Représentation des langues (2) • Métadonnée composite du W3C – Sur la base de la RFC 4646 (Tags for Identifying Languages) – Finalités – Accès direct aux ressources – Répondre précisément aux besoins – Prendre en compte les particularismes régionaux à travers le monde – Intégré à Dubin Core / ISO 15836 zh - Latn - CN [ISO 639-1] [ISO 15924] [ISO 3166] de - CH - 1996 Allemand utilisé en Suisse, écrit après la réforme de lorthographe entamée en 1996 après J.C. INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  28. 28. 3.2 Représentation des langues (3) • Quelles évolutions ? Jusqu’où aller ? – Représentation et encodage fins d’éléments de donnée appartenant à un schéma de représentation global – La langue telle qu’elle est parlée ou écrite – Mais aussi Contributeur = Personne - Rôle - Date, répétable – Associer des métadonnées à des grains d’information – L’interview d’une personnalité au sein d’une séquence – S’aligne-t-on sur les exigences des technologies du Web ? – accès direct aux ressources, caractère international, précision de la description de tout ou partie des ressources,… INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  29. 29. 3.3 #3. Convergence et spécificités des modèles Le cas des modèles éditorial, bibliothéconomique, archivistique et documentaire
  30. 30. 3.3 Modèles documentaires (1) • Points de vue variés sur des objets informationnels ou des activités des Audiences • Critères nombreux • Unité de traitement privilégiée • Résultat : schéma de représentation (notice) • Appartenance à des collections : thématiques, par filiation,… • Structure prise en charge ; interne ou externe à l’objet • Usages de cette représentation (en recherche, avec ou sans outils supplémentaires…) • Reconnaissance (ou pas) de cette méta-structure par les audiences visées • Existence ou pas de formats normalisés (e-books). Existence ou pas d’outils de production INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  31. 31. 3.3 Modèles documentaires (2) A. Structuration orientée par l’objet physique   1. Modélisation éditoriale 2. Modélisation bibliographique B. Structuration orientée par les contenus   3. Modélisation Contenu de premier niveau 4. Modélisation Structurelle de premier niveau 5. Modélisation Genre 6. Modélisation Domaine ou Métier (contexte) 7. Modélisation Collection (contenu/contexte)  INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  32. 32. 3.3 Modèles documentaires (3) 1. Modélisation éditoriale • L’objet pris comme un tout, appartenant à une collection (filiation) • Structure interne visible – supportant la navigation intra-documentaire – Connue par un large public • Formats normalisés (e-book) 2. Modélisation bibliographique • L’objet pris comme un tout, appartenant à une collection (acquisition) • Structure externe à l’objet (notice) – Connue par un large public – N’intègre pas (ou très peu) la sémantique structurelle éditoriale • Formats normalisés INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  33. 33. 3.3 Modèles documentaires (4) 3. Modélisation Contenu de 1er niveau • L’objet pris comme un tout, appartenant à une collection (filiation) • Structure externe à l’objet enrichie de métadonnées d’accès – Offrant une vue synthétique (sujet), mais externe à l’objet – Territoire fixé par l’objet 4. Modélisation Structurelle de 1er niveau • L’unité documentaire est « décrochée » par rapport à l’unité éditoriale ou bibliographique (article, reportage, …) créant après la collection et l’objet, un 3ème niveau • Structure externe à l’objet enrichie de métadonnées d’accès – Offrant des accès analytiques pluriels INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  34. 34. 3.3 Modèles documentaires (5) 5. Modélisation Genre • L’objet pris comme un tout, appartenant à une famille particulière • Structure intra-documentaire prédéterminée par le genre, non formelle – Connue par un public au sein de communautés métiers – Métagenres (compte-rendu de réunion), genres spécialisés – Traduit dans le modèle documentaire par une seule métadonnée 6. Modélisation Domaine ou Métier • Prend appui sur les activités et non spécifiquement les objets • Structure de représentation du domaine, externe aux ressources, indépendante de celles-ci – Connue par les acteurs du domaine et touche un public large au sein du domaine INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  35. 35. 3.3 Modèles documentaires (6) 7. Modélisation Collection – Intégration des objets au sein d’un schéma d’ensemble • Collection éditoriale, d’une bibliothèque, d’un musée, fonds d’une centre documentaire, fonds d’archives • Le référent de cette structure est varié : filiation ou contexte de production , savoir encyclopédique ou domaine spécialisé, activités… Dans un contexte de fédération de ressources (portail), il est possible de rendre convergents ces différents points de vue, tout en conservant les spécificités de chacun. INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  36. 36. 3.3 Modèles documentaires (6) • Granularité de l’unité de traitement choisie INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  37. 37. 3.3 Modèle documentaire générique INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  38. 38. 3.4 #4. Accès immédiat aux corpus numériques Le cas des thèses
  39. 39. 3.4 Le cas des thèses (1) • Recommandation TEF de 2006 • « définit un jeu de métadonnées pour les thèses électroniques soutenues en France. • […] a voulu valoriser les thèses françaises grâce à leur diffusion électronique et engager une politique de dépôt et de conservation qui assure leur pérennité. » • Optimiser un circuit éditorial • Postérieur à la création de l’objet • Métadonnées de type bibliographique et administrative Un modèle éditorial post-publication INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  40. 40. 3.4 Le cas des thèses (2) • Améliorer aussi l’exploitation des thèses • Accès immédiat au corpus, lecture non linéaire, parcours, exploitation partielle,… • Insérer des connaissances propres au domaine • Structuration interne de la thèse (genre) – Etat de l’art, méthodologie, modèle, algorithme, architecture, prototype ou étude de cas d’une thèse scientifique – A formaliser dans le jeu de métadonnées • Offrir des possibilités d’indexation sociale par les lecteurs • Adosser ces nouvelles métadonnées au schéma existante • Métadonnée : éditoriale, bibliographique, administrative et de contenu INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  41. 41. 3.4 Le cas des thèses (3) C. Roussey - Une méthode d’indexation • Etat de l’art sur l’indexation dans sémantique adaptée aux corpus multilingues, 2001 Sommaire de la thèse différents types de SRI • Méthode d’indexation proposée Index : modèle des graphes sémantiques, extensions tels thesaurus sémantique, opérateur de projection et algorithmes; annotation et indexation; • Expérimentation Index : prototype SyDOM, bibliothèque (lieu d’exp.), évaluation de l’indexation • Perspective • Terminologie Index : indexation automatique, système de représentation de concepts, ressource linguistique • Article (grain autonome) sur les systèmes de recherche multilingue INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -
  42. 42. 4. Conclusion provisoire…
  43. 43. 4. Complexité de mise en oeuvre • Malgré les qualités des technologies du Web • Ouverture, interopérabilité technique, normalisation,… • Des difficultés de conception et de mise en œuvre • Normalisation, méthodes et outils : mobilité très grande • Contenu et systèmes ouverts » Penser autrement territoires et périmètres » Articuler différents modèles, schémas et langages » Complexité de la reprise de l’existant » Importance des travaux de modélisation • S’ouvrir aux pratiques et besoins des Utilisateurs » Renouveler l’ ergonomie et les services • Economie des dispositifs et coût des transformations • Accompagner le changement : formation de formateurs Adopter un esprit ouvert et critique INRIA IST - Session introductive sur les métadonnées par Sylvie D 29 Sept 2008 -

×