Métadonnées Introduction  générale Soufiane ROUISSI [email_address]
En guise de préambule... Indexation et recherche sur le Web
Composants d’un moteur de recherche  Robot d’indexation Index Interface d’interrogation Index
Le « logiciel » de recherche Interface d’interrogation Simple, mode avancé (expert) ou en mode spécialisé (types de fichiers)  Visualisation des résultats Classement et affichage des résultats Géographie (mondial, francophone) Langue (français, anglais, espagnol…) Type (texte, images, son, vidéo) Format (HTML, DOC, DOC, PPT, RTF…) ... Préparation de la requête Interrogation de la base Affichage des réponses Recherche « filtrée »
Les techniques de base Métadescription de documents Balises  META  pour un document HTML description, keywords, author … Indexation en mode plein texte Le contenu de la page est indexé intégralement 2 modes d’indexation de documents Mise à jour de l’index  automatisée (robot logiciel : spider ou crawler) par repérage et visite manuelle (par l’auteur du site ou la personne chargée du référencement) par des professionnels (bases de données professionnelles) Images ? Sons ? Vidéos ? …
Introduction aux métadonnées Présentation générale de la notion de métadonnées, leur intérêt, les domaines d’application ...
Un problème ancien Un ouvrage mal catalogué dans une bibliothèque est un ouvrage perdu ...  en 1993 à peine une centaine de sites web Sept 2005 - Google annonce   8 168 684 336 pages  Le passage au numérique a fait (ré)apparaître  le problème d’identification, de localisation des ressources documentaires (entre autres)
Explosion documentaire Constat de départ Prolifération de documents numériques (types, formats, tailles...) publiés sur le Web nécessité d’améliorer  les procédés de  localisation / d’identification il devient difficile de trouver des  documents au milieu des autres ...
Définition métadonnées metadata Des données sur des données (data about data) ensemble structuré d’informations  (propriétés, caractéristiques) permettant de décrire un objet  (une ressource)  pas obligatoirement numérique   Titre   : …. Auteur : … Format …
Les fiches cartonnées des bibliothèques Localisation Titre de l’ouvrage ... -- Ville : yyyyy,  9999. 999 p. (XXXXXX)   (Séries emplois   ; no. 9) xxx xxx xxx MICROFICHE GOV DOC EC52 73A36 RESERVE Contenu Relation Type Identifiant Droits Contribution 39732662 15.12.84 zf
Les métadonnées (format papier) Les étiquettes sur les bouteilles des médicaments, Les données des correspondances, Les éléments d’identification d’une facture … Des éléments qui  renseignent  sur le contenu d’un objet
Les métadonnées (format électronique) les applications bureautiques comportent des métadonnées pouvant être gérées par  l’auteur du document
Intérêt des métadonnées Faciliter la recherche d'information (décrire de manière fine le contenu) Faciliter l'interopérabilité (partage, échange) Faciliter la gestion et l'archivage (gestion des collections, des archives électroniques) Gérer et protéger les droits  (propriété intellectuelle, gestion des accès)
Les différents types de métadonnées Comment classer les métadonnées ?
en fonction de leur localisation Métadonnées internes dans le cas numérique les métadonnées font partie intégrante de la ressource :  page web, image, document texte ... exemple : les balises meta Métadonnées externes sur une notice, une étiquette attachée mais aussi dans une base de données par exemple (utilisation pour la recherche)
Les balises META anglais : meta tag  // français :  balise meta "Balise HTML insérée dans l'en-tête d'une page Web, après le titre, qui permet de décrire le contenu de la page afin de la référencer correctement et plus facilement dans les moteurs de recherche." (Office québécois de la langue française) http://www.granddictionnaire.com/ description, keywords ... Utilisées par les moteurs de recherche
en fonction de leur utilisation Métadonnées « métiers » tout peut être décrit mais le contexte d’échange et de partage nécessite le recours à des standards ... Métadonnées  « techniques / informatiques » propriétés des fichiers informatiques (auteur, titre, dates de création, de modification) ...
Les métadonnées métiers Dans le contexte « traditionnel » documentaire MARC (Machine-readable cataloging),  ouvrages http://www.loc.gov/marc/   ISBD(S) (International Standard Bibliographic Description for Serials),  publications en série http://www.ifla.org/VI/3/nd1/isbdlist.htm   Dewey Decimal Classification system,  classification décimale des ouvrages http://www.oclc.org/dewey/   Dans le contexte numérique DCMI (Dublin Core Metadata Initiative) description des documents numériques http://dublincore.org/   ...
Les métadonnées métiers Des métadonnées pour décrire d’autres types d’objets ... EAD (Encoded Archival Description),  a rchives   http://www.loc.gov/ead/   CIMI consortium (Computer Interchange of Museum Information),  ressources muséographique s  http://www.cimi.org/   RKMS (Recordkeeping Metadata Schema),  ressources audio http://www.naa.gov.au/recordkeeping/control/rkms/features.html   MPEG-7 (Multimedia Content Description Interface),  objets multimédia http://www.mpeg-industry.com/   LOM (IEEE - Learning Object Metadata),  ressources liées à l'éducation http://ltsc.ieee.org/wg12/   ...
Les métadonnées « informatiques » Des métadonnées destinées à être utilisées par des outils logiciels... Propriétés des documents MS Office  (Word, Excel, PowerPoint, etc.)   IPTC/IIM - Information Interchange Model   (images JPEG/TIFF)  date de création, auteur, description, copyright ... http://www.iptc.org/IIM/ EXIF  EXchangeable Image File   (images JPEG)  fournies automatiquement par l’appareil photo numérique http://www.exif.org/   ID3 pour les fichiers MP3 Titre, Compositeur, Durée, Copyright ...   http://www.id3.org/   ...

Metadonnees Introduction

  • 1.
    Métadonnées Introduction générale Soufiane ROUISSI [email_address]
  • 2.
    En guise depréambule... Indexation et recherche sur le Web
  • 3.
    Composants d’un moteurde recherche Robot d’indexation Index Interface d’interrogation Index
  • 4.
    Le « logiciel » derecherche Interface d’interrogation Simple, mode avancé (expert) ou en mode spécialisé (types de fichiers) Visualisation des résultats Classement et affichage des résultats Géographie (mondial, francophone) Langue (français, anglais, espagnol…) Type (texte, images, son, vidéo) Format (HTML, DOC, DOC, PPT, RTF…) ... Préparation de la requête Interrogation de la base Affichage des réponses Recherche « filtrée »
  • 5.
    Les techniques debase Métadescription de documents Balises META pour un document HTML description, keywords, author … Indexation en mode plein texte Le contenu de la page est indexé intégralement 2 modes d’indexation de documents Mise à jour de l’index automatisée (robot logiciel : spider ou crawler) par repérage et visite manuelle (par l’auteur du site ou la personne chargée du référencement) par des professionnels (bases de données professionnelles) Images ? Sons ? Vidéos ? …
  • 6.
    Introduction aux métadonnéesPrésentation générale de la notion de métadonnées, leur intérêt, les domaines d’application ...
  • 7.
    Un problème ancienUn ouvrage mal catalogué dans une bibliothèque est un ouvrage perdu ... en 1993 à peine une centaine de sites web Sept 2005 - Google annonce 8 168 684 336 pages Le passage au numérique a fait (ré)apparaître le problème d’identification, de localisation des ressources documentaires (entre autres)
  • 8.
    Explosion documentaire Constatde départ Prolifération de documents numériques (types, formats, tailles...) publiés sur le Web nécessité d’améliorer les procédés de localisation / d’identification il devient difficile de trouver des documents au milieu des autres ...
  • 9.
    Définition métadonnées metadataDes données sur des données (data about data) ensemble structuré d’informations (propriétés, caractéristiques) permettant de décrire un objet (une ressource) pas obligatoirement numérique Titre : …. Auteur : … Format …
  • 10.
    Les fiches cartonnéesdes bibliothèques Localisation Titre de l’ouvrage ... -- Ville : yyyyy, 9999. 999 p. (XXXXXX) (Séries emplois ; no. 9) xxx xxx xxx MICROFICHE GOV DOC EC52 73A36 RESERVE Contenu Relation Type Identifiant Droits Contribution 39732662 15.12.84 zf
  • 11.
    Les métadonnées (formatpapier) Les étiquettes sur les bouteilles des médicaments, Les données des correspondances, Les éléments d’identification d’une facture … Des éléments qui renseignent sur le contenu d’un objet
  • 12.
    Les métadonnées (formatélectronique) les applications bureautiques comportent des métadonnées pouvant être gérées par l’auteur du document
  • 13.
    Intérêt des métadonnéesFaciliter la recherche d'information (décrire de manière fine le contenu) Faciliter l'interopérabilité (partage, échange) Faciliter la gestion et l'archivage (gestion des collections, des archives électroniques) Gérer et protéger les droits  (propriété intellectuelle, gestion des accès)
  • 14.
    Les différents typesde métadonnées Comment classer les métadonnées ?
  • 15.
    en fonction deleur localisation Métadonnées internes dans le cas numérique les métadonnées font partie intégrante de la ressource : page web, image, document texte ... exemple : les balises meta Métadonnées externes sur une notice, une étiquette attachée mais aussi dans une base de données par exemple (utilisation pour la recherche)
  • 16.
    Les balises METAanglais : meta tag // français :  balise meta "Balise HTML insérée dans l'en-tête d'une page Web, après le titre, qui permet de décrire le contenu de la page afin de la référencer correctement et plus facilement dans les moteurs de recherche." (Office québécois de la langue française) http://www.granddictionnaire.com/ description, keywords ... Utilisées par les moteurs de recherche
  • 17.
    en fonction deleur utilisation Métadonnées « métiers » tout peut être décrit mais le contexte d’échange et de partage nécessite le recours à des standards ... Métadonnées « techniques / informatiques » propriétés des fichiers informatiques (auteur, titre, dates de création, de modification) ...
  • 18.
    Les métadonnées métiersDans le contexte « traditionnel » documentaire MARC (Machine-readable cataloging), ouvrages http://www.loc.gov/marc/ ISBD(S) (International Standard Bibliographic Description for Serials), publications en série http://www.ifla.org/VI/3/nd1/isbdlist.htm Dewey Decimal Classification system, classification décimale des ouvrages http://www.oclc.org/dewey/ Dans le contexte numérique DCMI (Dublin Core Metadata Initiative) description des documents numériques http://dublincore.org/ ...
  • 19.
    Les métadonnées métiersDes métadonnées pour décrire d’autres types d’objets ... EAD (Encoded Archival Description), a rchives http://www.loc.gov/ead/ CIMI consortium (Computer Interchange of Museum Information), ressources muséographique s http://www.cimi.org/ RKMS (Recordkeeping Metadata Schema), ressources audio http://www.naa.gov.au/recordkeeping/control/rkms/features.html MPEG-7 (Multimedia Content Description Interface), objets multimédia http://www.mpeg-industry.com/ LOM (IEEE - Learning Object Metadata), ressources liées à l'éducation http://ltsc.ieee.org/wg12/ ...
  • 20.
    Les métadonnées « informatiques »Des métadonnées destinées à être utilisées par des outils logiciels... Propriétés des documents MS Office (Word, Excel, PowerPoint, etc.) IPTC/IIM - Information Interchange Model (images JPEG/TIFF) date de création, auteur, description, copyright ... http://www.iptc.org/IIM/ EXIF EXchangeable Image File (images JPEG) fournies automatiquement par l’appareil photo numérique http://www.exif.org/ ID3 pour les fichiers MP3 Titre, Compositeur, Durée, Copyright ... http://www.id3.org/ ...