présentation des enjeux autour de la préservation du numérique et de la place des métadonnées dans les processus de conservation et de diffusion des données
structuration des métadonnées de pérennisationPascal Romain
Présentation dans le cadre de l'association PIN abordant la question des métadonnées dans le modèle OAIS et des différents schémas ou concepts de représentation de l'information dans le contexte de l'archivage électronique
Antidot Information Factory AIF - est une solution logicielle qui répond aux enjeux de crée un véritable « espace informationnel enrichi » au service des utilisateurs et des applications.
Visite guidée au pays de la donnée - Introduction et tour d'horizonGautier Poupeau
Ce diaporama est le 1er d'une série qui vise à donner un panorama de la gestion des données à l'ère du big data et de l'intelligence artificielle. Cette 1ère partie revient sur les raisons qui font de la donnée un actif indépendant de notre SI et propose une représentation de la gestion des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesGautier Poupeau
Ce diaporama est le 2ème d'une série qui vise à donner un panorama de la gestion des données à l'ère du big data et de l'intelligence artificielle. Cette 2ème partie présente le traitement automatique des données : intelligence artificielle, fouille de textes et de données, Traitement automarique de la langue ou des images. Après avoir défini ces différents domaines, cette présentation s'attache à faire le tour des différents outils disponibles pour analyser les contenus audiovisuels.
structuration des métadonnées de pérennisationPascal Romain
Présentation dans le cadre de l'association PIN abordant la question des métadonnées dans le modèle OAIS et des différents schémas ou concepts de représentation de l'information dans le contexte de l'archivage électronique
Antidot Information Factory AIF - est une solution logicielle qui répond aux enjeux de crée un véritable « espace informationnel enrichi » au service des utilisateurs et des applications.
Visite guidée au pays de la donnée - Introduction et tour d'horizonGautier Poupeau
Ce diaporama est le 1er d'une série qui vise à donner un panorama de la gestion des données à l'ère du big data et de l'intelligence artificielle. Cette 1ère partie revient sur les raisons qui font de la donnée un actif indépendant de notre SI et propose une représentation de la gestion des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesGautier Poupeau
Ce diaporama est le 2ème d'une série qui vise à donner un panorama de la gestion des données à l'ère du big data et de l'intelligence artificielle. Cette 2ème partie présente le traitement automatique des données : intelligence artificielle, fouille de textes et de données, Traitement automarique de la langue ou des images. Après avoir défini ces différents domaines, cette présentation s'attache à faire le tour des différents outils disponibles pour analyser les contenus audiovisuels.
La préservation numérique de la collection d'une bibliothèque à l'aide de logiciels libres
par Thomas Ledoux (Chef de projet SPAR de la BnF) et Laurent Sollier (AtosOrigin) donnée lors des conférences administration électronique au Salon Solutions Linux 2009
The AOS Community is an informal network of people working on common projects, requirements, and interests related to food and agriculture. They communicate through various email discussion groups and meetings. Some of their collaborative work includes developing AGROVOC and other ontologies, metadata standards, guidelines for sharing metadata, and tools to help visualize and manage agricultural information and ontologies. Information about the AOS Community and their projects can be found on the FAO AIMS website.
Open access has been a positive force in scientific publishing. But the removal of paywalls and restrictive licencing are not the only issues that need to be tackled; unnecessary delays to publication, irreproducible findings, publication biases, and poor access to underlying data and code also need to be addressed. This is especially important in agriculture and nutrition research where quick, unrestricted access to knowledge is crucial to solving urgent issues including food security, biodiversity conservation, and emerging infectious diseases in crops and animals.
This webinar will cover how the novel approaches taken by the publication venue Open Knowledge in Agricultural Development (OKAD) and the publishing platform it is hosted on, F1000Research, are addressing these issues. OKAD publishes academic articles, posters and slide presentations involving open knowledge projects within all areas of agriculture, nutrition and agro-biodiversity. By using F1000Research’s post-publication peer review platform, OKAD ensures rapid access to research within days of submission. Experts are invited to peer review upon publication, and their signed peer review reports are published alongside the article. All articles and any associated data and code are made publically available.
With more and more thesauri, classifications and other knowledge organization systems being published as Linked Data using SKOS, the question arises how best to make them available on the web. While just publishing the Linked Data triples is possible using a number of RDF publishing tools, those tools are not very well suited for SKOS data, because they cannot support term-based searching and lookup.
This webinar presents Skosmos, an open source web-based SKOS vocabulary browser that uses a SPARQL endpoint as its backend. It can be used by e.g. libraries and archives as a publishing platform for controlled vocabularies such as thesauri, lightweight ontologies, classifications and authority files. The Finnish national thesaurus and ontology service Finto, operated by the National Library of Finland, is built using Skosmos.
Skosmos provides a multilingual user interface for browsing and searching the data and for visualizing concept hierarchies. The user interface has been developed by analyzing the results of repeated usability tests. All of the SKOS data is made available as Linked Data. A developer-friendly REST API is also available providing access for using vocabularies in other applications such as annotation systems.
We will describe what kind of infrastructure is necessary for Skosmos and how to set it up for your own SKOS data. We will also present examples where Skosmos is being used around the world.
By Thomas Ingraham, Publishing Editor at F1000Research
15 February 2017- 15:00 CET
--The webinar was held as part of ASIRA (Access to Scientific Information Resources in Agriculture) Online Course for Low-Income Countries--
This webinar covers three emerging themes in life science publishing, which will begin to influence the way in which the agricultural researchers share and access knowledge:
Faster dissemination: Publishing scientific articles is often a lengthy process, taking several months or even years from first submission. This prevents the research community and others from being able to act on new knowledge quickly, which is especially serious in emergency situations such as emerging infectious diseases. This webinar will cover two ways of tackling publication delays: preprint servers and post-publication peer review platforms.
Increased access & transparency: Open Access has helped remove access barriers to a vast body of scientific knowledge. Other important research outputs that have historically been difficult to access are starting to be published more frequently such as replications, data, code and referee reports.
Assessment of research: Researches are assessed by their publication record. Journal title and Impact Factor tend to be the default assessment criteria, though there is growing awareness of the disadvantages of these approaches, and alternative measures of quality and impact are gaining ground.
About Thomas Ingraham:
Tom is the Publishing Editor at F1000Research and has been involved with the publisher’s open science and editorial development since its inception in 2012. He manages several channels published on F1000Research, including those focussing on agriculture, and is the lead on several of the publisher’s open data-orientated projects.
By Chenjerai Mabhiza, Head of User Services at the University of Namibia
17 February 2017- 15:00 CET
--The webinar was held as part of ASIRA (Access to Scientific Information Resources in Agriculture) Online Course for Low-Income Countries--
AGRIS is an international system started in 1975 by FAO to provide access to agricultural research and technology information. It includes (1) a collection of over 8 million bibliographic records contributed by over 150 partner institutions in 65 countries, (2) an RDF database with 250 million triples, and (3) a multilingual web portal for searching records. Users can search by keyword, filter results, and access over 1.3 million records with links to full text. Partner institutions can submit new records through an online submission workflow.
TEEAL provides access to over 550,000 agricultural and related science articles from 450+ journals. It offers a searchable offline digital library installed at eligible institutions for a modest fee, giving users instant access without an internet connection. The document outlines how to search, browse, and save articles from TEEAL's extensive collection covering topics from agricultural engineering to zoology.
Research4Life and AGORA provide free or low-cost access to academic and professional content online to reduce the scientific knowledge gap between higher and lower income countries. Research4Life includes four programs covering health, agriculture, environment and development. AGORA specifically focuses on agriculture, fisheries, food and related topics, providing access to up to 6,500 journals and 22,000 books. Eligible institutions in lower income countries can register for free access to Research4Life resources, while those in higher income countries pay a nominal $1,500 annual fee.
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
Support de l'intervention effectuée au cours de la séance dédiée aux lacs de données du séminaire "Nouveaux paradigmes de l'Archive" organisée par le DICEN-CNAM et les Archives nationales
Big data, Intelligence artificielle, quelles conséquences pour les profession...Gautier Poupeau
Support du Webinaire organisé le 21 février par Ina Expert sur l'évolution du positionnement des professionnels de l'information dans les organisations face aux changements en cours que sont la montée en puissance des données au détriment du document, le big data et l'intelligence artificielle
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheAgropolis International
Une fiche pratique dédiée aux données de la recherche dans le cadre de l'Open Access (créée en septembre 2015 et révisée en octobre 2016) :
• enjeux,
• typologie,
• cycle de vie de la donnée,
• les étapes de gestion des données de la recherche
• le plan de gestion (PGD ou Data Management Plan - DMP)
• exemples de modèles de plans de gestion de données
• la valorisation des données de la recherche
• la (ré)utilisation des données et le droit d'auteurs (licences).
Auteurs : Cécile Adamolle, Annabelle Filatre, Hanka Hensens, Isabelle Nault, Chantal Salson, Christine Silvy, Marie-Violaine Tatry
Date : 09/2015, révisée en octobre 2016
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Denodo
Watch full webinar here: https://buff.ly/46fhGwK
A l’ère où l’adoption de nouvelles technologies et la modernisation des infrastructures de données s’accélèrent, la sécurité des données reste une priorité absolue. Les entreprises sont confrontées à un volume de plus en plus important de données et l’éclatement de ces dernières est une quasi-constante dans toutes les organisations : piloter cet ensemble peut donc s’avérer difficile.
C’est pour cette raison que la mise en place d’une gouvernance efficace des données prend un rôle fondamental pour tirer le meilleur parti de toutes ces informations.
Dans ce webinar, nous vous proposons de discuter des technologies à adopter pour mettre en place une gouvernance des données efficace.
Nous verrons notamment comment Denodo Platform, basée sur la technologie de data virtualization, peut jouer un rôle essentiel en matière de gouvernance et de sécurité des données, en permettant un niveau élevé de sécurité et d’auditabilité, du masquage en temps réel, du lignage, la détection des changements concernant les sources de données et le contrôle de l’impact sur les consommateurs, ainsi qu’une intégration aux systèmes externes de gestion d’entreprise des métadonnées.
Rejoignez ce webinar pour découvrir :
- Pourquoi la Denodo Platform représente une technologie essentielle dans la mise en place d'une gouvernance efficace de vos données,
- Comment Denodo Platform simplifie l’accès aux données de l'entreprise grâce à un point unique d’accès à la donnée tout en fournissant une couche de sécurité et de gouvernance,
- Comment Denodo Platform permet aux utilisateurs métiers un accès contrôlé à toutes les données, quel que soit leur emplacement, rapidement et facilement,
- Une démo live de certaines des capacités clés de la plateforme Denodo permettant d'illustrer ce webinar.
Presentation for a theoretical and practical session focused on best practices and data quality principles in the context of data digitization. Includes a short presentation on data quality and coherence (especially on subjects like georeferencing, dates, names and taxa cross-checking), followed by a group discussion on good practices and a practical exercise using simple spreadsheets.
-----
Présentation pour une session pratique et théorique centrée sur les bonnes pratiques et les principes sur la qualité des données dans le contexte de la numérisation de données. Cette session comprend une courte présentation sur la qualité et la cohérence des données (notamment sur les sujets tels que le géoréférencement, les dates, noms scientifiques et vérification de taxons), suivie d’une discussion de groupe sur les bonnes pratiques et un exercice pratique d’utilisation de tableurs.
La préservation numérique de la collection d'une bibliothèque à l'aide de logiciels libres
par Thomas Ledoux (Chef de projet SPAR de la BnF) et Laurent Sollier (AtosOrigin) donnée lors des conférences administration électronique au Salon Solutions Linux 2009
The AOS Community is an informal network of people working on common projects, requirements, and interests related to food and agriculture. They communicate through various email discussion groups and meetings. Some of their collaborative work includes developing AGROVOC and other ontologies, metadata standards, guidelines for sharing metadata, and tools to help visualize and manage agricultural information and ontologies. Information about the AOS Community and their projects can be found on the FAO AIMS website.
Open access has been a positive force in scientific publishing. But the removal of paywalls and restrictive licencing are not the only issues that need to be tackled; unnecessary delays to publication, irreproducible findings, publication biases, and poor access to underlying data and code also need to be addressed. This is especially important in agriculture and nutrition research where quick, unrestricted access to knowledge is crucial to solving urgent issues including food security, biodiversity conservation, and emerging infectious diseases in crops and animals.
This webinar will cover how the novel approaches taken by the publication venue Open Knowledge in Agricultural Development (OKAD) and the publishing platform it is hosted on, F1000Research, are addressing these issues. OKAD publishes academic articles, posters and slide presentations involving open knowledge projects within all areas of agriculture, nutrition and agro-biodiversity. By using F1000Research’s post-publication peer review platform, OKAD ensures rapid access to research within days of submission. Experts are invited to peer review upon publication, and their signed peer review reports are published alongside the article. All articles and any associated data and code are made publically available.
With more and more thesauri, classifications and other knowledge organization systems being published as Linked Data using SKOS, the question arises how best to make them available on the web. While just publishing the Linked Data triples is possible using a number of RDF publishing tools, those tools are not very well suited for SKOS data, because they cannot support term-based searching and lookup.
This webinar presents Skosmos, an open source web-based SKOS vocabulary browser that uses a SPARQL endpoint as its backend. It can be used by e.g. libraries and archives as a publishing platform for controlled vocabularies such as thesauri, lightweight ontologies, classifications and authority files. The Finnish national thesaurus and ontology service Finto, operated by the National Library of Finland, is built using Skosmos.
Skosmos provides a multilingual user interface for browsing and searching the data and for visualizing concept hierarchies. The user interface has been developed by analyzing the results of repeated usability tests. All of the SKOS data is made available as Linked Data. A developer-friendly REST API is also available providing access for using vocabularies in other applications such as annotation systems.
We will describe what kind of infrastructure is necessary for Skosmos and how to set it up for your own SKOS data. We will also present examples where Skosmos is being used around the world.
By Thomas Ingraham, Publishing Editor at F1000Research
15 February 2017- 15:00 CET
--The webinar was held as part of ASIRA (Access to Scientific Information Resources in Agriculture) Online Course for Low-Income Countries--
This webinar covers three emerging themes in life science publishing, which will begin to influence the way in which the agricultural researchers share and access knowledge:
Faster dissemination: Publishing scientific articles is often a lengthy process, taking several months or even years from first submission. This prevents the research community and others from being able to act on new knowledge quickly, which is especially serious in emergency situations such as emerging infectious diseases. This webinar will cover two ways of tackling publication delays: preprint servers and post-publication peer review platforms.
Increased access & transparency: Open Access has helped remove access barriers to a vast body of scientific knowledge. Other important research outputs that have historically been difficult to access are starting to be published more frequently such as replications, data, code and referee reports.
Assessment of research: Researches are assessed by their publication record. Journal title and Impact Factor tend to be the default assessment criteria, though there is growing awareness of the disadvantages of these approaches, and alternative measures of quality and impact are gaining ground.
About Thomas Ingraham:
Tom is the Publishing Editor at F1000Research and has been involved with the publisher’s open science and editorial development since its inception in 2012. He manages several channels published on F1000Research, including those focussing on agriculture, and is the lead on several of the publisher’s open data-orientated projects.
By Chenjerai Mabhiza, Head of User Services at the University of Namibia
17 February 2017- 15:00 CET
--The webinar was held as part of ASIRA (Access to Scientific Information Resources in Agriculture) Online Course for Low-Income Countries--
AGRIS is an international system started in 1975 by FAO to provide access to agricultural research and technology information. It includes (1) a collection of over 8 million bibliographic records contributed by over 150 partner institutions in 65 countries, (2) an RDF database with 250 million triples, and (3) a multilingual web portal for searching records. Users can search by keyword, filter results, and access over 1.3 million records with links to full text. Partner institutions can submit new records through an online submission workflow.
TEEAL provides access to over 550,000 agricultural and related science articles from 450+ journals. It offers a searchable offline digital library installed at eligible institutions for a modest fee, giving users instant access without an internet connection. The document outlines how to search, browse, and save articles from TEEAL's extensive collection covering topics from agricultural engineering to zoology.
Research4Life and AGORA provide free or low-cost access to academic and professional content online to reduce the scientific knowledge gap between higher and lower income countries. Research4Life includes four programs covering health, agriculture, environment and development. AGORA specifically focuses on agriculture, fisheries, food and related topics, providing access to up to 6,500 journals and 22,000 books. Eligible institutions in lower income countries can register for free access to Research4Life resources, while those in higher income countries pay a nominal $1,500 annual fee.
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
Support de l'intervention effectuée au cours de la séance dédiée aux lacs de données du séminaire "Nouveaux paradigmes de l'Archive" organisée par le DICEN-CNAM et les Archives nationales
Big data, Intelligence artificielle, quelles conséquences pour les profession...Gautier Poupeau
Support du Webinaire organisé le 21 février par Ina Expert sur l'évolution du positionnement des professionnels de l'information dans les organisations face aux changements en cours que sont la montée en puissance des données au détriment du document, le big data et l'intelligence artificielle
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheAgropolis International
Une fiche pratique dédiée aux données de la recherche dans le cadre de l'Open Access (créée en septembre 2015 et révisée en octobre 2016) :
• enjeux,
• typologie,
• cycle de vie de la donnée,
• les étapes de gestion des données de la recherche
• le plan de gestion (PGD ou Data Management Plan - DMP)
• exemples de modèles de plans de gestion de données
• la valorisation des données de la recherche
• la (ré)utilisation des données et le droit d'auteurs (licences).
Auteurs : Cécile Adamolle, Annabelle Filatre, Hanka Hensens, Isabelle Nault, Chantal Salson, Christine Silvy, Marie-Violaine Tatry
Date : 09/2015, révisée en octobre 2016
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Denodo
Watch full webinar here: https://buff.ly/46fhGwK
A l’ère où l’adoption de nouvelles technologies et la modernisation des infrastructures de données s’accélèrent, la sécurité des données reste une priorité absolue. Les entreprises sont confrontées à un volume de plus en plus important de données et l’éclatement de ces dernières est une quasi-constante dans toutes les organisations : piloter cet ensemble peut donc s’avérer difficile.
C’est pour cette raison que la mise en place d’une gouvernance efficace des données prend un rôle fondamental pour tirer le meilleur parti de toutes ces informations.
Dans ce webinar, nous vous proposons de discuter des technologies à adopter pour mettre en place une gouvernance des données efficace.
Nous verrons notamment comment Denodo Platform, basée sur la technologie de data virtualization, peut jouer un rôle essentiel en matière de gouvernance et de sécurité des données, en permettant un niveau élevé de sécurité et d’auditabilité, du masquage en temps réel, du lignage, la détection des changements concernant les sources de données et le contrôle de l’impact sur les consommateurs, ainsi qu’une intégration aux systèmes externes de gestion d’entreprise des métadonnées.
Rejoignez ce webinar pour découvrir :
- Pourquoi la Denodo Platform représente une technologie essentielle dans la mise en place d'une gouvernance efficace de vos données,
- Comment Denodo Platform simplifie l’accès aux données de l'entreprise grâce à un point unique d’accès à la donnée tout en fournissant une couche de sécurité et de gouvernance,
- Comment Denodo Platform permet aux utilisateurs métiers un accès contrôlé à toutes les données, quel que soit leur emplacement, rapidement et facilement,
- Une démo live de certaines des capacités clés de la plateforme Denodo permettant d'illustrer ce webinar.
Presentation for a theoretical and practical session focused on best practices and data quality principles in the context of data digitization. Includes a short presentation on data quality and coherence (especially on subjects like georeferencing, dates, names and taxa cross-checking), followed by a group discussion on good practices and a practical exercise using simple spreadsheets.
-----
Présentation pour une session pratique et théorique centrée sur les bonnes pratiques et les principes sur la qualité des données dans le contexte de la numérisation de données. Cette session comprend une courte présentation sur la qualité et la cohérence des données (notamment sur les sujets tels que le géoréférencement, les dates, noms scientifiques et vérification de taxons), suivie d’une discussion de groupe sur les bonnes pratiques et un exercice pratique d’utilisation de tableurs.
Data visualisations sur les données des représentants d’intérêts (lobbies) en...Thibaud Aschbacher
Présentation finale du projet réalisé en collaboration avec la Haute Autorité pour la Transparence de la Vie Publique et Latitudes, pour améliorer l'accessibilité aux données du répertoire des déclarations des représentants d'intérêts.
Documentation et code source du projet : https://gitlab.com/latitudes-exploring-tech-for-good/hatvp/1819_hatvp
https://www.hatvp.fr/
http://www.latitudes.cc/
Contributeurs : Thibaud Aschbacher, Romain George, Camille Shang
Remerciements : HATVP (Marion Delatronchette, Ted Ramoni, Elodie Cuerq, Yann Adusei), Latitudes (Yannick Morel et notre mentor Pierre-Alain Jachiet)
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueGautier Poupeau
Ce diaporama est le 3ème d'une série qui vise à donner un panorama de la gestion des données à l'ère du big data et de l'intelligence artificielle. Cette partie s'attache à présenter comment on passe de la modélisation des données jusqu'à leur stockage. Elle dresse un panorama des différentes solutions de stockage de données, en présente les particularités, les forces et les faiblesses.
1. Les métadonnées de pérennisation et l’accès aux objets Formation PIN18-21 octobre 2011Pérennisation et communication de l'information numérique Pascal RomainIngénieur documentaireConseil général de la Gironde
2. Sommaire • Introduction sur les métadonnées définition, aspect théorique, processus de production • Le modèle d’information de l’OAIS: place des métadonnées dans le modèle • Quelles métadonnées pour la pérennisation ? • Encoder et lier les métadonnées • L’accès à l’information grâce aux métadonnées
3. Introduction sur les métadonnées : définition Une métadonnée est une donnée servant à définir ou décrire une autre donnée. Porteuse d'information sur le contexte, le sens et la description de la ressource informationnelle portée par la donnée brute. μετά:préfixe grec indiquant l'auto-référence
4. Introduction sur les métadonnées : théorie Les métadonnées servent à définir et conserver l’intégrité, l’interprétation et l’interopérabilité des données.Elles transforment la donnée brute en donnée intelligible titre contexte temporel + = indexation lieu producteur indexation sujet contexte spatial
5. Introduction sur les métadonnées : théorie Dans le contexte numérique, des dispositifs de médiation sont nécessaires à l’appréhension de la donnée. Plusieurs communautés d’utilisateurs impliquent différents types de métadonnées Une métadonnée doit avoir une finalité et une utilité immédiate Des dispositifs d’encodage, de lecture et de transmission conditionnent notre accès aux données Attention : l’abus de métadonnées est dangereux pour la santé Des dispositifs de stockage, de sécurisationet de surveillance sont nécessaires à la conservation des données
6. Introduction sur les métadonnées: typologie On distingue généralement 4 grands types de métadonnées : métadonnées techniques: décrivent les outils utilisés pour créer la donnée ainsi que le processus de création lui-même. essentielles à l'intelligibilité de la donnée dans un contexte d'intermédiation numérique ainsi qu'à la qualité de la donnée dans une perspective de conservation sur le long terme. elles doivent suivre le cycle de vie de la donnée et permettre de garantir son intégrité métadonnées administratives utilisées pour définir les contrôles d'accès à la donnée décrivent les évènements et les agents qui interviennent sur la donnée ainsi que les conditions d'utilisation permettent de gérer la donnée et les liens qui peuvent exister entre ses éventuelles différentes représentations métadonnées descriptives utilisées pour préciser le contenu informatif de la donnée structurent les informations dont la donnée est porteuse en la reliant à des concepts ou à d'autres données permettent d'expliciter, de décrire, de contextualiser ou de hiérarchiser l'information métadonnées de structure enveloppes qui permettent de relier plusieurs types de métadonnée permettent de disposer d'un cadre de description commun favorisant l'interopérabilité de l'information
7. Introduction sur les métadonnées: production La production de métadonnées peut s'envisager à différentes étapes du cycle de vie du document porteur d'information : saisie à la création saisies au cours d'une étape de traitement de l'information extraction à posteriori : transformation, diffusion, récupération
8. Introduction sur les métadonnées: production lors de la création de la donnée des champs permettent d'expliciter des informations de contexte, de provenance ou d'accès dans l'en-tête ou dans un fichier séparépar exemple champs IPTC dans les images ou métadonnées dans les en-têtes des documents bureautiques saisie à la création: saisie à posteriori: extraction automatisée: -> la saisie à la création est l'opération la moins coûteuse et celle qui assure la meilleure qualité. à partir de la consultation des données, une description structurée de l'information est possiblepar exemple une notice documentaire, une fiche technique, des conditions d’accès ->compétences scientifiques coûteuses ; voire impossibilité de compléter l'information il est possible de caractériser des éléments d'information automatiquementpar exemple par la mise en relation du contenu informationnel avec des référentiels de données ou des processus d’OCR -> l'extraction automatique est coûteuse pour parvenir à une qualité documentaire satisfaisante
9. Sommaire • Introduction sur les métadonnées définition, aspect théorique, processus de production • Le modèle d’information de l’OAIS: place des métadonnées dans le modèle • Quelles métadonnées pour la pérennisation ? • encoder et lier les métadonnées • L’accès à l’information grâce aux métadonnées
10. Modèle conceptuel organisé autour de 6 entités gérant les échanges d’informations au sein du système d’information Système d’information ouvert d’archivage OAIS
16. Le modèle d’information de l’OAIS: les paquets d’information: l’information l’Objet Information est composé d’un objet données (physique ou numérique) et de l’information de représentation qui permet d’interpréter les données sous la forme d’une information compréhensible.
17.
18. types de données courants en informatique, comme des caractères, des nombres, des pixels, des tableaux
20. informations complémentaires associées aux éléments de structure, telles que la langue dans laquelle l’objet est exprimé, les opérations réalisables sur chaque type de données et leurs corrélations, etc.
27. Le modèle d’information de l’OAIS: le contexte du versement Le versement d’un document ou d’une archive dans une perspective de pérennisation implique la description de plusieurs éléments de contexte (l’environnement technique, la description du producteur, la description du contenu, les droits d’accès). Il mets en relation un agent versant et un agent recevant autour d’un versement comprenant des objets en relation
28. Le modèle d’information de l’OAIS: le contexte de la gestion (ou archivage) La gestion et le stockage impliquent la description d’évènements (l’analyse, l’enrichissement, le stockage, la migration) dont la responsabilité incombe à l’entité OAIS. Ces processus sont complexes et nécessitent la description des objets à conserver et à diffuser
29. Le modèle d’information de l’OAIS: le contexte d’administration L’administration dans le temps de l’archive nécessite le suivi et la modification des événements qui affectent l’information. Une veille technologique est nécessaire pour garantir l’accès des agents habilités au cours du cycle de vie des objets informationnels
30. Le modèle d’information de l’OAIS: le contexte de l’accès L’accès aux informations nécessite l’enrichissement et la mise en relation des objets avec d’autres sources d’explicitation Les communautés d’agents expriment des besoins qui doivent être pris en compte sans compromettre l’intégrité de l’entité OAIS
31.
32.
33. Quelle métadonnées pour la pérennisation ?Les informations techniques La production et la conservation de métadonnées techniques répondent à une triple finalité qui correspond aux étapes inhérentes au cycle de vie documentaire qualité intelligibilitéintégrité production conservation diffusion
34. Quelle métadonnées pour la pérennisation ?Les informations administratives La gestion et le stockagede métadonnées techniques répondent à une logique de structuration des entités qui interagissent entre dans les différents contextes inhérentes au cycle de vie documentaire agents événements objets création conservation diffusion
35. Quelle métadonnées pour la pérennisation ?Les informations descriptives La description et la structuration des métadonnées descriptives répondent à une logique de recherche et d’accès en fonction de la communauté d’utilisateurs et des impératifs de citabilité et d’interopérabilité acteurs contexte objets identité référentiel granularité
36. Quelle métadonnées pour la pérennisation ?Les informations de structure Les métadonnées de structure sont des enveloppes qui relient et permettent de disposer d'un cadre de description commun favorisant l'interopérabilité de l'information et la structuration de l'information objets événements agents identité représentation pérennité
37. Quelle métadonnées pour la pérennisation ?METS: la structuration de la description des ressources Le schéma METS vise à fournir un méta-modèle pour l'encapsulation d'autres formats de métadonnées. Ce schéma XML composé de 7 sections est extrêmement flexible. Il permet notamment de représenter l'information sous forme de carte de structure et s'implémenter le modèle conceptuel OAIS. Il constitue un format pivot entre la logique de diffusion et celle de conservation de l'information.
38. Quelle métadonnées pour la pérennisation ?METS: la structuration de la description des ressources L’utilisation de METS passe par la mise en forme d’un profil d’utilisationCelui-ci permet de définir les règles de description et de permettre une automatisation des processus de validation et de contrôle. Il permet de multiplier les formats de description et les modes de consultation des objets à conserver ou à diffuser. Il utilise un système de pointeur basé sur l’identification de toutes les unités de description
39. Quelle métadonnées pour la pérennisation ?3 normes pour la structuration des objets d’information PREMIS (PreservationMetadata: ImplementationStrategies) : le modèle de données de PREMIS est composé de 5 entités reliées entre elles par des identifiants: Entité intellectuelle, Objet, Evénement, Agent, et Droits. Ce schéma répond notamment au besoin de pérennisation de l'information numérique et de conservation du cycle de vie des données (import dans un entrepôt de donnée, migration, gestion d'intégrité, liens entre différentes représentations d'un même document). [http://www.loc.gov/standards/premis] LIDO (Lightweight Information DescribingObjects) : cette norme vise à décrire les objets patrimoniaux en référence au modèle conceptuel international CIDOC-CRM((ISO 21127). Il permet de décrire l'objet en terme de contenu mais également de cycle de vie et est fortement orienté vers l'interopérabilité et la mise en réseau. [http://www.lido-schema.org] FRBR (FunctionnalRequirements for Bibliographic Records) et FRAD (FunctionalRequirements for Authority Data) sont des normes qui organisent les différentes composantes de la description bibliographique. Ils organisent les différentes composantes de la description bibliographique. et fournissent un modèle conceptuel permettant l'amélioration des notices de catalogue (un produit), l'action de cataloguer (un processus) et la conception des catalogues (une technologie)
40.
41. des listes d'autorités peuvent être utilisées en vue d'optimiser les opérations de gestion, de contrôle ou de transformation (eventType, agentType, format, objectCategory, storageMedium, copyrightStatus, and RightsBasis).
48. Quelle métadonnées pour la pérennisation ?LIDO: un cadre conceptuel et technique basé sur le modèle conceptuel CIDOC-CRM (ISO 21127:2006) : conseil international des musées-modèle conceptuel de référence constitue une « ontologie » de l'information relative au patrimoine culturel la présentation en est basée sur l'approche « orientée objet » la création, la collection ou l'utilisation d'un objet sont définies comme des événements qui ont des entités associées comme des dates, des lieux ou des acteurs.
49.
50. une entité est un être, ou une « chose doté d'une existence distincte »
51. un attribut est une qualité, quelque chose qui décrit cette entité
61. un élément qui permet de désigner l’autorité nommante qui a attribué l’identifiant au sein de ce système
62. le « nom » lui-même, c'est-à-dire une chaîne de caractères qui identifie la ressourcede manière unique, au sein de ce système et pour cette autorité.Les URI sont des identifiants Web. Les URL sont des URI qui identifient la ressource par le moyen d'y accéder. Les URL peuvent être pérennes.
67. peut servir au stockage des données mais également à leur interrogation<xml version="1.0" encoding="UTF-8"?> <ex:collectionxml:lang="fr" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns=http://www.w3.org/1999/xhtmlxmlns:ex="http://exemple.org"> <ex:vehicule> <dc:title>Mon super vélo</dc:title> <velo id="2"> <taille>76</taille> <marque>cool bike</marque> <modele>speeder</modele> </ex:velo> <ex:velo taille="76" marque="coolbike" modele="speeder" id="2" />
68. Encoder et lier les métadonnées3 normes complémentaires pour l’information technique des images fixes EXIF (Exchangeable image file format): permet de décrire le contexte (quand), l'outil (comment), la localisation (où) et l'auteur (qui) de la production. Les données Exif sont incorporées au fichier d’image lui-même. Elles peuvent être modifiées mais reflètent normalement les conditions de production d'une image numérique. Le format en version 2.2 (2003) n'est pas maintenu [http://exif.org/Exif2-2.PDF] XMP (Extensible Metadata Platform): permet de décrire sous forme d'un document XML intégré au fichier des informations relatives à ses caractéristiques. Il permet d'intégrer des métadonnées EXIF ou Dublin Core et supporte l'unicode. Ce format est maintenu par Adobe. [http://www.adobe.com/products/xmp/] MIX (Metadata Image XML): permet de décrire sous forme d'un document XML externe l'ensemble des éléments définis dans la norme ISO 39.87. Le format en version 2 est maintenu par la bibliothèque du congrès américain. [http://www.loc.gov/standards/mix/]
69. Encoder et lier les métadonnéesL’exemple du schéma de données MIX
70. Encoder et lier les métadonnéesL’exemple du schéma de données MIX
71. Encoder et lier les métadonnées3 normes complémentaires pour l’information technique des contenus multimédias MPEG-7 (Moving Picture Experts Group) : une norme de description dont le but est de faciliter l'indexation et la recherche de documents multimédia. Il permet d'utiliser des descripteurs pour caractériser des données audio ou visuelles mais également de décrire le contenu de ces données ainsi que les relations sémantiques qui les lient entre elles. Standard ISO/IEC 15938 il est assez peu utilisé en raison de sa complexité.[http://mpeg.chiariglione.org/standards/mpeg-7/mpeg-7.htm] PBCore (Public BroadcastingMetadataDictionary) : initialement utilisé par les diffuseurs radio, il s'appuie sur le standard Dublin Core pour décrire le contenu intellectuel des ressources, les mentions de droits ainsi que l'ensemble des informations techniques sur le document numérique audio. Il existe sous forme de format XML. [http://pbcore.org/2.0/] VIDEOMD (VideoTechnicalMetadata Extension Schema) : permet de décrire sous forme d'un document XML externe les métadonnées techniques qui décrivent un objet numérique vidéo. Il est utilisé en lien avec METS. [http://lcweb2.loc.gov/mets/Schemas/VMD.xsd]
75. le schéma EAC vise à décrire les producteurs pour retracer l'historique d'une entité administrative ou morale d'archives en se basant sur la norme ISAAR-CPF [http://eac.staatsbibliothek-berlin.de/].
76.
77.
78. Il permet d'automatiser les procéduresd'échange d'information en décrivant les règles contractuelles qui régissent le versement et la prise en charge d'un paquet d'information.
79. Les messages SEDA décrivent les contraintes (format, support, identification) et fournissent un historique des opérations effectuées (transfert, réception, destruction, etc..)
83. Les référentiels permettent alors de les relier L’Ecume des jours est un roman de Boris Vian publié en 1947 avec pour thèmes centraux l’amour, la maladie, la mort L’Ecume des jours est un roman L’Ecume des jours a pour auteur Boris Vian L’Ecume des jours est paru en 1947 L’Ecume des jours a pour thèmes l’amour, la maladie, la mort J’irais cracher sur vos tombes a pour auteur Vernon Sullivan L’Arrache-coeur– type - roman L’Arrache-coeur– auteur - Boris Vian L’Arrache-coeur– année de parution – 1947 L’Arrache-coeur- thème – amour http://dbpedia.org/page/Froth_on_the_Daydream http://data.bnf.fr/13091689/boris_vian/ dbpedia:Froth_on_the_Daydreamrdf:type yago:Novel106367879 dbpedia:Froth_on_the_Daydreamdcterms:creatordbpedia:Boris_Vian dbpedia:Froth_on_the_Daydreamdcterms:date "1947" dbpedia:Froth_on_the_Daydreamskos:subjectdbpedia:Love dbpedia-owl:wikiPageRedirectsdcterms:creatordbpedia:Vernon_Sullivan RDF n'est pas lié à une syntaxe particulière mais c'est en XML que sont publiés la plupart des vocabulaires standard (RDFS, FOAF, SKOS, OWL) qui utilisent le modèle de données en graphe.
84.
85. SKOS est actuellement développé dans le cadre du W3C et cherche à être au maximum compatible avec les standards qui définissent les thésaurus.
86. SKOS est un vocabulaire écrit en RDFS où la classe générique est skos:Concept
87. les propriétés de mise en correspondance proposées dans SKOS permettent d'exprimer des correspondances entre concepts provenant de schémas différents