Communication présentée lors de la journée d'étude "Outils, méthodes, corpus : la modélisation des données en SHS" (Paris, Institut national d'histoire de l'art, 17 novembre 2014).
Les « Données de la recherche » : définitions, enjeux et perspectives pour...Cairn.info
La réflexion sur les enjeux épistémologiques, culturels, politiques et économiques de l’exposition, la valorisation et la réutilisation des données de la recherche mobilise actuellement une variété d’acteurs du milieu de la recherche : institutions, chercheurs, éditeurs scientifiques, documentalistes / bibliothécaires, etc. A partir d’une série d’entretiens semi-directifs menés auprès de chercheurs en sciences humaines et sociales (SHS), nous avons essayer de comprendre la façon spécifique dont cette question plurielle se pose dans ces disciplines : Qu’est-ce qu’une donnée de la recherche en SHS ? Quelles données partager et dans quel but ? Quelles conditions et quels freins à l’accès et au partage dans ces domaines ? Comment les chercheurs souhaitent-ils valoriser ces données ? Cette étude exploratoire a donné lieu à un présentation du groupe "Big data / Smart data" du GFII.
Données de la recherche : quel positionnement et quels rôles pour les bibliot...Pierre Naegelen
Analyser les statistiques de consultation de la documentation en vue d'évaluer les besoins des chercheurs
Etre un acteur de l'indexation des données : "médiateur de la valorisation des données" (Catherine Morel-Pair)
Constituer une cellule d'appui pour la gestion des données de la recherche : l'élaboration d'un Digital Management Plan (DMP) ou Plan de Gestion des Données (PGD)
Étude critique sur les nouveaux modes d'éditorialisation scientifique en accè...Pierre-Carl Langlais
Support d'un rapport commandé par BSN 4 et BSN 7 sur les transformations éditoriales introduites par le libre accès. La présentation est découpée de la même manière que le rapport final (il aborde successivement les outils d'édition, les formes d'écriture, l'évaluation, l'économie et les questions d'infrastructures et de gouvernance) mais inclut aussi plusieurs éléments qui figureront dans une version « longue », publiée ultérieurement.
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...Lesticetlart Invisu
Intervention de Rémi Gaillard, responsable du pôle « Politique documentaire et valorisation des collections » de la bibliothèque de l'Université Pierre-et-Marie-Curie, aux Lundis numériques de l'INHA (14 septembre 2015).
Les « Données de la recherche » : définitions, enjeux et perspectives pour...Cairn.info
La réflexion sur les enjeux épistémologiques, culturels, politiques et économiques de l’exposition, la valorisation et la réutilisation des données de la recherche mobilise actuellement une variété d’acteurs du milieu de la recherche : institutions, chercheurs, éditeurs scientifiques, documentalistes / bibliothécaires, etc. A partir d’une série d’entretiens semi-directifs menés auprès de chercheurs en sciences humaines et sociales (SHS), nous avons essayer de comprendre la façon spécifique dont cette question plurielle se pose dans ces disciplines : Qu’est-ce qu’une donnée de la recherche en SHS ? Quelles données partager et dans quel but ? Quelles conditions et quels freins à l’accès et au partage dans ces domaines ? Comment les chercheurs souhaitent-ils valoriser ces données ? Cette étude exploratoire a donné lieu à un présentation du groupe "Big data / Smart data" du GFII.
Données de la recherche : quel positionnement et quels rôles pour les bibliot...Pierre Naegelen
Analyser les statistiques de consultation de la documentation en vue d'évaluer les besoins des chercheurs
Etre un acteur de l'indexation des données : "médiateur de la valorisation des données" (Catherine Morel-Pair)
Constituer une cellule d'appui pour la gestion des données de la recherche : l'élaboration d'un Digital Management Plan (DMP) ou Plan de Gestion des Données (PGD)
Étude critique sur les nouveaux modes d'éditorialisation scientifique en accè...Pierre-Carl Langlais
Support d'un rapport commandé par BSN 4 et BSN 7 sur les transformations éditoriales introduites par le libre accès. La présentation est découpée de la même manière que le rapport final (il aborde successivement les outils d'édition, les formes d'écriture, l'évaluation, l'économie et les questions d'infrastructures et de gouvernance) mais inclut aussi plusieurs éléments qui figureront dans une version « longue », publiée ultérieurement.
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...Lesticetlart Invisu
Intervention de Rémi Gaillard, responsable du pôle « Politique documentaire et valorisation des collections » de la bibliothèque de l'Université Pierre-et-Marie-Curie, aux Lundis numériques de l'INHA (14 septembre 2015).
Let's talk about policy! Politiques publiques pour l’ouverture des données sc...Rayna Stamboliyska
Cette présentation était la keynote de fermeture pour l'édition 2015 de la conférence SOData! tenu le 26 mars 2015 (voir le programme ici http://sodata.org/?page_id=162). Pierre-Carl Langlais et moi-même avons parlé des défis et opportunités d'une politique publique visant l'ouverture des données de la recherche.
Dans la jungle des licences Open Data : le point point de vue du juristeInno³
Conférence tenue lors des Journées Techniques organisées par Techni.Cités sur le thème « Open Data, mode d'emploi »
Dans la jungle des licences, Benjamin Jean, juriste, nous apportera des précisions : où, quand, comment et pourquoi utiliser une licence sur ses données ? En l'absence de directives précises et eu égard aux implications juridiques particulières pour les collectivités et administrations, les réponses à ces questions sont longtemps restées incomplètes ou imprécises. Avec le recul des expériences passées, il est aujourd'hui possible de présenter clairement les enjeux et solutions recherchés par les acteurs publics. La solution est néanmoins relativement simple une fois les enjeux clairement présentés et assimilés.
Cette présentation a été conçue pour les journées d'études 2009 de Medial Nancy dont le thème était : "Les catalogues de bibliothèques de nouvelle génération".
Pour les universités et instituts du Sud, les bouleversements de l'IST ouvrent des perspectives nouvelles : la littérature scientifique devient plus accessible et la production scientifique de l’organisme peut être diffusée plus facilement, grâce aux mouvements du Libre Accès et de la Science Ouverte, et aux développement de technologies de l’information basées sur des logiciels libres.
Marc Goovaerts met en application ce nouveau paradigme dans différents projets de coopération Nord-Sud-Sud, en portant une attention particulière à l’interopérabilité, aux métadonnées et aux identifiants uniques.
Marc Goovaerts, bibliothécaire à l’Université de Hasselt (Belgique), coordonne depuis 20 ans divers projets de coopération financés par le programme IODE de l’UNESCO (https://www.iode.org/) et VLIR-UOS (https://www.vliruos.be/en) avec des bibliothèques et instituts du Sud. Deux récents projets de coopération avec 5 universités cubaines serviront d’exemple.
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...olivier
L'émergence du phénomène du web 2.0, des nouveaux outils d'accès à l'information qu'il propose, des nouveaux types de contenus qu'il met en ligne, et des nouveaux protocoles de filtrage et de validation qu'il abolit ou transcende, interroge les pratiques actuelles de formation à l'IST. Parmi d'autres, le phénomène des blogs d'experts gagne le domaine de l'enseignement en général et de l'université en particulier. Des institutions, des composantes, des formations, des services, des communautés scientifiques, mais aussi des enseignants-chercheurs ouvrent de nouveaux espaces de paroles, mettant en œuvre de nouvelles dynamique de collaboration. Ces nouveaux collaboratoires, sous l'angle des rapports entre science et société, permettent d'articuler différemment un grand nombre de pratiques scientifiques en terme de diffusion, de collecte, de recherche, de publication et d'enseignement. Le domaine de la culture informationnelle et de la maîtrise de l'information en particulier, et celui des sciences de l'information et de la communication en général est à la fois un terrain et un révélateur particulièrement pertinent pour analyser les problématiques sous-jacentes de ces nouveaux collaboratoires, au rang desquelles la construction d'une culture du préprint, la mise à disposition d'indicateurs adaptés, la facilitation du déploiement rapide d'expertises dispersées et la reconfiguration des champs.
OpenData : au-delà des publications, le partage des données de la recherche e...Thierry Chanier
Le monde universitaire est producteur de données de différentes natures. L'ouverture et le partage de chaque type de données introduit des problématiques spécifiques. Cette variété s'explique en premier lieu par les situations particulières qui ont gouverné leur création. Mais les enjeux d'utilisation, par les communautés universitaires, les communautés de chercheurs ou la société en général, diffèrent aussi suivant chaque type de données.
Nous évoquerons brièvement un premier type de données, celles pédagogiques, en lien avec le mouvement en accès libre intitulé Open Educational Ressources (OER). Le second type de données, cette fois faisant partie du résultat de la recherche, concerne les publications. Notre communication rappellera brièvement, afin de mieux les distinguer du dernier type de données, les contraintes particulières qui ont motivé le développement de l'accès libre (open access) aux publications, les différentes voies suivies, l'état actuel après plus de 10 ans d'existence. L'essentiel de notre propos sera consacré au partage des données de la recherche, qui peuvent ou non être reliées aux publications. Nous décrirons les motivations de ce mouvement OpenData, les enjeux pour les chercheurs, les conditions particulières de mise à disposition que devront avoir ces données pour être réellement OpenData. Nous évoquerons enfin les transformations profondes du métier de chercheur qui peuvent en résulter, en nous appuyant sur des exemples provenant principalement des sciences humaines.
La Science Ouverte est à l’ordre du jour, en France et en Europe.
Après les publications, les données de la recherche sont sous le feu des projecteurs.
Ce gisement de connaissances, trop peu connu et exploité, est même souvent voué à l’oubli et à la destruction, faute de signalisation et de sauvegarde pérenne.
L’IRD, plus encore que les autres organismes de recherche, se doit de proposer une politique, des méthodologies et des outils de préservation et de partage des données recueillies dans, par et pour les pays du Sud par l’ensemble de ses équipes de recherche.
Lors de cette conférence, Pascal Aventurier, responsable du Service Information Scientifique et Technique (IST), et Jean-Christophe Desconnets, Directeur de la Mission Infrastructure et Données Numériques (MIDN), présenteront le projet d’entrepôt de données de l’IRD qui ouvrira mi 2019.
Usages des archives : définitions, théories et typologiesSimon Côté-Lapointe
Depuis l’avènement de l’ère numérique et du Web, les usages des archives se sont élargis et les usagers multipliés. À travers les bouleversements du contexte d’organisation et de diffusion des archives occasionnés par la révolution numérique et le Web et la critique postmoderne en archivistique se dessine une nouvelle vision archivistique plus axée sur les usages des archives et leur exploitation que sur leur conservation. Cependant, les fondements théoriques des usages des archives sont peu couverts en archivistique. Dans l’objectif de repenser la conception des usages, nous proposons de faire le point sur leur situation actuelle afin d’en faire ressortir les enjeux principaux. Basée sur une synthèse de la littérature en archivistique, en sciences de l’information et en sociologie des usages, notre analyse critique des notions et concepts connexes à celle d’usage permet de mettre en perspective et de repenser la façon d’envisager les usages des archives en archivistique. Les types et typologies ainsi que les théories et modèles liés aux usages des archives sont ensuite explorées comme autant de pistes de solutions pour fonder une vision renouvelée des usages en archivistique.
Presentation of the use and benefits of Creative Commons for scientific publishing at the conference of the University of Angers on "Copyrights and the challence of the digital age"
Presentation de Dominique Babini – CLACSO dans le contexte de l´École internationale d'études supérieures en Haïti, Partenariat CLACSO / UEH, Univesité d´Etat d¨Haïti, Port-au-Prince, Haïti, 17-18 Juin 2014
Réaliser un plan de gestion de données: guide de rédaction, 2015.
Ce document a été conçu afin d’accompagner les chercheurs et chargés de projets lors de la rédaction de plans de gestion de données (Data Management Plans, DMP). Sa structure s’appuie sur le modèle proposé par la Commission européenne dans le cadre d’Horizon 2020 et divers modèles de plans de gestion de données existants tels que celui de la National Science Foundation (NSF) ou de l’Interuniversity Consortium for Political and Social Research (ICPSR). Les champs requis par la Commission européenne sont signalés par un astérisque. Les exemples mentionnés dans ce document sont issus de guides existants.
Projets d'Humanités numérique et collaboration de différents métiersEmmanuelle Morlock
Support de l'intervention intitulée "Collaboration de métiers différents dans les projets d'humanités numériques : quel serait le socle commun idéal de connaissances techniques et méthodologiques ?", donnée à l'Institut des Sciences humaines et Sociales dans le cadre de la journée d'étude "Bap F" le 21 novembre 2014 (Paris)
Let's talk about policy! Politiques publiques pour l’ouverture des données sc...Rayna Stamboliyska
Cette présentation était la keynote de fermeture pour l'édition 2015 de la conférence SOData! tenu le 26 mars 2015 (voir le programme ici http://sodata.org/?page_id=162). Pierre-Carl Langlais et moi-même avons parlé des défis et opportunités d'une politique publique visant l'ouverture des données de la recherche.
Dans la jungle des licences Open Data : le point point de vue du juristeInno³
Conférence tenue lors des Journées Techniques organisées par Techni.Cités sur le thème « Open Data, mode d'emploi »
Dans la jungle des licences, Benjamin Jean, juriste, nous apportera des précisions : où, quand, comment et pourquoi utiliser une licence sur ses données ? En l'absence de directives précises et eu égard aux implications juridiques particulières pour les collectivités et administrations, les réponses à ces questions sont longtemps restées incomplètes ou imprécises. Avec le recul des expériences passées, il est aujourd'hui possible de présenter clairement les enjeux et solutions recherchés par les acteurs publics. La solution est néanmoins relativement simple une fois les enjeux clairement présentés et assimilés.
Cette présentation a été conçue pour les journées d'études 2009 de Medial Nancy dont le thème était : "Les catalogues de bibliothèques de nouvelle génération".
Pour les universités et instituts du Sud, les bouleversements de l'IST ouvrent des perspectives nouvelles : la littérature scientifique devient plus accessible et la production scientifique de l’organisme peut être diffusée plus facilement, grâce aux mouvements du Libre Accès et de la Science Ouverte, et aux développement de technologies de l’information basées sur des logiciels libres.
Marc Goovaerts met en application ce nouveau paradigme dans différents projets de coopération Nord-Sud-Sud, en portant une attention particulière à l’interopérabilité, aux métadonnées et aux identifiants uniques.
Marc Goovaerts, bibliothécaire à l’Université de Hasselt (Belgique), coordonne depuis 20 ans divers projets de coopération financés par le programme IODE de l’UNESCO (https://www.iode.org/) et VLIR-UOS (https://www.vliruos.be/en) avec des bibliothèques et instituts du Sud. Deux récents projets de coopération avec 5 universités cubaines serviront d’exemple.
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...olivier
L'émergence du phénomène du web 2.0, des nouveaux outils d'accès à l'information qu'il propose, des nouveaux types de contenus qu'il met en ligne, et des nouveaux protocoles de filtrage et de validation qu'il abolit ou transcende, interroge les pratiques actuelles de formation à l'IST. Parmi d'autres, le phénomène des blogs d'experts gagne le domaine de l'enseignement en général et de l'université en particulier. Des institutions, des composantes, des formations, des services, des communautés scientifiques, mais aussi des enseignants-chercheurs ouvrent de nouveaux espaces de paroles, mettant en œuvre de nouvelles dynamique de collaboration. Ces nouveaux collaboratoires, sous l'angle des rapports entre science et société, permettent d'articuler différemment un grand nombre de pratiques scientifiques en terme de diffusion, de collecte, de recherche, de publication et d'enseignement. Le domaine de la culture informationnelle et de la maîtrise de l'information en particulier, et celui des sciences de l'information et de la communication en général est à la fois un terrain et un révélateur particulièrement pertinent pour analyser les problématiques sous-jacentes de ces nouveaux collaboratoires, au rang desquelles la construction d'une culture du préprint, la mise à disposition d'indicateurs adaptés, la facilitation du déploiement rapide d'expertises dispersées et la reconfiguration des champs.
OpenData : au-delà des publications, le partage des données de la recherche e...Thierry Chanier
Le monde universitaire est producteur de données de différentes natures. L'ouverture et le partage de chaque type de données introduit des problématiques spécifiques. Cette variété s'explique en premier lieu par les situations particulières qui ont gouverné leur création. Mais les enjeux d'utilisation, par les communautés universitaires, les communautés de chercheurs ou la société en général, diffèrent aussi suivant chaque type de données.
Nous évoquerons brièvement un premier type de données, celles pédagogiques, en lien avec le mouvement en accès libre intitulé Open Educational Ressources (OER). Le second type de données, cette fois faisant partie du résultat de la recherche, concerne les publications. Notre communication rappellera brièvement, afin de mieux les distinguer du dernier type de données, les contraintes particulières qui ont motivé le développement de l'accès libre (open access) aux publications, les différentes voies suivies, l'état actuel après plus de 10 ans d'existence. L'essentiel de notre propos sera consacré au partage des données de la recherche, qui peuvent ou non être reliées aux publications. Nous décrirons les motivations de ce mouvement OpenData, les enjeux pour les chercheurs, les conditions particulières de mise à disposition que devront avoir ces données pour être réellement OpenData. Nous évoquerons enfin les transformations profondes du métier de chercheur qui peuvent en résulter, en nous appuyant sur des exemples provenant principalement des sciences humaines.
La Science Ouverte est à l’ordre du jour, en France et en Europe.
Après les publications, les données de la recherche sont sous le feu des projecteurs.
Ce gisement de connaissances, trop peu connu et exploité, est même souvent voué à l’oubli et à la destruction, faute de signalisation et de sauvegarde pérenne.
L’IRD, plus encore que les autres organismes de recherche, se doit de proposer une politique, des méthodologies et des outils de préservation et de partage des données recueillies dans, par et pour les pays du Sud par l’ensemble de ses équipes de recherche.
Lors de cette conférence, Pascal Aventurier, responsable du Service Information Scientifique et Technique (IST), et Jean-Christophe Desconnets, Directeur de la Mission Infrastructure et Données Numériques (MIDN), présenteront le projet d’entrepôt de données de l’IRD qui ouvrira mi 2019.
Usages des archives : définitions, théories et typologiesSimon Côté-Lapointe
Depuis l’avènement de l’ère numérique et du Web, les usages des archives se sont élargis et les usagers multipliés. À travers les bouleversements du contexte d’organisation et de diffusion des archives occasionnés par la révolution numérique et le Web et la critique postmoderne en archivistique se dessine une nouvelle vision archivistique plus axée sur les usages des archives et leur exploitation que sur leur conservation. Cependant, les fondements théoriques des usages des archives sont peu couverts en archivistique. Dans l’objectif de repenser la conception des usages, nous proposons de faire le point sur leur situation actuelle afin d’en faire ressortir les enjeux principaux. Basée sur une synthèse de la littérature en archivistique, en sciences de l’information et en sociologie des usages, notre analyse critique des notions et concepts connexes à celle d’usage permet de mettre en perspective et de repenser la façon d’envisager les usages des archives en archivistique. Les types et typologies ainsi que les théories et modèles liés aux usages des archives sont ensuite explorées comme autant de pistes de solutions pour fonder une vision renouvelée des usages en archivistique.
Presentation of the use and benefits of Creative Commons for scientific publishing at the conference of the University of Angers on "Copyrights and the challence of the digital age"
Presentation de Dominique Babini – CLACSO dans le contexte de l´École internationale d'études supérieures en Haïti, Partenariat CLACSO / UEH, Univesité d´Etat d¨Haïti, Port-au-Prince, Haïti, 17-18 Juin 2014
Réaliser un plan de gestion de données: guide de rédaction, 2015.
Ce document a été conçu afin d’accompagner les chercheurs et chargés de projets lors de la rédaction de plans de gestion de données (Data Management Plans, DMP). Sa structure s’appuie sur le modèle proposé par la Commission européenne dans le cadre d’Horizon 2020 et divers modèles de plans de gestion de données existants tels que celui de la National Science Foundation (NSF) ou de l’Interuniversity Consortium for Political and Social Research (ICPSR). Les champs requis par la Commission européenne sont signalés par un astérisque. Les exemples mentionnés dans ce document sont issus de guides existants.
Projets d'Humanités numérique et collaboration de différents métiersEmmanuelle Morlock
Support de l'intervention intitulée "Collaboration de métiers différents dans les projets d'humanités numériques : quel serait le socle commun idéal de connaissances techniques et méthodologiques ?", donnée à l'Institut des Sciences humaines et Sociales dans le cadre de la journée d'étude "Bap F" le 21 novembre 2014 (Paris)
Las nuevas modalidades de consumo nos fuerzan a encontrar nuevas formas de buscar y encontrar clientes.
En Kaiprom innovamos en esas búsqueda y en la elaboración de los procesos que permiten repetir los métodos exitosos. www.kaiprom.com.
Travailler avec des archives audiovisuels numériques. Deuxième partie : Digit...Peter Stockinger
Les sujets traités dans cette conférence :
1) Les « digital humanities » et la question des archives numériques.
2) Evolution des archives numériques vers des plateformes de travail.
3) Les deux étapes centrales lorsqu'on travail avec des archives numériques: 3.1) L’étape de l’archivage numérique à proprement parler. 3.2) L’étape du « repurposing » des données archivées.
4) Le Studio ASA – une plateforme de travail pour archives audiovisuelles.
5) Le cœur du « Studio ASA » - un métalangage de description des données audiovisuelles.
L'utilisation d’ontologies dans le cadre de BiblissimaEquipex Biblissima
Présentation du travail en cours sur le portail Biblissima aux journées "Ontologie en Sciences Humaines et Sociales" par Stefanie Gehrke (MSH Val de Loire, Tours, 09/11/2015)
Séminaire Inria IST - Référentiels et interoperabilité (1)Antoine Isaac
2nde partie : http://www.slideshare.net/antoineisaac/sminaire-inria-ist-rfrentiels-et-interoperabilit-2
Présentation pour le Séminaire IST organisé par Inria
http://www.inria.fr/actualite/agenda/document-numerique
L'ingénierie des ENA fondée sur le web des données ouvertes et liéesGilbert Paquette
Cette présentation à ACFAS-2017 reprend les travaux sur les typologies MISA d'un point de vue ontologique, notamment en ce qui concerne les compétences, les scénarios et les outils de web social.
La ressource Web : dialectique du changement et de la permanence et émergence...Alexandre Monnin
Les transformations induites par le numérique sont surtout vues sous l’angle documentaire. Pour autant, à la question « Qu’est ce qui existe sur le Web ? », la réponse, du point de vue des standards, n’est ni « des objets », ni « des documents » mais « des ressources ». Cette notion gagne à ce que l’on articule ses dimensions spatiales et temporelles pour bien comprendre l’architecture du Web, ses dynamiques et son archivage.
Journée d'étude "Evolutions des catalogues, évolutions des métiers, ce qui va changer dans nos établissements" le 29 mars 2013, proposée par le CRFCB en collaboration avec l'ABF Midi-Pyrénées
Depuis plusieurs années l’évolution des catalogues, l’arrivée de RDA, l’implémentation des FRBR alimentent les débats. Au-delà du jargon et des débats de spécialistes, il y a de vraies questions pour les bibliothèques, des enjeux importants pour l’avenir, des décisions qu’il convient d’anticiper et de préparer.
Cette journée a pour objectif de rappeler la réalité derrière des mots parfois abscons, souvent lointains, de souligner ce qui va changer dans nos établissements et les questions que soulèvent ces changements certes longs, parfois encore en instance mais auxquels tous les établissements devront demain se préparer...
Présentation par Régis Robineau lors de la journée d’études HIMANIS “Reconnaissance par ordinateur des écritures anciennes : le projet HIMANIS” (Archives nationales, Paris - 29 mai 2018)
Similaire à Anne-Violaine Szabados : L’expérience LIMC & CLAROS : pour l’élévation des données du patrimoine et de la culture dans le Linked Open Data (20)
Étude sur la structuration des coûts de publication pour les revues françaises en SHS présentée le 12 décembre 2016 par Odile Contat en collaboration avec Anne-Solweig Gremillet dans le cadre des "Lundis numériques" de l'Institut national d'histoire de l'art (INHA).
OpenRefine (anciennement Google Refine) est un outil puissant pour manipuler de grandes quantités de données, permettant des opérations de nettoyage en masse, l’exploration rapide de jeux de données, la conversion d’un format à l’autre, l’application de transformations cellulaires de base et avancées, le filtrage et le partitionnement des données avec des expressions régulières, l’extraction d’entités nommées sur des champs de texte intégral... Son usage, en tant qu’outil libre et gratuit, s’impose donc rapidement et cet atelier offrira un aperçu large de ses possibilités à l’appui de cas concrets.
Images numériques et métadonnées, seconde partie du 10 mars 2016Lesticetlart Invisu
Le traitement des images numériques avec la technologie des métadonnées dites embarquées offre des fonctionnalités étendues. Nous vous proposons une réflexion très pratique sur la mise en place d’une chaîne de traitement et de diffusion des images numériques en fonction des besoins exprimés par les participants.
Dans cette seconde séance, nous aborderons la constitution d’une photothèque et la publication en ligne.
Ce dossier propose des informations sur le droit en rapport avec l’image et la reproduction des images dans le cadre des nouvelles technologies. Réalisé par Anne-Laure Brisac, il a été revu et validé par Isabelle Benoist et Vincent Guhur, de la direction des Affaires juridiques du CNRS.
Plaquette d'information de l'année 2015 sur l'USR 3103 InVisu. L'information visuelle et textuelle en histoire de l'art: nouveaux terrains, corpus, outils
Utiliser les grandes plateformes collaboratives comme Wikipedia et GeoNames pour publier ses données dans le web de données, les enrichir et les relier
Images numériques et métadonnées: traitement et diffusion, seconde partieLesticetlart Invisu
Seconde partie de l'atelier des TIC et l'art consacré aux images numériques, plus spécialement centré sur le traitement et l'exploitation des métadonnées ainsi que sur leur exposition sur le web.
Accompagnement actif des chercheurs à la gestion et au partage des données de...Lesticetlart Invisu
Accompagnement actif des chercheurs à la gestion et au partage des données de la recherche
Thierry Beguiristain, OTELo
M-Christine Jacquemot-Perbal, Inist-CNRS
Accompagnement actif des chercheurs à la gestion et au partage des données de...
Anne-Violaine Szabados : L’expérience LIMC & CLAROS : pour l’élévation des données du patrimoine et de la culture dans le Linked Open Data
1. L’expérience LIMC et CLAROS.
Pour l’élévation des données du patrimoine et de la culture
dans le Linked (Open) Data
- Anne-Violaine SZABADOS -
-Journée d’étude sur le web de données et les sciences humaines et
sociales
-OUTILS, MÉTHODES, CORPUS : LA MODÉLISATION DES DONNÉES EN SHS
-InVisu (USR3103 CNRS/INHA). PARIS, INHA. 17 novembre 2014
1
2. Plan:
[Le fond vert et blanc évoque des jeux de données reliés, connectés]
Ressources numériques LIMC-France
Historique du programme CLAROS
Modèle CLAROS (fondé sur le CIDOC CRM)
Composants
Exemples
D’autres modèles : British Museum, LIDO, EDM, HADOC
Thésaurus multilingue THEA (Thésaurus-Antiquité)
Les référentiels à l’épreuve…
2
3. Le domaine de recherche du LIMC est l’iconographie de la mythologie et de la
religion antique en lien avec la culture classique.
- L’équipe française du LIMC diffuse sur son site Web « LIMC-France » les
ressources numériques qu’elle produit. Ces ressources correspondent à son fonds
documentaire et complètent la publication, le Lexicon Iconographicum
Mythologiae Classicae (LIMC). Il n'y a pas d'équivalent numérique en-ligne de
la publication traditionnelle, le Lexicon. Par rapport à ce-dernier, les ressources
numériques « LIMC-France » sont indépendantes et complémentaires.
- La ressource numérique principale, le corpus d'objet « LIMC-icon », correspond
à un catalogue d’objets antiques portant une scène relative à la mythologie. C’est
une sorte de catalogue électronique, de collection de musée "virtuelle".
- L’indexation et la saisie d'une grande partie des données reposent sur
l'utilisation du thésaurus multilingue du LIMC, TheA (Thésaurus-Antiquité), qui
comprend des micro-thésaurus consacrés aux lieux, aux personnes, aux périodes
chronologiques, aux domaines artistiques et types d’objets, à l’iconographie
classique…
3
4. Vers 2000/2001, nous avons été contactés par le Beazley Archive d’Oxford (Donna
KURTZ) pour participer à la création d’un portail international visant à donner un
accès unifié à plusieurs ressources en ligne consacrées à l’Antiquité classique.
- L’autre partenaire historique est Arachne (Reinhard FÖRTSCH. CoDArchLab, de
l'Institut archéologique de l'Université de Cologne. Cf. également le site iDAI /
Deutsches Archäologisches Institut).
4
5. Le projet a connu plusieurs phases (CLAROSnet, MyEvent…). Dès 2004 et 2005 au
moins, l’orientation Web sémantique, OWL, l’OAI-PMH a été exprimée (Manfred
THALLER…).
- CLAROS a réellement débuté en 2008 dans sa forme actuelle et avec un
quatrième partenaire, le Greek Lexicon of Personal Names (LGPN. Sebastian
RAHTZ).
- On voit ici deux schémas de 2008 retrouvés dans la documentation du projet.
- Le premier montre l’approche de l’époque : les données pertinentes pour
l’interrogation sont extraites des ressources numériques d'origine des partenaires
et versées, avec un alignement sur un schéma commun, dans une base dédiée au
projet.
5
6. L’autre schéma témoigne du fait que le CIDOC CRM, RDF, SPARQL et un
triplestore étaient envisagés dès cette époque.
- Le site Web a été ouvert vers 2011.
- D'autres partenaires se sont ajoutés, faisant ainsi évoluer le périmètre de
CLAROS : collections d'objets mais aussi documents d'archives, photos anciennes,
etc. ; culture classique mais aussi orientale, asiatique…
- CLAROS propose également des requêtes et visualisations associant des
données géographiques (webmapping) avec une frise chronologique ; ainsi qu'un
outil de "recherche par le contenu de l'image" (Content Image Retrieval).
6
7. Voici trois schémas, dérivant de ceux publiés par Emmanuelle BERMÈS (en
collaboration avec Antoine ISAAC et Gautier POUPEAU) dans "Le Web Sémantique
en bibliothèque" (2013). Il rendent compte de trois formes d’interopérabilité que
l’on peut retrouver plus ou moins dans CLAROS, dans les différentes étapes de
réalisation du projet, mais aussi simultanément car CLAROS s'est adapté aux
moyens des partenaires:
- Le premier correspond au schéma de 2008 et à l’interopérabilité fondée sur les
dénominateurs communs : un mapping des données communes pertinentes
(plutôt que le plus petit dénominateur commun) avec un modèle/schéma
commun.
- Le second fait référence au modèle "roue et essieu" (hub and spoke), avec des
référentiels en communs : référentiels CLAROS…
- Le modèle "navigation intuitive") (Follow your nose) : des jeux de données sont
identifiés et utilisés comme référentiels, données-pivot : éventuellement dans
la mise en relation avec des données comme celles d'Arachne, ou plutôt dans
l’écosystème de CLAROS et les projets de type LOD [Linked Open Data] dans
lesquels les données de CLAROS sont utilisées à titre expérimental.
7
8. Depuis sa mise en ligne, le site CLAROS propose un SPARQL Endpoint qui donne
accès aux données en RDF, et à leur réutilisation…
-Ici un enregistrement concernant un tissu copte (consulté en avril 2014).
8
9. Le modèle d’interopérabilité élaboré par CLAROS est présenté et expliqué sur un
site Web, ClarosWiki : http://www.clarosnet.org/wiki/
9
10. Un enregistrement correspond à un bien culturel. Par exemple, pour le
LIMC, Arachne et le Beazley Archive, il s’agit principalement d’objets
antiques.
Les notions communes retenues sont:
- Les information sur l’objet : type, état, technique et domaine artistique,
matériau, le décor, date de création, artiste…
- Ses localisation passées (lieu de découverte ; collections anciennes) et
actuelle, et les n° d’inventaire,
- La documentation de référence (publication, webographie, reproductions
et images).
--Le LIMC n’a pas tout retenu, en particulier les grandes images
numériques - pour des raisons liées aux droits imposés par les propriétaires
des images -, et certains critères trop particuliers, comme « Fabric »
(origine de l'argile de la poterie…).
-- Le modèle, fondé sur le CIDOC CRM, en reprend les notions clés, qui
sont omniprésentes dans les informations relatives à la documentation
traitées (les objets antiques…) : OBJET - PERSONNE – LIEU – DATE –
ÉVÉNEMENT – CONCEPT .
10
11. Le modèle CLAROS est fondé directement sur le CIDOC CRM. En plus des
éléments précédemment cités, on peut signaler :
-le titre donné à l’objet – ou à l’enregistrement,
-L’ID de la ressource numérique, si possible l’URI,
-La notion d’événement, particularité du CRM, qui est appliquée ici à
l’événement « production de l’objet » et « attribution d’une information par un
spécialiste nommé ».
-Le lien vers la ressource numérique d’origine….
--Le modèle CLAROS n’est pas idéal, de plus, certains jeux de données ne sont
pas toujours en adéquation avec la notion avec laquelle ils sont mis en
correspondance. Par exemple, Fabric semble recouvrir l’idée de zone de
production définie par un type d'argile et ne concernerait que la poterie. En
revanche, il n’y a pas vraiment de rubrique pour l'aire culturelle de production (ex:
étrusque, punique…).
--D’autre part, la façon de renseigner l’appellation/le titre, varie selon les
participants : dans certains cas, c'est la concaténation type d'objet + localisation
actuelle + inventaire(s) ; pour d'autres, c'est une courte description ("buste de
Satyre en marbre").
11
12. Voici deux exemples extraits des fichiers RDF/XML publiés en 2010 sur
CLAROSwiki:
- En haut, le début d'un enregistrement concernant un objet (crm:E22_Man-
Made_Object) d'Arachne et son appellation/titre : « Augustus mit
Adlerszepter » (Auguste avec un sceptre avec aigle).
- Dessous, la partie de l'enregistrement d'un objet du Beazley Archive
concernant l’événement de l'attribution par Erika KUNZE-GÖTTE
(P14_carried_out_by – E39_Actor) d’un vase au « Groupe de Léagros ».
12
13. Ici un troisième exemple, tiré d'un enregistrement du LGPN (publié en 2010),
consacré au lieu Naxos, identifié par l’appellation de lieu (E45_Place_Name)
« Naxos » et ses coordonnées géographiques latitude et longitude [les classes de
ces deux notions ne sont pas tirées du CRM]. Dans
<rdf:value>Naxos</rdf:value>, "Naxos" est une instance rattachée à la Classe
E45_Place_Name.
- L’application du CRM repose sur l’articulation de Classes (notion, abstraction
pour laquelle le CRM fournit une définition) et de Propriétés (prédicat pour
lequel le CRM fournit une définition) . Les Classes, par exemple E48_Place ou
E45_Place_Name, correspondent à des sujets et objets, les Propriétés – par
exemple P87_is_identified_by - à des prédicats.
-Dans cet exemple :
--Sujet prédicat objet
--Le lieu a pour appellation Naxos
--Le lieu a pour coordonnées …
13
14. Cet affichage du résultat – à une requête posée via le SPARQL Endpoint de
CLAROS – consacré à un tissu copte (consulté en avril 2014), montre les
métadonnées et liens hypertextes associés à ce document :
- à gauche les propriétés (prédicats). Par ex : [le tissu]
crm:P53_has_former_or_current_location
- à droite les « objets de triplet RDF », ici sous la forme d'URI [il pourrait aussi
s'agir d'un littéral/une chaîne de caractères] :
http://id.clarosnet.org/places…//Victoria-and-albert-museum-london
14
15. Dans notre orientation de recherche, l’objet antique est le point nodal d’un
réseau d’informations propice à l’interopérabilité.
15
16. CLAROS nous a permis d'adapter nos données au "Web sémantique" et au "Web
de données" (Linked data). C’est une plateforme qui permet d’envisager
l’élévation de ces ressources numériques ou de métadonnées dans le Linked
Open Data (LOD), même si le modèle CLAROS n’est pas parfait.
16
17. Plusieurs ontologies, modèles ou schémas concernent les données relatives au
patrimoine et à la culture.
- Le CIDOC CRM ( ISO 21127:2006) est un modèle conceptuel de référence, une ontologie
de domaine, qui émane du monde des musées (ICOM) mais peut-être appliqué à des
données du patrimoine culturel qui ne relèvent pas des institutions muséales
(http://www.cidoc-crm.org/). Il repose sur six notions clés : l'objet, le concept, le temps
(Temporal Entity, Time-Span…), le lieu (Place), la personne/agent de l’action (Actor), et
surtout, ce qui fait sa spécificité, l’événement. En plaçant l’événement au coeur de la
modélisation, il permet de prendre en compte le contexte de l'information
(contextualisation), d’affiner la granularité de cette-dernière. Son niveau d’abstraction le
fait considérer comme difficilement applicable, toutefois, des modèles construits
directement sur lui apparaissent. Par exemple, celui du British Museum.
- D’autres modèles en dérivent, comme :
-- LIDO (Lightweight Information Describing Objects), qui propose un schéma pour
l'interopérabilité des collections du patrimoine culturel (ex: MIMO, pou les collections
d'instruments de musique). Lié également à l'ICOM, il reprend les principes du CRM, de CDWA Lite
(Categories for the Descritption of Works of Art, /J.P. Getty), de museumdat et de SPECTRUM
(http://network.icom.museum/cidoc/working-groups/data-harvesting-and-interchange/what-is-lido/
),
-- EDM, pour l’interopérabilité avec Europeana
-- HADOC, pour l’harmonisation des données culturelles (Ministère de la Culture et de la
Communication). Le modèle est publié dans sa phase de travail ; il est encours de mise en
application (http://www.culturecommunication.gouv.fr/Ressources/Harmonisation-des-donnees-culturelles/).
17
18. Notice consacrée au CRM sur Linked Open Vocabularies :
http://lov.okfn.org/dataset/lov/
18
19. "The CIDOC Conceptual Reference Model. (CIDOC-CRM): PRIMER" de D.Oldman
et CRM Labs, fournit une introduction et des éléments pour débuter avec le
CIDOC CRM, tel ce schéma sur les classes et notions principales (v1.2, Août 2014).
-Version v.1 ( juillet 2014) : http://www.cidoc-crm.org/docs/CRMPrimer_v1.1.pdf
19
20. "The CIDOC Conceptual Reference Model. (CIDOC-CRM): PRIMER" de D.Oldman
et CRM Labs (v1.2, Août 2014) : hiérarchie "Thing"…
20
21. "The CIDOC Conceptual Reference Model. (CIDOC-CRM): PRIMER" de D.Oldman
et CRM Labs (v1.2, Août 2014) : événement "production".
21
22. Schéma du modèle du British Museum (British Museum CIDOC CRM mappings
(v.4a. Juillet 2013p) par Dominic OLDMAN
22
23. EDM propose des modèles simples ou plus riches.
- Ces deux tableaux associent au schéma EDM les informations (écrites en rouge
et orange) tirées des ressources numériques LIMC-France. Elles concernent une
péliké attique du Peintre de Providence, ornée d'Apollon et de Victoires, qui était
conservée autrefois dans la collection De Luynes (aujourd'hui à la BnF, inv. De
Ridder.392). Comme en témoigne le nom de domaine "SKOS" (skos:Concept…),
le modèle de droite prend en compte un thésaurus multilingue (les termes en
rouge sont tirés de TheA).
23
24. Le modèle UML HADOC (été 2014), par Katell BRIATTE…
24
25. En couleurs (à l'exception du panneau bleu) : les correspondances possibles entre
les données LIMC-France et le regroupement sémantique "bien culturel" d'une
version 2013 du modèle HADOC .
25
26. Les données relatives à la péliké de la BnF (De Ridder.392) dans le schéma
organisé autour du "bien culturel" du modèle HADOC (version 2013).
26
27. L(O)D… : aux protocoles, langages, et vocabulaires communs – comme les
ontologies, les modèles, le RDF – permettant de rendre les données
interopérables, on peut ajouter les thésaurus ou les vocabulaires contrôlés.
- À gauche, un schéma sommaire de la structure de l'information dans LIMC-France,
dans lequel le fond violet évoque le thésaurus TheA.
27
28. Le LIMC a élaboré son thésaurus à partir de 1981, dès la première informatisation
de ses données. Ce thésaurus en 9 langues, TheA (Thésaurus-Antiquité), est
actuellement dans un processus de transfert vers une application en ligne
permettant son exposition sur le Web et les alignements avec de grands
thésaurus (logiciels actuellement en test : Ginco, OpenTheso).
-Les concepts/termes du thésaurus sont utilisés lors de la saisie des informations.
Notamment : les matériaux, les domaines artistiques et les techniques, les types
d’objets, les périodes chronologiques, les noms d’artistes, mais aussi le noms des
personnages mythologiques (et historiques), et des mots-clés et référentiels pour
l’iconographie de la mythologie.
28
29. Un dessin à l'encre du XVIIe s., reproduisant le Vieux Centaure du Louvre, est
conservé à la BnF. Sa reproduction numérique (mise dans le domaine public) et
les informations qui lui sont associées sont diffusées sur Europeana, sur
data.bnf.fr et sur Gallica (consultés en avril 2014). Les trois sites Web renvoient
l'un à l'autre grâce à des liens ; les notices sont légèrement différentes et
adaptées aux critères retenus par chacun des sites.
Références du dessin : anonyme, plume et lavis, vers 1680. BnF, dpt.
Estampes et photo. FB-26-FOL.
Ark:/12148/btv1b6936506r
29
30. Le dessin à l'encre du XVIIe s. reproduisant le Vieux Centaure du Louvre
(également appelé Centaure Borghèse), est appelé "Amour chevauchant un
Centaure".
-Selon les ressources numériques en ligne, le groupe statuaire antique et ses
reproductions sont appelés ou titrés différemment. Or le titre, ou l'appellation, est
l'un des points d'accès à l'oeuvre, une information souvent formulée dans les
requêtes des internautes. Dans CLAROS, l'appellation /le titre est, selon les
ressources, une "courte description" ou l'association "Collection/ localisation
actuelle (musée) + l'inventaire".
-Cet exemple montre l'importance de l'harmonisation des (méta)données et des
pratiques, de la désambigüisation (confusion de documents, doublons…), etc.
Exposer ses données dans le Web des données, et le LOD, c'est aussi en garantir
le niveau de qualité et de fiabilité. L'alignement des données et l'utilisation de
qualificatifs destinés à préciser le degré de concordance d'une association (ex:
exactmatch… ; broadMatch / closeMatch / relatedMatch…) concourent à
élever le niveau de qualité et donc la valeur des associations.
Références du dessin : anonyme, plume et lavis, vers 1680. BnF, dpt.
Estampes et photo. FB-26-FOL.
Ark:/12148/btv1b6936506r
30
31. Cet écran de JocondeLab (consulté en avril 2014) montre une copie du XVIIIe s.
du Vieux Centaure du Louvre, avec mention de la relation entre la réplique et son
original ("copie du centaure de la villa Borghèse…").
31
32. Sur le site emuseum, qui compte parmi ses participants le Museum of Fine Arts
de Boston, sont diffusés une notice et des photos relatives à un exemplaire
hellénistique en bronze du Vieux Centaure aux mains liées, conservé au musée de
Boston. Sur cet écran (consulté en avril 2014). La notice le signale bien comme
étant au Museum of Fine Arts de Boston, avec l'inventaire 63.1039.
-[Le Centaure du Louvre et celui-ci sont des répliques antiques d'un groupe
original hellénistique aujourd'hui perdu, composé d'un vieux et d'un jeune
Centaures, chacun chevauché par un Amour].
32
33. Sur cet écran du même site emuseum, consulté le même jour, la notice
accompagnant la même photo du même Vieux Centaure en bronze signale
l'objet dans les Collection de l'University Museum of Art de Brigham Young
(Utah), sous l'inventaire Med.202 !
-Confusion de champ lors de l'affichage? ; Référence provisoire – devenue
définitive – liée à une exposition temporaire ?
-[La statuette en bronze est bien conservée dans les collections du Museum of
Fine Arts de Boston].
33
34. Comme la notion appellation/titre, celle d'aire culturelle de production n'est pas
toujours facile à renseigner. Pourtant elle est courante dans les formulations des
requêtes.
-Comme pour l'appellation/titre, l'ontologie CIDOC CRM fournit les éléments
nécessaires à la construction d'une structure informative correspondant à cette
information qui associe des concepts liés au temps, aux lieux, au style, à des aires
culturelles. Mais les façons d'exprimer ces aires culturelles –en privilégiant parfois
la période, parfois le style ou la géographie … (ex : attique ; hellénistique ; 3e Style
…) – et les thésaurus présentent des différences (panneau gauche : extrait du
thésaurus AAT Getty ; écrans droits : extraits du thésaurus Garnier). Ces thésaurus,
et les hiérarchies sur lesquelles ils font reposer l'organisation des concepts
couvrant les notions d'aire de production, de période culturelle et de style, sont-ils
en adéquation avec nos besoins et nos pratiques?
-L'évaluation des données et de l'adéquation des outils peut passer par des
processus d'analyse des assertions (instances).
34
35. … à suivre … la réutilisation des données pour des approches collaboratives, des
mises en relations, la participation à un "graphe" culturel mondial.
-Ici, un enregistrement LIMC-icon consacré à un vase attique conservé au Musée
MAC-Empùries [Espagne], associé au thésaurus TheA et au LIMC (Lexicon…) ; des
liens possibles via le Web de données et le LOD…
35
37. Argumentaire de la journée "Outils, méthodes, corpus : la modélisation des
données en SHS" : Les technologies du web sémantique permettent de décloisonner et
de partager des données scientifiques afin de les interroger, de les enrichir et de les
réutiliser. Elles ouvrent des perspectives fécondes pour les humanités numériques, tant
au niveau méthodologique (structuration, normalisation, interopérabilité,
interconnexion, mutualisation et ouverture des données) que collaboratif, puisqu’elles
favorisent l’association de différents métiers : chercheurs, documentalistes,
informaticiens, bibliothécaires, archivistes, conservateurs du patrimoine. L’objectif de
cette journée d’étude est de réunir des laboratoires de recherche et des institutions
engagés dans la dynamique du web sémantique pour la structuration et la diffusion de
leurs travaux. En s’appuyant sur le traitement de corpus particuliers, dans le contexte de
démarches scientifiques spécifiques, cette rencontre sera l’occasion d’échanger autour
de la mise en oeuvre des standards et des outils du web de données : choix des
ontologies, utilisation de notices et de vocabulaires d’autorité, alignement sur des jeux
de données de référence. Il s’agit aussi de participer aux questionnements que soulèvent
les technologies du web sémantique au sujet de l’élaboration des connaissances et de la
fiabilité des ressources publiées. Le travail de modélisation et de structuration des
données offre de rendre explicite et de qualifier des catégories et des relations souvent
implicites. Cependant l’utilisation d’un modèle logico-mathématique peut laisser
supposer la neutralité et l’objectivité de la production et du croisement des données. Or
l’interprétation, l’incertitude et la contextualisation sont des aspects essentiels de la
recherche en sciences humaines et sociales.
37
38. Interventions de la journée "Outils, méthodes, corpus : la modélisation des données en SHS" :
-9h15-9h30 : Allocution d’ouverture Didier Torny (directeur scientifique adjoint en charge de
l’information scientifique et technique à l’InSHS) Données, corpus, publications : les enjeux de
l’information scientifique et technique au CNRS à l’ère numérique.
-9h30-9h45 : Emmanuelle Perrin (InVisu, USR 3103 CNRS/INHA) Présentation de la journée.
-9h45-10h35 : Anila Angjeli (BnF, département de l’information bibliographique et numérique) ISNI -
Les enjeux d’un identifiant international pour les personnes et les organismes.
-10h50-11h40 : René-Vincent Du Grandlaunay (directeur de la bibliothèque de l’Institut dominicain
d’études orientales, Le Caire) Le modèle FRBR appliqué au patrimoine arabo-musulman.
-11h40-12h30 : Matthieu Bonicel (BnF, coordinateur de Biblissima) et Stefanie Gehrke (coordinatrice
métadonnées, Biblissima) Biblissima et la modélisation de l’histoire de la transmission des textes et de
la constitution des collections (titre provisoire).
-14h00-14h50 : Anne-Violaine Szabados (ArScAn LIMC, UMR 7041, Maison de l’archéologie et de
l’ethnologie, Paris X) L’expérience LIMC & CLAROS : pour l’élévation des données du patrimoine et de
la culture dans le Linked Open Data.
-14h50-15h40 : Francesco Beretta (LARHRA, UMR 5190, Lyon) Le projet SyMoGIH et le web de
données.
-16h-16h50 : Flore César (CRISES, EA 4424, université Paul-Valéry, Montpellier 3) Modéliser le transfert
des savoirs en Europe septentrionale aux xviie et xviiie siècles : l’exemple du projet LexArt.
-16h50-17h30 Mercedes Volait (InVisu, USR 3103 CNRS/INHA) Synthèse de la journée et discussion.
38