Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueGautier Poupeau
Ce diaporama est le 3ème d'une série qui vise à donner un panorama de la gestion des données à l'ère du big data et de l'intelligence artificielle. Cette partie s'attache à présenter comment on passe de la modélisation des données jusqu'à leur stockage. Elle dresse un panorama des différentes solutions de stockage de données, en présente les particularités, les forces et les faiblesses.
Visite guidée au pays de la donnée - Traitement automatique des donnéesGautier Poupeau
Ce diaporama est le 2ème d'une série qui vise à donner un panorama de la gestion des données à l'ère du big data et de l'intelligence artificielle. Cette 2ème partie présente le traitement automatique des données : intelligence artificielle, fouille de textes et de données, Traitement automarique de la langue ou des images. Après avoir défini ces différents domaines, cette présentation s'attache à faire le tour des différents outils disponibles pour analyser les contenus audiovisuels.
Visite guidée au pays de la donnée - Introduction et tour d'horizonGautier Poupeau
Ce diaporama est le 1er d'une série qui vise à donner un panorama de la gestion des données à l'ère du big data et de l'intelligence artificielle. Cette 1ère partie revient sur les raisons qui font de la donnée un actif indépendant de notre SI et propose une représentation de la gestion des données
Présentaion des outils et services documentaires offerts par le Service IST de la Délégation Régionale Occitanie de l'IRD (Montpellier), en présentiel et à distance : sites web, adresses mails, publications et ressources sur abonnement, assistance, recommandations et formations,...
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheAgropolis International
Une fiche pratique dédiée aux données de la recherche dans le cadre de l'Open Access (créée en septembre 2015 et révisée en octobre 2016) :
• enjeux,
• typologie,
• cycle de vie de la donnée,
• les étapes de gestion des données de la recherche
• le plan de gestion (PGD ou Data Management Plan - DMP)
• exemples de modèles de plans de gestion de données
• la valorisation des données de la recherche
• la (ré)utilisation des données et le droit d'auteurs (licences).
Auteurs : Cécile Adamolle, Annabelle Filatre, Hanka Hensens, Isabelle Nault, Chantal Salson, Christine Silvy, Marie-Violaine Tatry
Date : 09/2015, révisée en octobre 2016
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Gautier Poupeau
Support de l'intervention effectuée lors des lundis du numérique de l'INHA le 11 février 2019 sur le projet à l'institut national de l'audiovisuel d'une stratégie orientée données pour la refonte de notre système d'information basée sur la mise au point d'une infrastructure centralisée de stockage et de traitement des données et un modèle de données unique pour mettre en cohérence toutes les données de l'Ina
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueGautier Poupeau
Ce diaporama est le 3ème d'une série qui vise à donner un panorama de la gestion des données à l'ère du big data et de l'intelligence artificielle. Cette partie s'attache à présenter comment on passe de la modélisation des données jusqu'à leur stockage. Elle dresse un panorama des différentes solutions de stockage de données, en présente les particularités, les forces et les faiblesses.
Visite guidée au pays de la donnée - Traitement automatique des donnéesGautier Poupeau
Ce diaporama est le 2ème d'une série qui vise à donner un panorama de la gestion des données à l'ère du big data et de l'intelligence artificielle. Cette 2ème partie présente le traitement automatique des données : intelligence artificielle, fouille de textes et de données, Traitement automarique de la langue ou des images. Après avoir défini ces différents domaines, cette présentation s'attache à faire le tour des différents outils disponibles pour analyser les contenus audiovisuels.
Visite guidée au pays de la donnée - Introduction et tour d'horizonGautier Poupeau
Ce diaporama est le 1er d'une série qui vise à donner un panorama de la gestion des données à l'ère du big data et de l'intelligence artificielle. Cette 1ère partie revient sur les raisons qui font de la donnée un actif indépendant de notre SI et propose une représentation de la gestion des données
Présentaion des outils et services documentaires offerts par le Service IST de la Délégation Régionale Occitanie de l'IRD (Montpellier), en présentiel et à distance : sites web, adresses mails, publications et ressources sur abonnement, assistance, recommandations et formations,...
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheAgropolis International
Une fiche pratique dédiée aux données de la recherche dans le cadre de l'Open Access (créée en septembre 2015 et révisée en octobre 2016) :
• enjeux,
• typologie,
• cycle de vie de la donnée,
• les étapes de gestion des données de la recherche
• le plan de gestion (PGD ou Data Management Plan - DMP)
• exemples de modèles de plans de gestion de données
• la valorisation des données de la recherche
• la (ré)utilisation des données et le droit d'auteurs (licences).
Auteurs : Cécile Adamolle, Annabelle Filatre, Hanka Hensens, Isabelle Nault, Chantal Salson, Christine Silvy, Marie-Violaine Tatry
Date : 09/2015, révisée en octobre 2016
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Gautier Poupeau
Support de l'intervention effectuée lors des lundis du numérique de l'INHA le 11 février 2019 sur le projet à l'institut national de l'audiovisuel d'une stratégie orientée données pour la refonte de notre système d'information basée sur la mise au point d'une infrastructure centralisée de stockage et de traitement des données et un modèle de données unique pour mettre en cohérence toutes les données de l'Ina
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...Lesticetlart Invisu
Intervention de Rémi Gaillard, responsable du pôle « Politique documentaire et valorisation des collections » de la bibliothèque de l'Université Pierre-et-Marie-Curie, aux Lundis numériques de l'INHA (14 septembre 2015).
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
Support de l'intervention effectuée au cours de la séance dédiée aux lacs de données du séminaire "Nouveaux paradigmes de l'Archive" organisée par le DICEN-CNAM et les Archives nationales
L'Open Access et les Données de la Recherche dans le cadre du Programme Horiz...Agropolis International
La politique de libre accès de l'UE
Le projet pilote de libre accès aux données de la recherche (Open Research Data)
Cécile Adamolle, Annabelle Filatre, Hanka Hensens, Isabelle Nault, Chantal Salson, Christine Silvy, Marie-Violaine Tatry
Date : 09/2015, révision octobre 2016
1/ initiation avec le big Data
2/ Data warehouse VS Big Data
3/ Domaines d’utilisations
4/ Des connaissances importantes sur Hadoop
5/ Big Data et Aspect Mobile
Un PGD, qu'est-ce que c'est ? Pour quoi faire ? Comment ?
Un PGD sert surtout à se poser les bonnes questions et à adopter des méthodes rigoureuses de gestion pour documenter, stocker, responsabiliser, archiver, informer, et finalement partager les données scientifiques.
Le PGD est de plus en plus souvent recommandé ou même exigé par les financeurs, les éditeurs, les organismes scientifiques.
L’exposé présente les grands principes et principales étapes d’un PGD et les aides à la rédaction.
Cette intervention d'Hanka Hensens a eu lieu le 20 septembre 2018, dans le cadre des JeudIST de l'IRD Occitanie.
Hanka Hensens, responsable du Centre de Documentation IRD Occitanie, a animé depuis 2017 plusieurs ateliers sur les Plans de Gestion de Données en direction des scientifiques d’Agropolis. Elle forme étudiants et chercheurs depuis près de 20 ans à la recherche et à la gestion de l’information scientifique.
Accompagnement actif des chercheurs à la gestion et au partage des données de...Lesticetlart Invisu
Accompagnement actif des chercheurs à la gestion et au partage des données de la recherche
Thierry Beguiristain, OTELo
M-Christine Jacquemot-Perbal, Inist-CNRS
Big data, Intelligence artificielle, quelles conséquences pour les profession...Gautier Poupeau
Support du Webinaire organisé le 21 février par Ina Expert sur l'évolution du positionnement des professionnels de l'information dans les organisations face aux changements en cours que sont la montée en puissance des données au détriment du document, le big data et l'intelligence artificielle
Construire des outils pour la gestion des données de la recherche dans une co...Lesticetlart Invisu
Construire des outils pour la gestion des données de la recherche dans une communauté d’universités Aurore Cartier, Magalie Moysan et Nathalie Reymonet [Université Paris-Descartes, Université Paris-Diderot, Sorbonne Paris Cité]
Un plan de gestion de données (PGD ou DMP pour Data Management Plan) est un document qui spécifie quelles données sont collectées ou générées, et comment elles seront gérées, partagées et préservées pendant et après un projet. Le support de ce webinaire donne les clés pour pouvoir amorcer la rédaction d’un PGD en toute sérénité en présentant les enjeux et objectifs d’un PGD, son contenu et un outil d’aide à la rédaction : DMP OPIDOR.
Claire SOWINSKI est responsable du service formation-DoRANum de l’Inist-CNRS (Institut de l’Information Scientifique et Technique).
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...kmichel69
Ces dernières années ont vu se multiplier des plateformes d’échanges et de gestion d’information géolocalisées, prenant des formes diverses, qu’il s’agisse de catalogues de données géoréferencées ou de plateformes web SIG, souvent enrichies d’applications métiers. Beaucoup d’inventivité, d’innovation et donc d’énergie ont été mises au service de développements.
Ce séminaire se propose à partir de différentes expériences de revenir sur les usages de ces plateformes, en mettant en perspective l’ensemble du dispositif (les caractéristiques de la solution et les besoins initialement affichés, les usagers ciblés), et les utilisations effectives a posteriori, mais aussi en revenant sur les éventuelles conséquences de ces plateformes sur les pratiques professionnelles, sur les évolutions envisagées et à envisager tant pour les usages de type « consultation » que pour les usages de type « contribution ».
Réaliser un plan de gestion de données: guide de rédaction, 2015.
Ce document a été conçu afin d’accompagner les chercheurs et chargés de projets lors de la rédaction de plans de gestion de données (Data Management Plans, DMP). Sa structure s’appuie sur le modèle proposé par la Commission européenne dans le cadre d’Horizon 2020 et divers modèles de plans de gestion de données existants tels que celui de la National Science Foundation (NSF) ou de l’Interuniversity Consortium for Political and Social Research (ICPSR). Les champs requis par la Commission européenne sont signalés par un astérisque. Les exemples mentionnés dans ce document sont issus de guides existants.
Le stockage des données a toujours été une des problématiques les plus difficiles à maitriser. L’augmentation massive de la quantités de données disponibles, le phénomène Big Data, incite les sociétés à moderniser leur environnement décisionnel. Dès lors, beaucoup se posent la question du choix entre SQL et NoSQL. Microsoft, avec son offre SQL Server Parallel Data Warehouse 2012 réconcilie le meilleur des technologies actuelles. Un seul moto ‘Insights on Any Data of Any Size’
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesAgropolis International
Foire aux questions - FAQ sur les donnnées de la recherche
Fiche créée en septembre 2015 et révisée en octobre 2016
Qu'est-ce que l'ouverture des données (Open Data) ?
Quelles données préserver ?
Où déposer mes données ?
Comment définir les conditions de réutilisation de mes données ?
Et si mes données sont déjà déposées dans les réseaux sociaux (ResearchGate, Academia...) ?
Qu'est-ce qu'un jeu de données ?
Où rechercher des jeux de données ?
Qu'est-ce qu'un DOI ?
Comment citer un jeu de données ?
Qu'est-ce qu'un PGD ?
A quelles questions répond un PGD ?
De quels outils je dispose pour rédiger un PGD ?
Avec qui interagir pour élaborer un PGD ?
L'éthique du partage et moi ?
Auteurs : Cécile Adamolle, Annabelle Filatre, Hanka Hensens, Isabelle Nault, Chantal Salson, Christine Silvy, Marie-Violaine Tatry
Fiche créée en septembre 2015 et révisée en octobre 2016
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...Lesticetlart Invisu
Intervention de Rémi Gaillard, responsable du pôle « Politique documentaire et valorisation des collections » de la bibliothèque de l'Université Pierre-et-Marie-Curie, aux Lundis numériques de l'INHA (14 septembre 2015).
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
Support de l'intervention effectuée au cours de la séance dédiée aux lacs de données du séminaire "Nouveaux paradigmes de l'Archive" organisée par le DICEN-CNAM et les Archives nationales
L'Open Access et les Données de la Recherche dans le cadre du Programme Horiz...Agropolis International
La politique de libre accès de l'UE
Le projet pilote de libre accès aux données de la recherche (Open Research Data)
Cécile Adamolle, Annabelle Filatre, Hanka Hensens, Isabelle Nault, Chantal Salson, Christine Silvy, Marie-Violaine Tatry
Date : 09/2015, révision octobre 2016
1/ initiation avec le big Data
2/ Data warehouse VS Big Data
3/ Domaines d’utilisations
4/ Des connaissances importantes sur Hadoop
5/ Big Data et Aspect Mobile
Un PGD, qu'est-ce que c'est ? Pour quoi faire ? Comment ?
Un PGD sert surtout à se poser les bonnes questions et à adopter des méthodes rigoureuses de gestion pour documenter, stocker, responsabiliser, archiver, informer, et finalement partager les données scientifiques.
Le PGD est de plus en plus souvent recommandé ou même exigé par les financeurs, les éditeurs, les organismes scientifiques.
L’exposé présente les grands principes et principales étapes d’un PGD et les aides à la rédaction.
Cette intervention d'Hanka Hensens a eu lieu le 20 septembre 2018, dans le cadre des JeudIST de l'IRD Occitanie.
Hanka Hensens, responsable du Centre de Documentation IRD Occitanie, a animé depuis 2017 plusieurs ateliers sur les Plans de Gestion de Données en direction des scientifiques d’Agropolis. Elle forme étudiants et chercheurs depuis près de 20 ans à la recherche et à la gestion de l’information scientifique.
Accompagnement actif des chercheurs à la gestion et au partage des données de...Lesticetlart Invisu
Accompagnement actif des chercheurs à la gestion et au partage des données de la recherche
Thierry Beguiristain, OTELo
M-Christine Jacquemot-Perbal, Inist-CNRS
Big data, Intelligence artificielle, quelles conséquences pour les profession...Gautier Poupeau
Support du Webinaire organisé le 21 février par Ina Expert sur l'évolution du positionnement des professionnels de l'information dans les organisations face aux changements en cours que sont la montée en puissance des données au détriment du document, le big data et l'intelligence artificielle
Construire des outils pour la gestion des données de la recherche dans une co...Lesticetlart Invisu
Construire des outils pour la gestion des données de la recherche dans une communauté d’universités Aurore Cartier, Magalie Moysan et Nathalie Reymonet [Université Paris-Descartes, Université Paris-Diderot, Sorbonne Paris Cité]
Un plan de gestion de données (PGD ou DMP pour Data Management Plan) est un document qui spécifie quelles données sont collectées ou générées, et comment elles seront gérées, partagées et préservées pendant et après un projet. Le support de ce webinaire donne les clés pour pouvoir amorcer la rédaction d’un PGD en toute sérénité en présentant les enjeux et objectifs d’un PGD, son contenu et un outil d’aide à la rédaction : DMP OPIDOR.
Claire SOWINSKI est responsable du service formation-DoRANum de l’Inist-CNRS (Institut de l’Information Scientifique et Technique).
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...kmichel69
Ces dernières années ont vu se multiplier des plateformes d’échanges et de gestion d’information géolocalisées, prenant des formes diverses, qu’il s’agisse de catalogues de données géoréferencées ou de plateformes web SIG, souvent enrichies d’applications métiers. Beaucoup d’inventivité, d’innovation et donc d’énergie ont été mises au service de développements.
Ce séminaire se propose à partir de différentes expériences de revenir sur les usages de ces plateformes, en mettant en perspective l’ensemble du dispositif (les caractéristiques de la solution et les besoins initialement affichés, les usagers ciblés), et les utilisations effectives a posteriori, mais aussi en revenant sur les éventuelles conséquences de ces plateformes sur les pratiques professionnelles, sur les évolutions envisagées et à envisager tant pour les usages de type « consultation » que pour les usages de type « contribution ».
Réaliser un plan de gestion de données: guide de rédaction, 2015.
Ce document a été conçu afin d’accompagner les chercheurs et chargés de projets lors de la rédaction de plans de gestion de données (Data Management Plans, DMP). Sa structure s’appuie sur le modèle proposé par la Commission européenne dans le cadre d’Horizon 2020 et divers modèles de plans de gestion de données existants tels que celui de la National Science Foundation (NSF) ou de l’Interuniversity Consortium for Political and Social Research (ICPSR). Les champs requis par la Commission européenne sont signalés par un astérisque. Les exemples mentionnés dans ce document sont issus de guides existants.
Le stockage des données a toujours été une des problématiques les plus difficiles à maitriser. L’augmentation massive de la quantités de données disponibles, le phénomène Big Data, incite les sociétés à moderniser leur environnement décisionnel. Dès lors, beaucoup se posent la question du choix entre SQL et NoSQL. Microsoft, avec son offre SQL Server Parallel Data Warehouse 2012 réconcilie le meilleur des technologies actuelles. Un seul moto ‘Insights on Any Data of Any Size’
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesAgropolis International
Foire aux questions - FAQ sur les donnnées de la recherche
Fiche créée en septembre 2015 et révisée en octobre 2016
Qu'est-ce que l'ouverture des données (Open Data) ?
Quelles données préserver ?
Où déposer mes données ?
Comment définir les conditions de réutilisation de mes données ?
Et si mes données sont déjà déposées dans les réseaux sociaux (ResearchGate, Academia...) ?
Qu'est-ce qu'un jeu de données ?
Où rechercher des jeux de données ?
Qu'est-ce qu'un DOI ?
Comment citer un jeu de données ?
Qu'est-ce qu'un PGD ?
A quelles questions répond un PGD ?
De quels outils je dispose pour rédiger un PGD ?
Avec qui interagir pour élaborer un PGD ?
L'éthique du partage et moi ?
Auteurs : Cécile Adamolle, Annabelle Filatre, Hanka Hensens, Isabelle Nault, Chantal Salson, Christine Silvy, Marie-Violaine Tatry
Fiche créée en septembre 2015 et révisée en octobre 2016
Pérennisation et mise à disposition des données de l’Observatoire de recherch...Lesticetlart Invisu
Pérennisation et mise à disposition des données de l’Observatoire de recherche méditerranéen de l’environ nement (OSU-OREME)
Juliette Fabre et Olivier Lobry [OSU-OREME - CNRS]
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'informationAntidot
Toute organisation subit les limites de son système d’information : entrepôts de données cloisonnés, données hétérogènes, documents non structurés, thésaurus incomplets, taxonomies incohérentes…
Les utilisateurs en souffrent et attendent un véritable « accès unifié à l’information » : trouver l’information par les concepts plutôt que la chercher par les mots, naviguer aisément dans l’information, mieux l’exploiter en collaborant. L’entreprise doit évoluer vers un « espace informationnel enrichi », servant différents usages selon le profil ou la mission de chaque collaborateur.
La vision innovante d'Antidot permet d’aller bien au-delà de ce que permettent les approchent traditionnelles comme la « recherche fédérée » ou encore les « search based applications » car Antidot Information Factory et Antidot Finder Suite permettent de modéliser l’information, de capter, normaliser, décrire et agréger des données puis d’en inférer des informations nouvelles, facilement accessibles.
Intégrant nativement les technologies du web sémantique, Antidot apporte les solutions les plus en pointe dans le domaine et démontre à travers une réalisation emblématique - le projet ISIDORE du CNRS TGE Adonis - comment capter, remodeler et rendre accessible une information à forte valeur ajoutée.
Oxalide MorningTech #1 - BigData
1er MorningTech @Oxalide, animé par Ludovic Piot (@lpiot), le 15 décembre 2016.
Pour cette 1ère édition du Morning Tech nous vous proposons une overview sur un des thèmes du moment : le Big Data.
Au delà de ce buzz word nous aborderons :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et nous finirons par un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles
Subject: Oxalide's 1st MorningTech talk about BigData.
Date: 15-dec-2016
Speakers: Ludovic Piot (@lpiot, @oxalide)
Language: french
Lien SpeakerDeck : https://speakerdeck.com/lpiot/oxalide-morningtech-number-1-bigdata
Lien SlideShare : https://www.slideshare.net/LudovicPiot/oxalide-morningtech-1-bigdata
YouTube Video capture: https://youtu.be/7O85lRzvMY0
Main topics:
* Les grands enjeux du BigData
** les 3 V du Gartner : volume, variété, vélocité
* Le stockage des données
** datalake
** les technos
* L'ingestion des données
** ETL
** datastream
** les technos
* Les enjeux du compute
** map-reduce
** spark
** lambda architecture
* Démo d'une plateforme BigData sur AWS
* L'intelligence artificielle
** datascience exploratoire et notebooks,
** machine learning,
** deep learning,
** data pipeline
** les technos
* Pour aller plus loin
** La gouvernance des données
** La dataviz
1-Problématique
2-Définition du Big Data
3-Big Data et 3V
4-Data wahrehouse VS Big Data
5-Domaines d’utilisations
6-Les techniques de traitement
7-Big Data et Aspect Mobile
8-Conclusion
Similaire à Les entrepôts de données ou comment rendre les données trouvables accessibles et réutilisables (20)
The document discusses populating the GEONETCAB portal with capacity building resources. It provides an overview of GEONETCAB and describes its current achievements, including developing a typology and metadata standards for capacity building resources. The workshop objectives are to demonstrate how to search, create, edit and link capacity building resources in the GEONETCAB portal. Expected improvements include making the inventory more comprehensive and interconnecting portals to better share resources. A long term goal is developing a "capacity building system of systems" using brokered architecture to connect different capacity building databases.
This document discusses the EOPOWER Resource Facility, which aims to provide a centralized catalog of capacity building resources related to Earth observation. The resource facility allows users to discover and access these resources. It also allows providers to manage resource metadata and publish their descriptions. The document outlines the types of capacity building resources that could be included, such as organizations, programs, documents, software, and training. It also describes the technical aspects of the resource facility, including its use of ISO 19115 metadata standards and interoperability with the GEOSS registry. Finally, it proposes the development of a Capacity Building System of Systems to improve interconnectivity between this facility and other capacity building databases.
The document discusses establishing a Capacity Building System of Systems (CB Sos) to improve discovery and access to capacity building resources through interoperability between existing resource facilities. It proposes a brokered architecture that would allow existing systems to remain autonomous while being connected through mediation components. This would avoid duplicating efforts and provide a more comprehensive view of available materials. The CB Sos is being implemented through collaboration between the EOPOWER and IASON projects, with the goal of eventually involving other relevant GEO working groups.
This document summarizes a presentation about collaborating the EOPOWER project with the CEOS Resource Facility to make Earth observation capacity building resources more accessible. It provides an overview of EOPOWER's objectives to promote sustainable development through Earth observation applications. The presentation outlines the status of the collaboration between EOPOWER and CEOS to develop a system that allows various capacity building systems to share resources through a common architecture and portal. It identifies remaining tasks for EOPOWER and CEOS to further the collaboration by integrating additional content and resources.
The GEOCAB portal provides freely accessible information to help decision makers and scientists become more familiar with Earth observation applications and opportunities. It contains over 590 registered capacity building resources categorized by type and sustainable development area. Contributors include organizations funding and providing material on Earth observation inside and outside of GEO. The portal aims to make resources visible and useful to others, increase awareness of other organizations' capacity building work, and coordinate existing and future initiatives. Participation involves requesting an account and adding new resources using guidelines.
1) The document presents a semantic approach for improving an environmental data cataloguing service called MDweb by leveraging thematic and spatial reference bases.
2) It aims to address issues with existing cataloguing tools not exploiting thesauri or the interaction between thematic and spatial aspects. The approach develops mechanisms for query expansion, filtering, and semantic visualization of results.
3) Future work includes transitioning from a thesaurus to an ontology, developing user profiles, and enabling searches directly from the semantic network visualization.
Spatial Data Infrastructure involves data modeling, metadata, and web services for data access. Data modeling involves conceptualizing user needs, developing a data model, encoding the data, and publishing it. Metadata provides information about spatial data to improve discovery. Registry and discovery services allow querying metadata. Web services like WMS and WFS enable accessing and manipulating mapped features through standard interfaces.
Spatial Data Infrastructure (SDI) aims to provide access to harmonized geographic data through distributed information systems. Key components of an SDI include organizational governance, spatial data and metadata, geospatial services, technical infrastructure, and standards to ensure interoperability. Open standards like those from ISO and OGC provide interfaces and data models to allow disparate systems and data sources to work together efficiently for semantic and technical interoperability. Ensuring data quality and developing terminology to describe accuracy is also important for effective use of data in an SDI.
This document discusses mutualization of environmental data and knowledge through metadata and reference bases. It aims to facilitate information exchange between actors by developing common platforms. These platforms include a metadata service to catalog and share resources using standards like ISO 19115. They also provide reference bases like ontologies and thesauri to control vocabularies and spatial objects. This knowledge mutualization helps search and interpret data in its proper context. The goal is to optimize environmental monitoring, management and decision making by enabling easy access and understanding of diverse environmental information sources.
The document discusses building a structured database of capacity building resources based on an inventory from WP1 and WP2. It will design a UML model and link resources to business associations to aid navigation. The objectives are to provide online access to the resource inventory and stories for different users and share knowledge between resources. Conceptual analysis defined key concepts like a resource network typology. Forms were designed to input resource descriptions into the database based on the conceptual model. This covers general information, specific attributes depending on the resource type, and access constraints. The database will cover free and restricted access resources, with the latter including data access programs.
This document discusses metadata profiles for different themes in the NatureSDI+ project, including biogeographical regions, habitats and biotopes, and species distribution. It presents tables outlining mandatory, conditional, and optional metadata elements for each theme. It raises several questions about the level of detail needed for lineage information and observations, terminology harmonization, and how to describe species data and aggregation methods. The document identifies key points to discuss regarding metadata specificity and relevance for accurately describing datasets in different natural resource themes.
metadata profiles for protected sites. analysis and propositions for annex IIIDesconnets Jean-Christophe
This document discusses the development of a metadata profile for protected sites within the NatureSDI+ project. It describes work done so far to draft the metadata specification based on INSPIRE and other requirements. It outlines the current steps, which include reviewing and discussing the draft, analyzing new metadata elements from the Protected Sites data specification version 3.0, and conducting an initial analysis of metadata proposed for Annex III datasets. The document concludes by outlining plans to finalize the metadata specification draft by the next project milestone.
Metadata specification at work: some examples of INSPIRE use cases with a cat...Desconnets Jean-Christophe
This document discusses the use of metadata specifications and cataloging tools to enable data discovery and use. It provides examples of how metadata profiles can be developed based on community requirements to support specific use cases. One such profile, NatureSDI+, is implemented using the MDweb cataloging tool to allow discovery and viewing of protected site data. Several use cases are presented that demonstrate how MDweb can be used to catalog habitat and species data, search and summarize protected area information, and harvest metadata from other catalog services. The document highlights how metadata specifications, tools, and profiles work together to serve geospatial data users and support INSPIRE directives.
Si la baisse de la productivité est effective dans toutes les économies développées... elle est particulièrement marquée en France. Au niveau national, cet essoufflement touche tous les secteurs, et plus particulièrement celui de l’industrie, usuellement caractérisé par des gains de productivité élevés. Depuis la crise Covid, le secteur industriel contribue pour 35 % environ à cette perte, alors qu’il ne représente que 9,3 % de la valeur ajoutée nationale brute en 2023. Dans ce contexte, est-il possible de mener une politique de réindustrialisation du pays sans y associer un objectif de hausse des gains de productivité ?Non rappelle ce Cube. Au contraire, ces deux objectifs, jusqu’alors indépendants l’un de l’autre, sont désormais deux défis à relever conjointement. En analysant les différents explications à la baisse de celle-ci observée en France et dans les autres économies développées, ce Cube suggère que l’augmenter en parallèle d’une politique de réindustrialisation sous-entend une réallocation des facteurs de production vers les entreprises industrielles à fort potentiel. Elle suppose également une une meilleure affectation des ressources.
Dans un contexte où la transmission et l'installation d'agriculteurs sont des enjeux cruciaux pour la profession agricole, de nouveaux agriculteurs s'installent chaque année et, parmi eux, certains Bac+5 ou plus. Les cursus des écoles d'ingénieurs n'ont pas vocation à former de futurs agriculteurs. Pourtant, certains apprenants ayant suivi ces cursus BAC + 5, qu'ils soient ou non issus du milieu agricole, tentent l'aventure de l'entrepreneuriat agricole. Qui sont-ils ? Quelles sont leurs motivations et visions ? Comment travaillent-ils ?
Comprendre le vote aux élections européennes du 9 juin 2024
Les entrepôts de données ou comment rendre les données trouvables accessibles et réutilisables
1. 1
Les entrepôt de données
Ou comment rendre les données
trouvables, accessibles et
réutilisables ?
Jean-Christophe Desconnets – Géomaticien
IRD ESPACE-DEV
ORCID : https://orcid.org/0000-0002-4142-5289
2. • Introduction
• Partie 1 : les données de la recherche en environnement
• Quelques définitions autour des données
• Caractéristiques des données en environnement
• Partie 2 : notions et fonctionnalités des entrepôts de
données
• Notions d’entrepôts de données
• Fonctionnalités
• Outils
• Exemples
• Partie 3 : Discussions
• Valeurs ajoutées/Limites des démarches actuelles
• Complémentarité entrepôts vs dispositif de diffusion
• Mutualisation des efforts
2
Plan
3. Importance de mieux préserver les données et de les
rendre accessibles
(D) Predicted probability that the data were extant (either ‘‘shared’’ or ‘‘exist but unwilling to share’’) given that we received a useful
response. In all panels, the line indicates the predicted probability from the logistic regression, the gray area shows the 95% CI of this
estimate, and the red dots indicate the actual proportions from the data. http://dx.doi.org/10.1016/j.cub.2013.11.014
Environ 100%
Environ 20%
Perte de données de 17% / an
4. Exemple de constats dans le domaine océanographique*
● Effort d’observation important
● Une observation du milieu marin très distribuée,
malgré un effort de structuration : IR, SO et SNO, ...
● Implication de nombreux laboratoires répartis géographiquement et
thématiquement
● Des situations (degrés de maturité) différents
● Beaucoup de perte en ligne
● Exemple des campagnes à la mer (étude Européenne) :
environ 70% des résultats non accessibles, voire perdus après 10 ans :
changement de projet, d’affection, départ (retraite...)
* tiré de présentation ODATIS, 14/06/2018, G. Maudire, IFREMER)
5.
6. Partie 1 : les données de la recherche en
environnement
6
ou quelles données cibles pour les entrepôts de
données ?
7. 7
«Données de la recherche [..] enregistrements
factuels (chiffres, textes, images et sons), [..] sources
principales pour la recherche scientifique [..] reconnus
par la communauté scientifique comme nécessaires
pour valider des résultats de recherche. [..] » (OCDE,
2007)
Quelques définitions autour des données
Données d’intérêt, réutilisable pour
enrichir, compléter, étendre d’autres
jeux de données en vue d’améliorer
la connaissance de l’objet d’étude…
?
? ?
?
8. Quelques définitions autour des données : Données brutes -
données élaborées
• « Données brutes : recueillies sur un sujet à partir
d'observations ou de mesures, et qui n'ont pas
encore été traitées, validées ou triées. Sensées être
neutres et objectives et ne dépendant pas de leur
contexte de création, d’une analyse ou de leur
producteur » (Thessen & Patterson, 2011)
• Données élaborées ou dérivées :
ayant subi des opérations de
nettoyage, de sélection, de
traitement, d’analyse afin de
produire des résultats.
(Amitrano, Lejeune, &
Hobléa, 2017)
D’après Sylvie Cocaud. Cocaud et Aventurier 2017 :
http://dx.doi.org/10.15454/1.4993537478868977E12
9. 9
Big data vs Long tail of data
Distribution des données de la recherche
(Ferguson et al., 2014)
La longue queue des données
Données non structurées, non
numérisées, enfouies dans les PC,
historiques non rattachées à des
BD accessibles
Observatoires, pôles de
données, base de
données accessibles sur
le web
Big data
11. 11
Les données en environnement
• Spécificités : « données dynamiques », « longues séries »
◆ issues de dispositifs d’observation de nature diverses qui produisent
en permanence et sur le long terme
◆ Nécessité d’avoir de longues séries de données pour étudier les
phénomènes sur de longues périodes
SISMER, ODATIS)
AMMA-CATCH, OZCAR)
SPOT 6
12. 12
Les données en environnement
• Données spatio-temporelles
◆ Nature et représentation de la donnée : Temporalité et spatialité
induit le besoin d’outils et de services spécifiques pour valoriser, réutiliser les
données (visualisation, analyse, traitements…)
◆ Dans la gestion des données
• Maturité des outils, méthodologies et standards
• Formats de données, standards de métadonnées, services sur les données
• Cadre d’application : Directives INSPIRE
• Nombreuses implémentations existantes: plateformes d’accès, de traitements
13. 13
Les données en environnement : différences de
production des données
• Différents modes d’acquisition induisent divers
degrés hétérogénéités sur :
◆ organisation tout au long du cycle de vie
◆ les règles d’ouverture, les conditions d’utilisation
◆ chaine de production « pipeline » des données :
• manuelle
• Formalisée, automatisée, voire industrialisée
14. Partie 2 : notions et fonctionnalités des
entrepôts de données
14
15. Entrepôt de données : définition
Entrepôt de données ou EDD (ou base de données
décisionnelle ; en anglais, data warehouse ou DWH) désigne
une base de données utilisée pour collecter, ordonner, journaliser
et stocker des informations provenant de base de données
opérationnelles et fournir ainsi un socle à l'aide à la décision en
entreprise.
Wikipédia
≠
≠
https://cat.opidor.fr/index.php/Description_d%27un_service : Cat OPIDoR, wiki des services dédiés aux données de la
recherche)
16. 16
Entrepôt de données : définition
Service en ligne permettant le dépôt, la description,
la conservation, la recherche et la diffusion des jeux
de données.
Entrepôt disciplinaire / institutionnel / ouvert à toutes disciplines
D’après Cocaud et Aventurier 2017
http://dx.doi.org/10.15454/1.4993537478868977E12
18. Entrepôt de données dans le cycle de vie
de la donnée
Cycle de vie de la donnée
(CatOpidor)
Stades du cycle de vie dans lesquels un
entrepôt de données intervient
19. Fonctionnalités des entrepôts : dépôt et conservation
des données
• Téléchargement / import de
fichiers :
◆ données + documents
complémentaires
◆ Limites / taille des fichiers,
formats acceptés, données
publiées…
◆ Via IU ou API
• Organisation des données
en collections
• Conservation (stockage
sécurisé + archivage à long
terme)
D’après Cocaud et Aventurier
2017
20. Fonctionnalités des entrepôts : identification pérenne
des données
• Attribution d’un identifiant au
moment du dépôt
◆ Au jeu dans son ensemble,
◆ +/- à chaque version du jeu de
données
• Intégration possible d’identifiant
préexistant chez certains
entrepôts (ex : Zenodo)
Données extraites de re3data.org le
19/05/2017 : total = 2042 entrepôts
D’après Cocaud et
Aventurier 2017
21. Fonctionnalités des entrepôts :
description des données
• Métadonnées
◆ Schémas de métadonnées
• génériques
• spécifiques à un domaine
◆ Qualité des métadonnées
• vocabulaires contrôlés (import
ou accès à des vocabulaires
externes)
◆ Saisie, import via IU vs API
• Documentation
complémentaire
• Possibilité de listes contrôlées
Données extraites de re3data.org le 29/04/2018 : total =
2042 entrepôtsD’après Cocaud et
Aventurier 2017
22. Fonctionnalités des entrepôts : contrôle des droits
d’accès aux données, conditions d’utilisation et licences
22
• Droit d’accès aux données :
◆ téléchargement libre (open)
◆ Embargo
◆ demande d’accès (restricted), guestbook
◆ pas de téléchargement possible (closed)
• Génération d’URL privé parfois proposé
• Attribution d’une licence à chaque jeu de données
◆ Saisie libre vs liste fermée
• Attention aux entrepôts qui imposent une licence unique
23. Fonctionnalités des entrepôts : recherche, affichage,
export des (méta)données
23
• Recherche
◆ simple et/ou avancée : dans les métadonnées, parfois dans les
données,
◆ Graphique (zone géographique, structure molécule…)
◆ Navigation et affinage par facettes
• Affichage
◆ des métadonnées
• Liens avec d’autres datasets, avec des publications
• Génération de la citation
◆ des données (prévisualisation, selon format)
• Exports
◆ métadonnées (≠ formats),
◆ téléchargement des données
24. Fonctionnalités des entrepôts : exploration et
visualisation des données
24
• Outils d’analyse ou de
visualisation
◆ TwoRavens (Analyse de
données tabulaires)
◆ WorldMap (visualisation de
données à référence
spatiale)
◆ …
25. Fonctionnalités des entrepôts : découverte, visibilité
25
• Exposition des métadonnées via OAI-PMH ou dans un triple
store RDF (Linked data)
• API pour la recherche et l’accès (ex. SWORD sur dataverse)
• Liaison avec d’autres ressources :
◆ Ex : IsCitedBy, Cites, … qui sont les valeurs possibles de la propriété relationTypede la
métadonnée relatedIdentifier
• Statistiques d’usage de ses données
◆ Nombre d’affichages et de téléchargements, datasets les + téléchargés, altmetrics, …
26. • Les entrepôts sont scannés par des outils de recherche spécifiques
◆ Data Cite search
◆ Data Citation Index (Thomson Reuters)
◆ Google Dataset Search
◆ Data Search (Elsevier)
• Peuvent diffuser leurs données via le protocole d’échange standard
OAI-PMH
D’après Cocaud et Aventurier 2017
et moissonnés par des catalogues, intégrateurs, infrastructures européennes
de données… de plus en plus nombreux
Intérêt des entrepôts pour la visibilité des données
27. 27
Création ou utilisation d’un entrepôt de données (existant)
• Outils open source sur étagère
◆ Dataverse (https://dataverse.org/, Harvard University)
◆ Nesstar (http://www.nesstar.com/, Norvegian centre for
research Data )
◆ CKAN (https://ckan.org/, Open Knowledge Foundation)
• Revue et comparatif d’entrepôts de
données*
◆ Étude qui analyse les caractéristiques
fonctionnelles d’entrepôts et leur gouvernance
dont le modèle économique
* A Comparative Review of Various Data Repositories
https://dataverse.org/blog/comparative-review-various-data-repositories
Présentation Dataverse (Dimitri Szabo, INRA)
:https://drive.google.com/file/d/13k6SLYEzWpM2lcVndvxfBWO67rc86bJc/view?usp=sharing
28. 28
Choix d’un entrepôt pour déposer ses données
• de la discipline dont relève la recherche
◆ GBIF, DRYAD, Genbank, UniProtKB, Protein Data Bank in Europe
(PDBe)…etc
• De l’institution
données n’ayant pas vocation à aller dans un entrepôt disciplinaire
• Des bailleurs
◆ Wellcome Trust Data repositories (13 entrepôts recommandés)
◆ H2020 : entrepôt garantissant la gratuité de l’accès, de l’extraction,
de l’exploitation, de la reproduction et de la dissémination.
• des revues pour les données qui seront publiées
◆ Recommandent de + en + le dépôt dans un entrepôt disciplinaire (ou à
défaut généraliste), voire intègrent un entrepôt dans le processus de
publication (Nature + Figshare, Open Journal System + Dataverse…)
• Nature : +90 entrepôts recommandés
• CellPress : liste par type de données
DataSuds
29. 29
Entrepôts de données en France: état des lieux
• Selon CatOpidor : wiki des services dédiés aux
données de la recherche (géré et hébergé par Inist-
CNRS)
◆ 53 entrepôts de données dont
◆ 32 indexés « Science & technologie » (physique,
chimie, informartique, sc. Univers, Sc. Terre,…)
◆ 2 indexés « Science de la terre »
33. • Visibilité, partage et accès aux données des UMR, LMI,…
• Maîtrise de la diffusion des données (licence, niveau
d’accès…)
• Ethique : rendre les données plus facilement accessible à
vos partenaires du sud, obtenir leur accord pour la
diffusion
• Valorisation : être visible pour susciter des collaborations
domaine de la recherche et secteur privé
33
Enjeux pour l’IRD et la science au Sud
dataverse.ird.fr
34. Une science ouverte au Sud
34
• Enjeux scientifiques et sociétaux
• Ethique et maîtrise de la diffusion des données
re3data.org - Registry of Research Data Repositories. https://doi.org/10.17616/R3D last accessed: 2019-09-04
Cartographie des entrepôts de données selon re3data.org
(09/2019)
35. 35
Coordonner les actions et interconnecter les
dispositifs de données
Open Source
Open Data
Open Access
Chercheurs
38. 38
Ensemble de données, attribution de DOI et citation
dataverse.ird.fr
Métadonnées
Export
citation
Accès
fichiers
Licence
Identifiant
39. 39
Processus de dépôt
dataverse.ird.fr
0
◆Un administrateur des données forme et donne les
droits au scientifique
1
◆Le scientifique dépose et décrit ses données
◆Support en ligne sur data.ird.fr
2
◆Le jeu de données est vérifié, validé et publié
3
◆Le jeu de données est présenté sur l’entrepôt
DataSuds
40. 40
Les plus de Dataverse
dataverse.ird.fr
Attribution de DOI
Gestion des dépôts
par le scientifique
Métadonnées
adaptées à la
discipline
Autorisation
Restriction d’accès
si nécessaire
Organisation en
arborescence
Lien provisoire
sécurisé pour les
reviewers
Fédération
d’identité de l’ESR
+ Partenaires
Moissonnage
Gestion fine des
droits utilisateur
42. 42
Un projet collectif et transversal
Projet MIDN –IST/MCST – DDUNI, avec l’appui de :
DAJ, DMOB (Service Innovation et Valorisation)
et DRH (Service Développement des talents)
✔ 1 administrateur de données : Luc Decker, appuyé par un
réseau de compétences
⮚ Animation du réseau des référents et administrateurs
⮚ Appui et formation des irdiens et des partenaires au Sud
⮚ Qualité, maintien et évolution de DataSuds
✔ 1 adresse mail data@ird.fr
✔ 1 site support, IRD Data : data.ird.fr
✔ 1 entrepôt, DataSuds : dataverse.ird.fr
43. 43
Une organisation participative
⮚ 4 réunions de recueil de besoins
⮚ 3 datathons sur 2 Délégations Régionales (dépôt de
données par les scientifiques après sensibilisation)
⮚ 21 administrateurs de 8 unités formés
(programme en cours)
⮚ 53 inscrits à la liste de diffusion des
administrateurs de DataSuds : dataverse-
referents@listes.ird.fr
44. 44
Tous acteurs, tous responsables
dataverse.ird.fr
Les décisions sont déléguées au plus près de la recherche.
Les référents nommés dans chaque structure par leur
responsable et formés par l’équipe Data IRD :
➢ décident du workflow des données,
➢ forment si besoin des administrateurs de projet ou d’équipe
➢ conseillent les scientifiques de leur unité
➢ participent à la réflexion et à l’évolution du dispositif
45. 45
Entrepôts de données : Quelques exemples en plus
• Atelier Dataverse pour les entrepôts de données
◆ "Expérience DATAVERSE INRA »
◆ "Expérience DATAVERSE CIRAD »
◆ "Expérience DATAVERSE Sciences Po »
https://rdafrance2019.sciencesconf.org/
47. 47
Entrepôts vs plateforme d’accès
Entrepôt de données Plateforme d’accès aux données
Hétérogène, hétéroclite Homogène (étendue, représentation)
longue Réduite à un projet, à un dispositif de
recherche (Obs, Infrastructure…)
Réduite : Recherche, téléchargement Spécifiques et pointues (requêtes,
analyse, traitements…)
Avancée : rôles, workflow de
publication
Plus frustre
Préservation, valorisation sur de larges
champs disciplinaires
Diffusion, partage sur un champ
thématique ou disciplinaire restreint
Nature des données
(format, représentation, étendue)
Fonctionnalités utilisateur final
Administration
Objectifs
Temporalité
48. 48
En résumé : valeurs ajoutées d’un entrepôt de
données
Avant tout, un dispositif numérique pour
• collecter et structurer des métadonnées
• Préserver
• Partager au delà de la discipline
• Publier (DOI, Licence, ..)
• Valoriser les travaux des chercheurs, notamment citer les
données
Apportant une maîtrise du workflow de publication des
données au delà des administrateurs ou data manager
49. 49
En résumé : faiblesses au regard de la spécificité de
nos données et nos besoins
Structurer sur une vision documentaire des données
• positionnement des entrepôts de données en fin de cycle de
vie
• vision objet de la donnée (fichiers..) rend difficile son
exploitation par d’autres plateformes, pour des services à
valeur ajoutée (visualisation, fouille de données, traitements,
analyse statistiques)
• Réelle réutilisation, valorisation des données (pas que du
chercheur) ???
Identification et workflow adaptées à des données statiques
• Pas suffisante pour des données spatio-temporelles dynamiques, voire temps réel
• Créer DOI sur des séries temporelles pose problème et doit être investi
50. 50
Complémentarité entrepôts vs plateforme d’accès
Ou comment améliorer nos plateforme d’accès aux données ?
en les dotant des fonctionnalités des entrepôts
◆ Citabilité des données via les DOI
◆ Maitrise des aspects réglementaires de diffusion
◆ Workflows de publication mieux formalisés, implémentés
◆ Potentiel de diffusion au delà de la discipline (api vers
schema.org, datacite, crossref…)
◆ Préconisations plus forte pour utiliser les systèmes
d’identification pour mettre les données avec les publications, les
acteurs
51. 51
Structuration et mutualisation des forces autour des
entrepôts de données
• Animation de la communauté
◆ Atelier DataVerse RDA France
◆ Atelier aux Journées Nationales Science Ouverte
• Groupe entrepôt de données RDA – France
• ANR Flash BRIDGE
◆ Gouvernance inter instituts
◆ Fairisation des entrepôts de données
• Etude de faisabilité pour le MESRI – service mutualisé d’un
service générique d’accueil et de diffusion des données simples