SlideShare une entreprise Scribd logo
1  sur  20
Télécharger pour lire hors ligne
I D E N T I F I C A T I O N D E S
D O N N É E S
C A S D ’ U T I L I S AT I O N
20/21 janvier 2015
Remarque préalable
The Power of PowerPoint | thepopp.com 3
P I D C L A S S I Q U E / P I D R D A ?
PID CLASSIQUEPID correspondant à une requête dans le système de données
PID RDA
PID correspondant à une version d’un jeu de données ou à une
collection de jeux de données
Les acteurs
L E S A C T E U R S
STEVEN CHRIS BRAD GEORGE
Responsable de plusieurs centres
de données dans le domaine de la
paléontologie, Steven veut
pouvoir promouvoir leur
reconnaissance dans les articles.
PI chevronné, Chris produit de
nombreux jeux de données, qu’il
corrige de temps en temps.
Il aime que son travail soit utilisé
mais il souhaite savoir par qui
Scientifique accompli, Brad est
désireux d’accompagner ces
articles de références précises à
des jeux de données qu’il a
récupérés
Toujours méfiant du travail du
travail de Brad, George veut
vérifier les résultats obtenus par
celui-ci.Quoi d’autre ?
5
L E S A C T E U R S
MATT BEN
Responsable informatique d’un
centre de données de Steven
Responsable informatique d’une
agence d’enregistrement
(RegistrationAgency) de PID
6
STEVEN
7
• Que la base de données de son centre puisse être référencée par des articles
scientifiques.
•Que les lecteurs de ces articles puissent arriver sur le portail de son centre de données
•Savoir combien d’articles citent sa base de données
OBJECTIFS
• Utilisation de PID classiques (on ne cite pas de données)
COMMENT PROCÉDER ?
Q U E LQ U E S É L É M E N T S …
8
• Solution simple à mettre en œuvre
• Solution également valable pour citer les larges collections et non les données qu’elles contiennent
•La landing page peut être la page d’accueil d’un portail de programme, la page d’accueil du portail de données,…
• Le PID peut être significatif
•Le préfixe du PID est celui du centre de données
• Le cycle de vie du PID peut être géré par un outil qui masque l’API Datacite
• Le seul engagement est de maintenir la landing page accessible tant que le PID est actif
• Le suivi de l’utilisation des PID dans des articles est-il possible ?
CHRIS
9
• Mettre à disposition de nouveaux jeux de données
• Corriger des jeux de données existants
• Mesurer l’utilisation de ses jeux de données
OBJECTIFS
• Documentation/modification de la fiche de métadonnées
• Intégration des données
• Si PID classique, génération et publication du PID correspondant à chacune des versions
publiables de son jeu de données
• Si PID RDA, cette génération est optionnelle
• La mesure de l’utilisation des jeux de données est effectuée de la même manière que
Steven
COMMENT PROCÉDER ?
Q U E LQ U E S É L É M E N T S …
10
• La fiche de métadonnées du jeux doit contenir les informations sur la version initiale et les différentes versions successives
(corrections responsables des différentes versions, dates des versions…)
• Si PID classique,
•La landing page des différents PID est la fiche de métadonnées du jeu de données
• Le PID peut être significatif
• Un lien père/fils entre certains PID peut être mis en place
• La question de la granularité du jeu de données se pose
• Si PID RDA,
• La landing page du PID permet de consulter les différentes fiches de métadonnées
BRAD
11
• Citer facilement les jeux de données (horodatés) qu’il a récupérés et utilisés dans son
travail dans un objectif de reproductibilité
OBJECTIFS
• Si PID classique, Brad cite les PID qu’il trouve dans les fiches de métadonnées qui lui ont
permis de télécharger les données. En cas d’absence, il cite les PID des collections de haut
niveau.
• Si PID RDA, Brad obtient les PID correspondant à chaque requête lui ayant permis de
récupérer les données par le portail. Brad décide déclenche la publication.
COMMENT PROCÉDER ?
•Bien évidemment, physiquement, Brad et Chris peuvent être la même personne
REMARQUE
Q U E LQ U E S É L É M E N T S …
12
• Si PID classique,
• La citation potentiellement longue (composée de plusieurs PID) ou d’une collection de plus haut niveau
• La landing page de chaque PID est la fiche de métadonnée du jeu de données ou la collection de plus haut niveau
• Dans son article, Brad doit généralement indiquer de manière textuelle le filtre il a appliqué sur les données récupérées
• Brad peut demander à Matt de générer un extrait des données qu’il a utilisées afin de les préserver en l’état
• Si PID RDA,
• La citation est courte, voire réduite à un seul PID. Un filtre textuel n’est pas obligatoire.
• Le PID n’est pas significatif
• Deux PID différents pourrait porter sur les mêmes données
• La granularité du jeu de données est définie par son utilisation
• Si Brad veut citer des jeux de données venant de plusieurs centre de données
• Soit il cite plusieurs PID
• Soit il cite un PID de PID
GEORGE
13
• Récupérer les données et les métadonnées d’après un PID d’article
OBJECTIFS
• Si PID classique, re-exécution manuelle de l’extraction des données à partir des landing
pages des DOI. Filtrage manuel probable
• Si PID RDA, re-exécution automatique de l’extraction à partir de la landing page du DOI
COMMENT PROCÉDER ?
M AT T
• Mettre en place le système de gestion des données/métadonnées
• Mettre en place le mécanisme de citation
•Vérification régulière des PID
OBJECTIFS
• Met en place la politique de gestion des versions (élaborée avec les scientifiques)
•Si PID classique, certaines stratégies hybrides sont généralement mise en place :
• Créations de snapshots (et donc de PID pour ces snapshots)
• Créations d’extraits correspondants à des données publiées
• Utilisation de DOI fragments (solution hybride classique/RDA)
• Si PID RDA,
• Met en place le query-store
• Assure la pérennité du couple PID/requête ainsi que la pérennité de son
exécution
COMMENT PROCEDER
14
Q U E LQ U E S É L É M E N T S …
15
• Si des snapshots ou des extraits sont mis en place, il faut pouvoir assurer leur téléchargement, leur migration technique, leur
stockage
• En cas de PID RDA, la pérennité de l’exécution des requêtes en cas de migration physique des données est extrêmement
compliquée (la migration aussi…).
BEN
16
•Assurer la pérennité du lien PID / Landing page.
• Proposer une gestion du cycle de vie des PID
•Proposer un service de suivi des PID
OBJECTIFS
• Pérennisation du lien PID/Landing page similaire à une pérennisation de données
•Accords avec les revues
•…
COMMENT PROCÉDER ?
Q U E LQ U E S É L É M E N T S …
17
• La pérennité du couple PID/landing page est beaucoup plus simple à mettre en place pour Ben que celle du couple PID/requête
pour Matt.
Conclusion
1 2
3 4
Détailler les cas d’utilisation
Dérailler les liens avec les autres aspects du cycle
de vie de la données/métadonnées
Avis des scientifiques
Implémentations &
Prototypes
COMMENT
COMMENCER ?
19
Définir une politique de citation commune
Merci
www.aeris-data.fr
Modèle de présentation : ttp://thepopp.com/ - Jun Akizak

Contenu connexe

Similaire à Cas d'utilisation de la citation de données

Morning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMorning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast Connect
MongoDB
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
Ludovic Piot
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Denodo
 

Similaire à Cas d'utilisation de la citation de données (20)

Morning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMorning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast Connect
 
SEO AnswerBox, une méthode inédite pour interroger vos données et créer vos d...
SEO AnswerBox, une méthode inédite pour interroger vos données et créer vos d...SEO AnswerBox, une méthode inédite pour interroger vos données et créer vos d...
SEO AnswerBox, une méthode inédite pour interroger vos données et créer vos d...
 
Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
Découvrez le parcours de vos données : lignage de données de bout en bout ...
Découvrez le parcours de vos données : lignage de données de bout en bout ...Découvrez le parcours de vos données : lignage de données de bout en bout ...
Découvrez le parcours de vos données : lignage de données de bout en bout ...
 
Support Formation vidéo: MongoDB pour débutant
Support Formation vidéo: MongoDB pour débutantSupport Formation vidéo: MongoDB pour débutant
Support Formation vidéo: MongoDB pour débutant
 
Comment passer de SEO à SEO + data
Comment passer de SEO à SEO + dataComment passer de SEO à SEO + data
Comment passer de SEO à SEO + data
 
Journées SQL Server - Optimisation SQL Server pour SharePoint
Journées SQL Server - Optimisation SQL Server pour SharePointJournées SQL Server - Optimisation SQL Server pour SharePoint
Journées SQL Server - Optimisation SQL Server pour SharePoint
 
Gestion des données d'entreprise à l'ère de MongoDB et du Data Lake
Gestion des données d'entreprise à l'ère de MongoDB et du Data LakeGestion des données d'entreprise à l'ère de MongoDB et du Data Lake
Gestion des données d'entreprise à l'ère de MongoDB et du Data Lake
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Commencer avec Hadoop
Commencer avec HadoopCommencer avec Hadoop
Commencer avec Hadoop
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
 
1-Intro to DB.pptx
1-Intro to DB.pptx1-Intro to DB.pptx
1-Intro to DB.pptx
 
Embarquer une base de données locale dans vos logiciels et applications mobiles
Embarquer une base de données locale dans vos logiciels et applications mobilesEmbarquer une base de données locale dans vos logiciels et applications mobiles
Embarquer une base de données locale dans vos logiciels et applications mobiles
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
 
Utc data publica1
Utc data publica1Utc data publica1
Utc data publica1
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data Virtualization
 
Denodo 2022 : le meilleur time-to-Data du marché
Denodo 2022 : le meilleur time-to-Data du marchéDenodo 2022 : le meilleur time-to-Data du marché
Denodo 2022 : le meilleur time-to-Data du marché
 
Importer 500 millions de données de MySQL vers Neo4j
Importer 500 millions de données de MySQL vers Neo4jImporter 500 millions de données de MySQL vers Neo4j
Importer 500 millions de données de MySQL vers Neo4j
 
Comment connecter les données d'ingénierie? Open Services for Lifecycle Colla...
Comment connecter les données d'ingénierie? Open Services for Lifecycle Colla...Comment connecter les données d'ingénierie? Open Services for Lifecycle Colla...
Comment connecter les données d'ingénierie? Open Services for Lifecycle Colla...
 

Cas d'utilisation de la citation de données

  • 1. I D E N T I F I C A T I O N D E S D O N N É E S C A S D ’ U T I L I S AT I O N 20/21 janvier 2015
  • 3. The Power of PowerPoint | thepopp.com 3 P I D C L A S S I Q U E / P I D R D A ? PID CLASSIQUEPID correspondant à une requête dans le système de données PID RDA PID correspondant à une version d’un jeu de données ou à une collection de jeux de données
  • 5. L E S A C T E U R S STEVEN CHRIS BRAD GEORGE Responsable de plusieurs centres de données dans le domaine de la paléontologie, Steven veut pouvoir promouvoir leur reconnaissance dans les articles. PI chevronné, Chris produit de nombreux jeux de données, qu’il corrige de temps en temps. Il aime que son travail soit utilisé mais il souhaite savoir par qui Scientifique accompli, Brad est désireux d’accompagner ces articles de références précises à des jeux de données qu’il a récupérés Toujours méfiant du travail du travail de Brad, George veut vérifier les résultats obtenus par celui-ci.Quoi d’autre ? 5
  • 6. L E S A C T E U R S MATT BEN Responsable informatique d’un centre de données de Steven Responsable informatique d’une agence d’enregistrement (RegistrationAgency) de PID 6
  • 7. STEVEN 7 • Que la base de données de son centre puisse être référencée par des articles scientifiques. •Que les lecteurs de ces articles puissent arriver sur le portail de son centre de données •Savoir combien d’articles citent sa base de données OBJECTIFS • Utilisation de PID classiques (on ne cite pas de données) COMMENT PROCÉDER ?
  • 8. Q U E LQ U E S É L É M E N T S … 8 • Solution simple à mettre en œuvre • Solution également valable pour citer les larges collections et non les données qu’elles contiennent •La landing page peut être la page d’accueil d’un portail de programme, la page d’accueil du portail de données,… • Le PID peut être significatif •Le préfixe du PID est celui du centre de données • Le cycle de vie du PID peut être géré par un outil qui masque l’API Datacite • Le seul engagement est de maintenir la landing page accessible tant que le PID est actif • Le suivi de l’utilisation des PID dans des articles est-il possible ?
  • 9. CHRIS 9 • Mettre à disposition de nouveaux jeux de données • Corriger des jeux de données existants • Mesurer l’utilisation de ses jeux de données OBJECTIFS • Documentation/modification de la fiche de métadonnées • Intégration des données • Si PID classique, génération et publication du PID correspondant à chacune des versions publiables de son jeu de données • Si PID RDA, cette génération est optionnelle • La mesure de l’utilisation des jeux de données est effectuée de la même manière que Steven COMMENT PROCÉDER ?
  • 10. Q U E LQ U E S É L É M E N T S … 10 • La fiche de métadonnées du jeux doit contenir les informations sur la version initiale et les différentes versions successives (corrections responsables des différentes versions, dates des versions…) • Si PID classique, •La landing page des différents PID est la fiche de métadonnées du jeu de données • Le PID peut être significatif • Un lien père/fils entre certains PID peut être mis en place • La question de la granularité du jeu de données se pose • Si PID RDA, • La landing page du PID permet de consulter les différentes fiches de métadonnées
  • 11. BRAD 11 • Citer facilement les jeux de données (horodatés) qu’il a récupérés et utilisés dans son travail dans un objectif de reproductibilité OBJECTIFS • Si PID classique, Brad cite les PID qu’il trouve dans les fiches de métadonnées qui lui ont permis de télécharger les données. En cas d’absence, il cite les PID des collections de haut niveau. • Si PID RDA, Brad obtient les PID correspondant à chaque requête lui ayant permis de récupérer les données par le portail. Brad décide déclenche la publication. COMMENT PROCÉDER ? •Bien évidemment, physiquement, Brad et Chris peuvent être la même personne REMARQUE
  • 12. Q U E LQ U E S É L É M E N T S … 12 • Si PID classique, • La citation potentiellement longue (composée de plusieurs PID) ou d’une collection de plus haut niveau • La landing page de chaque PID est la fiche de métadonnée du jeu de données ou la collection de plus haut niveau • Dans son article, Brad doit généralement indiquer de manière textuelle le filtre il a appliqué sur les données récupérées • Brad peut demander à Matt de générer un extrait des données qu’il a utilisées afin de les préserver en l’état • Si PID RDA, • La citation est courte, voire réduite à un seul PID. Un filtre textuel n’est pas obligatoire. • Le PID n’est pas significatif • Deux PID différents pourrait porter sur les mêmes données • La granularité du jeu de données est définie par son utilisation • Si Brad veut citer des jeux de données venant de plusieurs centre de données • Soit il cite plusieurs PID • Soit il cite un PID de PID
  • 13. GEORGE 13 • Récupérer les données et les métadonnées d’après un PID d’article OBJECTIFS • Si PID classique, re-exécution manuelle de l’extraction des données à partir des landing pages des DOI. Filtrage manuel probable • Si PID RDA, re-exécution automatique de l’extraction à partir de la landing page du DOI COMMENT PROCÉDER ?
  • 14. M AT T • Mettre en place le système de gestion des données/métadonnées • Mettre en place le mécanisme de citation •Vérification régulière des PID OBJECTIFS • Met en place la politique de gestion des versions (élaborée avec les scientifiques) •Si PID classique, certaines stratégies hybrides sont généralement mise en place : • Créations de snapshots (et donc de PID pour ces snapshots) • Créations d’extraits correspondants à des données publiées • Utilisation de DOI fragments (solution hybride classique/RDA) • Si PID RDA, • Met en place le query-store • Assure la pérennité du couple PID/requête ainsi que la pérennité de son exécution COMMENT PROCEDER 14
  • 15. Q U E LQ U E S É L É M E N T S … 15 • Si des snapshots ou des extraits sont mis en place, il faut pouvoir assurer leur téléchargement, leur migration technique, leur stockage • En cas de PID RDA, la pérennité de l’exécution des requêtes en cas de migration physique des données est extrêmement compliquée (la migration aussi…).
  • 16. BEN 16 •Assurer la pérennité du lien PID / Landing page. • Proposer une gestion du cycle de vie des PID •Proposer un service de suivi des PID OBJECTIFS • Pérennisation du lien PID/Landing page similaire à une pérennisation de données •Accords avec les revues •… COMMENT PROCÉDER ?
  • 17. Q U E LQ U E S É L É M E N T S … 17 • La pérennité du couple PID/landing page est beaucoup plus simple à mettre en place pour Ben que celle du couple PID/requête pour Matt.
  • 19. 1 2 3 4 Détailler les cas d’utilisation Dérailler les liens avec les autres aspects du cycle de vie de la données/métadonnées Avis des scientifiques Implémentations & Prototypes COMMENT COMMENCER ? 19 Définir une politique de citation commune
  • 20. Merci www.aeris-data.fr Modèle de présentation : ttp://thepopp.com/ - Jun Akizak