SlideShare une entreprise Scribd logo
1  sur  41
GB22 TRAINING EVENT FOR NODES – 4 OCTOBER 2015
Séance 02: Le paysage de la publication
de données en 2015
Laura Russell
INDEX
Le « paysage » de la publication des données
La publication des données sur la biodiversité
Les types de données
Les normes de données
La normalisation des données et la qualité des
données
Les méthodes de publication des données
La -promotion de la publication de données
Les cas d'utilisation
LE PAYSAGE DE LA PUBLICATION DES DONNÉES
DiGIR / TAPIR
très utilisé
pour publier
des données
sur la
biodiversité
Idée de
publier à base
de fichier
texte simple
et comprimé
présenté à
TDWG
Le GBIF lance
l’ IPT 1,0
Le GBIF
réaménage l’
IPT
Le GBIF lance
l’ IPT 2.0
La publication
des données
est enseigné à
la formation
des nœuds
Le points
nodaux et les
agrégateurs
commencent
à installer et à
utiliser l’ IPT
Les jeux de
données de
type
occurrence et
checklist ainsi
que le
nombre
d’installations
de l’IPT
montrent une
croissance
continue
2008 2008 2009 2010 2011 2011
2012

2011
LE PAYSAGE DE LA PUBLICATION DES DONNÉES -
STATISTIQUES
http://www.gbif.org/ipt/stats
No. d’installations de l’IPT enregistrées avec le GBIF
LE PAYSAGE DE LA PUBLICATION DES DONNÉES -
STATISTIQUES
No. de jeux de données publiées avec l’IPT
LE PAYSAGE DE LA PUBLICATION DES
DONNÉES EN 2015
L'engagement continue du
GBIF à améliorer l'accès
aux données de la
biodiversité
Le raffinement et
l'expansion des normes et
des logiciels de
publication
L'évolution des normes
sociales
La plupart des données sont
encore publiées avec le
« core » simple pour
occurrences
Les portails n’ont pas encore
les fonctionnalités pour
soutenir les données plus
riches
De nombreuses institutions
ont encore besoin d’ être
convaincues de publier des
données sur la biodiversité
http://www.gbif.org/page/82104
INDEX
Le « paysage » de la publication des données
La publication des données sur la biodiversité
Les types de données
Les normes de données
La normalisation des données et la qualité des
données
Les méthodes de publication des données
La -promotion de la publication de données
Les cas d'utilisation
QU'EST-CE QUE DES DONNÉES DE BIODIVERSITÉ?
Texte numérique ou donnée multimédia détaillant les
faits sur l'instance d’occurrence d'un organisme, à
savoir sur le quoi, où, quand, comment et par qui
de l’occurrence et de l'enregistrement.
QU'EST CE LA PUBLICATION DE DONNÉES?
La « publication » consiste à rendre des jeux de données de
la biodiversité accessibles au public et découvrable, sous une
forme standardisée, via un point d'accès, généralement une
adresse Web (URL).
IPT
∞
LES TYPES DE DONNÉES SUR LA BIODIVERSITÉ
http://www.gbif.org/publishing-data/summary#datatypes
Checklistes
Occurrences
Metadonnées
LES TYPES DE DONNÉES SUR LA BIODIVERSITÉ –
DONNÉES D’ ÉCHANTILLONNAGE
http://www.gbif.org/newsroom/news/sample-based-data
Échantillonnage
LES NORMES OU “STANDARDS”
http://www.tdwg.org/standards/
ABCD Access to Biological Collection
Data (2005)
DwC Darwin Core (2009)
AC Audubon Core Multimedia
Resources Metadata Schema (2013)
NCD Natural Collection Descriptions
(Draft)
DARWIN CORE
http://rs.tdwg.org/dwc
recordedBy: Une liste (concaténée et séparée) de noms de personnes, groupes ou
organisations responsables de l'enregistrement de l'occurrence originale. Le collecteur
ou observateur primaire, en particulier celui qui applique un identifiant personnel
(RecordNumber), doit être cité en premier. Exemples: « José E. Crespo », « Oliver P.
Pearson | Anita K. Pearson »
DARWIN CORE SIMPLE
SIMPLEDWC est une spécification
pour une façon particulière d'utiliser
les termes Darwin Core - de
partager des données sur les
taxons et leurs occurrences avec
une structure simple - et
probablement ce que veux dire
quelqu'un qui suggère de "formater
vos données conformément à la
Darwin Core".
http://rs.tdwg.org/dwc/terms/simple/index.htm
LES ARCHIVES DARWIN CORE
Une Archive Darwin Core (DwCA) est la
représentation en texte des données formatées à
Darwin Core.
Une DwCA est un fichier compressé contenant un
minimum de trois fichiers.
http://rs.tdwg.org/dwc/terms/guides/text/index.htm
“STAR SCHEMA” OU SCHÉMA ÉTOILE
Ext 2
Core
Ext 1
Ext 3
meta.xml
EML.xml
+
DwC Archive
Ext 4
Ext 5
“MAPPING CORES” OU FICHIERS CENTRALES
Taxon Core
La catégorie d'informations relatives aux noms taxonomiques, le nom du taxon, les
usages ou les concepts de taxons. Sortie en Avril 2015, cette version supprime
dcterms:source and dcterms:rights, et ajoute dcterms: licence. 43 termes.
Occurrence Core
La catégorie d'informations relatives aux preuves d’une occurrence dans la nature,
dans une collection ou dans un jeu de données (de spécimens, d’observations etc.)
Sortie en July 2015, cette version supprime les terms dcterms:source, dcterms:rights,
dwc:individualID, dwc:occurrenceDetails,et ajoute dcterms:license,
dwc:organismQuantity, dwc:organismQuantityType, dwc:organismID,
dwc:organismName, dwc:organismScope, dwc:associatedOrganisms,
dwc:organismRemarks, dwc:parentEventID, dwc:sampleSizeValue,
dwc:sampleSizeUnit. 169 termes.
Event
La catégorie des informations relatives à un événement d'échantillonnage. Sortie le 29
May 2015. 95 termes
EXTENSIONS
Darwin Core ne fournit pas de termes pour chaque type
de données possible.
• 22 inscrits
• 25 en cours de développement
Exemples
• Audubon Media Description (ou “Audubon Core”)
• Darwin Core Identification History (historique de
l’identification)
• Darwin Core Measurement or Facts (measures ou faits)
http://tools.gbif.org/dwca-validator/extensions.do
EXEMPLE SCHÉMA ÉTOILE - OCCURRENCE
Media
Occurrence
Core
Geographica
l
Determination
meta.xml
EML.xml
+
DwC Archive
Occurrence
Germoplas
m
EXEMPLE SCHÉMA ÉTOILE - CHECKLISTES
Literature
Taxon Core
Description
Occurrences
meta.xml
EML.xml
+
DwC Archive
Checklist
Vernacular
Distribution
Types
EXEMPLE SCHÉMA ÉTOILE - ÉCHANTILLONNAGE
Event Core
Occurrences
Measurement/Fact
meta.xml
EML.xml
+
DwC Archive
SamplesRelevé
NORMALISATION DES DONNÉES
Quelle est la normalisation des données?
Raisons pour normaliser une base de données
Formes normales
http://www.essentialsql.com/get-ready-to-learn-sql-database-normalization-explained-in-simple-english/,
http://databases.about.com/od/specificproducts/a/normalization.htm, http://www.dotnet-tricks.com/Tutorial/sqlserver/756N210512-Database-Normalization-Basics.html
LA QUALITÉ DES DONNÉES
Encodages
Outils
Pourquoi travailler
sur l'amélioration
des données?
Importance de la
rétroaction
http://community.gbif.org/pg/pages/view/48546/precourse-activities
MÉTHODES DE PUBLICATION DE DONNÉES
la capacité
technique
Capacité de gestion de données
Créer vos propres DwCa
Publier avec des tableurs centre d'hébergement de données
MÉTHODES DE PUBLICATION DE DONNÉES
MÉTHODES DE PUBLICATION DE DONNÉES –
PREMIER SONDAGE
Sondage: http://etc.ch/dQ68
Résultats: http://directpoll.com/r?XDbzPBd3ixYqg8RE6D9gU3CMFoU9fqOuh9n0P5P6
Quelles des méthodes suivantes avez-vous déjà utilisées pour
publier des données en ligne?
MÉTHODES DE PUBLICATION DE DONNÉES -
SONDAGES
Cet exercice sera expliqué dans la séance
 
MÉTHODES DE PUBLICATION DE DONNÉES –
DEUXIÈME SONDAGE
Sondage: http://etc.ch/re74
Résultats:
http://directpoll.com/r?XDbzPBd3ixYqg8xmOHP25WFCV81TJYwb1aGgrVyX5
Quelles des méthodes suivantes utilisez-vous régulièrement à
publier des données en ligne? (à savoir l'année dernière)
INDEX
Le « paysage » de la publication des données
La publication des données sur la biodiversité
Les types de données
Les normes de données
La normalisation des données et la qualité des
données
Les méthodes de publication des données
La promotion de la publication de données
Les cas d'utilisation
PROMOTION DE LA PUBLICATION DE DONNÉES
Sujet de discussion lors de la formation de nœuds à
Berlin en 2013.
Elément clé du travail quotidien de gestionnaires de
points nodaux.
PROMOTION DE LA PUBLICATION DE DONNÉES
Obstacles
psychologiques
et culturels
1. Manque de connaissance
2. Manque de compréhension
3. Manque de volonté
4. Valeur perçue des données
5. Questions de confidentialité
6. Absence d’autorisation
7. Manque de temps / planning
8. Manque de moyens
9. Manque de fonds
10. Manque d’infrastructures
http://www.gbif.org/publishing-data/benefits, http://www.gbif.org/resource/81196
Obstacles
institutionnels
Obstacles liés aux
ressources
Obstacles pratiques
NIVEAUX DE RESTRICTION DE DONNÉES
1. Refus de partager.
2. Refus de partager jusqu'à ce que l'utilisation. prévue des
données soit terminée.
3. Partage payant des données.
4. Partage des données avec des restrictions.
5. Partage libre des données.
PROMOTION DE LA PUBLICATION DE DONNÉES -
STRATÉGIES
1. Faciliter l'accès à un soutien financier.
2. Appel à des engagements ou des mandats légaux.
3. Appel à un accès ouvert/principes moraux.
4. Montrer les avantages d'une meilleure gestion des données.
5. Montrer les avantages pour les carrières scientifiques.
6. Pression des pairs
7. Démarrer/soutenir de grands programmes de numérisation.
8. Démarrer/soutenir les efforts de rapatriement des données.
PROMOTION DE LA PUBLICATION DE DONNÉES -
DISCUSSIONS
Stratégies
• Commencez petit - seulement les
méta-données
• Promotion du fait qu’avec une
seule publication au GBIF les
données seront ensuite
exposées dans de multiples
réseaux
• Fournir des IPTs hébergés pour
éliminer les barrières technique
• Illustrer des licences avec des
exemples éloquents.
• Promouvoir et organiser des
formations sur les « data
papers »
Défis
• Ne pas voulant publier /
ne pas voulant publier
toutes les données
• Exigences/ capacities
techniques pour utliser
l’IPT
• Licences restrictives des
données
http://community.gbif.org/pg/forum/topic/48616/precourse-activity-promoting-data-publishing/
INDEX
Le « paysage » de la publication des données
La publication des données sur la biodiversité
Les types de données
Les normes de données
La normalisation des données et la qualité des
données
Les méthodes de publication des données
La -promotion de la publication de données
Les cas d'utilisation
CAS D’UTILISATION - INTRODUCTION
Explorez quatre cas d'utilisation basés sur de pratiques
de publication actuelles
• Littérature
• Données d'observation
• Collections d'histoire naturelle
• Checklistes
Remplir deux exercices
• Définition des stratégies de publication
• Publier des jeux de données
CAS D’UTILISATION: DONNÉES À BASE DE
LITERATURE
Blue Group
CAS D’UTILISATION 2: DONNÉES
D’OBSERVATIONS
Green Group
Red Group
CAS D’UTILISATION 3: DONNÉES DE COLLECTION
D’HISTOIRE NATURELLE
Yellow Group
CAS D’UTILISATION 4: CHECKLISTES
TAXONOMIQUES
Purple Group
GB22 TRAINING EVENT FOR NODES – 4 OCTOBER 2015
Séance 02: Le paysage de la publication
de données en 2015
Laura Russell

Contenu connexe

Tendances

L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...Lesticetlart Invisu
 
ResearcherID, ORCID, IdHAL : enjeux et perspectives des identifiants chercheurs
ResearcherID, ORCID, IdHAL : enjeux et perspectives  des identifiants chercheursResearcherID, ORCID, IdHAL : enjeux et perspectives  des identifiants chercheurs
ResearcherID, ORCID, IdHAL : enjeux et perspectives des identifiants chercheurspascal aventurier
 
ResearchGate et les réseaux sociaux en recherche
ResearchGate et les réseaux sociaux en rechercheResearchGate et les réseaux sociaux en recherche
ResearchGate et les réseaux sociaux en recherchepascal aventurier
 
ResearchGate
ResearchGateResearchGate
ResearchGateDeboin
 
Maitriser l'Information Scientifique et Technique en Recherche
Maitriser l'Information Scientifique et Technique en RechercheMaitriser l'Information Scientifique et Technique en Recherche
Maitriser l'Information Scientifique et Technique en RecherchePatricia Volland-Nail
 
Accompagnement actif des chercheurs à la gestion et au partage des données de...
Accompagnement actif des chercheurs à la gestion et au partage des données de...Accompagnement actif des chercheurs à la gestion et au partage des données de...
Accompagnement actif des chercheurs à la gestion et au partage des données de...Lesticetlart Invisu
 
Rechercher dans les Archives Ouvertes. FIBE 08 2018
Rechercher dans les Archives Ouvertes. FIBE 08 2018 Rechercher dans les Archives Ouvertes. FIBE 08 2018
Rechercher dans les Archives Ouvertes. FIBE 08 2018 Alain Marois
 
Optimiser recherche d'information scientifique dans le domaine biomedical - P...
Optimiser recherche d'information scientifique dans le domaine biomedical - P...Optimiser recherche d'information scientifique dans le domaine biomedical - P...
Optimiser recherche d'information scientifique dans le domaine biomedical - P...Patricia Volland-Nail
 

Tendances (14)

Documentation IRD Occitanie : Outils et Services
Documentation IRD Occitanie : Outils et ServicesDocumentation IRD Occitanie : Outils et Services
Documentation IRD Occitanie : Outils et Services
 
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
 
Le Réseau de données probantes sur la COVID-19 au soutien de la prise de déci...
Le Réseau de données probantes sur la COVID-19 au soutien de la prise de déci...Le Réseau de données probantes sur la COVID-19 au soutien de la prise de déci...
Le Réseau de données probantes sur la COVID-19 au soutien de la prise de déci...
 
Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...
Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...
Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...
 
Introduction au Plan de Gestion de Données
Introduction au Plan de Gestion de DonnéesIntroduction au Plan de Gestion de Données
Introduction au Plan de Gestion de Données
 
ResearcherID, ORCID, IdHAL : enjeux et perspectives des identifiants chercheurs
ResearcherID, ORCID, IdHAL : enjeux et perspectives  des identifiants chercheursResearcherID, ORCID, IdHAL : enjeux et perspectives  des identifiants chercheurs
ResearcherID, ORCID, IdHAL : enjeux et perspectives des identifiants chercheurs
 
ResearchGate et les réseaux sociaux en recherche
ResearchGate et les réseaux sociaux en rechercheResearchGate et les réseaux sociaux en recherche
ResearchGate et les réseaux sociaux en recherche
 
ResearchGate
ResearchGateResearchGate
ResearchGate
 
Maitriser l'Information Scientifique et Technique en Recherche
Maitriser l'Information Scientifique et Technique en RechercheMaitriser l'Information Scientifique et Technique en Recherche
Maitriser l'Information Scientifique et Technique en Recherche
 
Diffuser La Veille
Diffuser La VeilleDiffuser La Veille
Diffuser La Veille
 
Nouveaux chercheurs - les enjeux de la publication
Nouveaux chercheurs - les enjeux de la publicationNouveaux chercheurs - les enjeux de la publication
Nouveaux chercheurs - les enjeux de la publication
 
Accompagnement actif des chercheurs à la gestion et au partage des données de...
Accompagnement actif des chercheurs à la gestion et au partage des données de...Accompagnement actif des chercheurs à la gestion et au partage des données de...
Accompagnement actif des chercheurs à la gestion et au partage des données de...
 
Rechercher dans les Archives Ouvertes. FIBE 08 2018
Rechercher dans les Archives Ouvertes. FIBE 08 2018 Rechercher dans les Archives Ouvertes. FIBE 08 2018
Rechercher dans les Archives Ouvertes. FIBE 08 2018
 
Optimiser recherche d'information scientifique dans le domaine biomedical - P...
Optimiser recherche d'information scientifique dans le domaine biomedical - P...Optimiser recherche d'information scientifique dans le domaine biomedical - P...
Optimiser recherche d'information scientifique dans le domaine biomedical - P...
 

En vedette

Révisions examen c1 mai 2014
Révisions examen c1 mai 2014Révisions examen c1 mai 2014
Révisions examen c1 mai 2014samanthablancher
 
Lexique internet corrige001
Lexique internet corrige001Lexique internet corrige001
Lexique internet corrige001helenaaldaz
 
Présentation des certifications au CIDEF
Présentation des certifications au CIDEFPrésentation des certifications au CIDEF
Présentation des certifications au CIDEFCIDEF
 
Ce hypocondriaque
Ce hypocondriaqueCe hypocondriaque
Ce hypocondriaquehelenaaldaz
 
Articles que j\'ai écrit pour L\'Express de Madagascar
Articles que j\'ai écrit pour L\'Express de MadagascarArticles que j\'ai écrit pour L\'Express de Madagascar
Articles que j\'ai écrit pour L\'Express de Madagascarsperrier7
 
Expression écrite la narration eb6
Expression écrite la narration eb6Expression écrite la narration eb6
Expression écrite la narration eb6DonaFayad
 
Delf dalf 2015
Delf dalf 2015Delf dalf 2015
Delf dalf 2015karinecefi
 
Job description program_manager_transformation_bss
Job description program_manager_transformation_bssJob description program_manager_transformation_bss
Job description program_manager_transformation_bssXavier De Hairs
 
Connecteurs logiques rétablir ordre texte
Connecteurs logiques   rétablir ordre texteConnecteurs logiques   rétablir ordre texte
Connecteurs logiques rétablir ordre textejeanphilippeguy
 
Exercice Passé composé Imparfait B1 jeudi
Exercice Passé composé Imparfait B1 jeudiExercice Passé composé Imparfait B1 jeudi
Exercice Passé composé Imparfait B1 jeudiLaurenceFreudenreich
 
Production écrite B1
Production écrite B1Production écrite B1
Production écrite B1antorome
 
La Description
La DescriptionLa Description
La Descriptionkimo063
 
Production écrite finale (7 mai 2014)
Production écrite finale (7 mai 2014)Production écrite finale (7 mai 2014)
Production écrite finale (7 mai 2014)fransec3
 
Description d´un ami
Description d´un amiDescription d´un ami
Description d´un aminanifuentes1
 

En vedette (20)

Desc
DescDesc
Desc
 
Educamp FLE - Evenement culturel
Educamp FLE - Evenement culturelEducamp FLE - Evenement culturel
Educamp FLE - Evenement culturel
 
Révisions examen c1 mai 2014
Révisions examen c1 mai 2014Révisions examen c1 mai 2014
Révisions examen c1 mai 2014
 
Lexique internet corrige001
Lexique internet corrige001Lexique internet corrige001
Lexique internet corrige001
 
Présentation des certifications au CIDEF
Présentation des certifications au CIDEFPrésentation des certifications au CIDEF
Présentation des certifications au CIDEF
 
Popa Adriana, Rusu Sofica
Popa Adriana, Rusu SoficaPopa Adriana, Rusu Sofica
Popa Adriana, Rusu Sofica
 
Ce hypocondriaque
Ce hypocondriaqueCe hypocondriaque
Ce hypocondriaque
 
Articles que j\'ai écrit pour L\'Express de Madagascar
Articles que j\'ai écrit pour L\'Express de MadagascarArticles que j\'ai écrit pour L\'Express de Madagascar
Articles que j\'ai écrit pour L\'Express de Madagascar
 
Expression écrite la narration eb6
Expression écrite la narration eb6Expression écrite la narration eb6
Expression écrite la narration eb6
 
Delf dalf 2015
Delf dalf 2015Delf dalf 2015
Delf dalf 2015
 
Job description program_manager_transformation_bss
Job description program_manager_transformation_bssJob description program_manager_transformation_bss
Job description program_manager_transformation_bss
 
Connecteurs logiques rétablir ordre texte
Connecteurs logiques   rétablir ordre texteConnecteurs logiques   rétablir ordre texte
Connecteurs logiques rétablir ordre texte
 
Expose oral
Expose oralExpose oral
Expose oral
 
Le Petit Nicolas, en classe de FLE
Le Petit Nicolas, en classe de FLELe Petit Nicolas, en classe de FLE
Le Petit Nicolas, en classe de FLE
 
Exercice Passé composé Imparfait B1 jeudi
Exercice Passé composé Imparfait B1 jeudiExercice Passé composé Imparfait B1 jeudi
Exercice Passé composé Imparfait B1 jeudi
 
Production écrite B1
Production écrite B1Production écrite B1
Production écrite B1
 
La Description
La DescriptionLa Description
La Description
 
Delf b1
Delf b1 Delf b1
Delf b1
 
Production écrite finale (7 mai 2014)
Production écrite finale (7 mai 2014)Production écrite finale (7 mai 2014)
Production écrite finale (7 mai 2014)
 
Description d´un ami
Description d´un amiDescription d´un ami
Description d´un ami
 

Similaire à Séance 02, Le paysage de la publication des données en 2015, dans la formation GB22 pour points nodaux du GBIF

Sensibilisation à la veille documentaire (Doctorants SHS, juin 2022)
Sensibilisation à la veille documentaire (Doctorants SHS, juin 2022)Sensibilisation à la veille documentaire (Doctorants SHS, juin 2022)
Sensibilisation à la veille documentaire (Doctorants SHS, juin 2022)Alain Marois
 
BID CE Workshop 1 - session 11 - Basic concepts about biodiversity data quality
BID CE Workshop 1 -  session 11 - Basic concepts about biodiversity data qualityBID CE Workshop 1 -  session 11 - Basic concepts about biodiversity data quality
BID CE Workshop 1 - session 11 - Basic concepts about biodiversity data qualityAlberto González-Talaván
 
Approche pour la constitution et la mise en oeuvre des systèmes d'information...
Approche pour la constitution et la mise en oeuvre des systèmes d'information...Approche pour la constitution et la mise en oeuvre des systèmes d'information...
Approche pour la constitution et la mise en oeuvre des systèmes d'information...Desconnets Jean-Christophe
 
FAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdfFAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdfThomas DENECKER
 
Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...Lesticetlart Invisu
 
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...kmichel69
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
 
Données de la recherche : quel positionnement et quels rôles pour les bibliot...
Données de la recherche : quel positionnement et quels rôles pour les bibliot...Données de la recherche : quel positionnement et quels rôles pour les bibliot...
Données de la recherche : quel positionnement et quels rôles pour les bibliot...Pierre Naegelen
 
Publication et intégration de données ouvertes
Publication et intégration de données ouvertesPublication et intégration de données ouvertes
Publication et intégration de données ouvertesFrançois Scharffe
 
Jabes 2008 - Session sponsor : Qui mieux que le SCD peut gérer vos documents ...
Jabes 2008 - Session sponsor : Qui mieux que le SCD peut gérer vos documents ...Jabes 2008 - Session sponsor : Qui mieux que le SCD peut gérer vos documents ...
Jabes 2008 - Session sponsor : Qui mieux que le SCD peut gérer vos documents ...ABES
 
Données Ouvertes : mode d'emploi ?
Données Ouvertes : mode d'emploi ?Données Ouvertes : mode d'emploi ?
Données Ouvertes : mode d'emploi ?mondeca
 
Journée BEF FLY 19/04/12
Journée BEF FLY 19/04/12Journée BEF FLY 19/04/12
Journée BEF FLY 19/04/12beffly
 
Linked open data pour la consommation des informations
Linked open data pour la consommation des informationsLinked open data pour la consommation des informations
Linked open data pour la consommation des informationsEric Toguem
 
Mettre en place une stratégie de veille professionnelle en bibliothèque
Mettre en place une stratégie de veille professionnelle en bibliothèqueMettre en place une stratégie de veille professionnelle en bibliothèque
Mettre en place une stratégie de veille professionnelle en bibliothèqueAnne-Gaëlle Gaudion
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceBorderCloud
 

Similaire à Séance 02, Le paysage de la publication des données en 2015, dans la formation GB22 pour points nodaux du GBIF (20)

Sensibilisation à la veille documentaire (Doctorants SHS, juin 2022)
Sensibilisation à la veille documentaire (Doctorants SHS, juin 2022)Sensibilisation à la veille documentaire (Doctorants SHS, juin 2022)
Sensibilisation à la veille documentaire (Doctorants SHS, juin 2022)
 
BID CE Workshop 1 - session 11 - Basic concepts about biodiversity data quality
BID CE Workshop 1 -  session 11 - Basic concepts about biodiversity data qualityBID CE Workshop 1 -  session 11 - Basic concepts about biodiversity data quality
BID CE Workshop 1 - session 11 - Basic concepts about biodiversity data quality
 
Approche pour la constitution et la mise en oeuvre des systèmes d'information...
Approche pour la constitution et la mise en oeuvre des systèmes d'information...Approche pour la constitution et la mise en oeuvre des systèmes d'information...
Approche pour la constitution et la mise en oeuvre des systèmes d'information...
 
Mc jacquemot piv2017_c
Mc jacquemot piv2017_cMc jacquemot piv2017_c
Mc jacquemot piv2017_c
 
FAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdfFAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdf
 
Stage pgd 2021-04-07
Stage pgd 2021-04-07Stage pgd 2021-04-07
Stage pgd 2021-04-07
 
Presentation entrepot polescience-v73-ssbonus
Presentation entrepot polescience-v73-ssbonusPresentation entrepot polescience-v73-ssbonus
Presentation entrepot polescience-v73-ssbonus
 
Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...
 
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
Kristell MICHEL : Une IDG au service des Observatoires sur l’eau: retour d'ex...
 
Cours Big Data Part I
Cours Big Data Part ICours Big Data Part I
Cours Big Data Part I
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
 
Gestion des métadonnées. ANR PADOUE
Gestion des métadonnées. ANR PADOUEGestion des métadonnées. ANR PADOUE
Gestion des métadonnées. ANR PADOUE
 
Données de la recherche : quel positionnement et quels rôles pour les bibliot...
Données de la recherche : quel positionnement et quels rôles pour les bibliot...Données de la recherche : quel positionnement et quels rôles pour les bibliot...
Données de la recherche : quel positionnement et quels rôles pour les bibliot...
 
Publication et intégration de données ouvertes
Publication et intégration de données ouvertesPublication et intégration de données ouvertes
Publication et intégration de données ouvertes
 
Jabes 2008 - Session sponsor : Qui mieux que le SCD peut gérer vos documents ...
Jabes 2008 - Session sponsor : Qui mieux que le SCD peut gérer vos documents ...Jabes 2008 - Session sponsor : Qui mieux que le SCD peut gérer vos documents ...
Jabes 2008 - Session sponsor : Qui mieux que le SCD peut gérer vos documents ...
 
Données Ouvertes : mode d'emploi ?
Données Ouvertes : mode d'emploi ?Données Ouvertes : mode d'emploi ?
Données Ouvertes : mode d'emploi ?
 
Journée BEF FLY 19/04/12
Journée BEF FLY 19/04/12Journée BEF FLY 19/04/12
Journée BEF FLY 19/04/12
 
Linked open data pour la consommation des informations
Linked open data pour la consommation des informationsLinked open data pour la consommation des informations
Linked open data pour la consommation des informations
 
Mettre en place une stratégie de veille professionnelle en bibliothèque
Mettre en place une stratégie de veille professionnelle en bibliothèqueMettre en place une stratégie de veille professionnelle en bibliothèque
Mettre en place une stratégie de veille professionnelle en bibliothèque
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data Science
 

Plus de Alberto González-Talaván

BID CE Workshop 1 - Activity X.01 - Wrap-up and Evaluation
BID CE Workshop 1 - Activity X.01 - Wrap-up and EvaluationBID CE Workshop 1 - Activity X.01 - Wrap-up and Evaluation
BID CE Workshop 1 - Activity X.01 - Wrap-up and EvaluationAlberto González-Talaván
 
Bid ce workshop 1 Activity V.01 - Planning a biodiversity data mobilization...
Bid ce workshop 1   Activity V.01 - Planning a biodiversity data mobilization...Bid ce workshop 1   Activity V.01 - Planning a biodiversity data mobilization...
Bid ce workshop 1 Activity V.01 - Planning a biodiversity data mobilization...Alberto González-Talaván
 
BID CE Workshop 1 - Activity IV.02 - BID Community
BID CE Workshop 1 - Activity IV.02 - BID CommunityBID CE Workshop 1 - Activity IV.02 - BID Community
BID CE Workshop 1 - Activity IV.02 - BID CommunityAlberto González-Talaván
 
Bid CE Workshop 1 - ONLINE VERSION - Activity 01 - Welcome and Introduction
Bid CE Workshop 1 - ONLINE VERSION - Activity 01 - Welcome and IntroductionBid CE Workshop 1 - ONLINE VERSION - Activity 01 - Welcome and Introduction
Bid CE Workshop 1 - ONLINE VERSION - Activity 01 - Welcome and IntroductionAlberto González-Talaván
 
BID CE Workshop 1 - Session 13 - Advanced Biodiversity Data Publishing
BID CE Workshop 1 -  Session 13 - Advanced Biodiversity Data PublishingBID CE Workshop 1 -  Session 13 - Advanced Biodiversity Data Publishing
BID CE Workshop 1 - Session 13 - Advanced Biodiversity Data PublishingAlberto González-Talaván
 
BID CE Workshop 1 Session 09 - Biodiversity Data Management Tools
BID CE Workshop 1   Session 09 - Biodiversity Data Management ToolsBID CE Workshop 1   Session 09 - Biodiversity Data Management Tools
BID CE Workshop 1 Session 09 - Biodiversity Data Management ToolsAlberto González-Talaván
 
BID CE Workshop 1 session 07 - Digitization Software Example - BIOTA
BID CE Workshop 1   session 07 - Digitization Software Example - BIOTABID CE Workshop 1   session 07 - Digitization Software Example - BIOTA
BID CE Workshop 1 session 07 - Digitization Software Example - BIOTAAlberto González-Talaván
 
BID CE Workshop 1 - session 12 - Basic use of the GBIF IPT
BID CE Workshop 1 -  session 12 - Basic use of the GBIF IPTBID CE Workshop 1 -  session 12 - Basic use of the GBIF IPT
BID CE Workshop 1 - session 12 - Basic use of the GBIF IPTAlberto González-Talaván
 
Bid CE Workshop 1 session 06 - Data quality during digitization
Bid CE Workshop 1   session 06 - Data quality during digitizationBid CE Workshop 1   session 06 - Data quality during digitization
Bid CE Workshop 1 session 06 - Data quality during digitizationAlberto González-Talaván
 
BID CE Workshop 1 Session 15 - Wrap-up and Evaluation
BID CE Workshop 1   Session 15 - Wrap-up and EvaluationBID CE Workshop 1   Session 15 - Wrap-up and Evaluation
BID CE Workshop 1 Session 15 - Wrap-up and EvaluationAlberto González-Talaván
 
BID CE Workshop 1 session 02 - Foundations for the Workshop
BID CE Workshop 1   session 02 - Foundations for the WorkshopBID CE Workshop 1   session 02 - Foundations for the Workshop
BID CE Workshop 1 session 02 - Foundations for the WorkshopAlberto González-Talaván
 
BID CE workshop 1 session 05 - Origins of Biodiversity Data
BID CE workshop 1   session 05  - Origins of Biodiversity DataBID CE workshop 1   session 05  - Origins of Biodiversity Data
BID CE workshop 1 session 05 - Origins of Biodiversity DataAlberto González-Talaván
 
BID CE workshop 1 session 03 - Data mobilization planning
BID CE workshop 1   session 03 - Data mobilization planningBID CE workshop 1   session 03 - Data mobilization planning
BID CE workshop 1 session 03 - Data mobilization planningAlberto González-Talaván
 
BID CE workshop 1 session 08 - Biodiversity Data Cleaning
BID CE workshop 1   session 08 - Biodiversity Data CleaningBID CE workshop 1   session 08 - Biodiversity Data Cleaning
BID CE workshop 1 session 08 - Biodiversity Data CleaningAlberto González-Talaván
 
BID CE workshop 1 session 10 - presentation - Open Refine
BID CE workshop 1   session 10 - presentation - Open RefineBID CE workshop 1   session 10 - presentation - Open Refine
BID CE workshop 1 session 10 - presentation - Open RefineAlberto González-Talaván
 
GBIF Pilot Experience Using Mozilla Open Badges
GBIF Pilot Experience Using Mozilla Open BadgesGBIF Pilot Experience Using Mozilla Open Badges
GBIF Pilot Experience Using Mozilla Open BadgesAlberto González-Talaván
 
Séance 07. Démonstration de la publication des données d'échantillonnage. For...
Séance 07. Démonstration de la publication des données d'échantillonnage. For...Séance 07. Démonstration de la publication des données d'échantillonnage. For...
Séance 07. Démonstration de la publication des données d'échantillonnage. For...Alberto González-Talaván
 
Session 09, Sommaire et évaluation. Formation GB22 pour points nodaux.
Session 09, Sommaire et évaluation. Formation GB22 pour points nodaux.Session 09, Sommaire et évaluation. Formation GB22 pour points nodaux.
Session 09, Sommaire et évaluation. Formation GB22 pour points nodaux.Alberto González-Talaván
 

Plus de Alberto González-Talaván (20)

BID CE Workshop 1 - Activity X.01 - Wrap-up and Evaluation
BID CE Workshop 1 - Activity X.01 - Wrap-up and EvaluationBID CE Workshop 1 - Activity X.01 - Wrap-up and Evaluation
BID CE Workshop 1 - Activity X.01 - Wrap-up and Evaluation
 
Bid ce workshop 1 Activity V.01 - Planning a biodiversity data mobilization...
Bid ce workshop 1   Activity V.01 - Planning a biodiversity data mobilization...Bid ce workshop 1   Activity V.01 - Planning a biodiversity data mobilization...
Bid ce workshop 1 Activity V.01 - Planning a biodiversity data mobilization...
 
BID CE Workshop 1 - Activity IV.02 - BID Community
BID CE Workshop 1 - Activity IV.02 - BID CommunityBID CE Workshop 1 - Activity IV.02 - BID Community
BID CE Workshop 1 - Activity IV.02 - BID Community
 
Bid CE Workshop 1 - ONLINE VERSION - Activity 01 - Welcome and Introduction
Bid CE Workshop 1 - ONLINE VERSION - Activity 01 - Welcome and IntroductionBid CE Workshop 1 - ONLINE VERSION - Activity 01 - Welcome and Introduction
Bid CE Workshop 1 - ONLINE VERSION - Activity 01 - Welcome and Introduction
 
BID CE Workshop 1 - Session 13 - Advanced Biodiversity Data Publishing
BID CE Workshop 1 -  Session 13 - Advanced Biodiversity Data PublishingBID CE Workshop 1 -  Session 13 - Advanced Biodiversity Data Publishing
BID CE Workshop 1 - Session 13 - Advanced Biodiversity Data Publishing
 
BID CE Workshop 1 Session 09 - Biodiversity Data Management Tools
BID CE Workshop 1   Session 09 - Biodiversity Data Management ToolsBID CE Workshop 1   Session 09 - Biodiversity Data Management Tools
BID CE Workshop 1 Session 09 - Biodiversity Data Management Tools
 
BID CE Workshop 1 session 07 - Digitization Software Example - BIOTA
BID CE Workshop 1   session 07 - Digitization Software Example - BIOTABID CE Workshop 1   session 07 - Digitization Software Example - BIOTA
BID CE Workshop 1 session 07 - Digitization Software Example - BIOTA
 
BID CE Workshop 1 - session 12 - Basic use of the GBIF IPT
BID CE Workshop 1 -  session 12 - Basic use of the GBIF IPTBID CE Workshop 1 -  session 12 - Basic use of the GBIF IPT
BID CE Workshop 1 - session 12 - Basic use of the GBIF IPT
 
Bid CE Workshop 1 session 06 - Data quality during digitization
Bid CE Workshop 1   session 06 - Data quality during digitizationBid CE Workshop 1   session 06 - Data quality during digitization
Bid CE Workshop 1 session 06 - Data quality during digitization
 
BID CE Workshop 1 Session 15 - Wrap-up and Evaluation
BID CE Workshop 1   Session 15 - Wrap-up and EvaluationBID CE Workshop 1   Session 15 - Wrap-up and Evaluation
BID CE Workshop 1 Session 15 - Wrap-up and Evaluation
 
BID CE Workshop 1 session 02 - Foundations for the Workshop
BID CE Workshop 1   session 02 - Foundations for the WorkshopBID CE Workshop 1   session 02 - Foundations for the Workshop
BID CE Workshop 1 session 02 - Foundations for the Workshop
 
BID CE workshop 1 session 05 - Origins of Biodiversity Data
BID CE workshop 1   session 05  - Origins of Biodiversity DataBID CE workshop 1   session 05  - Origins of Biodiversity Data
BID CE workshop 1 session 05 - Origins of Biodiversity Data
 
BID CE workshop 1 session 03 - Data mobilization planning
BID CE workshop 1   session 03 - Data mobilization planningBID CE workshop 1   session 03 - Data mobilization planning
BID CE workshop 1 session 03 - Data mobilization planning
 
BID CE workshop 1 session 08 - Biodiversity Data Cleaning
BID CE workshop 1   session 08 - Biodiversity Data CleaningBID CE workshop 1   session 08 - Biodiversity Data Cleaning
BID CE workshop 1 session 08 - Biodiversity Data Cleaning
 
BID CE workshop 1 session 10 - presentation - Open Refine
BID CE workshop 1   session 10 - presentation - Open RefineBID CE workshop 1   session 10 - presentation - Open Refine
BID CE workshop 1 session 10 - presentation - Open Refine
 
BID CE WORKSHOP 1 - Session 01 - Introduction
BID CE WORKSHOP 1 -  Session 01 - IntroductionBID CE WORKSHOP 1 -  Session 01 - Introduction
BID CE WORKSHOP 1 - Session 01 - Introduction
 
GBIF Work Programme 2016 Update
GBIF Work Programme 2016 UpdateGBIF Work Programme 2016 Update
GBIF Work Programme 2016 Update
 
GBIF Pilot Experience Using Mozilla Open Badges
GBIF Pilot Experience Using Mozilla Open BadgesGBIF Pilot Experience Using Mozilla Open Badges
GBIF Pilot Experience Using Mozilla Open Badges
 
Séance 07. Démonstration de la publication des données d'échantillonnage. For...
Séance 07. Démonstration de la publication des données d'échantillonnage. For...Séance 07. Démonstration de la publication des données d'échantillonnage. For...
Séance 07. Démonstration de la publication des données d'échantillonnage. For...
 
Session 09, Sommaire et évaluation. Formation GB22 pour points nodaux.
Session 09, Sommaire et évaluation. Formation GB22 pour points nodaux.Session 09, Sommaire et évaluation. Formation GB22 pour points nodaux.
Session 09, Sommaire et évaluation. Formation GB22 pour points nodaux.
 

Séance 02, Le paysage de la publication des données en 2015, dans la formation GB22 pour points nodaux du GBIF

  • 1. GB22 TRAINING EVENT FOR NODES – 4 OCTOBER 2015 Séance 02: Le paysage de la publication de données en 2015 Laura Russell
  • 2. INDEX Le « paysage » de la publication des données La publication des données sur la biodiversité Les types de données Les normes de données La normalisation des données et la qualité des données Les méthodes de publication des données La -promotion de la publication de données Les cas d'utilisation
  • 3. LE PAYSAGE DE LA PUBLICATION DES DONNÉES DiGIR / TAPIR très utilisé pour publier des données sur la biodiversité Idée de publier à base de fichier texte simple et comprimé présenté à TDWG Le GBIF lance l’ IPT 1,0 Le GBIF réaménage l’ IPT Le GBIF lance l’ IPT 2.0 La publication des données est enseigné à la formation des nœuds Le points nodaux et les agrégateurs commencent à installer et à utiliser l’ IPT Les jeux de données de type occurrence et checklist ainsi que le nombre d’installations de l’IPT montrent une croissance continue 2008 2008 2009 2010 2011 2011 2012  2011
  • 4. LE PAYSAGE DE LA PUBLICATION DES DONNÉES - STATISTIQUES http://www.gbif.org/ipt/stats No. d’installations de l’IPT enregistrées avec le GBIF
  • 5. LE PAYSAGE DE LA PUBLICATION DES DONNÉES - STATISTIQUES No. de jeux de données publiées avec l’IPT
  • 6. LE PAYSAGE DE LA PUBLICATION DES DONNÉES EN 2015 L'engagement continue du GBIF à améliorer l'accès aux données de la biodiversité Le raffinement et l'expansion des normes et des logiciels de publication L'évolution des normes sociales La plupart des données sont encore publiées avec le « core » simple pour occurrences Les portails n’ont pas encore les fonctionnalités pour soutenir les données plus riches De nombreuses institutions ont encore besoin d’ être convaincues de publier des données sur la biodiversité http://www.gbif.org/page/82104
  • 7. INDEX Le « paysage » de la publication des données La publication des données sur la biodiversité Les types de données Les normes de données La normalisation des données et la qualité des données Les méthodes de publication des données La -promotion de la publication de données Les cas d'utilisation
  • 8. QU'EST-CE QUE DES DONNÉES DE BIODIVERSITÉ? Texte numérique ou donnée multimédia détaillant les faits sur l'instance d’occurrence d'un organisme, à savoir sur le quoi, où, quand, comment et par qui de l’occurrence et de l'enregistrement.
  • 9. QU'EST CE LA PUBLICATION DE DONNÉES? La « publication » consiste à rendre des jeux de données de la biodiversité accessibles au public et découvrable, sous une forme standardisée, via un point d'accès, généralement une adresse Web (URL). IPT ∞
  • 10. LES TYPES DE DONNÉES SUR LA BIODIVERSITÉ http://www.gbif.org/publishing-data/summary#datatypes Checklistes Occurrences Metadonnées
  • 11. LES TYPES DE DONNÉES SUR LA BIODIVERSITÉ – DONNÉES D’ ÉCHANTILLONNAGE http://www.gbif.org/newsroom/news/sample-based-data Échantillonnage
  • 12. LES NORMES OU “STANDARDS” http://www.tdwg.org/standards/ ABCD Access to Biological Collection Data (2005) DwC Darwin Core (2009) AC Audubon Core Multimedia Resources Metadata Schema (2013) NCD Natural Collection Descriptions (Draft)
  • 13. DARWIN CORE http://rs.tdwg.org/dwc recordedBy: Une liste (concaténée et séparée) de noms de personnes, groupes ou organisations responsables de l'enregistrement de l'occurrence originale. Le collecteur ou observateur primaire, en particulier celui qui applique un identifiant personnel (RecordNumber), doit être cité en premier. Exemples: « José E. Crespo », « Oliver P. Pearson | Anita K. Pearson »
  • 14. DARWIN CORE SIMPLE SIMPLEDWC est une spécification pour une façon particulière d'utiliser les termes Darwin Core - de partager des données sur les taxons et leurs occurrences avec une structure simple - et probablement ce que veux dire quelqu'un qui suggère de "formater vos données conformément à la Darwin Core". http://rs.tdwg.org/dwc/terms/simple/index.htm
  • 15. LES ARCHIVES DARWIN CORE Une Archive Darwin Core (DwCA) est la représentation en texte des données formatées à Darwin Core. Une DwCA est un fichier compressé contenant un minimum de trois fichiers. http://rs.tdwg.org/dwc/terms/guides/text/index.htm
  • 16. “STAR SCHEMA” OU SCHÉMA ÉTOILE Ext 2 Core Ext 1 Ext 3 meta.xml EML.xml + DwC Archive Ext 4 Ext 5
  • 17. “MAPPING CORES” OU FICHIERS CENTRALES Taxon Core La catégorie d'informations relatives aux noms taxonomiques, le nom du taxon, les usages ou les concepts de taxons. Sortie en Avril 2015, cette version supprime dcterms:source and dcterms:rights, et ajoute dcterms: licence. 43 termes. Occurrence Core La catégorie d'informations relatives aux preuves d’une occurrence dans la nature, dans une collection ou dans un jeu de données (de spécimens, d’observations etc.) Sortie en July 2015, cette version supprime les terms dcterms:source, dcterms:rights, dwc:individualID, dwc:occurrenceDetails,et ajoute dcterms:license, dwc:organismQuantity, dwc:organismQuantityType, dwc:organismID, dwc:organismName, dwc:organismScope, dwc:associatedOrganisms, dwc:organismRemarks, dwc:parentEventID, dwc:sampleSizeValue, dwc:sampleSizeUnit. 169 termes. Event La catégorie des informations relatives à un événement d'échantillonnage. Sortie le 29 May 2015. 95 termes
  • 18. EXTENSIONS Darwin Core ne fournit pas de termes pour chaque type de données possible. • 22 inscrits • 25 en cours de développement Exemples • Audubon Media Description (ou “Audubon Core”) • Darwin Core Identification History (historique de l’identification) • Darwin Core Measurement or Facts (measures ou faits) http://tools.gbif.org/dwca-validator/extensions.do
  • 19. EXEMPLE SCHÉMA ÉTOILE - OCCURRENCE Media Occurrence Core Geographica l Determination meta.xml EML.xml + DwC Archive Occurrence Germoplas m
  • 20. EXEMPLE SCHÉMA ÉTOILE - CHECKLISTES Literature Taxon Core Description Occurrences meta.xml EML.xml + DwC Archive Checklist Vernacular Distribution Types
  • 21. EXEMPLE SCHÉMA ÉTOILE - ÉCHANTILLONNAGE Event Core Occurrences Measurement/Fact meta.xml EML.xml + DwC Archive SamplesRelevé
  • 22. NORMALISATION DES DONNÉES Quelle est la normalisation des données? Raisons pour normaliser une base de données Formes normales http://www.essentialsql.com/get-ready-to-learn-sql-database-normalization-explained-in-simple-english/, http://databases.about.com/od/specificproducts/a/normalization.htm, http://www.dotnet-tricks.com/Tutorial/sqlserver/756N210512-Database-Normalization-Basics.html
  • 23. LA QUALITÉ DES DONNÉES Encodages Outils Pourquoi travailler sur l'amélioration des données? Importance de la rétroaction http://community.gbif.org/pg/pages/view/48546/precourse-activities
  • 24. MÉTHODES DE PUBLICATION DE DONNÉES la capacité technique Capacité de gestion de données Créer vos propres DwCa Publier avec des tableurs centre d'hébergement de données
  • 26. MÉTHODES DE PUBLICATION DE DONNÉES – PREMIER SONDAGE Sondage: http://etc.ch/dQ68 Résultats: http://directpoll.com/r?XDbzPBd3ixYqg8RE6D9gU3CMFoU9fqOuh9n0P5P6 Quelles des méthodes suivantes avez-vous déjà utilisées pour publier des données en ligne?
  • 27. MÉTHODES DE PUBLICATION DE DONNÉES - SONDAGES Cet exercice sera expliqué dans la séance  
  • 28. MÉTHODES DE PUBLICATION DE DONNÉES – DEUXIÈME SONDAGE Sondage: http://etc.ch/re74 Résultats: http://directpoll.com/r?XDbzPBd3ixYqg8xmOHP25WFCV81TJYwb1aGgrVyX5 Quelles des méthodes suivantes utilisez-vous régulièrement à publier des données en ligne? (à savoir l'année dernière)
  • 29. INDEX Le « paysage » de la publication des données La publication des données sur la biodiversité Les types de données Les normes de données La normalisation des données et la qualité des données Les méthodes de publication des données La promotion de la publication de données Les cas d'utilisation
  • 30. PROMOTION DE LA PUBLICATION DE DONNÉES Sujet de discussion lors de la formation de nœuds à Berlin en 2013. Elément clé du travail quotidien de gestionnaires de points nodaux.
  • 31. PROMOTION DE LA PUBLICATION DE DONNÉES Obstacles psychologiques et culturels 1. Manque de connaissance 2. Manque de compréhension 3. Manque de volonté 4. Valeur perçue des données 5. Questions de confidentialité 6. Absence d’autorisation 7. Manque de temps / planning 8. Manque de moyens 9. Manque de fonds 10. Manque d’infrastructures http://www.gbif.org/publishing-data/benefits, http://www.gbif.org/resource/81196 Obstacles institutionnels Obstacles liés aux ressources Obstacles pratiques
  • 32. NIVEAUX DE RESTRICTION DE DONNÉES 1. Refus de partager. 2. Refus de partager jusqu'à ce que l'utilisation. prévue des données soit terminée. 3. Partage payant des données. 4. Partage des données avec des restrictions. 5. Partage libre des données.
  • 33. PROMOTION DE LA PUBLICATION DE DONNÉES - STRATÉGIES 1. Faciliter l'accès à un soutien financier. 2. Appel à des engagements ou des mandats légaux. 3. Appel à un accès ouvert/principes moraux. 4. Montrer les avantages d'une meilleure gestion des données. 5. Montrer les avantages pour les carrières scientifiques. 6. Pression des pairs 7. Démarrer/soutenir de grands programmes de numérisation. 8. Démarrer/soutenir les efforts de rapatriement des données.
  • 34. PROMOTION DE LA PUBLICATION DE DONNÉES - DISCUSSIONS Stratégies • Commencez petit - seulement les méta-données • Promotion du fait qu’avec une seule publication au GBIF les données seront ensuite exposées dans de multiples réseaux • Fournir des IPTs hébergés pour éliminer les barrières technique • Illustrer des licences avec des exemples éloquents. • Promouvoir et organiser des formations sur les « data papers » Défis • Ne pas voulant publier / ne pas voulant publier toutes les données • Exigences/ capacities techniques pour utliser l’IPT • Licences restrictives des données http://community.gbif.org/pg/forum/topic/48616/precourse-activity-promoting-data-publishing/
  • 35. INDEX Le « paysage » de la publication des données La publication des données sur la biodiversité Les types de données Les normes de données La normalisation des données et la qualité des données Les méthodes de publication des données La -promotion de la publication de données Les cas d'utilisation
  • 36. CAS D’UTILISATION - INTRODUCTION Explorez quatre cas d'utilisation basés sur de pratiques de publication actuelles • Littérature • Données d'observation • Collections d'histoire naturelle • Checklistes Remplir deux exercices • Définition des stratégies de publication • Publier des jeux de données
  • 37. CAS D’UTILISATION: DONNÉES À BASE DE LITERATURE Blue Group
  • 38. CAS D’UTILISATION 2: DONNÉES D’OBSERVATIONS Green Group Red Group
  • 39. CAS D’UTILISATION 3: DONNÉES DE COLLECTION D’HISTOIRE NATURELLE Yellow Group
  • 40. CAS D’UTILISATION 4: CHECKLISTES TAXONOMIQUES Purple Group
  • 41. GB22 TRAINING EVENT FOR NODES – 4 OCTOBER 2015 Séance 02: Le paysage de la publication de données en 2015 Laura Russell

Notes de l'éditeur

  1. Image from Piotr Lewandowski, shared via http://www.freeimages.com/photo/learning-with-pencil-1415671
  2. Data/chart provided by Kyle Braak, GBIF.
  3. Data/chart provided by Kyle Braak, GBIF.
  4. Good and needs improvement The data publishing area is in continuous evolution and expansion. The standards are refined and expanded, the software is improved and debugged, the social norms evolve. That requires that we all recycle our knowledge periodically. Despite biodiversity data publication in a standard way is possible for a long time now, most of the data is still published in a very simple way: just the occurrence core, single identifications, few/no connections among objects, simple metadata...  Much richness of the original data is still non accessible because of the way data is published. This is one of the main reasons to organize this course. ·         The data already published determines (although only to a certain extent) the technical developments in the GBIF network, namely in GBIF.org and its API. Only when a certain amount of data of certain type is published (e.g. through an extension), the priority to enable discovery and retrieval of that information raises in importance. Examples of this is the indexing of occurrences published using the occurrence extension of the taxon core, and the possibility to search and retrieve images from the simple multimedia extension. Most data still published with simple occurrence core and is missing the known richness of the original data Without the rich data, portal developers do not have the priority to enhance with features to support rich data
  5. Reused slide from 1B Publishing Primary Biodiversity Data by Alberto González-Talaván1~ Data Sharing, Data Standards, and Demystifying the IPT ~ Gainesville, FL, USA. 13 January 2015
  6. Modified from Reused slide from 1B Publishing Primary Biodiversity Data by Alberto González-Talaván1~ Data Sharing, Data Standards, and Demystifying the IPT ~ Gainesville, FL, USA. 13 January 2015
  7. Modified from 1B Publishing Primary Biodiversity Data by Alberto González-Talaván1~ Data Sharing, Data Standards, and Demystifying the IPT ~ Gainesville, FL, USA. 13 January 2015 Review of the data types for publishing (http://www.gbif.org/publishing-data/summary#datatypes). This will be the first attempt to cover the instructional objectives 1a, 1b & 1c. GBIF now deals with four types of biodiversity data: Occurrences (observations, specimens etc) Checklists (names) Metadata (data about data) - http://www.gbif.org/dataset/search?type=METADATA Occurrences are records that document a 'collection event'—evidence that a particular, named organism was found at a particular time and place. Also known as primary biodiversity data, occurrences document the 'what, where, when, how and by whom' of our exploration of the planet's species. An occurrence record can be based on an observation in the field, vouchered (labeled) specimen in a museum or herbarium, or other evidence. Checklists are lists of scientific names of organisms grouped into taxonomic hierarchies. They serve two main functions: first, they provide data that help to enrich information about particular species, for example by including them on national checklists, and on lists of invasive or threatened species; and they provide taxonomic 'backbones' around which species information can be organized. Metadata are structured descriptions of datasets giving essential details such as the geographic and taxonomic scope of the data, methods of collection or observation, contact details and citation requirements. They help to give context to datasets and enable users to assess whether data are fit for use in a particular research project or application.
  8. introduce the need/push for sample-based datasets (introduction of the event core) (http://www.gbif.org/page/82105) - released March 24, 2015 beyond “presence only” data -- more quantitative information used in other areas of scientific discovery and research, particularly ecological monitoring and assessment. Sample-based data (ecological monitoring and assessment data) Sample-based data are records from thousands of different kinds of environmental, ecological, and natural resource monitoring and assessment investigations. These events range from one-off surveys to ongoing monitoring and includes activities like freshwater and marine sampling, plant cover and vegetation plots, and citizen science bird counts, among others.
  9. Modified from 1B Publishing Primary Biodiversity Data by Alberto González-Talaván1~ Data Sharing, Data Standards, and Demystifying the IPT ~ Gainesville, FL, USA. 13 January 2015 This section will cover the instructional objective 2a. Biodiversity Information Standards (TDWG), also known as the Taxonomic Databases Working Group, is a not for profit scientific and educational association that is affiliated with the International Union of Biological Sciences. TDWG was formed to establish international collaboration among biological database projects. TDWG promoted the wider and more effective dissemination of information about the World's heritage of biological organisms for the benefit of the world at large. Biodiversity Information Standards (TDWG) now focuses on the development of standards for the exchange of biological/biodiversity data. Our Mission Develop, adopt and promote standards and guidelines for the recording and exchange of data about organisms Promote the use of standards through the most appropriate and effective means and Act as a forum for discussion through holding meetings and through publications
  10. Modified from 1B Publishing Primary Biodiversity Data by Alberto González-Talaván1~ Data Sharing, Data Standards, and Demystifying the IPT ~ Gainesville, FL, USA. 13 January 2015 It includes a glossary of terms intended to facilitate the sharing of information about biological diversity by providing reference definitions, examples, and commentaries. It is primarily based on taxa, their occurrence in nature as documented by observations, specimens, and samples, and related information.
  11. Modified from 1B Publishing Primary Biodiversity Data by Alberto González-Talaván1~ Data Sharing, Data Standards, and Demystifying the IPT ~ Gainesville, FL, USA. 13 January 2015 Flat table Few restrictions
  12. A data file (occurrence.txt) conforming to the SIMPLEDWC in a CSV format. The first row includes Darwin Core standard term names. A meta file (meta.xml) in an XML format. It contains technical details to instruct a computer on how to use the data file. A meta file (eml.xml) in an XML format. It contains explanatory details about the records contained within the data file to instruct a user if the data will be fit for their use.
  13. Modified from 1B Publishing Primary Biodiversity Data by Alberto González-Talaván1~ Data Sharing, Data Standards, and Demystifying the IPT ~ Gainesville, FL, USA. 13 January 2015
  14. Cores updated based on updated
  15. Modified from Standards and sharing complex primary biodiversity data; and what is an extension anyway? ~ Deb Paul ~ Data Sharing, Data Standards, and Demystifying the IPT Workshop – Day 1, Jan. 13, 2015 ~ Gainesville, FL
  16. Modified from 1B Publishing Primary Biodiversity Data by Alberto González-Talaván1~ Data Sharing, Data Standards, and Demystifying the IPT ~ Gainesville, FL, USA. 13 January 2015
  17. Modified from 1B Publishing Primary Biodiversity Data by Alberto González-Talaván1~ Data Sharing, Data Standards, and Demystifying the IPT ~ Gainesville, FL, USA. 13 January 2015
  18. Modified from 1B Publishing Primary Biodiversity Data by Alberto González-Talaván1~ Data Sharing, Data Standards, and Demystifying the IPT ~ Gainesville, FL, USA. 13 January 2015
  19. Database normalization is process used to organize a database into tables and columns. The idea is that a table should be about a specific topic and that only those columns which support that topic are included. There are three main reasons to normalize a database. The first is to minimize duplicate data, the second is to minimize or avoid data modification issues, and the third is to simplify queries. To assist in achieving these objectives, some rules for database table organization have been developed. The stages of organization are called normal forms; there are three normal forms most databases adhere to using. First Normal Form – The information is stored in a relational table and each column contains atomic values, and there are not repeating groups of columns. Second Normal Form – The table is in first normal form and all the columns depend on the table’s primary key. Third Normal Form – the table is in second normal form and all of its columns are not transitively dependent on the primary key There are further norms if there is interest in learning more. For the purposes of the Star Schema, you’ll find your data adhering to the…
  20. Tweet image - https://twitter.com/Iteration23/status/646085874963337216 GBIF community group in conjunction with TDWG group on Data Quality Excel is a wonderful tool, but you must understand how Excel works or it can change your data in unexpected ways! Suggest watching -- Encoding Excel OpenRefine – Tutorials See pre-course activities for some recommendations/tutorials
  21. Slide from 1B Publishing Primary Biodiversity Data by Alberto González-Talaván1~ Data Sharing, Data Standards, and Demystifying the IPT ~ Gainesville, FL, USA. 13 January 2015 Ways to publish (strengths and weaknesses of each; include stats for numbers of datasets published via each way; how to identify what method was used when viewing datasets on gbif.org). This will cover the instructional objective 2b. simple spreadsheets IPT custom-created DwCA
  22. Slide from 1B Publishing Primary Biodiversity Data by Alberto González-Talaván1~ Data Sharing, Data Standards, and Demystifying the IPT ~ Gainesville, FL, USA. 13 January 2015 IPT currently under development with future planned updates Web tools and templates for excel tools were contracted for development in ???? And have not been updated since then. DiGIR protocol development ceased in 2006 TAPIR protocol last updated in 2010 BioCASE protocol last updated 2015
  23. Online poll Which of the following methods have you ever used to publish data online (or to help others to do so)? o   DiGIR provider o   TAPIR provider o   BioCASe provider o   IPT o   DwC-A through “DwC-A spreadsheet processor” o   Customized DwC-A through “DwC-A Assistant” Other custom created DwC-A o   None There are simple online poll tools that show the progress of the voting as you speak and can be displayed in the screen as people vote. It communicates very well and makes the exercise very dynamic.
  24. Online poll Which of the following methods do you use REGULARLY to publish data online (i.e. in the last year) o   DiGIR provider o   TAPIR provider o   BioCASE provider o   IPT o   DwC-A via“DwC-A spreadsheet processor” o   Customized DwC-A via“DwC-A Assistant” Other custom created DwC-A o   None Which of the following methods do you use regularly to publish data online (or to help others to do so) (i.e. used at least once in the last year) There are simple online poll tools that show the progress of the voting as you speak and can be displayed in the screen as people vote. It communicates very well and makes the exercise very dynamic.
  25. Online poll Which of the following methods do you use REGULARLY to publish data online (i.e. in the last year) o   DiGIR provider o   TAPIR provider o   BioCASE provider o   IPT o   DwC-A via“DwC-A spreadsheet processor” o   Customized DwC-A via“DwC-A Assistant” Other custom created DwC-A o   None Which of the following methods do you use regularly to publish data online (or to help others to do so) (i.e. used at least once in the last year) There are simple online poll tools that show the progress of the voting as you speak and can be displayed in the screen as people vote. It communicates very well and makes the exercise very dynamic.
  26. This section will aim to start covering the instructional objective 3. Core element for Nodes managers to do Review from Berlin Extended documents --- review prior to use cases and exercises on day 2 Identify and assess data holders
  27. Slide from Module 3 – Knowledge exchange I Supporting data digitization and publishing ~ Alberto González-Talaván ~ 4 October 2013, GBIF Nodes Training ~ Berlin, Germany Barriers to publishing On these points: Lack of knowledge: The holder may not be aware how sharing on the internet works, and the existence of initiatives such as GBIF. Lack of understanding: the holder may have heard about GBIF and data publishing, but thinks it must be complicated, bureaucratic, very technical… Lack of will: The holder understand the process but does not want to go through it because of cultural issues, perceived sensitivity of the data, Perceived data value: the holder thinks that the data has economic or intrinsic value that (s)he wants to exploit. Privacy concerns: Lack of authorization: The holder would like to share the data, but institutional policies prevent it. Lack of time / planning: The holder never finds an appropriate moment to start the digitization, data transformation or publishing. Or got discouraged after not properly planned attempts. Lack of capacity: the holder would like to digitize and share the data, but (s)he doesn’t know what is the best (or any) way to do it. Lack of resources/funding: the holder would like to digitize and share the data, but there is no spare capacity in the institution to carry out such tasks. Lack of infrastructure: the holder would like to digitize and share the data, but (s)he does not have the technical infrastructure to do it. ----- Meeting Notes (10/3/15 07:09) ----- Least to most open Objective is to get to 5 or any advancement on the scale is positive
  28. Slide from Module 3 – Knowledge exchange I Supporting data digitization and publishing ~ Alberto González-Talaván ~ 4 October 2013, GBIF Nodes Training ~ Berlin, Germany Least to most open Objective is to get to 5 or any advancement on the scale is positive
  29. Slide from Module 3 – Knowledge exchange I Supporting data digitization and publishing ~ Alberto González-Talaván ~ 4 October 2013, GBIF Nodes Training ~ Berlin, Germany Strategies and arguments to overcome barriers/Incentives for publishing On these points: Facilitate access to financial support: provide digitization grants or help the data holders to obtain funding that funds directly or indirectly the digitization. Call upon commitments or legal mandates: Try to use commitments or legal mandates that apply to the institution or the country as a way to convince the data holder. Call upon open access / moral principles: the results of publicly funded research should be made public, access to science should not be restricted, etc. Show the benefits of a better data management: management of digital information can facilitate the data holder’s daily work. Show the benefit for their scientific careers: publishing data can provide scientific credit through data papers, citations and data usage indexes. Peer pressure: competing/fellow institutions are already sharing data and the holder’s institution is being left behind. Start / support big digitization programmes: promote the start of big digitization programmes that will benefit many holders at the same time. Start / support data repatriation efforts: start programmes that will allow the return of digital data describing your county’s biodiversity.
  30. Summarize community discussion on this topic examples publishing networks/nodes and how they’ve been successful or had difficulties in publishing data? Cees provided some great examples and strategies Nico introduced topic of licensing, mentioning Peter Desmet’s blog post, Why we should publish under CC0 as an illustrative example of what more restrictive licenses prevent users from doing or not doing with data. http://www.canadensys.net/2012/why-we-should-publish-our-data-under-cc0 Faustin, Hanna, and Cees provided some additional discussion on licensing And Anne-Sophie, introduced organizing trainings on topics like Data Papers as an easier sell to data publishers as who could observe the direct impact on the visibility and numbers of downloads of their data sets for their published data papers.
  31. 4 use cases based on current publishing practices: literature, observational data, natural history collections and checklists. The FIRST EXERCISE will last up to 20 minutes and will be around the definition of data publishing strategies. Based in the description included in their use case, each group will work on identifying suitable technical solutions, challenges and strategies. Each group will reflect the outcome of their discussions in a single page. The SECOND EXERCISE will use the all the remaining time and will consist on the publishing of a dataset using the test IPT installation made available for the course. There are two datasets available, depending on the level of challenge that the participant is seeking. Links to the datasets will be provided as part of the use case description document. Those seeking certification, will need to fill a template describing the process and send it to the group facilitator ONLY.
  32. Birds occurrence records from “Birds at the Danish Lighthouses 1883-1939”
  33. Camera trap database of Tiger sightings from India French and English
  34. Prairie Habitat Restoration Study
  35. VASSY, the database of vascular plants of Syldavia and Eskeastein
  36. Image from Piotr Lewandowski, shared via http://www.freeimages.com/photo/learning-with-pencil-1415671