Séance 02, Le paysage de la publication des données en 2015, dans la formation GB22 pour points nodaux du GBIF

GB22 TRAINING EVENT FOR NODES – 4 OCTOBER 2015
Séance 02: Le paysage de la publication
de données en 2015
Laura Russell

INDEX
Le « paysage » de la publication des données
La publication des données sur la biodiversité
Les types de données
Les normes de données
La normalisation des données et la qualité des
données
Les méthodes de publication des données
La -promotion de la publication de données
Les cas d'utilisation

LE PAYSAGE DE LA PUBLICATION DES DONNÉES
DiGIR / TAPIR
très utilisé
pour publier
des données
sur la
biodiversité
Idée de
publier à base
de fichier
texte simple
et comprimé
présenté à
TDWG
Le GBIF lance
l’ IPT 1,0
Le GBIF
réaménage l’
IPT
Le GBIF lance
l’ IPT 2.0
La publication
des données
est enseigné à
la formation
des nœuds
Le points
nodaux et les
agrégateurs
commencent
à installer et à
utiliser l’ IPT
Les jeux de
données de
type
occurrence et
checklist ainsi
que le
nombre
d’installations
de l’IPT
montrent une
croissance
continue
2008 2008 2009 2010 2011 2011
2012

2011

LE PAYSAGE DE LA PUBLICATION DES DONNÉES -
STATISTIQUES
http://www.gbif.org/ipt/stats
No. d’installations de l’IPT enregistrées avec le GBIF

LE PAYSAGE DE LA PUBLICATION DES DONNÉES -
STATISTIQUES
No. de jeux de données publiées avec l’IPT

LE PAYSAGE DE LA PUBLICATION DES
DONNÉES EN 2015
L'engagement continue du
GBIF à améliorer l'accès
aux données de la
biodiversité
Le raffinement et
l'expansion des normes et
des logiciels de
publication
L'évolution des normes
sociales
La plupart des données sont
encore publiées avec le
« core » simple pour
occurrences
Les portails n’ont pas encore
les fonctionnalités pour
soutenir les données plus
riches
De nombreuses institutions
ont encore besoin d’ être
convaincues de publier des
données sur la biodiversité
http://www.gbif.org/page/82104

QU'EST-CE QUE DES DONNÉES DE BIODIVERSITÉ?
Texte numérique ou donnée multimédia détaillant les
faits sur l'instance d’occurrence d'un organisme, à
savoir sur le quoi, où, quand, comment et par qui
de l’occurrence et de l'enregistrement.

QU'EST CE LA PUBLICATION DE DONNÉES?
La « publication » consiste à rendre des jeux de données de
la biodiversité accessibles au public et découvrable, sous une
forme standardisée, via un point d'accès, généralement une
adresse Web (URL).
IPT
∞

LES TYPES DE DONNÉES SUR LA BIODIVERSITÉ
http://www.gbif.org/publishing-data/summary#datatypes
Checklistes
Occurrences
Metadonnées

LES TYPES DE DONNÉES SUR LA BIODIVERSITÉ –
DONNÉES D’ ÉCHANTILLONNAGE
http://www.gbif.org/newsroom/news/sample-based-data
Échantillonnage

LES NORMES OU “STANDARDS”
http://www.tdwg.org/standards/
ABCD Access to Biological Collection
Data (2005)
DwC Darwin Core (2009)
AC Audubon Core Multimedia
Resources Metadata Schema (2013)
NCD Natural Collection Descriptions
(Draft)

DARWIN CORE
http://rs.tdwg.org/dwc
recordedBy: Une liste (concaténée et séparée) de noms de personnes, groupes ou
organisations responsables de l'enregistrement de l'occurrence originale. Le collecteur
ou observateur primaire, en particulier celui qui applique un identifiant personnel
(RecordNumber), doit être cité en premier. Exemples: « José E. Crespo », « Oliver P.
Pearson | Anita K. Pearson »

DARWIN CORE SIMPLE
SIMPLEDWC est une spécification
pour une façon particulière d'utiliser
les termes Darwin Core - de
partager des données sur les
taxons et leurs occurrences avec
une structure simple - et
probablement ce que veux dire
quelqu'un qui suggère de "formater
vos données conformément à la
Darwin Core".
http://rs.tdwg.org/dwc/terms/simple/index.htm

LES ARCHIVES DARWIN CORE
Une Archive Darwin Core (DwCA) est la
représentation en texte des données formatées à
Darwin Core.
Une DwCA est un fichier compressé contenant un
minimum de trois fichiers.
http://rs.tdwg.org/dwc/terms/guides/text/index.htm

“STAR SCHEMA” OU SCHÉMA ÉTOILE
Ext 2
Core
Ext 1
Ext 3
meta.xml
EML.xml
+
DwC Archive
Ext 4
Ext 5

“MAPPING CORES” OU FICHIERS CENTRALES
Taxon Core
La catégorie d'informations relatives aux noms taxonomiques, le nom du taxon, les
usages ou les concepts de taxons. Sortie en Avril 2015, cette version supprime
dcterms:source and dcterms:rights, et ajoute dcterms: licence. 43 termes.
Occurrence Core
La catégorie d'informations relatives aux preuves d’une occurrence dans la nature,
dans une collection ou dans un jeu de données (de spécimens, d’observations etc.)
Sortie en July 2015, cette version supprime les terms dcterms:source, dcterms:rights,
dwc:individualID, dwc:occurrenceDetails,et ajoute dcterms:license,
dwc:organismQuantity, dwc:organismQuantityType, dwc:organismID,
dwc:organismName, dwc:organismScope, dwc:associatedOrganisms,
dwc:organismRemarks, dwc:parentEventID, dwc:sampleSizeValue,
dwc:sampleSizeUnit. 169 termes.
Event
La catégorie des informations relatives à un événement d'échantillonnage. Sortie le 29
May 2015. 95 termes

EXTENSIONS
Darwin Core ne fournit pas de termes pour chaque type
de données possible.
• 22 inscrits
• 25 en cours de développement
Exemples
• Audubon Media Description (ou “Audubon Core”)
• Darwin Core Identification History (historique de
l’identification)
• Darwin Core Measurement or Facts (measures ou faits)
http://tools.gbif.org/dwca-validator/extensions.do

EXEMPLE SCHÉMA ÉTOILE - OCCURRENCE
Media
Occurrence
Core
Geographica
l
Determination
meta.xml
EML.xml
+
DwC Archive
Occurrence
Germoplas
m

EXEMPLE SCHÉMA ÉTOILE - CHECKLISTES
Literature
Taxon Core
Description
Occurrences
meta.xml
EML.xml
+
DwC Archive
Checklist
Vernacular
Distribution
Types

EXEMPLE SCHÉMA ÉTOILE - ÉCHANTILLONNAGE
Event Core
Occurrences
Measurement/Fact
meta.xml
EML.xml
+
DwC Archive
SamplesRelevé

NORMALISATION DES DONNÉES
Quelle est la normalisation des données?
Raisons pour normaliser une base de données
Formes normales
http://www.essentialsql.com/get-ready-to-learn-sql-database-normalization-explained-in-simple-english/,
http://databases.about.com/od/specificproducts/a/normalization.htm, http://www.dotnet-tricks.com/Tutorial/sqlserver/756N210512-Database-Normalization-Basics.html

LA QUALITÉ DES DONNÉES
Encodages
Outils
Pourquoi travailler
sur l'amélioration
des données?
Importance de la
rétroaction
http://community.gbif.org/pg/pages/view/48546/precourse-activities

MÉTHODES DE PUBLICATION DE DONNÉES
la capacité
technique
Capacité de gestion de données
Créer vos propres DwCa
Publier avec des tableurs centre d'hébergement de données

MÉTHODES DE PUBLICATION DE DONNÉES

MÉTHODES DE PUBLICATION DE DONNÉES –
PREMIER SONDAGE
Sondage: http://etc.ch/dQ68
Résultats: http://directpoll.com/r?XDbzPBd3ixYqg8RE6D9gU3CMFoU9fqOuh9n0P5P6
Quelles des méthodes suivantes avez-vous déjà utilisées pour
publier des données en ligne?

MÉTHODES DE PUBLICATION DE DONNÉES -
SONDAGES
Cet exercice sera expliqué dans la séance
 

MÉTHODES DE PUBLICATION DE DONNÉES –
DEUXIÈME SONDAGE
Sondage: http://etc.ch/re74
Résultats:
http://directpoll.com/r?XDbzPBd3ixYqg8xmOHP25WFCV81TJYwb1aGgrVyX5
Quelles des méthodes suivantes utilisez-vous régulièrement à
publier des données en ligne? (à savoir l'année dernière)

INDEX
Le « paysage » de la publication des données
La publication des données sur la biodiversité
Les types de données
Les normes de données
La normalisation des données et la qualité des
données
Les méthodes de publication des données
La promotion de la publication de données
Les cas d'utilisation

PROMOTION DE LA PUBLICATION DE DONNÉES
Sujet de discussion lors de la formation de nœuds à
Berlin en 2013.
Elément clé du travail quotidien de gestionnaires de
points nodaux.

PROMOTION DE LA PUBLICATION DE DONNÉES
Obstacles
psychologiques
et culturels
1. Manque de connaissance
2. Manque de compréhension
3. Manque de volonté
4. Valeur perçue des données
5. Questions de confidentialité
6. Absence d’autorisation
7. Manque de temps / planning
8. Manque de moyens
9. Manque de fonds
10. Manque d’infrastructures
http://www.gbif.org/publishing-data/benefits, http://www.gbif.org/resource/81196
Obstacles
institutionnels
Obstacles liés aux
ressources
Obstacles pratiques

NIVEAUX DE RESTRICTION DE DONNÉES
1. Refus de partager.
2. Refus de partager jusqu'à ce que l'utilisation. prévue des
données soit terminée.
3. Partage payant des données.
4. Partage des données avec des restrictions.
5. Partage libre des données.

PROMOTION DE LA PUBLICATION DE DONNÉES -
STRATÉGIES
1. Faciliter l'accès à un soutien financier.
2. Appel à des engagements ou des mandats légaux.
3. Appel à un accès ouvert/principes moraux.
4. Montrer les avantages d'une meilleure gestion des données.
5. Montrer les avantages pour les carrières scientifiques.
6. Pression des pairs
7. Démarrer/soutenir de grands programmes de numérisation.
8. Démarrer/soutenir les efforts de rapatriement des données.

PROMOTION DE LA PUBLICATION DE DONNÉES -
DISCUSSIONS
Stratégies
• Commencez petit - seulement les
méta-données
• Promotion du fait qu’avec une
seule publication au GBIF les
données seront ensuite
exposées dans de multiples
réseaux
• Fournir des IPTs hébergés pour
éliminer les barrières technique
• Illustrer des licences avec des
exemples éloquents.
• Promouvoir et organiser des
formations sur les « data
papers »
Défis
• Ne pas voulant publier /
ne pas voulant publier
toutes les données
• Exigences/ capacities
techniques pour utliser
l’IPT
• Licences restrictives des
données
http://community.gbif.org/pg/forum/topic/48616/precourse-activity-promoting-data-publishing/

CAS D’UTILISATION - INTRODUCTION
Explorez quatre cas d'utilisation basés sur de pratiques
de publication actuelles
• Littérature
• Données d'observation
• Collections d'histoire naturelle
• Checklistes
Remplir deux exercices
• Définition des stratégies de publication
• Publier des jeux de données

CAS D’UTILISATION: DONNÉES À BASE DE
LITERATURE
Blue Group

CAS D’UTILISATION 2: DONNÉES
D’OBSERVATIONS
Green Group
Red Group

CAS D’UTILISATION 3: DONNÉES DE COLLECTION
D’HISTOIRE NATURELLE
Yellow Group

CAS D’UTILISATION 4: CHECKLISTES
TAXONOMIQUES
Purple Group

Séance 02, Le paysage de la publication des données en 2015, dans la formation GB22 pour points nodaux du GBIF

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (14)

En vedette

En vedette (20)

Similaire à Séance 02, Le paysage de la publication des données en 2015, dans la formation GB22 pour points nodaux du GBIF

Similaire à Séance 02, Le paysage de la publication des données en 2015, dans la formation GB22 pour points nodaux du GBIF (20)

Plus de Alberto González-Talaván

Plus de Alberto González-Talaván (20)

Séance 02, Le paysage de la publication des données en 2015, dans la formation GB22 pour points nodaux du GBIF

Notes de l'éditeur