This presentation will be used during a session where we will have the opportunity to review the contents planned for the first BID workshop section and discuss key concepts that we will be using in all modules, in particular about biodiversity digital data management. It will be a theoretical interactive session where students will have the opportunity to contribute with their answers and experiences.
---
Cette présentation sera utilisé pendant une session où nous aurons l’opportunité de passer en revue le contenu de chaque module de la formation et de discuter les concepts-clefs que nous utiliserons dans tous les modules, en particulier ceux traitant de la gestion des données numérisées sur la biodiversité. Il s’agira d’une session interactive et théorique à laquelle les participants auront l’opportunité de contribuer avec leurs réponses et leurs expériences personnelles.
6. Concepts clés
Qualité des données
Documentation
Standards de données
Normalisation des données
Pourquoi publier?
Conceptsclés
7. "...data quality is related to use and cannot be assessed independently of the
user. In a database, the data have no actual quality or value (Dalcin 2004);
they only have potential value that is realized only when someone uses the
data to do something useful. Information quality relates to its ability to satisfy
its customers and to meet customers’ needs (English 1999).”
Quality
Reference: Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for GBIF, Copenhagen. ISBN 87-92020-03-8.
8. "...la qualité des données est liée à l’usage et ne peut pas être jugée
indépendamment de l’utilisateur. Dans une base de données, les données
n’ont pas de qualité ou de valeur intrinsèques (Dalcin 2004) ; elles n’ont
qu’une valeur potentielle qui se réalise seulement quand quelqu’un utilise des
données pour faire quelque chose d’utile. La qualité de l’information est liée à
sa capacité à satisfaire ses consommateurs et leurs besoins (English 1999).”
Qualité
Chapman, A. D. (2005). Les principes de qualité des données, version 1.0. Trad. Chenin, N. Copenhague: Global Biodiversity Information
Facility. ISBN 87-92020-03-8.
11. Reference: Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for GBIF, Copenhagen. ISBN 87-92020-03-8.
• accessible,
• accurate,
• timely,
• complete,
• consistent with other sources,
• relevant,
• comprehensive,
• provide a proper level of detail,
• be easy to read and easy to interpret
Quality
“Fitness for Use”
All data include error – there is no escaping it! It is knowing what the
error is that is important, and knowing if the error is within acceptable
limits for the purpose to which the data are to be put. (Chapman 2005)
12. • accessibles,
• exactes,
• opportunes,
• complètes,
• cohérentes avec les autres sources,
• pertinentes,
• exhaustives,
• fournissent un niveau de détail approprié,
• aisées à lire et à interpréter
Quality
“Aptitude à l’emploi”
Toute données contient des erreurs – on ne peut y échapper ! Ce qui
compte c’est d’avoir connaissance de ces erreurs et de savoir si elles
restent dans des limites acceptables au regard de ce que l’on veut en
faire. (Chapman 2005)
Chapman, A. D. (2005). Les principes de qualité des données, version 1.0. Trad. Chenin, N. Copenhague: Global Biodiversity Information
Facility. ISBN 87-92020-03-8.
15. Reference: http://www.npl.co.uk/upload/pdf/Understanding%20uncertainty.pdf
• Uncertainty
Is the quantification of the doubt
about the measurement result.
• Error
Is difference between the
measured value and the true
value of object being measured.
Quality
Errors and Uncertainty
“As far as the law of mathematics refer to reality, they are not certain;
and as far as they are certain, they do not refer to reality. (Albert
Einstein)
16. Reference: http://www.npl.co.uk/upload/pdf/Understanding%20uncertainty.pdf
• Incertitude
La quantification du doute sur le
résultat de la mesure.
• Erreur
La différence entre la valeur
mesurée et la valeur réelle de
l'objet mesuré.
Qualité
Erreurs et incertitudes
« Pour autant que les lois des mathématiques reflètent la réalité, elles ne
sont pas certaines; pour autant qu’elles soient certaines, elle ne reflètent
pas la réalité. »(Albert Einstein)
17. “People have forgotten how to tell a story. Stories don’t have a middle
or an end any more. They usually have a beginning that never stops
beginning.” (Steven Spielberg)
Documentation
18. "Les gens ont oublié comment raconter une histoire. Les histoires n’ont
plus ni milieu ni fin. Elles ont généralement un début qui ne cesse de
commencer." (Steven Spielberg)
Documentation
19. Reference: Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for GBIF, Copenhagen. ISBN 87-92020-03-8.
• title;
• source;
• data lineage;
• accuracy;
• logical consistency;
• date and life expectancy;
• field definitions;
• collection methodology;
Documentation
Documentation
Experience has shown that treating data as a long-term asset and
managing it within a coordinated framework produces considerable
savings and ongoing value. (NLWRA 2003).
• completeness;
• conditions of use and use
constraints;
• custodianship;
• contact information
20. • titre ;
• source ;
• historique des données ;
• précision ;
• cohérence logique ;
• date et durée de vie des
données ;
• définition des champs ;
• méthodologie de collecte ;
Documentation
Documentation
L’expérience a montré que le fait de traiter les données comme un atout
à long terme et de les gérer dans un cadre coordonné apporte des
économies considérables et une valeur durable (NLWRA 2003).
• Methodology utilisée par la
collection;
• complétude ;
• conditions et contraintes
d’utilisation ;
• information sur la conservation ;
• contact
Chapman, A. D. (2005). Les principes de qualité des données, version 1.0. Trad. Chenin, N. Copenhague: Global Biodiversity Information
Facility. ISBN 87-92020-03-8.
21. Metadata = « Data about the data »
• Describe content, accessibility, completeness...
• About the dataset
• Error documentation
• Documentation of validation process, data cleaning
and data correcting
Metadata must be rich enough to allow data (re)use by a third
party without them having to refer to the data source.
Documentation
Documenting quality during digitization
22. Que peuvent faire les équipes de numérisation ?
1. Aider à documenter le(s) jeu(x) de données
grâce aux métadonnées et annotations sur les
occurrences
2. S’assurer de la meilleure qualité possible lors
de la numérisation :
1. Données taxonomiques
2. Données géographiques
3. Données sur la collection et le collecteur
4. Données descriptives
Documentation
23. "As with marathon runs and lengths of toilet paper, there had to be
standards to measure up to.” (Haruki Murakami)
Standards
24. «Tout comme la distance des marathons et la longueur des rouleaux
de papier toilette, il faut des standards auxquels nous puissions nous
référer. » (Haruki Murakami)
Standards de données
25. Source: https://www.idigbio.org/content/data-standards-sharing-hands-experience-integrated-publishing-toolkit-ipt
Existing Standards
• Ecological Metadata Language
Standard (EML),
• Darwin Core,
• Audubon Media Description (aka
Audubon Core),
• Global Genome Biodiversity
Network(GGBN)
• Ocean Data Standards and Best
Practices Project (ODSBP)
• Any more..?
Reasons to Standardise
• Standards provide data
integrity, accuracy and
consistence, clarify
ambiguous meanings,
minimize redundant
data, and document
business rules.
Standards
Data Standards
“Data standards are the rules by which data are described and recorded.
In order to share, exchange, and understand data, we must standardise
the format as well as the meaning.” (USGS)
26. Source: https://www.idigbio.org/content/data-standards-sharing-hands-experience-integrated-publishing-toolkit-ipt
Standards existants
• Ecological Metadata Language
Standard (EML),
• Darwin Core,
• Audubon Media Description (alias
Audubon Core),
• Global Genome Biodiversity
Network(GGBN)
• Ocean Data Standards et Best
Practices Project (ODSBP)
• Autres standards..?
Raisons pour standardiser
• Les standards fournissent
protection,exactitude et
cohérence aux données,
permettent d’éclaircir les
termes flous, de réduire les
répétitions d’information, et
de documenter les règles
d’utilisation des données.
Standards
Standards de données
« Les standards de données sont les règles permettant de décrire et
d’enregistrer les données. Afin de partager, échanger et comprendre les
données, nous devons standardiser la forme autant que le fond.»
(USGS)
27. Standards
Extensions and the Star Schema
Extensions
● GGBN Suite
● EOL References
● Germplasm Suite
● Trait measurement
● Taxon Description
● Simple Multimedia
● Literature References
● Types and Specimen
● Vernacular Names
● Audobon Media
● Darwin Core Event
Etc… etc…
28. Standards
Extensions et Schéma en étoile
Extensions
● GGBN Suite
● EOL References
● Germplasm Suite
● Trait measurement
● Taxon Description
● Simple Multimedia
● Literature References
● Types and Specimen
● Vernacular Names
● Audubon Media
● Darwin Core Event
Etc… etc…
29. "The idea is there locked inside. All you have to do is remove the
excess stone (Michelangelo).
Normalization
30. "L'idée est là, enfermée à l’intérieur, et tout ce que vous avez à faire
est de retirer l’excès de pierre.” (Michel-Ange)
Normalisation
31. Source: http://community.gbif.org/pg/file/read/49318/gb22-nodes-course-session-02-2015-data-publishing-landscape-en
First Normal Form (1NF)
• Remove duplicative columns
• Create separate tables for related data.
• Identify each row with a primary Key
Second Normal Form (2NF)
• First Normal Form +
• Remove subsets of data for multiple rows
• Create relationships with foreign keys
Third Normal Form (3NF)
• Remove columns not dependant on the
primary key
Reasons to Normalize
• To minimize duplicate
data.
• To minimize or avoid
data modification
issues.
• Simplify queries.
Normalization
What is Data Normalization?
Data Normalization is the process used to organize a database into
efficient tables and columns.
32. Source: http://community.gbif.org/pg/file/read/49318/gb22-nodes-course-session-02-2015-data-publishing-landscape-en
Première Forme Normale (1NF)
• Supprimer des duplications de colonnes
• Créer des tableaux différents pour les
données connexes.
• Identifier chaque ligne avec une clé primaire
Deuxième Forme Normale (2NF)
• Première Forme Normale +
• Supprimer les sous-ensembles de données
sur plusieurs lignes
• Créer des liens avec des clés étrangères
Troisième Forme Normale (3NF)
• Supprimer les colonnes ne dépendant pas
de la clé primaire
Les raisons de la
normalisation
• Minimiser la duplication
des données.
• Minimiser ou éviter les
problèmes dus aux
modifications de
données.
• Simplifier les requêtes
de données.
Normalisation
Qu’est ce que la normalisation des données?
La normalisation des données est la procédure utilisée pour organiser
de manière efficace une base de données sous forme de tableaux et de
colonnes.
37. 21st century = « century of the data »
Data quantity increases exponentially
GBIF is part of this movement!
Well curated and standardized, these data have the
potential to greatly improve our knowledge and
capacities
Publishing
Why Publish Data
38. Pourquoi publier les données ?
21ème siècle = « siècle des données »
La quantité de données augmente exponentiellement
Le GBIF est un acteur de ce mouvement !
Bien mises en forme et standardisées, ces données
ont le potentiel d’améliorer grandement nos
connaissances et aptitudes
Publication
39. Taxonomic research, niche modelling/species
distribution prediction, invasive and alien
species, habitat degradation, interspecific
relationships, ...
But also...
Conservation biology, water management,
eco-tourism, science history, hunting and
fisheries, data repatriation,..
Biodiversity Data Use
After Chapman, 2006
Publishing
40. Recherches taxonomiques,
modélisation/prédiction de la distribution des
espèces, espèces invasives, dégradation des
habitats, relations interspécifiques, ...
Mais aussi...
Organisation de la conservation, gestion de
l’eau, éco-tourisme, histoire des sciences,
chasse et pêche, rapatriement des données,
...
Usage des données de biodiversité
D’après Chapman, 2006
Publication
41. Reasons to Publish
● Taxonomy
● Biogeographic studies
● Species diversity and populations
● Life histories and phenologies
● Endangered, Migratory and Invasive
Species
● Impact of Climate Change
● Ecology, Evolution and Genetics
● Environmental Regionalisation
● Conservation Planning
Source: https://docs.google.com/presentation/d/1iYCb3EdqwcD_Nxk5j_lFgGTLFNEz0Cu54qyUvXlSMgs/edit#slide=id.g163ca52ab8_1_7
Publishing
● Natural Resource Management
● Agriculture, Forestry, Fisheries
and Mining
● Health and Public Safety
● Bioprospecting
● Forensics
● Border Control and Wildlife Trade
● Education and Public Outreach
● Ecotourism and Recreational
Activities
● Society and Politics
● Human Infrastructure Planning
42. Raisons de Publier
● Taxonomie
● Études biogéographiques
● Diversité des espèces et Populations
● Traits de vie and phénologies
● Espèces Menacées, Migratoires et
Envahissantes
● Conséquences du Changement
Climatique
● Écologie, Évolution et Génétique
● Régionalisation Environnementale
● Planification de la Conservation
Source: https://docs.google.com/presentation/d/1iYCb3EdqwcD_Nxk5j_lFgGTLFNEz0Cu54qyUvXlSMgs/edit#slide=id.g163ca52ab8_1_7
Publication
● Gestion des Ressources Naturelles
● Agriculture, Sylviculture, Pêcheries et
Activités Minières
● Santé et Sécurité Publique
● Bioprospection
● Médecine Légale
● Contrôle des Frontières et du
Commerce d’Espèces Sauvages
● Éducation et Sensibilisation Publique
● Écotourisme et Activités Récréatives
● Société et Politiques
● Planification des Infrastructures
Humaines
43. Barriers to data publishing
Publishing
● Lack of knowledge
● Lack of understanding
● Lack of will
● Perceived data value
● Privacy concerns
● Lack of authorization
● Lack of time / planning
● Lack of capacity
● Lack of funding
● Lack of infrastructure
Psychological
&
cultural
barriers
Practical
barriers
Capacity
barriers
Institutional
barriers
44. Obstacles à la Publication
Publication
● Manque de connaissance
● Manque de compréhension
● Manque de volonté
● Valeur perçue des données
● Questions de confidentialité
● Absence d'autorisation
● Manque de temps/planning
● Manque de moyens
● Manque de fonds
● Manque d'infrastructures
Obstacles
psychologiques
et culturels
Obstacles
pratiques
Obstacles liés aux
ressources
Obstacles
institutionnels
45. ● Refuse to share.
● Refuse to share until they have exhausted
the planned use of the data.
● Will only share their data for a fee.
● Will only share data under specific
restrictions.
● Agree to share data openly.
Data restriction levels
Publishing
46. Niveaux de restriction
Publication
● Refus de partager.
● Refus de partager jusqu'à ce que l'utilisation
prévue des données soit terminée.
● Partage payant des données.
● Partage des données sous restrictions.
● Partage libre des données.
47. ● Facilitate access to financial support.
● Call upon commitments or legal mandates.
● Call upon open access / moral principles.
● Show the benefits of a better data management.
● Show the benefit for their scientific careers.
● Peer pressure.
● Start / support big digitization programmes.
● Start / support data repatriation efforts.
Incentives for Publishing
Publishing
48. Incentives pour la publication
Publication
● Faciliter l'accès à un soutien financier.
● Appel à des engagements ou des mandats légaux.
● Appel à un accès ouvert/principes moraux.
● Montrer les avantages d'une meilleure gestion des données.
● Montrer les avantages pour les carrières scientifiques.
● Pression des pairs
● Démarrer/soutenir de grands programmes de numérisation.
● Démarrer/soutenir les efforts de rapatriement des données.
49. Promotion of Data Publishing – EXAMPLES
http://community.gbif.org/pg/forum/topic/48616/precourse-activity-promoting-data-publishing/
Publishing
Challenges
• Not wanting to publish
and/or not wanting to
publish all the data
• Technical threshold of an
IPT
• Restrictive licensing of data
Strategies
• Start smaller – meta data only
• Promote one-off publishing
with multiple exposures
• Provide hosted IPTs to
eliminate technical threshold
• Illustrate licensing with telling
examples.
• Promote and organize
trainings to bring reluctant
publishers in with an easier
“sell” like data papers.
50. Promotion de la publication de données - EXEMPLE
http://community.gbif.org/pg/forum/topic/48616/precourse-activity-promoting-data-publishing/
Publication
Stratégies
• Commencez petit - seulement les
méta-données
• Promotion du fait qu’avec une
seule publication au GBIF les
données seront exposées dans
de multiples réseaux
• Fournir des IPTs hébergés pour
éliminer les barrières techniques
• Illustrer les licences avec des
exemples éloquents.
• Promouvoir et organiser des
formations sur les « data
papers »
Défis
• Ne pas vouloir publier et/
ou ne pas vouloir publier
toutes les données
• Exigences/ capacities
techniques pour utiliser
l’IPT
• Licences restrictives des
données