Les bases de données scientifiques    et la friction des métadonnées                     Paul N. Edwards
Paul N. Edwards 26 February 2013
Les données dans les sciences de la nature}    Les données “brutes”      }    Indications d’instruments ou de capteurs, ...
Les métadonnées}    Une description précise de la fabrication des données      }    Où?      }    Quand?      }    Par...
la friction des données        Paul N. Edwards   26 February 2013
La friction des données}    La collecte de données météorologiques}    Interfaces entre:      }    Capteurs analogiques...
La friction des données}  Le coût (en temps, énergie et attention humaine) de    la collecte, du traitement, du transport...
Cartes perforées météorologiques                      Paul N. Edwards 26 February 2013
Perforation des cartes                         Paul N. Edwards 26 February 2013
Salle de triage des cartes                        Paul N. Edwards 26 February 2013
1950: des milliards de cartes perforées          Punch cards stored in main entrance hall        US National Weather Recor...
Les données climatiques aux NationalCenter for Atmospheric Research (USA) 	6 Po en 2008	Temps à doubler = 20 mois	Nouveau ...
La collecte des données climatiques}    Les services météos nationaux collectent (parfois) et      transmettent (parfois)...
Les tableaux de données climatiques        World Weather Records (volume 1, 1927)                                Paul N. E...
Les tableaux de données climatiques          Monthly Climatic Data for the World (1998)                                   ...
Des questions difficiles…}  Que sont devenus les enregistrements originaux?}  Comment est-ce qu’on a calculé les moyenne...
GIEC 4e rapport (2007)                         Paul N. Edwards 26 February 2013
la friction des métadonnées            Paul N. Edwards   26 February 2013
Les tableaux de données climatiques        World Weather Records (volume 1, 1927)                                Paul N. E...
Méthodes de calcul de la températuremoyenne journalière                       Source: Palutikof and Goddess, 1986         ...
Changements depluviomètres et denivomètres (Karl etal. 1993) Paul N. Edwards 26 February 2013
Changements des horaires d’observation(Karl et al. 1993)                        Paul N. Edwards 26 February 2013
La méthode d’inversion de l’infrastructure}  Une archéologie de    l’infrastructure des    données}  Une méthode    fond...
GIEC 4e rapport (2007)                         Paul N. Edwards 26 February 2013
Un effet de la friction des données}    Köppen 1881: fewer than 100 stations}    Callendar 1938: about 200 stations}   ...
Berkeley Earth (2012)Les moyennes globales de températures                              Decadal Land−Surface Average Tempe...
surfacestations.org    Paul N. Edwards   26 February 2013
Paul N. Edwards 26 February 2013
A. Watts, “Is the U.S. Temperature Record                            Reliable?”, Heartland Institute, 2009                ...
“Évaluations de la qualité des stations d’après le protocole de NOAA/NCDC:Climate Reference Network Rating Guide - adopted...
Menne et al. (2010)}  Confirment les métadonnées recuillies par    surfacestations.org}  Comparent les stations bien sit...
Menne et al. (2010),Fig. 1          USHCN exposure classifications according to surfacestations.org (circles and triangles...
“Comparison of the [continental US] average annual (a) maximum and (b) minimum$%%#   temperatures calculated using USHCN v...
Menne et al. (2010)}  Conclusion: l’exposition mauvaise de la majorité des    stations USHCN est confirmé, mais…}  « Les...
conclusionsPaul N. Edwards   26 February 2013
Les métadonnées:un produit ou un processus?}  Une enquête quasi-ethnographique sur 3 grands projets    en climatologie, é...
Un règle invariable dans le partage dedonnées}    Plus la distance entre la discipline d’origine et celle qui s’en      s...
Les guerres de données: on conteste…}    Les bases de données}    Les modèles d’analyse de données      }    ClearClima...
“Les métadonnées ne sont le métier depersonne” — S.L. Star}    Les scientifiques?}    Les gestionneurs de données?}    ...
Competitors may get an advantage                               34.33%     Dealing with questions from users about the data...
Prochain SlideShare
Chargement dans…5
×

Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

415 vues

Publié le

Presentation à la journée d'études PraTIC: "De la 'Data Science' à l'infovisualisation" (in French).

Publié dans : Formation
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
415
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1
Actions
Partages
0
Téléchargements
6
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

  1. 1. Les bases de données scientifiques et la friction des métadonnées Paul N. Edwards
  2. 2. Paul N. Edwards 26 February 2013
  3. 3. Les données dans les sciences de la nature}  Les données “brutes” }  Indications d’instruments ou de capteurs, etc.}  Les analyses de données }  La transformation d’une série d’indications en courbe ou autre représentation de leur évolution }  Leur mise en relation avec d’autres séries d’indications}  Les données simulées }  Données artificielles produites par un modèle Paul N. Edwards 26 February 2013
  4. 4. Les métadonnées}  Une description précise de la fabrication des données }  Où? }  Quand? }  Par qui? }  Dans quelles conditions? }  Avec quel genre d’instrument ou de capteur?}  Répondent aux questions… }  de marges d’erreur }  de bruit }  de biais }  de fiabilité Paul N. Edwards 26 February 2013
  5. 5. la friction des données Paul N. Edwards 26 February 2013
  6. 6. La friction des données}  La collecte de données météorologiques}  Interfaces entre: }  Capteurs analogiques et enregistrements numériques }  Un formulaire (papier) et un autre }  Les transmissions télégraphiques: }  Codées, décodées et transcrites à la main }  Transcrites (à la main) de bandes télétypes sur cartes perforées }  Tableaux (sur papier) et cartes perforées }  Cartes perforées et bandes magnétiques numériques }  Etc. Paul N. Edwards 26 February 2013
  7. 7. La friction des données}  Le coût (en temps, énergie et attention humaine) de la collecte, du traitement, du transport, du stockage, de la gestion et de l’accès aux données en tant qu’objets concrets}  La matérialité des données impose des coûts d’énergie, et ralentit les analyses }  Les rassembler dans un seul lieu }  Les mettre sur un seul support }  Les rendre commensurables et comparables }  Les rendre accessibles }  etc. Paul N. Edwards 26 February 2013
  8. 8. Cartes perforées météorologiques Paul N. Edwards 26 February 2013
  9. 9. Perforation des cartes Paul N. Edwards 26 February 2013
  10. 10. Salle de triage des cartes Paul N. Edwards 26 February 2013
  11. 11. 1950: des milliards de cartes perforées Punch cards stored in main entrance hall US National Weather Records Center (1950s) Paul N. Edwards 26 February 2013
  12. 12. Les données climatiques aux NationalCenter for Atmospheric Research (USA) 6 Po en 2008 Temps à doubler = 20 mois Nouveau système de stockage: 30 Po Paul N. Edwards 26 February 2013
  13. 13. La collecte des données climatiques}  Les services météos nationaux collectent (parfois) et transmettent (parfois) les données à... }  Le Réseau Mondial (1905-1953) }  Smithsonian World Weather Records (1927-1990s) }  Monthly Climatic Data for the World (1950s-présent)}  Les “data guys”: collecteurs professionels }  NCAR et GISS (EUA) }  Hadley Centre et Climatic Research Unit (Royaume Uni) }  URSS/Russie }  autres}  Nettoyage des données et extension des métadonnées Paul N. Edwards 26 February 2013
  14. 14. Les tableaux de données climatiques World Weather Records (volume 1, 1927) Paul N. Edwards 26 February 2013
  15. 15. Les tableaux de données climatiques Monthly Climatic Data for the World (1998) Paul N. Edwards 26 February 2013
  16. 16. Des questions difficiles…}  Que sont devenus les enregistrements originaux?}  Comment est-ce qu’on a calculé les moyennes?}  Une station a-t-elle subi des changements au fil des années qui aurait eu des effets importants sur la qualité de ses données? Paul N. Edwards 26 February 2013
  17. 17. GIEC 4e rapport (2007) Paul N. Edwards 26 February 2013
  18. 18. la friction des métadonnées Paul N. Edwards 26 February 2013
  19. 19. Les tableaux de données climatiques World Weather Records (volume 1, 1927) Paul N. Edwards 26 February 2013
  20. 20. Méthodes de calcul de la températuremoyenne journalière Source: Palutikof and Goddess, 1986 Paul N. Edwards 26 February 2013
  21. 21. Changements depluviomètres et denivomètres (Karl etal. 1993) Paul N. Edwards 26 February 2013
  22. 22. Changements des horaires d’observation(Karl et al. 1993) Paul N. Edwards 26 February 2013
  23. 23. La méthode d’inversion de l’infrastructure}  Une archéologie de l’infrastructure des données}  Une méthode fondamentale de la climatologie }  et de toute autre science historique…}  Résultat: révision des métadonnées Paul N. Edwards 26 February 2013
  24. 24. GIEC 4e rapport (2007) Paul N. Edwards 26 February 2013
  25. 25. Un effet de la friction des données}  Köppen 1881: fewer than 100 stations}  Callendar 1938: about 200 stations}  Willett 1950: 183 stations}  Callendar 1961: 450 stations}  Mitchell 1963: 183 stationsÒ  Jones et al. 1986: 2194 stationsÒ  Brohan et al. 2006: 4349 stationsÒ  Muller et al. (2012): 39,340 stations Paul N. Edwards 26 February 2013
  26. 26. Berkeley Earth (2012)Les moyennes globales de températures Decadal Land−Surface Average Temperature 1 10−year moving average of surface temperature over landÉtude dirigée par Gray band indicates 95% uncertainty intervalRichard Muller — 0.5 Temperature Anomaly ( °C )physicien etclimatosceptique àUC Berkeley 0Financée par les −0.5frères Koch (desriches conservateursde l’extrème droite) −1 NASA GISS NOAA / NCDC Hadley / CRU −1.5 Berkeley Earth 1750 1800 1850 1900 1950 2000 Paul N. Edwards 26 February 2013
  27. 27. surfacestations.org Paul N. Edwards 26 February 2013
  28. 28. Paul N. Edwards 26 February 2013
  29. 29. A. Watts, “Is the U.S. Temperature Record Reliable?”, Heartland Institute, 2009 MMTS = Maximum/Minimum Temperature System (thermistor électronique )“Nous étions choquéspar ce que nous avonstrouvé… C’estprobable que 9 sur 10stations rapportent destempératures en hausseparcequ’ils sont malsituées sur leurs sites.” Paul N. Edwards 26 February 2013
  30. 30. “Évaluations de la qualité des stations d’après le protocole de NOAA/NCDC:Climate Reference Network Rating Guide - adopted [sic] from NCDC ClimateReference Network Handbook, 2002, specifications for siting (section 2.2.1)” Paul N. Edwards 26 February 2013
  31. 31. Menne et al. (2010)}  Confirment les métadonnées recuillies par surfacestations.org}  Comparent les stations bien situées avec celles qui sont mal situées}  Comparent les stations dans le USHCN avec celles dans le USCRN (Réseau de recherche climatique des EUA) }  USCRN: 114 stations (y compris 7 en double) }  Des instruments très précis, en 3 exemplaires }  Les sites et l’instrumentation des stations sélectionnés selon les normes les plus rigoureux Paul N. Edwards 26 February 2013
  32. 32. Menne et al. (2010),Fig. 1 USHCN exposure classifications according to surfacestations.org (circles and triangles). Filled symbols are in agreement with independent assessments by NOAA/National Weather Service Forecast Office personnel. …Ratings 1 and 2 are treated as “good” exposure sites; ratings 3, 4 and 5 are considered “poor” exposure. $%&# # Source: “V1.05 USHCN Master Station List”. (Downloaded from www.surfacestations.org in June 2009. A $%# complete set ofUSHCN exposure classificationsWatts [2009] wasto surfacestations.org (circles and more Figure 1. USHCN station classifications as referenced in according not available for $%(# triangles). of this analysis). general use at the time Filled symbols are in agreement with independent assessments by $$)# NOAA/National Weather Service Forecast Office personnel. Ratings are based on criteria Paul N. Edwards 26 February 2013 $$"# similar to those used to classify U.S. Climate Reference Network stations. In this analysis, $$!# ratings 1 and 2 are treated as “good” exposure sites; ratings 3, 4 and 5 are considered $$%# “poor” exposure sites.
  33. 33. “Comparison of the [continental US] average annual (a) maximum and (b) minimum$%%# temperatures calculated using USHCN version 2 adjusted temperatures [Menne et al. # 2009] and USCRN departures from the 1971-2000 normal. Good and poor site ratings$%&# Figure 7. Comparison of the CONUS average annual (a) maximum and (b) minimum are based on surfacestations.org.”$&# temperatures calculated using USHCN version 2 adjusted temperatures [Menne et al. 2009]$&(# Source: Menne et al., "On the from the of the U.S. Surface Temperatureand poorJ.site ratings are based and USCRN departures reliability 1971-2000 normal. Good Record,” Geophys. Research Paul N. Edwards 26 February 2013$&!# (2010), Fig. 7 on surfacestations.org as in Fig. 1.$&)# !
  34. 34. Menne et al. (2010)}  Conclusion: l’exposition mauvaise de la majorité des stations USHCN est confirmé, mais…}  « Les ajustements appliqués aux données USHCN Version 2 prennent largement en compte les effets de changements d’instruments et d’expositions, bien qu’un petit biais négatif [froid] paraît rester… » « Adjustments applied to USHCN Version 2 data largely account for the impact of instrument and siting changes, although a small overall residual negative (“cool”) bias appears to remain… »}  « On trouve aucune évidence d’une inflation des tendances de température due à une mauvaise exposition des stations. » }  We find no evidence that …US temperature trends are inflated due to poor station siting.” Paul N. Edwards 26 February 2013
  35. 35. conclusionsPaul N. Edwards 26 February 2013
  36. 36. Les métadonnées:un produit ou un processus?}  Une enquête quasi-ethnographique sur 3 grands projets en climatologie, écologie, et surveillance environmentale}  Résultats: }  Chaque projet tache de mettre en place des systèmes automatisés de collecte de métadonnées }  Mais la collecte de métadonnées restent un travail difficile }  Un travail sans fin du à: ¨  Le versionnage de bases de données ¨  Les motivations des scientifiques ¨  Le fait qu’on ne sait pas dès le début qu’une base de données sera utile pour autrui}  La communication entre des individus, souvent informelle, reste le processus de base dans le partage de données Paul N. Edwards 26 February 2013
  37. 37. Un règle invariable dans le partage dedonnées}  Plus la distance entre la discipline d’origine et celle qui s’en sert est grande, plus les métadonnées sont essentielles — et plus large est le champ de précisions requises Paul N. Edwards 26 February 2013
  38. 38. Les guerres de données: on conteste…}  Les bases de données}  Les modèles d’analyse de données }  ClearClimateCode.org}  Les interprétations des données}  …et bientôt les simulations de la circulation générale atmosphérique?}  … et les métadonnées Paul N. Edwards 26 February 2013
  39. 39. “Les métadonnées ne sont le métier depersonne” — S.L. Star}  Les scientifiques?}  Les gestionneurs de données?}  La foule “crowdsourcing”?}  Les jeunes?}  Les spécialistes en sciences sociales?}  Les “data scientists”? Paul N. Edwards 26 February 2013
  40. 40. Competitors may get an advantage 34.33% Dealing with questions from users about the data 33.83% Technical limitations, ie. webspace platform space constraints 27.82% Whether there is intense competition in the topic 24.81%2009 sondageput in a134 amount of work buildingdudataset Whether you de large scientifiques the communauté 24.63%Machine Learningdata that might substitute for your own Availability of other 14.93% Table 10: Top Reasons Not to Share Code Not Share The time it takes to clean up and document for release 77.78% Dealing with questions from users about the code 51.85% The possibility that your code may be used without citation 44.78% The possibility of patents or other IP constraints 40.00% Legal barriers, such as copyright 33.72% Competitors may get an advantage 31.85% The potential loss of future publications using this code 31.11% The code might be used in commercial applications 28.15% Availability of other code that might substitute for your own 21.64% Whether you put in a large amount of work building the code 20.00% Technical limitations, ie. webspace platform space constraints 20.00% 23 “Dealing with questions from users about the data” is the seventh most highly cited reason not to Source:V. Stodden, “The Scientific Method in Practice: Reproducibility in the Computational Sciences,” share data. MIT Sloan School Working Paper 4773-10 (2010) 24 This was also the first substantive scientific paper published in the Transactions, Thomas Kuhn (1978, 27) cited in Willinsky p 200. “the publication of this letter proved to be a more open N. Edwards 26 February 2013 than Newton Paul and immediate forum for his work 25 was willing to bear, and he did not again use the journal to publish his experimental pursuits but relied exclusively on the unhurried book, most notably with the Principia, published fifteen years later in 1687.” Willinsky p200. This firestorm of exchange seems to have lead to the creation of the blind review process.

×