10. - Jim Gray, Microsoft Corporation, 2007
Big Data : 4ème paradigme scientifique ?
11. - Jim Gray on eScience, The Fourth Paradigm, Microsoft Corporation, 2009
12. La science du 21ème siècle n’est
plus “science as usual”
13. e-Science
Architecture de grille informatique en réseau
Collaboration à l’échelle mondiale
Génération et traitement de données massives
Outils sophistiqués d’exploration des données
« e-Science n’est pas une nouvelle discipline scientifique à
proprement parler : e-Science est un raccourci pour désigner
l’ensemble d’outils et de technologies nécessaires pour soutenir une
science dans un environnement collaboratif et réseauté.
L’infrastructure de e-Science a pour but de permettre aux
scientifiques de faire leurs recherches, plus vite et mieux. » - Jessie
Hey (2006)
14. Accélérateur de particles : The Large
Hadron Collider
• Construit par 10 000 scientifiques
• De plus de 100 pays
• Questions
les lois basiques qui gouvernent les
interactions et les forces entre objets
élémentaires ?
la structure profonde du temps et de
l’espace ?
l’intersection de la mécanique
quantique et la théorie de la relativité
générale ?
150 millions de senseurs qui délivrent des données 40 million de fois per seconde.
150 millions de péta-octets de données par an ou 500 exa-octets par jour
500 quintillions (5×1020) octets par jour, soit près de 200 fois plus que toutes les
sources de données combinées au monde - http://en.wikipedia.org/wiki/Big_data
15. Astronomie Sloan Digital Sky Survey (SDSS)
• Début 2000
• Données récoltées : 200 GB par nuit, soit 140 téra-octets depuis le début
• Large Synoptic Survey Telescope (2016) devrait acquérir ce volume de
données tous les 5 jours
16. Astronomie Sloan Digital Sky Survey (SDSS)
http://www.ascensionnow.co.uk/is-the-universe-a-fractal.html
17. Le Big Data et Big Science
dans les Humanités (SHS)
18. Défi : « Que feriez-vous avec un million de livres ou un
million de pages de journaux ou de photographies ? »
étant donné que vous ne pouvez pas les lire même si
vous deviez y passer toute une vie ?
« investiguer comment des techniques informatiques
peuvent être appliquées au “big data” afin de changer la
nature des recherches en SHS »
http://www.diggingintodata.org/
22. Présidentielle américaine de 2012
vs
Orca
Narwhal
"The real innovation in 2012 is that we
had world-class technologists inside a
campaign’’
- Reed (Obama chief Tech)
23. Big Data permet de faire de la personnalisation extrême :
“Les très grandes données vous permettent d’être très fin. Elles vous
permettent de faire des interventions très précises et ciblées. (...)
Vous voulez que votre équipe d’analyse des données soit capable de
dire aux militants : “Appelez ces numéros, frappez sur ces portes,
aller dans ces quartiers.” Le militant n’a pas besoin de savoir
pourquoi; ils ont juste besoin de savoir qu’ils frappent sur les bonnes
portes.”
Alexis C. Madrigal, When the Nerds Go Marching In, The Atlantic, 16
nov. 2012.
La présidentielle américaine 2012
24. #2
L’ère de la “gouvernementalité
algorithmique’’
Rouvroy et Thomas Berns (2013)
Vers une gouvernance sans gouvernés
27. #3
Vers des savoirs immanents aux
données, sans causalité et sans sujets
connaissants ?
28. « un nouveau rapport au savoir, qui donne “l’impression d’avoir
abandonné un petit peu les ambitions de la rationalité moderne, qui
visait à comprendre les phénomènes en les reliant à leur cause, au
profit d’une rationalité post-moderne, qui est fondée sur une logique
purement statistique, donc sur la découverte de corrélations entre
des données recueillies dans des contextes extrêmement divers,
hétérogènes les uns aux autres, et qui sont reliés entre eux par
aucun lien de causalité (...) C’est l’abandon du « savoir causal, la
dévaluation de l’expérience sensible elle-même au profit du calcul.»
Rouvroy, Du rôle prédictif des données à la gouvernementalité
algorithmique, 16/12/2010.
http://www.internetactu.net/2010/12/16/du-role-predictif-des-donnees-a-la-
gouvernementalite-algorithmique/
29. « la donnée brute est un oxymore et une mauvaise idée. Au
contraire, les données doivent être cuisinées avec
beaucoup de soin» - Jeffrey Bowker (2005)
les données sont toujours insérées dans un contexte qu’il
faut comprendre pour identifier les limites et les biais
des jeux de données sociales manquent de profondeur et
de contexte
33. #5
La fin des théories scientifiques ?
- Problème de sur-ajustement important (over-fitting)
- L’exigence de la reproductibilité conduit à la simplification
- de réalités complexes et multidimensionnelles
34. Mais c’est ignorer la dimension physique et
sociale des savoirs scientifiques.
« Je peux encoder une belle simulation sur mon écran dans
laquelle il n’y a aucune théorie de la gravité, mais si je tente
de conduire ma voiture au-delà du bord d’une falaise,
l’empirisme va mordre mon derrière dans ma chute.’’ - John
Wilbanks (2009)
35. « Si l’idéal de l'apprentissage automatique est de
réussir le test de Turing, c'est-à-dire qu’on n’arrive
plus à faire la différence entre le comportement
d’une machine et d’un humain, alors la science a
perdu ». - Christophe Prieur (2014)
Dominique Boullier, Christophe Prieur, Milad Doueihi, in Atelier Data science ?
Colloque pour les 30 ans de la revue : Paris INHA 8 au 10 janvier 2014
http://revue-reseaux.univ-paris-est.fr/fr/actualites-colloque-pour-les-30-ans-de-la-revue-reseaux/
document-1775.html
La science a besoin de théories !
36. #6
Le mythe des algorithmes
infallibles
Illusions algorithmiques
37. Problème de BIAIS
Données collectées représentent-elles le
phénomène mesuré ?
Ex. analyse des tweets durant l’ouragan Sandy
(octobre 2012) sur la côte est américaine
« Des biais cachés du Big Data »
- Kate Crawford (2012)
38. Problème de SIGNAL
“La carte n’est pas le territoire” Alfred Korzybski
(1956)
Même les cartes ne sont pas neutres, elles peuvent
être partisanes !
« Des biais cachés du Big Data »
- Kate Crawford
39. Problème d’ECHELLE
- Vision panoramique d’un phénomène
- Il y a des illusions de perspective
- Manque de profondeur
“Travailler avec le big data, c’est voir le
monde à 30 000m d’altitude.”
« Des biais cachés du Big Data »
- Kate Crawford
40. Problème d’ECHELLE
« Des biais cachés du Big Data »
- Kate Crawford
Un vieux problème qui
oppose sciences physiques
et sciences sociales depuis
le 19ème siècle
- Gabriel Tarde, criminologiste.
41. Problème d’ECHELLE
« Des biais cachés du Big Data »
- Kate Crawford
“C’est toujours la même erreur qui se fait jour :
celle de croire que, pour voir peu à peu apparaître
la régularité, l’ordre, la marche logique, dans les
faits sociaux, il faut sortir de leur détail,
essentiellement irrégulier, et s’élever très haut
jusqu’à embrasser d’une vue panoramique de
vastes ensembles » - Gabriel Tarde, Les lois sociales,
1898 »
42. Problème d’ECHELLE : en langage
Latour…
« Des biais cachés du Big Data »
“To be a good sociologist one should refuse to go up, to take
a larger view, to compile huge vistas! Look down, you
sociologists. Be even more blind, even more narrow, even
more down to earth, even more myopic »
http://bruno-latour.fr/sites/default/files/82-TARDE-JOYCE-SOCIAL-
GB.pdf (p. 9) »
Nécessité de demander le “pourquoi” ou le
“comment” et non seulement le “combien”.
43. Le deuil de l’exhaustivité
Le deuil de la représentativité
Le deuil de l’objectivité
« 3 Deuils du Big Data »
- Dominique Bouiller (2014)
44. Attention au data fundamentalism
Attention au data mythology
Conjuguer Big Data et Small Data
Conjuguer la science du Big data et méthodes
qualtiatives traditionnelles en sciences sociales
Tiny data can be cute!
Des illusions algorithmiques
- Kate Crawford
45. « J’ai vu le 4ème paradigme,
et c’est nous ! »
- John Wilbanks (2009)
53. Crowdsourcing culturel
Flickr Commons : espace de co-construction d’artefacts culturels
numériques entre musées, bibliothèques & archives et le public