1. Enjeux sociaux des
algorithmes
Benoit Lacherez
blacherez@gmail.com
Sauf indication contraire, tout le contenu de cette présentation est sous licence CC BY 4.0 France
2. Essai de typologie des algorithmes
● A côté du web (Popularité : Médiamétrie, Google Analytics…)
● Au-dessus du web (Autorité : Google PageRank, Wikipédia...)
● Dans le web (Réputation : Nombre d’amis, retweets, notes, avis…)
● Sous le web (Prédiction : Recommandations Amazon, publicité
comportementale...)
Cardon, Dominique. 2015. A quoi rêvent les algorithmes. Nos vies à l’heure des big data. La
République des idées. Paris: Le Seuil.
8. “Critical Questions for Big Data” (2012)
(d. boyd et K. Crawford)
1. Big Data changes the definition of knowledge
2. Claims to objectivity and accuracy are misleading
3. Bigger data are not always better data
4. Taken out of context, Big Data loses its meaning
5. Just because it is accessible does not make it ethical
6. Limited access to Big Data creates new digital divides
9. “What does a critical data studies look like, and why
do we care?” (2014)
(C. Dalton et J. Thatcher)
1. Situating ‘big data’ in time and space
2. Technology is never as neutral as it appears
3. ‘Big data’ does not determine social forms: confronting hard technological
determinism
4. Data is never raw
5. Big isn’t everything
6. Counter-Data
7. What can Geographers do? What is our praxis?
10. Charting and unpacking data assemblages
Kitchin, Rob, et Tracey P. Lauriault. 2014. « Towards critical data studies: Charting and unpacking
data assemblages and their work ».
“a complex socio-technical system, composed of many apparatuses and
elements that are thoroughly entwined, whose central concern is the production
of a data”
Kitchin, R. The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences.
2014. Sage, London.
Dispositif : « un ensemble résolument hétérogène comportant des discours, des institutions, des
aménagements architecturaux, des décisions réglementaires, des lois, des mesures administratives,
des énoncés scientifiques, des propositions philosophiques, morales, philanthropiques ; bref, du dit
aussi bien que du non-dit » (M. Foucault)
13. 4 idées fondatrices de l’épistémologie empirique des
big data :
● Les big data permettent une forme d’exhaustivité
● Les données viennent de nulle part
● Les données “parlent” toutes seules
● Toute personne avec une compréhension raisonnable des statistiques peut
interpréter les données
(d’après Kitchin, Rob. 2014. « Big Data, new epistemologies and paradigm shifts ». Big Data & Society,
no
Theory & Ethics of Big Data (juin). )
14. Exhaustivité
● n = all
● Utilisateurs de Twitter
● Ouragan Sandy (Twitter/Foursquare)
● Application StreetBump de Boston
● Questions d’échantillonnage : Firehose de Twitter / gardenhose / spritzer
15. Données venues de nulle part : “‘Raw data’ is an
oxymoron”
● Métaphores : force naturelle à contrôler / ressource à consommer (Puschmann,
Cornelius, et Burgess, Jean. 2014. « Big data, big questions| Metaphors of big data ». International Journal of
Communication 8:20.)
● “Data need to be imagined as data to exist and function as such, and the
imagination of data entails an interpretive base.” (Gitelman, Lisa. 2013. « Raw Data » Is an
Oxymoron. The MIT Press. “Introduction”)
● Nettoyage des données
● Processus de ‘rawification’ (Denis, Jérôme, et Samuel Goëta. 2014. « Exploration, Extraction and
‘Rawification’. The Shaping of Transparency in the Back Rooms of Open Data ».)
● Exemple des API des réseaux sociaux
16. Stanley, Matthew,
“Where is that moon
anyway? The problem of
interpreting historical
solar eclipse
observations” in
Gitelman, Lisa. 2013. «
Raw Data » Is an
Oxymoron. The MIT
Press.
Photo : NASA/JPL
17. Données qui “parlent” seules : objectivité
● L’interprétation suppose une
subjectivité
● Risque d’apophénie
● Biais dans les systèmes
informatiques (Friedman, Batya, et
Helen Nissenbaum. 1996. « Bias in
computer systems ». ACM Transactions on
Information Systems (TOIS) 14 (3):330–
347.)
18. Toute personne avec des compétences raisonnables
en statistiques est capable d’interpréter les données
● Risque de réductionnisme
● Humanités numériques : lecture distante / lecture proche
● Exemple de l’analyse de réseaux sociaux
19. American Slavery As It Is: Testimony of a Thousand
Witnesses, Angelina Grimké Weld, Theodore Weld,
Sarah Grimké. 1839
Gruber Garvey, Ellen. 2013. « “facts and FACTS”:
Abolitionists’ Database Innovations ». In « Raw Data » Is
an Oxymoron, 89‑102. Cambridge, Mass and London: MIT
Press.
22. Anonymat
“Nous ne savons pas qui vous êtes. Nous ne connaissons pas votre adresse, ni votre lieu de travail,
votre date de naissance, votre adresse électronique, votre numéro de téléphone.
[...]
Nous ne traitons aucune information qui pourrait être utilisée par Criteo indirectement avec l’aide d’un
tiers ou autre, pour déterminer l'identité personnelle des utilisateurs.
Nous collectons ces informations afin d'améliorer la pertinence des publicités qui sont affichées.”
Charte de la vie privée - Services Critéo : http://www.criteo.com/fr/privacy/
23. Anonymat et ré-identification
● Ré-identification (Sweeney, Latanya. 2001. « Computational Disclosure
Control - A Primer on Data Privacy Protection ». Cambridge, Mass:
Massachusetts Institute of Technology. ; Narayanan, Arvind, et Vitaly
Shmatikov. 2008. « Robust de-anonymization of large sparse datasets ». In
Security and Privacy, 2008. SP 2008. IEEE Symposium on, 111–125. IEEE.)
24. Sécurité
● Yahoo - le 15 décembre 2016, plus d’un milliard de comptes piratés
● Dropbox - le 23 août 2016, 68 millions de mots de passe et d’identifiants utilisateurs
● Myspace - le 30 mai 2016, un fichier comportant des informations sur plusieurs centaines de
millions de comptes MySpace, dont 427 millions de mots de passe
● LinkedIn - mercredi 18 mai 2016, plus de cent millions d’identifiants LinkedIn, comprenant des
mots de passe chiffrés
● Orange - l’opérateur téléphonique français reconnaît, mardi 6 mai 2014, un nouveau vol de
données personnelles de 1,3 million de clients et de prospects, trois mois après une intrusion qui
avait touché près de 800 000 d’entre eux
Sources :
https://www.nextinpact.com/news/102530-yahoo-annonce-vol-donnees-plus-dun-milliard-comptes.htm
http://www.lemonde.fr/pixels/article/2016/09/23/les-principaux-vols-de-donnees-personnelles-depuis-2013_5002435_4408996.html
25. “Rien à cacher”
● “If you have something that you don't want anyone to know, maybe you
shouldn't be doing it in the first place.” (Eric Schmidt, 2009)
(https://www.eff.org/fr/deeplinks/2009/12/google-ceo-eric-schmidt-dismisses-privacy)
● "People have really gotten comfortable not only sharing more information
and different kinds, but more openly and with more people," he said. "That
social norm is just something that has evolved over time." (Mark Zuckerberg,
2010) (https://www.theguardian.com/technology/2010/jan/11/facebook-privacy)
28. Utilisation des métadonnées
Mayer, Jane. 2013. « What’s the Matter with Metadata? » The New
Yorker, 6 juin 2013. https://www.newyorker.com/news/news-
desk/whats-the-matter-with-metadata.
30. Le Panoptique
“if a surveillance program produces information of value, it legitimizes
it... . In one step, we’ve managed to justify the operation of the
Panopticon.” (Edward Snowden, cité par Boellstorff, Tom. 2013. «
Making Big Data, in Theory ». First Monday 18 (10).
https://doi.org/10.5210/fm.v18i10.4869.)
31. Réflexions sur les notions de vie privée et de
données personnelles
● Intégrité contextuelle (Nissenbaum, Helen. 2004. « Privacy as
contextual integrity ». Wash. L. Rev. 79:119.)
● Données personnelles comme “domaine public” (calimaq. 2017. «
Evgeny Morozov et le «domaine public» des données
personnelles ». - S.I.Lex - (blog). 29 octobre 2017.
https://scinfolex.com/2017/10/29/evgeny-morozov-et-le-domaine-
public-des-donnees-personnelles/.)
33. Réappropriation des données personnelles
● “Dégooglisons internet”
● Tim Berners-Lee
● Self data (MyData, Mesinfos…)
● Cozy cloud
34. Préoccupation générale du public à la collecte des
données
“En 2017, 85% des Français se disent préoccupés par la protection de leurs données personnelles en
général, soit une augmentation de 4 points par rapport à 2014.
Une question qui suscite encore plus d’inquiétude dès lors qu’il s’agit de la protection des données sur
Internet : 90% se disent préoccupés pour leurs données mises en lignes (+5 pts depuis 2014).
Les 18-24 ans apparaissent particulièrement sensibles à cette question puisqu’ils sont 93% à se dire
préoccupés par la protection de leurs données en ligne, dont 48% « très préoccupés » (vs 39% pour
l’ensemble des Français).”
« CSA - Protection des données personnelles ». 2017. csa.eu. 19 septembre 2017. https://www.csa.eu/fr/survey/les-français-et-
la-protection-de-leurs-donnees-personnelles.
36. Discriminations par les traitements
Sourcedesimages:Sweeney,Latanya.2013.«Discriminationin
OnlineAdDelivery».arXiv:1301.6822[cs],janvier.
http://arxiv.org/abs/1301.6822.
37. Discriminations par les traitements
Source des images : Sweeney, Latanya. 2013. « Discrimination in Online Ad Delivery ». arXiv:1301.6822 [cs],
janvier. http://arxiv.org/abs/1301.6822.
39. Importance de l’intervention humaine
● Détection des conversion de logements illégales à New York (Flowers,
Michael. 2013. « Beyond Open Data: The Data-Driven City ». In Beyond
Transparency: Open Data and the Future of Civic Innovation, 185‑98. San
Francisco: Code for America Press.)
● Eckerd Connects (Packard, Thomas. 2016. « LITERATURE REVIEW:
PREDICTIVE ANALYTICS IN HUMAN SERVICES ».)
45. Utilisation des big data pour l’action politique
“Le code fait loi”
Lawrence Lessig
46. Gouvernementalité algorithmique
“Tout simplement, c’est un gouvernement qui s’exerce, qui structure le champ
d’action possible, sans jamais contraindre les sujets, mais plutôt en façonnant
à priori leurs environnements informationnels, comme les recommandations
d’Amazon.“
Antoinette Rouvroy in InternetActu.net. 16 décembre 2010 « Du rôle prédictif
des données à la gouvernementalité algorithmique ». InternetActu.net.
http://www.internetactu.net/2010/12/16/du-role-predictif-des-donnees-a-la-
gouvernementalite-algorithmique/.
47. Principes pour des algorithmes responsables
Responsibility
Explainability
Accuracy
Auditability
Fairness
« Principles for Accountable Algorithms and a Social Impact Statement for Algorithms:: FAT ML ».
s. d. https://www.fatml.org/resources/principles-for-accountable-algorithms.
49. “Maintenant plus que
jamais, nous avons
besoin de ceux qui
réfléchissent à la
justice sociale pour
comprendre la
technologie et nous
avons besoin que ceux
qui comprennent la
technologie
s’intéressent à la
justice sociale.”
danah boyd