Algorithmes et Big Data : Peut-on se souvenir du futur ?
1. Atelier Proustime
19 avril 2017
Maryse Salles
Maryse.Salles@ut-capitole.fr
https://www.canal-u.tv/video/universite_toulouse_ii_le_mirail/algorithmes_et_big_data_peut_on_se_souvenir_du_futur_maryse_salles.35349
Algorithmes et Big Data :
Peut-on se souvenir du futur ?
2. …à ne pas confondre
Des cartes et des
territoires…
4. Ceci n'est pas la mer
méditerranée .
4
Ceci n'est pas la mer
méditerranée .
5. Le logiciel COMPAS calcule un score de risque
de récidive à partir de données quantifiées
sur 18 thèmes
Criminal Involvement, Noncompliance
History, Violence History, Current Violence
Criminal Associates/Peers,
Social Environment, Criminal Opportunity
Family Criminality, Vocation/Education
Substance Abuse, Financial Problems
Social Isolation, Social Adjustment,
Socialization Failure, Residential Instability
Criminal Thinking, Criminal Personality, Leisure/Boredom
Score COMPAS : 10
(le plus haut)
Les 137 données recueillies
sur Bernard Parker sont-elles
Bernard Parker
5
6. Quel impact ont ces
représentations sur ce
qu'elles représentent ?
7. La pipe de Magritte
Nous manquons d'information sur le sujet,
mais il semblerait que la pipe n'ait pas été
affectée par la peinture que Magritte a faite
d'elle ;-)
7
8. La carte de la Méditerranée
La reconnaissance de cet espace comme une
unité (la Mer Méditerranée),
ses représentations sous forme de cartes pour
naviguer, pour représenter un empire, …
ont eu, en conjonction avec beaucoup d'autres
facteurs (évolution des technologies, invasions,
guerres de conquête…), une influence sur cet
espace
• navigation, intensité des échanges, positionnements
géopolitiques, etc.
Cette influence, limitée, s'est exercée sur une
très longue période
8
9. Le score de probabilité de
récidive de Bernard Parker
Aux États-Unis, le score d'un prévenu est transmis au juge
qui doit décider de la peine et de ses éventuels
aménagements
• notamment décider d'une peine d'emprisonnement, de sa
durée
Il est également utilisé pour les décisions de remise de
peine, de mise en liberté conditionnelle, etc.
Une différence de catégorie de score (ex. risque élevé vs
risque moyen ou bas) peut entraîner une différence de
peine ou de montant de caution, suivant le juge concerné
La représentation de Bernard Parker permettant le
calcul de son score de probabilité de récidive a un
impact immédiat et majeur sur sa vie, à court,
moyen et long terme 9
11. Big Data
Grandes masses de données qui mémorisent des "traces" de l'activité
d'êtres vivants, de machine, etc. ou leurs états successifs
• très gros volumes de données : unités de mesure actuelles téraoctet (1012 octets),
pétaoctet (1015), exaoctet (1018)
Collecte des données : principalement automatique
• "traçage" fait sans acte volontaire de la part de la personne "tracée"
Données "historicisées"
• les données s'accumulent, gardent la trace des différentes valeurs dans le temps
Grand nombre de "dimensions" pour décrire une personne, ou un objet
• ex. pour une personne : données biologiques, noms des amis sur Facebook (et les amis de
leurs amis), CV, photo, engagements associatifs, conduite automobile, les lieux où elle se
rend, les numéros de téléphone entrants et sortants, les sites consultés…
Possibilité de corréler différents aspects de l'identité d'une personne
jusque là dissociés
• vie actuelle, vie passée, vie professionnelle, activités associatives, goûts musicaux,
positions politiques, religion, relations amicales…
11
12. Algorithmes 1/2
Du nom du mathématicien persan Al-Kwarizmi (9ème siècle), considéré comme le père
de l'algèbre
Description de toutes les actions élémentaires nécessaires à la
réalisation d'un but, dans l'ordre dans lequel elles doivent être
faites, avec d'éventuelles répétitions de groupes d'actions…
• manuel de montage d'un meuble, recette de cuisine
• suite des opérations pour faire un calcul (par exemple pour résoudre une
équation du second degré)
En informatique, après avoir défini l'algorithme, on le code dans un
langage compréhensible par un ordinateur, afin qu'il exécute la
procédure décrite par l'algorithme
Dans le contexte des Big Data : traitements divers dans le but
d'identifier des motifs qui se répètent dans un ensemble des
données
=> => =>
12
13. Algorithmes 2/2
En particulier : traitements statistique pour identifier des groupes d'entités se
comportant d'une manière proche => profils
• les données d'une nouvelle entité seront comparées aux profils déjà définis afin de la classer , ce
qui permet d'inférer son comportement futur sur la base des comportements des entités de son
profil
• ex. : on compare les données biologiques, d'activité physique… d'une personne donnée à
l'ensemble des profils sanitaires calculés, pour déterminer son niveau de risque
• ex. : on compare le type de navigation dans un site marchand, les produits regardés, les achats
effectués avec ceux des groupes de consommateurs que l'on a définis…
Ces traitements statistiques cherchent à établir des corrélations entre certaines
variables (c'est-à-dire des liens qui font qu'elles évoluent en même temps).
Une variable est un type de donnée : l'âge, le sexe, le niveau de diplôme, le
lieu…
• ex. de corrélations : précocité maladie Alzheimer et niveau de diplôme, consommation chocolat
et nombre de prix Nobel (mais aussi consommation chocolat et nombre de tueurs en série !),
baisse de nombre de cigognes et de la natalité en Allemagne après-guerre…
• attention : un lien de corrélation n'équivaut pas à un lien de cause à effet.
La variable 1 peut être la cause de la variable 2… ou l'inverse (performance d'une entreprise et
présence de femmes au CA).
Les variables 1 et 2 peuvent être la conséquence d'une troisième variable inconnue au moment
du traitement (cigognes et natalité).
En analyse statistique, le lien de causalité est toujours une interprétation 13
14. Quelques exemples d'utilisation
Utilisation dans la recherche scientifique, par aide à la compréhension de
phénomènes impliquant de grands nombres de variables quantifiables
• ex. : météorologie, épidémiologie, changement climatique…, sociologie des usages
d'Internet, des comportements électoraux…
• ex. : nouveaux domaine comme la "physique sociale"
Recherche de modification de comportement
• ex. : achats suggérés sur Internet, modulation des tarifs d'assurance en fonction du
comportement (assurance automobile, assurance santé)…
• ex. : interface UBER pour pousser les chauffeurs à rester en service (alors que leur
espoir de revenu est faible sur le créneau)
En aide à la prise de décision. Quelques exemples :
• aide au recrutement, à la sélection des étudiants (États-Unis)
• maintenance préventive de machines (suggestion de pièces à changer)
• planification de travaux dans l'espace public
• répartition des forces de police dans les quartiers (États-Unis)
• aide aux décisions de justice (peines, libérations sous caution…) (États-Unis), aide à
l'identification de terroristes potentiels
14
16. Des données données ?
Donnée : du latin datum, donné (pluriel data)
Mais les données ne sont pas données, elles
sont le résultat d'un ensemble de choix de
représentation
• choix du type de support et du type de codage
quels traitements permettront le support et le codage ? Quelle
automatisation possible des traitements ?
• choix de ce qui est représenté, ce qui ne l'est pas
=> => =>
16
17. Les choix de représentation
La vision du monde (paradigme)
• vision sous-jacente au score de probabilité de récidive
tout peut être quantifié, comparé, classé
le réel existe de façon indépendante de sa représentation
la quantification quantifie ce qui existe (le réel) de façon objective, neutre ;
c'est une simple technique
Ce qui est représenté, ce qui ne l'est pas
• la pipe : la pipe (pas le fumeur), pas de décor, pas de fumée…
• la carte de la méditerranée
pays (frontières, noms des pays), relief, noms des mers…
mais pas : les lignes maritimes, pas les vents dominants, les noms des îles au
temps d'Homère, les bancs de poissons…
• calcul du score de probabilité de récidive : quelques exemples
de ce qui est représenté
Criminal Associates/Peers, Social Environment
Family Criminality, Vocation/Education, Residential Instability
Social Isolation, Social Adjustment, Socialization Failure,
Criminal Thinking, Criminal Personality
17
18. Sur la représentation d'un pays
au travers de son PNB…
"Our Gross National Product, now, is over $800 billion dollars a year,
but that GNP - if we judge the USA by that - that GNP counts air
pollution and cigarette advertising, and ambulances to clear our
highways of carnage. It counts special locks for our doors and the jails
for the people who break them. It counts the destruction of the
redwood and the loss of our natural wonder in chaotic sprawl. It
counts napalm and counts nuclear warheads and armored cars for the
police to fight the riots in our cities. It counts (…) the television
programs which glorify violence in order to sell toys to our
children. Yet the GNP does not allow for the health of our children, the
quality of their education or the joy of their play. It does not include
the beauty of our poetry or the strength of our marriages, the
intelligence of our public debate or the integrity of our public officials.
It measures neither our wit nor our courage, neither our wisdom nor
our learning, neither our compassion nor our devotion to our country,
it measures everything in short, except that which makes life
worthwhile. "
Robert F. Kennedy, University of Kansas, March 18, 1968 18
20. Le futur, un passé extrapolé ?
Prendre une décision, c'est vouloir contrôler le futur
• modifier une situation présente pour atteindre une situation future
souhaitée
décision de lancer une campagne de publicité pour accroître les ventes
• faire qu'un évènement futur ne survienne pas
panne machine, crime en récidive
Pour prendre une décision, il faut donc calculer (ou
imaginer) le futur probable
• pour calculer le futur, il faut limiter l'infini complexité du réel, en
traitant un nombre fini de variables (Big Data : en très grand nbre)
il faut créer des "cartes" du réel, plus simples que le "territoire" représenté
– cas extrême : la carte au 1/1 de Borgès…
Le futur, un passé extrapolé ?
• Big Data : le futur est projeté (calculé) à partir des traces passées
mémorisées
21. Les effets de distorsion
Malgré un "effet de réalité" massif, l'exhaustivité des
Big Data est une illusion
Les erreurs dans les données (et/ou les traitements)
• données : ex. "traçage" d'un mobile, mais qui n'est pas celui de la personne
que l'on trace, unités de mesure hétérogènes (ex. hors B.Data : crash sonde Climate Orbiter)
• (traitements : ex. les erreurs de Google Flu Trend)
Les effets de biais dans la collecte des données
• plus la police est présente dans un quartier, plus il y a de délits enregistrés
"broken windows policy" => une personne d'un tel quartier aura beaucoup
plus de chances d'être arrêtée pour un délit mineur qu'une personne d'un
quartier "calme" pour le même délit
• les "angles morts". Ex. : StreetBump, tweets sur l'ouragan Sandy
Ce qui est perdu dans la numérisation : expérience sensible vs codage
numérique
• le codage d'un "objet" n'est pas l'objet lui-même
les données décrivant un client, un sentiment codé par l'informatique
affective, la somme des traces numériques laissées par un étudiant sur le Web…
• le futur réel peut être très différent du futur calculé (récidive réelle B. Parker = 0)
21
22. Retour vers le présent
Effets de rétroaction et prophéties auto-réalisatrices
Ces effets ne sont pas propres aux Big Data
• notion de "perverse incentive"
ex. dératisation en Indochine, paléontologues en Chine (19ème)
• effets de rétroaction des indicateurs d'évaluation
salariés travaillent pour améliorer l'objectif, fût-ce au détriment de la qualité :
ex. opérateurs centre d'appel évalués au nombre d'appels pris
comportement des chercheurs : multiplication des publications, choix des sujets…
Mais : généralisés par les Big Data (rétroactions souvent recherchées)
• prophétie auto-réalisatrice
ex. score de récidive : plus une personne est lourdement condamnée
plus elle aura plus de difficulté à se réinsérer après sa sortie de prison…
• rétroaction
renforcement des structures existantes : groupes partageant les mêmes opinions,
inégalités (assurances santé, recrutements…), comportements standards
pb. aggravé par le caractère caché des algorithmes : ex. notation d'enseignants (É.-U.)
Le futur : un présent caricaturé ?
22
23. Main basse sur le futur
Du prédictif au prescriptif
De même qu'il est tentant d'assimiler corrélation et causalité,
il est facile de glisser du prédictif au prescriptif
• en oubliant les distorsions, en confondant futur projeté / futur effectif
(réel)
Risque majeur : qu'un grand nombre de décisions soient prises sur
la seule base du futur projeté
• condamnation à x années de prison sur la base d'un délit/crime qui
pourrait être commis dans le futur
condamnation pour un acte non accompli => contraire aux principes du droit
• assassinat par drones de personnes sur la base de leur profil
La baisse des dépense publique pourrait accroître ce risque
• les décisions "automatiques" sont moins coûteuses
si l'on ne considère que le court terme, la ligne budgétaire et non les effets
systémiques
23
24. Démocratie, hasard et diversité
Big Data : l'horreur du risque
• c'est-à-dire du hasard, de l'imprévu, de l'imprévisible
Or, il n'y a pas de diversité sans hasard…
pas de diversité sans temps long…
pas de démocratie sans diversité
Responsabilité citoyenne
• défendre une démocratie de débat
limiter les collectes de données automatiques
• contrôler la mise en place et le fonctionnement des décisions automatiques
nota : progrès avec la Loi sur le numérique (Fr.) et le règlement européen
Plus largement, discuter et décider collectivement de
ce que le numérique ne saurait coder*
* En hommage à Michael Sandel ("Ce que l'argent ne saurait acheter") 24
26. 26
Boyd D., Crawford K., "Six Provocations for Big Data", A Decade in Internet Time:
Symposium on the Dynamics of the Internet and Society, 2012.
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=1926431
Crawford K., "The Hidden Biases in Big Data", Harvard Business Review, avril, 2013.
Davis K., Patterson D., Ethics of Big Data, O’Reilly Media, 2012.
Mayer-Schonberger V., Cukier K., "Big Data: A Revolution That Will Transform How We
Live, Work, and Think", John Murray Publishers Ltd, 2013. Traduction française : "Big Data.
La révolution des données est en marche", Robert Laffont, 2014.
O'Neil C., "Weapons of Math Destruction", Crown, New York, 2016. https://mathbabe.org/
Rouvroy A., travaux divers : https://works.bepress.com/antoinette_rouvroy/
Salles M., "La responsabilité économique et sociale des concepteurs de systèmes
d’information : contribution à une éthique appliquée", Innovations, Revue d’Économie
et de Management de l’Innovation (I-REMI), n°46, vol. 1, pp. 197-226, 2015.
Salles Maryse, "Décision et système d'information", Collection Systèmes d'information
avancés, Vol. 2, ISTE-WILEY, 2015.
Schneier B., "Data and Goliath", W. W. Norton, New York, 2015. www.schneier.com
Stahl B. C., "Researching Ethics and Morality in Information Systems: Some Guiding
Questions", ICIS 2008, 2008
Stiegler B., "De la gouvernementalité algorithmique de fait au nouvel état de droit
qu’il lui faut", Notes du Séminaire Digital Studies, 7 octobre, 2014. https://digital-
studies.org/wp/antoinette-rouvroy-et-bernard-stiegler-07102014/
Weizenbaum J., "Computer Power and Human Reason: From Judgment To Calculation",
W. H. Freeman, San Francisco, 1976. Traduction française : "Puissance de l'ordinateur et raison
de l'homme : du jugement au calcul", Éditions Informatique, 1981.
Notes de l'éditeur
On ne peut pas s'y baigner
Des poissons ne peuvent pas y vivre
Cela ne sent pas la mer
Ce n'est pas salé…..
Mais : est utile pour comprendre la géographie de l'Italie, ou de la Grèce, pour approcher l'importance de la mer pour ces deux pays…
C'est un équivalent pratique dans des contextes bien définis.
Un équivalent n'est pas le réel : même si la carte est grande, en en sautant sur le talon de la botte italienne, vous n'y serez pas transportés
"La physique sociale est une science sociale quantitative qui décrit de manière mathématique l'efficacité des connexions entre l'information et le flot d'idées d'un côté et le comportement des gens de l'autre." Sandy Pentland
Interface UBER : conçue sur la base d'acquis de la psychologie comportementale, en s'appuyant sur le traitement des données mémorisées sur les courses, les chauffeurs…, depuis le lancement de la plateforme.
Elles sont donc situées dans le temps et l'espace, sont porteuses des visions du monde d'une société
Termes couramment employés aujourd'hui, LE Big Data, LA donnée
Faut-il y voir
le caractère universel de ces données ?
leur caractère générique ?
une assimilation aux éléments naturels (l'air, l'eau, le feu,…) ?
En tout état de cause, ces termes ne rendent pas compte des choix qui sont faits tout au long de la constitution d'un ensemble de données, quel qu'il soit
Vocation / ÉducationFondamentalement, les personnes ayant plus de capital social ont des «chances de vie» plus élevées que les autres personnes qui peuvent avoir des chances très limitées de succès. La famille est d'une importance capitale dans la construction du capital social. Les parents transmettent un capital social positif et substantiel à leur enfant ou échouent dans le processus de socialisation. Cette échelle est un facteur d'ordre supérieur dans COMPAS, en utilisant des éléments à la fois des domaines éducatifs et professionnels. Les individus diffèrent grandement en termes d'accès au capital social ou à d'autres ressources.
Criminalité familialeLa recherche a toujours démontré que la délinquance et la criminalité chez les adultes sont tous deux associés à la criminalité parentale. Les enfants peuvent apprendre que le comportement violent et déviant «travaille» dans le contexte de leur famille.
Les influences génétiques peuvent opérer pour transmettre le trouble de la personnalité antisociale et la criminalité.
Environnement socialVivre dans un quartier de haute criminalité est un corrélat bien établi de la délinquance et de la criminalité chez les adultes. La criminalité élevée est indiquée par la présence de gangs, la facilité d'obtention de drogues, la probabilité d'être victimisé, la croyance qu'une arme est nécessaire pour la protection, etc.Loisirs / EnnuiL'absence d'objectif dans l'utilisation des loisirs est liée à plusieurs théories de la criminalité. La théorie générale du crime comprend l'absence de but et le concept connexe de la tendance à l'ennui dans la dimension de la faible maîtrise de soi ou de la personnalité criminelle. Il est également lié à la théorie des activités routinières par la maxime «Les mains au ralenti sont l'atelier du diable»
Pensée criminelleAttitudes antisociales et croyances. Il s'agit notamment de rationalisations telles que: la consommation de drogues est inoffensive parce qu'elle ne fait pas de mal à personne, le comportement criminel peut être justifié par des pressions sociales, le vol est inoffensif si ceux volés ne remarquent pas ou n'ont pas besoin de ce qui a été pris, etc.Personnalité criminellePlusieurs dimensions de la personnalité ont émergé de recherches récentes comme significativement liées à la criminalité persistante. Ces dimensions impliquent l'impulsivité, la prise de risque, l'agitation et l'ennui, l'absence de culpabilité (insensibilité), l'égoïsme et le narcissisme, la domination interpersonnelle, la colère et l'hostilité, et une tendance à exploiter les autres
Notre produit national brut représente maintenant plus de 800 milliards de dollars par an, mais ce produit national brut - si l'on juge les États-Unis d'Amérique ainsi - compte la pollution atmosphérique et la publicité pour les cigarettes, et les ambulances pour nettoyer nos routes après les carnages.
Il compte des serrures spéciales pour nos portes et les prisons pour les gens qui les brisent. Il compte la destruction des séquoias et la perte de merveilles naturelles dans la progression chaotique de nos villes.
Il compte le napalm, il compte les ogives nucléaires et les voitures blindées de la police pour lutter contre les émeutes dans nos villes.
Il compte le fusil de Whitman [un ancien tireur d'élite chez les marines, qui a perpétré en massacre en 1966 à Austin] et le couteau de Speck [en 1966 a massacré 8 étudiantes infirmières au couteau, après les avoir torturées et violées], et les émissions de télévision qui glorifient la violence afin de vendre des jouets à nos enfants.
Mais le produit national brut ne compte pas la santé de nos enfants, la qualité de leur éducation ou la joie qu'ils mettent dans leurs jeux.
Il n'inclut pas la beauté de notre poésie ni la solidité de nos mariages, l'intelligence de notre débat public ou l'intégrité de nos fonctionnaires.
Il ne mesure ni notre esprit, ni notre courage, ni notre sagesse, ni notre savoir, ni notre compassion, ni notre dévouement à notre pays, en bref il mesure tout, sauf ce qui fait la valeur de la vie. "
« But these data don’t represent the whole picture. The greatest number of tweets about Sandy came from Manhattan. This makes sense given the city’s high level of smartphone ownership and Twitter use, but it creates the illusion that Manhattan was the hub of the disaster. Very few messages originated from more severely affected locations, such as Breezy Point, Coney Island and Rockaway. As extended power blackouts drained batteries and limited cellular access, even fewer tweets came from the worst hit areas. In fact, there was much more going on outside the privileged, urban experience of Sandy that Twitter data failed to convey, especially in aggregate. »
Crawford propose la notion de problème de signal qu’elle définit ainsi :
« Data are assumed to accurately reflect the social world, but there are significant gaps, with little or no signal coming from particular communities. »
prophétie auto-réalisatrice
ex. cas de Robert McDaniel (inclus dans la liste des 400 personnes les plus dangereuses de Chicago) : en cas de délit même peu grave, il sera arrêté et condamné, ce qui renforcera son inscription sur la liste des 400
Plus banalement, orientation des recherches sur Google : le profilage des utilisateur fait que deux personnes différentes posant la même question n'ont pas les mêmes réponses
Actuellement, 50% des personnes visées et tuées par des drones au Moyen-Orient, Pakistan, etc. le sont sur profil