SlideShare une entreprise Scribd logo
1  sur  26
Atelier Proustime
19 avril 2017
Maryse Salles
Maryse.Salles@ut-capitole.fr
https://www.canal-u.tv/video/universite_toulouse_ii_le_mirail/algorithmes_et_big_data_peut_on_se_souvenir_du_futur_maryse_salles.35349
Algorithmes et Big Data :
Peut-on se souvenir du futur ?
…à ne pas confondre
Des cartes et des
territoires…
3
Ceci n'est pas la mer
méditerranée .
4
Ceci n'est pas la mer
méditerranée .
Le logiciel COMPAS calcule un score de risque
de récidive à partir de données quantifiées
sur 18 thèmes
 Criminal Involvement, Noncompliance
History, Violence History, Current Violence
 Criminal Associates/Peers,
Social Environment, Criminal Opportunity
 Family Criminality, Vocation/Education
 Substance Abuse, Financial Problems
 Social Isolation, Social Adjustment,
Socialization Failure, Residential Instability
 Criminal Thinking, Criminal Personality, Leisure/Boredom
Score COMPAS : 10
(le plus haut)
Les 137 données recueillies
sur Bernard Parker sont-elles
Bernard Parker
5
Quel impact ont ces
représentations sur ce
qu'elles représentent ?
La pipe de Magritte
 Nous manquons d'information sur le sujet,
mais il semblerait que la pipe n'ait pas été
affectée par la peinture que Magritte a faite
d'elle ;-)
7
La carte de la Méditerranée
 La reconnaissance de cet espace comme une
unité (la Mer Méditerranée),
 ses représentations sous forme de cartes pour
naviguer, pour représenter un empire, …
 ont eu, en conjonction avec beaucoup d'autres
facteurs (évolution des technologies, invasions,
guerres de conquête…), une influence sur cet
espace
• navigation, intensité des échanges, positionnements
géopolitiques, etc.
 Cette influence, limitée, s'est exercée sur une
très longue période
8
Le score de probabilité de
récidive de Bernard Parker
 Aux États-Unis, le score d'un prévenu est transmis au juge
qui doit décider de la peine et de ses éventuels
aménagements
• notamment décider d'une peine d'emprisonnement, de sa
durée
 Il est également utilisé pour les décisions de remise de
peine, de mise en liberté conditionnelle, etc.
 Une différence de catégorie de score (ex. risque élevé vs
risque moyen ou bas) peut entraîner une différence de
peine ou de montant de caution, suivant le juge concerné
 La représentation de Bernard Parker permettant le
calcul de son score de probabilité de récidive a un
impact immédiat et majeur sur sa vie, à court,
moyen et long terme 9
Big Data et algorithmes :
rapide présentation
Big Data
 Grandes masses de données qui mémorisent des "traces" de l'activité
d'êtres vivants, de machine, etc. ou leurs états successifs
• très gros volumes de données : unités de mesure actuelles téraoctet (1012 octets),
pétaoctet (1015), exaoctet (1018)
 Collecte des données : principalement automatique
• "traçage" fait sans acte volontaire de la part de la personne "tracée"
 Données "historicisées"
• les données s'accumulent, gardent la trace des différentes valeurs dans le temps
 Grand nombre de "dimensions" pour décrire une personne, ou un objet
• ex. pour une personne : données biologiques, noms des amis sur Facebook (et les amis de
leurs amis), CV, photo, engagements associatifs, conduite automobile, les lieux où elle se
rend, les numéros de téléphone entrants et sortants, les sites consultés…
 Possibilité de corréler différents aspects de l'identité d'une personne
jusque là dissociés
• vie actuelle, vie passée, vie professionnelle, activités associatives, goûts musicaux,
positions politiques, religion, relations amicales…
11
Algorithmes 1/2
Du nom du mathématicien persan Al-Kwarizmi (9ème siècle), considéré comme le père
de l'algèbre
 Description de toutes les actions élémentaires nécessaires à la
réalisation d'un but, dans l'ordre dans lequel elles doivent être
faites, avec d'éventuelles répétitions de groupes d'actions…
• manuel de montage d'un meuble, recette de cuisine
• suite des opérations pour faire un calcul (par exemple pour résoudre une
équation du second degré)
 En informatique, après avoir défini l'algorithme, on le code dans un
langage compréhensible par un ordinateur, afin qu'il exécute la
procédure décrite par l'algorithme
 Dans le contexte des Big Data : traitements divers dans le but
d'identifier des motifs qui se répètent dans un ensemble des
données
=> => =>
12
Algorithmes 2/2
 En particulier : traitements statistique pour identifier des groupes d'entités se
comportant d'une manière proche => profils
• les données d'une nouvelle entité seront comparées aux profils déjà définis afin de la classer , ce
qui permet d'inférer son comportement futur sur la base des comportements des entités de son
profil
• ex. : on compare les données biologiques, d'activité physique… d'une personne donnée à
l'ensemble des profils sanitaires calculés, pour déterminer son niveau de risque
• ex. : on compare le type de navigation dans un site marchand, les produits regardés, les achats
effectués avec ceux des groupes de consommateurs que l'on a définis…
 Ces traitements statistiques cherchent à établir des corrélations entre certaines
variables (c'est-à-dire des liens qui font qu'elles évoluent en même temps).
Une variable est un type de donnée : l'âge, le sexe, le niveau de diplôme, le
lieu…
• ex. de corrélations : précocité maladie Alzheimer et niveau de diplôme, consommation chocolat
et nombre de prix Nobel (mais aussi consommation chocolat et nombre de tueurs en série !),
baisse de nombre de cigognes et de la natalité en Allemagne après-guerre…
• attention : un lien de corrélation n'équivaut pas à un lien de cause à effet.
La variable 1 peut être la cause de la variable 2… ou l'inverse (performance d'une entreprise et
présence de femmes au CA).
Les variables 1 et 2 peuvent être la conséquence d'une troisième variable inconnue au moment
du traitement (cigognes et natalité).
En analyse statistique, le lien de causalité est toujours une interprétation 13
Quelques exemples d'utilisation
 Utilisation dans la recherche scientifique, par aide à la compréhension de
phénomènes impliquant de grands nombres de variables quantifiables
• ex. : météorologie, épidémiologie, changement climatique…, sociologie des usages
d'Internet, des comportements électoraux…
• ex. : nouveaux domaine comme la "physique sociale"
 Recherche de modification de comportement
• ex. : achats suggérés sur Internet, modulation des tarifs d'assurance en fonction du
comportement (assurance automobile, assurance santé)…
• ex. : interface UBER pour pousser les chauffeurs à rester en service (alors que leur
espoir de revenu est faible sur le créneau)
 En aide à la prise de décision. Quelques exemples :
• aide au recrutement, à la sélection des étudiants (États-Unis)
• maintenance préventive de machines (suggestion de pièces à changer)
• planification de travaux dans l'espace public
• répartition des forces de police dans les quartiers (États-Unis)
• aide aux décisions de justice (peines, libérations sous caution…) (États-Unis), aide à
l'identification de terroristes potentiels
14
Des données
qui ne sont pas données,
mais bien construites
Des données données ?
 Donnée : du latin datum, donné (pluriel data)
 Mais les données ne sont pas données, elles
sont le résultat d'un ensemble de choix de
représentation
• choix du type de support et du type de codage
 quels traitements permettront le support et le codage ? Quelle
automatisation possible des traitements ?
• choix de ce qui est représenté, ce qui ne l'est pas
=> => =>
16
Les choix de représentation
 La vision du monde (paradigme)
• vision sous-jacente au score de probabilité de récidive
 tout peut être quantifié, comparé, classé
 le réel existe de façon indépendante de sa représentation
 la quantification quantifie ce qui existe (le réel) de façon objective, neutre ;
c'est une simple technique
 Ce qui est représenté, ce qui ne l'est pas
• la pipe : la pipe (pas le fumeur), pas de décor, pas de fumée…
• la carte de la méditerranée
 pays (frontières, noms des pays), relief, noms des mers…
 mais pas : les lignes maritimes, pas les vents dominants, les noms des îles au
temps d'Homère, les bancs de poissons…
• calcul du score de probabilité de récidive : quelques exemples
de ce qui est représenté
 Criminal Associates/Peers, Social Environment
 Family Criminality, Vocation/Education, Residential Instability
 Social Isolation, Social Adjustment, Socialization Failure,
 Criminal Thinking, Criminal Personality
17
Sur la représentation d'un pays
au travers de son PNB…
"Our Gross National Product, now, is over $800 billion dollars a year,
but that GNP - if we judge the USA by that - that GNP counts air
pollution and cigarette advertising, and ambulances to clear our
highways of carnage. It counts special locks for our doors and the jails
for the people who break them. It counts the destruction of the
redwood and the loss of our natural wonder in chaotic sprawl. It
counts napalm and counts nuclear warheads and armored cars for the
police to fight the riots in our cities. It counts (…) the television
programs which glorify violence in order to sell toys to our
children. Yet the GNP does not allow for the health of our children, the
quality of their education or the joy of their play. It does not include
the beauty of our poetry or the strength of our marriages, the
intelligence of our public debate or the integrity of our public officials.
It measures neither our wit nor our courage, neither our wisdom nor
our learning, neither our compassion nor our devotion to our country,
it measures everything in short, except that which makes life
worthwhile. "
Robert F. Kennedy, University of Kansas, March 18, 1968 18
L'interpolation du futur
dans le présent
Le futur, un passé extrapolé ?
 Prendre une décision, c'est vouloir contrôler le futur
• modifier une situation présente pour atteindre une situation future
souhaitée
 décision de lancer une campagne de publicité pour accroître les ventes
• faire qu'un évènement futur ne survienne pas
 panne machine, crime en récidive
 Pour prendre une décision, il faut donc calculer (ou
imaginer) le futur probable
• pour calculer le futur, il faut limiter l'infini complexité du réel, en
traitant un nombre fini de variables (Big Data : en très grand nbre)
 il faut créer des "cartes" du réel, plus simples que le "territoire" représenté
– cas extrême : la carte au 1/1 de Borgès…
 Le futur, un passé extrapolé ?
• Big Data : le futur est projeté (calculé) à partir des traces passées
mémorisées
Les effets de distorsion
Malgré un "effet de réalité" massif, l'exhaustivité des
Big Data est une illusion
 Les erreurs dans les données (et/ou les traitements)
• données : ex. "traçage" d'un mobile, mais qui n'est pas celui de la personne
que l'on trace, unités de mesure hétérogènes (ex. hors B.Data : crash sonde Climate Orbiter)
• (traitements : ex. les erreurs de Google Flu Trend)
 Les effets de biais dans la collecte des données
• plus la police est présente dans un quartier, plus il y a de délits enregistrés
 "broken windows policy" => une personne d'un tel quartier aura beaucoup
plus de chances d'être arrêtée pour un délit mineur qu'une personne d'un
quartier "calme" pour le même délit
• les "angles morts". Ex. : StreetBump, tweets sur l'ouragan Sandy
 Ce qui est perdu dans la numérisation : expérience sensible vs codage
numérique
• le codage d'un "objet" n'est pas l'objet lui-même
 les données décrivant un client, un sentiment codé par l'informatique
affective, la somme des traces numériques laissées par un étudiant sur le Web…
• le futur réel peut être très différent du futur calculé (récidive réelle B. Parker = 0)
21
Retour vers le présent
Effets de rétroaction et prophéties auto-réalisatrices
 Ces effets ne sont pas propres aux Big Data
• notion de "perverse incentive"
 ex. dératisation en Indochine, paléontologues en Chine (19ème)
• effets de rétroaction des indicateurs d'évaluation
 salariés travaillent pour améliorer l'objectif, fût-ce au détriment de la qualité :
ex. opérateurs centre d'appel évalués au nombre d'appels pris
 comportement des chercheurs : multiplication des publications, choix des sujets…
 Mais : généralisés par les Big Data (rétroactions souvent recherchées)
• prophétie auto-réalisatrice
 ex. score de récidive : plus une personne est lourdement condamnée
plus elle aura plus de difficulté à se réinsérer après sa sortie de prison…
• rétroaction
 renforcement des structures existantes : groupes partageant les mêmes opinions,
inégalités (assurances santé, recrutements…), comportements standards
 pb. aggravé par le caractère caché des algorithmes : ex. notation d'enseignants (É.-U.)
 Le futur : un présent caricaturé ?
22
Main basse sur le futur
Du prédictif au prescriptif
 De même qu'il est tentant d'assimiler corrélation et causalité,
il est facile de glisser du prédictif au prescriptif
• en oubliant les distorsions, en confondant futur projeté / futur effectif
(réel)
 Risque majeur : qu'un grand nombre de décisions soient prises sur
la seule base du futur projeté
• condamnation à x années de prison sur la base d'un délit/crime qui
pourrait être commis dans le futur
 condamnation pour un acte non accompli => contraire aux principes du droit
• assassinat par drones de personnes sur la base de leur profil
 La baisse des dépense publique pourrait accroître ce risque
• les décisions "automatiques" sont moins coûteuses
 si l'on ne considère que le court terme, la ligne budgétaire et non les effets
systémiques
23
Démocratie, hasard et diversité
 Big Data : l'horreur du risque
• c'est-à-dire du hasard, de l'imprévu, de l'imprévisible
 Or, il n'y a pas de diversité sans hasard…
 pas de diversité sans temps long…
 pas de démocratie sans diversité
 Responsabilité citoyenne
• défendre une démocratie de débat
 limiter les collectes de données automatiques
• contrôler la mise en place et le fonctionnement des décisions automatiques
 nota : progrès avec la Loi sur le numérique (Fr.) et le règlement européen
 Plus largement, discuter et décider collectivement de
ce que le numérique ne saurait coder*
* En hommage à Michael Sandel ("Ce que l'argent ne saurait acheter") 24
Éléments de bibliographie
26
 Boyd D., Crawford K., "Six Provocations for Big Data", A Decade in Internet Time:
Symposium on the Dynamics of the Internet and Society, 2012.
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=1926431
 Crawford K., "The Hidden Biases in Big Data", Harvard Business Review, avril, 2013.
 Davis K., Patterson D., Ethics of Big Data, O’Reilly Media, 2012.
 Mayer-Schonberger V., Cukier K., "Big Data: A Revolution That Will Transform How We
Live, Work, and Think", John Murray Publishers Ltd, 2013. Traduction française : "Big Data.
La révolution des données est en marche", Robert Laffont, 2014.
 O'Neil C., "Weapons of Math Destruction", Crown, New York, 2016. https://mathbabe.org/
 Rouvroy A., travaux divers : https://works.bepress.com/antoinette_rouvroy/
 Salles M., "La responsabilité économique et sociale des concepteurs de systèmes
d’information : contribution à une éthique appliquée", Innovations, Revue d’Économie
et de Management de l’Innovation (I-REMI), n°46, vol. 1, pp. 197-226, 2015.
 Salles Maryse, "Décision et système d'information", Collection Systèmes d'information
avancés, Vol. 2, ISTE-WILEY, 2015.
 Schneier B., "Data and Goliath", W. W. Norton, New York, 2015. www.schneier.com
 Stahl B. C., "Researching Ethics and Morality in Information Systems: Some Guiding
Questions", ICIS 2008, 2008
 Stiegler B., "De la gouvernementalité algorithmique de fait au nouvel état de droit
qu’il lui faut", Notes du Séminaire Digital Studies, 7 octobre, 2014. https://digital-
studies.org/wp/antoinette-rouvroy-et-bernard-stiegler-07102014/
 Weizenbaum J., "Computer Power and Human Reason: From Judgment To Calculation",
W. H. Freeman, San Francisco, 1976. Traduction française : "Puissance de l'ordinateur et raison
de l'homme : du jugement au calcul", Éditions Informatique, 1981.

Contenu connexe

Similaire à Algorithmes et Big Data : Peut-on se souvenir du futur ?

Atelier1- Groupe national 11 avril 0
Atelier1- Groupe national 11 avril 0Atelier1- Groupe national 11 avril 0
Atelier1- Groupe national 11 avril 0
Fing
 

Similaire à Algorithmes et Big Data : Peut-on se souvenir du futur ? (20)

Atelier1- Groupe national 11 avril 0
Atelier1- Groupe national 11 avril 0Atelier1- Groupe national 11 avril 0
Atelier1- Groupe national 11 avril 0
 
Webinar EEIE #06 : Datavisualisation, faites parler la data
Webinar EEIE #06 : Datavisualisation, faites parler la dataWebinar EEIE #06 : Datavisualisation, faites parler la data
Webinar EEIE #06 : Datavisualisation, faites parler la data
 
BigDataBx #1 - BigData et Protection de Données Privées
BigDataBx #1 - BigData et Protection de Données PrivéesBigDataBx #1 - BigData et Protection de Données Privées
BigDataBx #1 - BigData et Protection de Données Privées
 
Bibliothèques et données personnelles
Bibliothèques et données personnellesBibliothèques et données personnelles
Bibliothèques et données personnelles
 
CGT-digital-week.pptx
CGT-digital-week.pptxCGT-digital-week.pptx
CGT-digital-week.pptx
 
Sfsic14 140605-ibekwe-san juan-big science
Sfsic14 140605-ibekwe-san juan-big scienceSfsic14 140605-ibekwe-san juan-big science
Sfsic14 140605-ibekwe-san juan-big science
 
Le gender data gap (m fouquenet)
Le gender data gap (m fouquenet)Le gender data gap (m fouquenet)
Le gender data gap (m fouquenet)
 
Pres 15jan13 machines a scandales
Pres 15jan13 machines a scandalesPres 15jan13 machines a scandales
Pres 15jan13 machines a scandales
 
Open Data - Rencontre Bi-départementale des EPN 26-07
Open Data - Rencontre Bi-départementale des EPN 26-07Open Data - Rencontre Bi-départementale des EPN 26-07
Open Data - Rencontre Bi-départementale des EPN 26-07
 
La médiation à l'heure du numérique
La médiation à l'heure du numériqueLa médiation à l'heure du numérique
La médiation à l'heure du numérique
 
Systemes d’information numeriques : la democratie sous influence ?
Systemes d’information numeriques : la democratie sous influence ?Systemes d’information numeriques : la democratie sous influence ?
Systemes d’information numeriques : la democratie sous influence ?
 
Métrologie source de profits
Métrologie source de profitsMétrologie source de profits
Métrologie source de profits
 
Travail social et intelligence artificielle
Travail social et intelligence artificielleTravail social et intelligence artificielle
Travail social et intelligence artificielle
 
6- Pratiques informationnelles et analyse des traces numériques : de la repré...
6- Pratiques informationnelles et analyse des traces numériques : de la repré...6- Pratiques informationnelles et analyse des traces numériques : de la repré...
6- Pratiques informationnelles et analyse des traces numériques : de la repré...
 
Miettes de données - Keynote BDA 2015
Miettes de données - Keynote BDA 2015Miettes de données - Keynote BDA 2015
Miettes de données - Keynote BDA 2015
 
Données citoyennes et usages publics
Données citoyennes et usages publicsDonnées citoyennes et usages publics
Données citoyennes et usages publics
 
Lexpresse de la Banque Postale - Privacy et Big Data
Lexpresse de la Banque Postale - Privacy et Big DataLexpresse de la Banque Postale - Privacy et Big Data
Lexpresse de la Banque Postale - Privacy et Big Data
 
Jérôme Denis - Avant le déluge : le travail invisible des données
Jérôme Denis - Avant le déluge : le travail invisible des donnéesJérôme Denis - Avant le déluge : le travail invisible des données
Jérôme Denis - Avant le déluge : le travail invisible des données
 
Big data vs small data
Big data vs small dataBig data vs small data
Big data vs small data
 
Sommaire datanomics
Sommaire datanomicsSommaire datanomics
Sommaire datanomics
 

Plus de marysesalles

De la donnée à l’information : l’importance des conventions Isla colletis pen...
De la donnée à l’information : l’importance des conventions Isla colletis pen...De la donnée à l’information : l’importance des conventions Isla colletis pen...
De la donnée à l’information : l’importance des conventions Isla colletis pen...
marysesalles
 
Quantifier c'est deja decider Etienne Fieux
Quantifier c'est deja decider Etienne FieuxQuantifier c'est deja decider Etienne Fieux
Quantifier c'est deja decider Etienne Fieux
marysesalles
 

Plus de marysesalles (15)

Comment les systèmes d’information numériques impactent la démocratie dans le...
Comment les systèmes d’information numériques impactent la démocratie dans le...Comment les systèmes d’information numériques impactent la démocratie dans le...
Comment les systèmes d’information numériques impactent la démocratie dans le...
 
"Comment les systèmes d’information numériques impactent le fonctionnement de...
"Comment les systèmes d’information numériques impactent le fonctionnement de..."Comment les systèmes d’information numériques impactent le fonctionnement de...
"Comment les systèmes d’information numériques impactent le fonctionnement de...
 
De la donnée à l’information : l’importance des conventions Isla colletis pen...
De la donnée à l’information : l’importance des conventions Isla colletis pen...De la donnée à l’information : l’importance des conventions Isla colletis pen...
De la donnée à l’information : l’importance des conventions Isla colletis pen...
 
Daniel Bachet Inforsid2019 Systeme d’information, outil comptable et democrat...
Daniel Bachet Inforsid2019 Systeme d’information, outil comptable et democrat...Daniel Bachet Inforsid2019 Systeme d’information, outil comptable et democrat...
Daniel Bachet Inforsid2019 Systeme d’information, outil comptable et democrat...
 
Les systèmes d’information numériques, dispositifs de la gouvernementalité ?M...
Les systèmes d’information numériques, dispositifs de la gouvernementalité ?M...Les systèmes d’information numériques, dispositifs de la gouvernementalité ?M...
Les systèmes d’information numériques, dispositifs de la gouvernementalité ?M...
 
De la donnée à l’information : l’importance des conventions Anne Isla, Gabrie...
De la donnée à l’information : l’importance des conventions Anne Isla, Gabrie...De la donnée à l’information : l’importance des conventions Anne Isla, Gabrie...
De la donnée à l’information : l’importance des conventions Anne Isla, Gabrie...
 
La commande vocale dans les entrepôts logistiques. Un taylorisme assisté par ...
La commande vocale dans les entrepôts logistiques. Un taylorisme assisté par ...La commande vocale dans les entrepôts logistiques. Un taylorisme assisté par ...
La commande vocale dans les entrepôts logistiques. Un taylorisme assisté par ...
 
Système d’information comptable et démocratie dans l’entreprise - Daniel Bachet
Système d’information comptable et démocratie dans l’entreprise - Daniel BachetSystème d’information comptable et démocratie dans l’entreprise - Daniel Bachet
Système d’information comptable et démocratie dans l’entreprise - Daniel Bachet
 
Comment trouver un objet de recherche invisible : le cas des algorithmes mana...
Comment trouver un objet de recherche invisible : le cas des algorithmes mana...Comment trouver un objet de recherche invisible : le cas des algorithmes mana...
Comment trouver un objet de recherche invisible : le cas des algorithmes mana...
 
Organiser démocratiquement avec les systèmes d’information numériques ? Sébas...
Organiser démocratiquement avec les systèmes d’information numériques ? Sébas...Organiser démocratiquement avec les systèmes d’information numériques ? Sébas...
Organiser démocratiquement avec les systèmes d’information numériques ? Sébas...
 
De la démocratie en entreprise - Rémi Jardat
De la démocratie en entreprise - Rémi JardatDe la démocratie en entreprise - Rémi Jardat
De la démocratie en entreprise - Rémi Jardat
 
Du PNB au PIB vers une degradation du systeme d'information de la Nation G Co...
Du PNB au PIB vers une degradation du systeme d'information de la Nation G Co...Du PNB au PIB vers une degradation du systeme d'information de la Nation G Co...
Du PNB au PIB vers une degradation du systeme d'information de la Nation G Co...
 
Quantifier c'est deja decider Etienne Fieux
Quantifier c'est deja decider Etienne FieuxQuantifier c'est deja decider Etienne Fieux
Quantifier c'est deja decider Etienne Fieux
 
Salles M INFORSID 2018
Salles M INFORSID 2018Salles M INFORSID 2018
Salles M INFORSID 2018
 
Salles M atelier SI et Democratie INFORSID 2017
Salles M atelier SI et Democratie INFORSID 2017Salles M atelier SI et Democratie INFORSID 2017
Salles M atelier SI et Democratie INFORSID 2017
 

Algorithmes et Big Data : Peut-on se souvenir du futur ?

  • 1. Atelier Proustime 19 avril 2017 Maryse Salles Maryse.Salles@ut-capitole.fr https://www.canal-u.tv/video/universite_toulouse_ii_le_mirail/algorithmes_et_big_data_peut_on_se_souvenir_du_futur_maryse_salles.35349 Algorithmes et Big Data : Peut-on se souvenir du futur ?
  • 2. …à ne pas confondre Des cartes et des territoires…
  • 3. 3
  • 4. Ceci n'est pas la mer méditerranée . 4 Ceci n'est pas la mer méditerranée .
  • 5. Le logiciel COMPAS calcule un score de risque de récidive à partir de données quantifiées sur 18 thèmes  Criminal Involvement, Noncompliance History, Violence History, Current Violence  Criminal Associates/Peers, Social Environment, Criminal Opportunity  Family Criminality, Vocation/Education  Substance Abuse, Financial Problems  Social Isolation, Social Adjustment, Socialization Failure, Residential Instability  Criminal Thinking, Criminal Personality, Leisure/Boredom Score COMPAS : 10 (le plus haut) Les 137 données recueillies sur Bernard Parker sont-elles Bernard Parker 5
  • 6. Quel impact ont ces représentations sur ce qu'elles représentent ?
  • 7. La pipe de Magritte  Nous manquons d'information sur le sujet, mais il semblerait que la pipe n'ait pas été affectée par la peinture que Magritte a faite d'elle ;-) 7
  • 8. La carte de la Méditerranée  La reconnaissance de cet espace comme une unité (la Mer Méditerranée),  ses représentations sous forme de cartes pour naviguer, pour représenter un empire, …  ont eu, en conjonction avec beaucoup d'autres facteurs (évolution des technologies, invasions, guerres de conquête…), une influence sur cet espace • navigation, intensité des échanges, positionnements géopolitiques, etc.  Cette influence, limitée, s'est exercée sur une très longue période 8
  • 9. Le score de probabilité de récidive de Bernard Parker  Aux États-Unis, le score d'un prévenu est transmis au juge qui doit décider de la peine et de ses éventuels aménagements • notamment décider d'une peine d'emprisonnement, de sa durée  Il est également utilisé pour les décisions de remise de peine, de mise en liberté conditionnelle, etc.  Une différence de catégorie de score (ex. risque élevé vs risque moyen ou bas) peut entraîner une différence de peine ou de montant de caution, suivant le juge concerné  La représentation de Bernard Parker permettant le calcul de son score de probabilité de récidive a un impact immédiat et majeur sur sa vie, à court, moyen et long terme 9
  • 10. Big Data et algorithmes : rapide présentation
  • 11. Big Data  Grandes masses de données qui mémorisent des "traces" de l'activité d'êtres vivants, de machine, etc. ou leurs états successifs • très gros volumes de données : unités de mesure actuelles téraoctet (1012 octets), pétaoctet (1015), exaoctet (1018)  Collecte des données : principalement automatique • "traçage" fait sans acte volontaire de la part de la personne "tracée"  Données "historicisées" • les données s'accumulent, gardent la trace des différentes valeurs dans le temps  Grand nombre de "dimensions" pour décrire une personne, ou un objet • ex. pour une personne : données biologiques, noms des amis sur Facebook (et les amis de leurs amis), CV, photo, engagements associatifs, conduite automobile, les lieux où elle se rend, les numéros de téléphone entrants et sortants, les sites consultés…  Possibilité de corréler différents aspects de l'identité d'une personne jusque là dissociés • vie actuelle, vie passée, vie professionnelle, activités associatives, goûts musicaux, positions politiques, religion, relations amicales… 11
  • 12. Algorithmes 1/2 Du nom du mathématicien persan Al-Kwarizmi (9ème siècle), considéré comme le père de l'algèbre  Description de toutes les actions élémentaires nécessaires à la réalisation d'un but, dans l'ordre dans lequel elles doivent être faites, avec d'éventuelles répétitions de groupes d'actions… • manuel de montage d'un meuble, recette de cuisine • suite des opérations pour faire un calcul (par exemple pour résoudre une équation du second degré)  En informatique, après avoir défini l'algorithme, on le code dans un langage compréhensible par un ordinateur, afin qu'il exécute la procédure décrite par l'algorithme  Dans le contexte des Big Data : traitements divers dans le but d'identifier des motifs qui se répètent dans un ensemble des données => => => 12
  • 13. Algorithmes 2/2  En particulier : traitements statistique pour identifier des groupes d'entités se comportant d'une manière proche => profils • les données d'une nouvelle entité seront comparées aux profils déjà définis afin de la classer , ce qui permet d'inférer son comportement futur sur la base des comportements des entités de son profil • ex. : on compare les données biologiques, d'activité physique… d'une personne donnée à l'ensemble des profils sanitaires calculés, pour déterminer son niveau de risque • ex. : on compare le type de navigation dans un site marchand, les produits regardés, les achats effectués avec ceux des groupes de consommateurs que l'on a définis…  Ces traitements statistiques cherchent à établir des corrélations entre certaines variables (c'est-à-dire des liens qui font qu'elles évoluent en même temps). Une variable est un type de donnée : l'âge, le sexe, le niveau de diplôme, le lieu… • ex. de corrélations : précocité maladie Alzheimer et niveau de diplôme, consommation chocolat et nombre de prix Nobel (mais aussi consommation chocolat et nombre de tueurs en série !), baisse de nombre de cigognes et de la natalité en Allemagne après-guerre… • attention : un lien de corrélation n'équivaut pas à un lien de cause à effet. La variable 1 peut être la cause de la variable 2… ou l'inverse (performance d'une entreprise et présence de femmes au CA). Les variables 1 et 2 peuvent être la conséquence d'une troisième variable inconnue au moment du traitement (cigognes et natalité). En analyse statistique, le lien de causalité est toujours une interprétation 13
  • 14. Quelques exemples d'utilisation  Utilisation dans la recherche scientifique, par aide à la compréhension de phénomènes impliquant de grands nombres de variables quantifiables • ex. : météorologie, épidémiologie, changement climatique…, sociologie des usages d'Internet, des comportements électoraux… • ex. : nouveaux domaine comme la "physique sociale"  Recherche de modification de comportement • ex. : achats suggérés sur Internet, modulation des tarifs d'assurance en fonction du comportement (assurance automobile, assurance santé)… • ex. : interface UBER pour pousser les chauffeurs à rester en service (alors que leur espoir de revenu est faible sur le créneau)  En aide à la prise de décision. Quelques exemples : • aide au recrutement, à la sélection des étudiants (États-Unis) • maintenance préventive de machines (suggestion de pièces à changer) • planification de travaux dans l'espace public • répartition des forces de police dans les quartiers (États-Unis) • aide aux décisions de justice (peines, libérations sous caution…) (États-Unis), aide à l'identification de terroristes potentiels 14
  • 15. Des données qui ne sont pas données, mais bien construites
  • 16. Des données données ?  Donnée : du latin datum, donné (pluriel data)  Mais les données ne sont pas données, elles sont le résultat d'un ensemble de choix de représentation • choix du type de support et du type de codage  quels traitements permettront le support et le codage ? Quelle automatisation possible des traitements ? • choix de ce qui est représenté, ce qui ne l'est pas => => => 16
  • 17. Les choix de représentation  La vision du monde (paradigme) • vision sous-jacente au score de probabilité de récidive  tout peut être quantifié, comparé, classé  le réel existe de façon indépendante de sa représentation  la quantification quantifie ce qui existe (le réel) de façon objective, neutre ; c'est une simple technique  Ce qui est représenté, ce qui ne l'est pas • la pipe : la pipe (pas le fumeur), pas de décor, pas de fumée… • la carte de la méditerranée  pays (frontières, noms des pays), relief, noms des mers…  mais pas : les lignes maritimes, pas les vents dominants, les noms des îles au temps d'Homère, les bancs de poissons… • calcul du score de probabilité de récidive : quelques exemples de ce qui est représenté  Criminal Associates/Peers, Social Environment  Family Criminality, Vocation/Education, Residential Instability  Social Isolation, Social Adjustment, Socialization Failure,  Criminal Thinking, Criminal Personality 17
  • 18. Sur la représentation d'un pays au travers de son PNB… "Our Gross National Product, now, is over $800 billion dollars a year, but that GNP - if we judge the USA by that - that GNP counts air pollution and cigarette advertising, and ambulances to clear our highways of carnage. It counts special locks for our doors and the jails for the people who break them. It counts the destruction of the redwood and the loss of our natural wonder in chaotic sprawl. It counts napalm and counts nuclear warheads and armored cars for the police to fight the riots in our cities. It counts (…) the television programs which glorify violence in order to sell toys to our children. Yet the GNP does not allow for the health of our children, the quality of their education or the joy of their play. It does not include the beauty of our poetry or the strength of our marriages, the intelligence of our public debate or the integrity of our public officials. It measures neither our wit nor our courage, neither our wisdom nor our learning, neither our compassion nor our devotion to our country, it measures everything in short, except that which makes life worthwhile. " Robert F. Kennedy, University of Kansas, March 18, 1968 18
  • 20. Le futur, un passé extrapolé ?  Prendre une décision, c'est vouloir contrôler le futur • modifier une situation présente pour atteindre une situation future souhaitée  décision de lancer une campagne de publicité pour accroître les ventes • faire qu'un évènement futur ne survienne pas  panne machine, crime en récidive  Pour prendre une décision, il faut donc calculer (ou imaginer) le futur probable • pour calculer le futur, il faut limiter l'infini complexité du réel, en traitant un nombre fini de variables (Big Data : en très grand nbre)  il faut créer des "cartes" du réel, plus simples que le "territoire" représenté – cas extrême : la carte au 1/1 de Borgès…  Le futur, un passé extrapolé ? • Big Data : le futur est projeté (calculé) à partir des traces passées mémorisées
  • 21. Les effets de distorsion Malgré un "effet de réalité" massif, l'exhaustivité des Big Data est une illusion  Les erreurs dans les données (et/ou les traitements) • données : ex. "traçage" d'un mobile, mais qui n'est pas celui de la personne que l'on trace, unités de mesure hétérogènes (ex. hors B.Data : crash sonde Climate Orbiter) • (traitements : ex. les erreurs de Google Flu Trend)  Les effets de biais dans la collecte des données • plus la police est présente dans un quartier, plus il y a de délits enregistrés  "broken windows policy" => une personne d'un tel quartier aura beaucoup plus de chances d'être arrêtée pour un délit mineur qu'une personne d'un quartier "calme" pour le même délit • les "angles morts". Ex. : StreetBump, tweets sur l'ouragan Sandy  Ce qui est perdu dans la numérisation : expérience sensible vs codage numérique • le codage d'un "objet" n'est pas l'objet lui-même  les données décrivant un client, un sentiment codé par l'informatique affective, la somme des traces numériques laissées par un étudiant sur le Web… • le futur réel peut être très différent du futur calculé (récidive réelle B. Parker = 0) 21
  • 22. Retour vers le présent Effets de rétroaction et prophéties auto-réalisatrices  Ces effets ne sont pas propres aux Big Data • notion de "perverse incentive"  ex. dératisation en Indochine, paléontologues en Chine (19ème) • effets de rétroaction des indicateurs d'évaluation  salariés travaillent pour améliorer l'objectif, fût-ce au détriment de la qualité : ex. opérateurs centre d'appel évalués au nombre d'appels pris  comportement des chercheurs : multiplication des publications, choix des sujets…  Mais : généralisés par les Big Data (rétroactions souvent recherchées) • prophétie auto-réalisatrice  ex. score de récidive : plus une personne est lourdement condamnée plus elle aura plus de difficulté à se réinsérer après sa sortie de prison… • rétroaction  renforcement des structures existantes : groupes partageant les mêmes opinions, inégalités (assurances santé, recrutements…), comportements standards  pb. aggravé par le caractère caché des algorithmes : ex. notation d'enseignants (É.-U.)  Le futur : un présent caricaturé ? 22
  • 23. Main basse sur le futur Du prédictif au prescriptif  De même qu'il est tentant d'assimiler corrélation et causalité, il est facile de glisser du prédictif au prescriptif • en oubliant les distorsions, en confondant futur projeté / futur effectif (réel)  Risque majeur : qu'un grand nombre de décisions soient prises sur la seule base du futur projeté • condamnation à x années de prison sur la base d'un délit/crime qui pourrait être commis dans le futur  condamnation pour un acte non accompli => contraire aux principes du droit • assassinat par drones de personnes sur la base de leur profil  La baisse des dépense publique pourrait accroître ce risque • les décisions "automatiques" sont moins coûteuses  si l'on ne considère que le court terme, la ligne budgétaire et non les effets systémiques 23
  • 24. Démocratie, hasard et diversité  Big Data : l'horreur du risque • c'est-à-dire du hasard, de l'imprévu, de l'imprévisible  Or, il n'y a pas de diversité sans hasard…  pas de diversité sans temps long…  pas de démocratie sans diversité  Responsabilité citoyenne • défendre une démocratie de débat  limiter les collectes de données automatiques • contrôler la mise en place et le fonctionnement des décisions automatiques  nota : progrès avec la Loi sur le numérique (Fr.) et le règlement européen  Plus largement, discuter et décider collectivement de ce que le numérique ne saurait coder* * En hommage à Michael Sandel ("Ce que l'argent ne saurait acheter") 24
  • 26. 26  Boyd D., Crawford K., "Six Provocations for Big Data", A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society, 2012. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=1926431  Crawford K., "The Hidden Biases in Big Data", Harvard Business Review, avril, 2013.  Davis K., Patterson D., Ethics of Big Data, O’Reilly Media, 2012.  Mayer-Schonberger V., Cukier K., "Big Data: A Revolution That Will Transform How We Live, Work, and Think", John Murray Publishers Ltd, 2013. Traduction française : "Big Data. La révolution des données est en marche", Robert Laffont, 2014.  O'Neil C., "Weapons of Math Destruction", Crown, New York, 2016. https://mathbabe.org/  Rouvroy A., travaux divers : https://works.bepress.com/antoinette_rouvroy/  Salles M., "La responsabilité économique et sociale des concepteurs de systèmes d’information : contribution à une éthique appliquée", Innovations, Revue d’Économie et de Management de l’Innovation (I-REMI), n°46, vol. 1, pp. 197-226, 2015.  Salles Maryse, "Décision et système d'information", Collection Systèmes d'information avancés, Vol. 2, ISTE-WILEY, 2015.  Schneier B., "Data and Goliath", W. W. Norton, New York, 2015. www.schneier.com  Stahl B. C., "Researching Ethics and Morality in Information Systems: Some Guiding Questions", ICIS 2008, 2008  Stiegler B., "De la gouvernementalité algorithmique de fait au nouvel état de droit qu’il lui faut", Notes du Séminaire Digital Studies, 7 octobre, 2014. https://digital- studies.org/wp/antoinette-rouvroy-et-bernard-stiegler-07102014/  Weizenbaum J., "Computer Power and Human Reason: From Judgment To Calculation", W. H. Freeman, San Francisco, 1976. Traduction française : "Puissance de l'ordinateur et raison de l'homme : du jugement au calcul", Éditions Informatique, 1981.

Notes de l'éditeur

  1. On ne peut pas s'y baigner Des poissons ne peuvent pas y vivre Cela ne sent pas la mer Ce n'est pas salé….. Mais : est utile pour comprendre la géographie de l'Italie, ou de la Grèce, pour approcher l'importance de la mer pour ces deux pays… C'est un équivalent pratique dans des contextes bien définis. Un équivalent n'est pas le réel : même si la carte est grande, en en sautant sur le talon de la botte italienne, vous n'y serez pas transportés
  2. "La physique sociale est une science sociale quantitative qui décrit de manière mathématique l'efficacité des connexions entre l'information et le flot d'idées d'un côté et le comportement des gens de l'autre." Sandy Pentland Interface UBER : conçue sur la base d'acquis de la psychologie comportementale, en s'appuyant sur le traitement des données mémorisées sur les courses, les chauffeurs…, depuis le lancement de la plateforme.
  3. Elles sont donc situées dans le temps et l'espace, sont porteuses des visions du monde d'une société
  4. Termes couramment employés aujourd'hui, LE Big Data, LA donnée Faut-il y voir le caractère universel de ces données ? leur caractère générique ? une assimilation aux éléments naturels (l'air, l'eau, le feu,…) ? En tout état de cause, ces termes ne rendent pas compte des choix qui sont faits tout au long de la constitution d'un ensemble de données, quel qu'il soit
  5. Vocation / Éducation Fondamentalement, les personnes ayant plus de capital social ont des «chances de vie» plus élevées que les autres personnes qui peuvent avoir des chances très limitées de succès. La famille est d'une importance capitale dans la construction du capital social. Les parents transmettent un capital social positif et substantiel à leur enfant ou échouent dans le processus de socialisation. Cette échelle est un facteur d'ordre supérieur dans COMPAS, en utilisant des éléments à la fois des domaines éducatifs et professionnels. Les individus diffèrent grandement en termes d'accès au capital social ou à d'autres ressources. Criminalité familiale La recherche a toujours démontré que la délinquance et la criminalité chez les adultes sont tous deux associés à la criminalité parentale. Les enfants peuvent apprendre que le comportement violent et déviant «travaille» dans le contexte de leur famille. Les influences génétiques peuvent opérer pour transmettre le trouble de la personnalité antisociale et la criminalité. Environnement social Vivre dans un quartier de haute criminalité est un corrélat bien établi de la délinquance et de la criminalité chez les adultes. La criminalité élevée est indiquée par la présence de gangs, la facilité d'obtention de drogues, la probabilité d'être victimisé, la croyance qu'une arme est nécessaire pour la protection, etc. Loisirs / Ennui L'absence d'objectif dans l'utilisation des loisirs est liée à plusieurs théories de la criminalité. La théorie générale du crime comprend l'absence de but et le concept connexe de la tendance à l'ennui dans la dimension de la faible maîtrise de soi ou de la personnalité criminelle. Il est également lié à la théorie des activités routinières par la maxime «Les mains au ralenti sont l'atelier du diable» Pensée criminelle Attitudes antisociales et croyances. Il s'agit notamment de rationalisations telles que: la consommation de drogues est inoffensive parce qu'elle ne fait pas de mal à personne, le comportement criminel peut être justifié par des pressions sociales, le vol est inoffensif si ceux volés ne remarquent pas ou n'ont pas besoin de ce qui a été pris, etc. Personnalité criminelle Plusieurs dimensions de la personnalité ont émergé de recherches récentes comme significativement liées à la criminalité persistante. Ces dimensions impliquent l'impulsivité, la prise de risque, l'agitation et l'ennui, l'absence de culpabilité (insensibilité), l'égoïsme et le narcissisme, la domination interpersonnelle, la colère et l'hostilité, et une tendance à exploiter les autres
  6. Notre produit national brut représente maintenant plus de 800 milliards de dollars par an, mais ce produit national brut - si l'on juge les États-Unis d'Amérique ainsi - compte la pollution atmosphérique et la publicité pour les cigarettes, et les ambulances pour nettoyer nos routes après les carnages. Il compte des serrures spéciales pour nos portes et les prisons pour les gens qui les brisent. Il compte la destruction des séquoias et la perte de merveilles naturelles dans la progression chaotique de nos villes. Il compte le napalm, il compte les ogives nucléaires et les voitures blindées de la police pour lutter contre les émeutes dans nos villes. Il compte le fusil de Whitman [un ancien tireur d'élite chez les marines, qui a perpétré en massacre en 1966 à Austin] et le couteau de Speck [en 1966 a massacré 8 étudiantes infirmières au couteau, après les avoir torturées et violées], et les émissions de télévision qui glorifient la violence afin de vendre des jouets à nos enfants. Mais le produit national brut ne compte pas la santé de nos enfants, la qualité de leur éducation ou la joie qu'ils mettent dans leurs jeux. Il n'inclut pas la beauté de notre poésie ni la solidité de nos mariages, l'intelligence de notre débat public ou l'intégrité de nos fonctionnaires. Il ne mesure ni notre esprit, ni notre courage, ni notre sagesse, ni notre savoir, ni notre compassion, ni notre dévouement à notre pays, en bref il mesure tout, sauf ce qui fait la valeur de la vie. "
  7. « But these data don’t represent the whole picture. The greatest number of tweets about Sandy came from Manhattan. This makes sense given the city’s high level of smartphone ownership and Twitter use, but it creates the illusion that Manhattan was the hub of the disaster. Very few messages originated from more severely affected locations, such as Breezy Point, Coney Island and Rockaway. As extended power blackouts drained batteries and limited cellular access, even fewer tweets came from the worst hit areas. In fact, there was much more going on outside the privileged, urban experience of Sandy that Twitter data failed to convey, especially in aggregate. » Crawford propose la notion de problème de signal qu’elle définit ainsi : « Data are assumed to accurately reflect the social world, but there are significant gaps, with little or no signal coming from particular communities. »
  8. prophétie auto-réalisatrice ex. cas de Robert McDaniel (inclus dans la liste des 400 personnes les plus dangereuses de Chicago) : en cas de délit même peu grave, il sera arrêté et condamné, ce qui renforcera son inscription sur la liste des 400 Plus banalement, orientation des recherches sur Google : le profilage des utilisateur fait que deux personnes différentes posant la même question n'ont pas les mêmes réponses
  9. Actuellement, 50% des personnes visées et tuées par des drones au Moyen-Orient, Pakistan, etc. le sont sur profil