Présentation de la conférence dans le cadre de la Journée d’étude | L’IA en pratique(s) : l’éthique est-elle automatique? (5 mai, 2023)
LabCMO, GENIC, Labfluens
Créer un agent conversationnel à partir de ses données personnelles : regard critique sur le double numérique.
1. Créer un agent conversationnel à partir de ses
données personnelles : un regard critique sur
le concept du double numérique
JE : L’IAen pratique(s) GENIC – LabCMO –
Labfluens
Nadia Seraiocco
Doctorante, chercheuse et chargée
de cours
2. Limites et possibilités…
+ « Car en investissant Twitter pour mon expérience, un réseau conçu et mis
à ma disposition par une compagnie privée, je mets à l’épreuve les idées
actuelles sur le concept de double numérique, censé représenter chaque
usager en ligne (Lupton, 2018 ; Gitleman, 2015).
+ Ces idées, s’appuyant sur une certaine obsession du quantitatif que le Big
Data vient combler (boyd, Crawford, 2012), sont venues donner appui à mes
observations sur les capacités de représentation que pourraient avoir mes
données, une fois « remixées » dans un « dispositif conversationnel ».
+ Des réflexions sur la « robotique sociale » (Becker, 2020) m’ont amenée à
explorer dans ce projet de thèse les limites et possibilités de ces
interactions, et ce, tout particulièrement dans les conversations textuelles. »
(Seraiocco, 2023)
LabCMO - mai 2023 2
3. Le projet : extrait du journal de création
+ En 2018, dans une perspective de design spéculatif, je proposais de créer un agent conversationnel sur un
réseau social dont le contenu serait mes données personnelles.
+ J’ai ensuite entrepris des démarches plus structurées avec Facebook et Twitter pour obtenir mes archives.
+ Du côté de Twitter, jusqu’à tout récemment la démarche était très fluide : il suffisait de demander de télécharger
ses archives dans le format choisi (Excel, CSV ou HTML) et dans les 24 à 36 heures un lien de téléchargement
était envoyé au requérant. C’est ainsi que j’ai acquis les archives de plus de 22 000 microblogues publiés entre
mars 2007 et juillet 2020. Parallèlement, j’ai extrait les quelque 1150 billets de blogues de mes deux présences
numériques (cheznadia.com créé en janvier 2002 et nadiaseraiocco.com créé en septembre 2015).
+ Pour Facebook, la démarche a été un peu plus complexe, sans demander toutefois de très grandes compétences
informatiques, le réseau permet de télécharger le type de données désirées (messages privés, publications,
photos, etc.) et offre deux formats, soit le HTML ou le JSON. Pour les billets de blogues, les archives de
WordPress utilisent MySQL qui est compatible avec les formats CSV (qu’on peut facilement convertir en fichier
Excel) ou XML. Donc, les sources de données ont été nettoyées, uniformisées puis formatées pour le
logiciel GPT-2. Cette première étape a demandé deux semaines de travail, excluant les délais de communication
avec les compagnies détenant mes données, ici Facebook et Twitter.
LabCMO - mai 2023 3
4. Les grands
principes éthiques
dégagés des écrits
de Norbert Wiener
(Ward Bynum, 2008)
“What compulsion the very existence of the
community and the state may demand must be
exercised in such a way as to produce no
unnecessary infringement of freedom.” (1954, p.
106).
• La justice exige la possibilité de
chaque humain à développer sa propre
liberté dans la mesure des moyens
dont il dispose…
LE PRINCIPE DE
JUSTICE
• La justice exige que les possibilités qui
sont attribuées à A et B demeurent les
mêmes si on interchange la position de
A avec B.
LE PRINCIPE
D’ÉGALITÉ
• La justice requiert que la bonne foi
entre une être humain et un autre
humain n’est de limite que l’humanité
elle-même.
LE PRINCIPE DE
BIENVEILLANCE
• Peu importe ce que demandera la
communauté ou l’État, cela doit être
fait de façon à ne pas brimer de façon
non nécessaire les droits et libertés.
LE PRINCIPE
D’EMPIÉTEMENT
MINIMAL SUR LES
LIBERTÉS
LabCMO - mai 2023 4
5. Éthique de l’IA ou des algorithmes?
+ L’éthique des algorithmes met en évidence le rôle de la
programmation (Gibert, 2020) ;
+ L’algorithme est une suite de règles implantées dans un
logiciel ou un robot;
+ « La question posée par l’éthique des algorithmes, c’est
donc de savoir quelles règles implanter dans les robots, et
comment le faire » (Gibert, 2020, p. 13).
LabCMO - mai 2023 5
6. Datafication et double numérique
les écueils éthiques.
1. 1er Écueil : le processus de captation
des données personnelles et le
consentement.
2. 2ème Écueil : Le monde en
« données » (et moi aussi tant qu’à
faire) – traitement des données pour
obtenir “du sens”.
3. 3ème Écueil : Le soi « algorithmé » :
un résultat entre fragmentation,
amplification et diffraction.
LabCMO - mai 2023 6
7. 1er écueil éthique : La captation
des données personnelles par les
« big techs »
1. Le passage de la vision d’une captation
des données personnelles comme
atteinte à la vie privée, à une vision
d’ouverture nécessaire pour entrer en
relation en ligne... Ou obtenir des rabais.
2. À mesure que les outils de publication en
ligne se démocratisent, les usagers
deviennent la matière du capitalisme de
l’information. (Proulx et al. 2011, Proulx,
2017, cités dans Seraiocco, 2023).
Auparavant connu comme « Deadsocial », ce site
offre maintenant un service de gestion du legs
numérique.
LabCMO - mai 2023 7
8. Métaphores du double
« Nos doubles numériques pourront vivre pour
l'éternité »
(The Gardian, 2019)
+ Le double en donnée prend forme dans la captation
des données personnelles avec les nouveaux outils
numériques facile à apprivoiser, comme les
blogues, les médias collaboratifs et les réseaux
sociaux (Denouël, 2011, Sorapure, 2003, Proulx et
al. 2011)
+ Proposé comme possible remplaçant d’un individu,
comme doppelgänger numérique, désincarné,
décontextualisé, quand il est isolé du sujet (Bode et
Kristensen, 2015).
+ C’est une métaphore floue, que l’on humanise, pour
la rapprocher du sujet, pour que ce corps en
données soit sien.
Les entreprises cherchent à harnacher le capitalisme de
données pour développer un service posthume —
payable maintenant, livré après la mort — par ceux qui
souhaitent que leurs présences en ligne survivent à leur
mort biologique.
LabCMO - mai 2023 8
9. Le double en données :
l’être information
+ Le mot corps (comme dans corps de données ou « data
body ») revient souvent, dépourvu de sa chair et de sa
présence :
• What your data body says about you is more real than what
you say about yourself. The data body is the body by which
you are judged in society, and the body which dictates your
status in the world. What we are witnessing at this point in
time is the triumph of representation over being (Raley 2013,
dans Gitelman 2013).
+ L’humain devient donc égal à la somme des informations ou
données téléchargeables sur un support informatique
(Lafontaine, 2008, Ertzscheid, 2009).
LabCMO - mai 2023 9
Cette photo par Auteur inconnu est soumise à la licence CC BY-NC
Transfiguration, Olivier de
Sagazan
10. Exemple : Project
December
+ Joshua Barbeau a utilisé le site Project
December (Suarèz-Gonzalo, 2022) pour recréer
sa fiancée décédée Jessica.
+ Ce cas a soulevé une série de réflexions sur les
questions éthiques du projet : redonner ou pas
une vie numérique à une personne n’ayant ni
demandé ou autorisé cela?
+ Ce cas relance la question du consentement
accordé pour un projet technologique alors que
les tenants et aboutissants ne sont pas encore
connus.
+ He couldn’t get over his fiancee’s death. So he
brought her back as an A.I. chatbot
(sfchronicle.com)
LabCMO - mai 2023 10
Même si Jessica avait accordé un droit d’utiliser ses
données dans un projet de chatbot, pouvait-elle
réellement consentir à ce que la technologie pourra en
dans cinq ans ?
11. 2ème écueil : processus de mise en
données et « manipulation » des
données
+ L’objectivité des données mis en
lien avec le processus de
traitement des données pour en
tirer du sens.. (Norman, 2001,
cité dans Lycett 2013).
1. Des données séparées du milieu où
elles ont été captées.
2. Et le mystère phénoménologique de la
production d’un « autre moi »…
La datafication
ou « mise en
données du
monde » peut
être comprise
selon trois
principes :
La
« dématérialisation
la liquéfaction
et la densité »
LabCMO - mai 2023 11
12. Se « re-présenter » dans un réseau social –
cadre Goffmanien
• le mot « représentation » (re-présentation)
contient une réponse quant à la temporalité de
l’action mise en scène, puisqu’il s’agit de
rendre actuel quelque chose du passé.
Peter Brook et la
représentation
• La réputation du réseau qui co-construit ma
réputation en ligne.
• Giddens (1991) proposait que l’identité est
l’autoréflexion d’une personne qui considère
des éléments biographiques qui la définissent.
La scène (le
cadre)Twitter
• Cette perception demeure interne si la
personne ne valide pas ladite perception par
une interaction sociale (boyd, 2001).
• Cette interaction sera nécessairement
performative au sens théâtral du terme.
Réception/Gestion
des impressions
LabCMO - mai 2023 12
Peter Brook
13. Un soi en discontinu sur les
réseaux sociaux
+ Le portrait en données qu’élabore de chacun
les réseaux socionumériques est discontinu
+ Point de vue technique : les réseaux tâchent
de compliquer l’interopérabilité des données
pour en garder l’exclusivité en variant les
formats.
+ Point de vue sociologique : la présentation de
soi sur différents médias crée une
fragmentation du soi / mobilise différents
aspects selon le média.
LabCMO - mai 2023 13
14. Une mise en données de mon
« identité numérique » : la
relecture de Goffman
+ Dans un contexte de « réalisme
commercial »,
+ Par la « scénarisation dramatique »,
+ et « l’hyper-ritualisation »
qu’ajoutent les médias
socionumériques au processus
identitaire.
+ (Hancock et Garner, 2014)
LabCMO - mai 2023 14
15. 3ième écueil : un soi modelé par le
travail algorithmique
+ Création d’un portrait du soi « dissolu et
fragmenté », dans le contexte commercial géré
par des algorithmes.
La mise en scène devient hyper-dramatique en
réponse aux diktats algorithmiques (+ émotion =
+ de visiblité).
Le désir de répondre aux tendances : hyper-
ritualisation du quotidien, par des « faire
comme » associés à des hashtags. (Hancock et
Gardner, 2014)
+ Du Preez (2016) propose que dans les
autoportraits le soi est à la fois amplifié et
amputé.
LabCMO - mai 2023 15
16. Présentation de
soi : fragments
de réel
+ « Les individus, selon Hancock et Garner,
se trouvent devant les médias trop
souvent incapables de différencier le vrai,
de l’hypervrai, ce que les auteurs
identifient comme « l’effondrement des
frontières entre le réel et l’hyperréel »
(idem, p. 169). Ces deux approches de la
diffusion d’un soi, magnifié d’une part et
réduit d’autre part, sont revenues me
hanter par leur pertinence alors que je
considérais l’ensemble des réactions à
mon expérience médiatique. » (Seraiocco,
2023)
LabCMO - mai 2023 16
17. La scénarisation :
amplification de
certains fragments
+ Chaque réseau a ses spécificités quant
aux messages qui sont amplifiés
+ Le double en données peut obtenir plus
d’amplification en devenant un alter ego
créé pour répondre aux besoins
communicationnels en ligne (Du Preez,
2016).
+ Selon ce que sait l’usager d’un réseau
social, il choisit les éléments ou les
fragments à mettre en lumière pour
atteindre un auditoire.
+ Ce choix implique de laisser dans
l’ombre certains fragments pour en
mettre d’autres en lumière.
LabCMO - mai 2023 17
18. Recherche d’un auditoire..
Et diffraction
+ Le terme s’oppose à
« diffusion » comme action de
répandre sans obstacle.
(Dubois et al., 2005).
+ L’amplification des fragments
éloigne le soi numérique de sa
réalité, de sa complexité.
+ Ce qui est capté est à la fois
très détaillé et flou, parce que
vu de trop près.
LabCMO - mai 2023 18
19. Le miroir aux
alouettes
+ Ce miroir présente une version corrigée,
retouchée et par endroit amplifiée faisant du
« digital self » un autre soi, une copie conçue
pour des plateformes commerciales, selon
leurs paramètres, mais surtout selon leurs
besoins.
+ Les processus techniques y contribuent, le
manque trop souvent de retours critiques
fondés sur le pragmatisme aussi.
@ Elise Imray
LabCMO - mai 2023 19
20. Conclusion
« Des études montrent que revoir les meilleurs moments de sa vie a un impact positif sur l’humeur
et le bien-être des gens, et c’est d’ailleurs pourquoi nous avons décidé de réinventer cette
expérience (Meta, 2018).»
+ L’identité étant un processus en évolution, les données des RS en sont une archive.
+ Les représentations d’une modernité tardive, comme celles du soi numérique, sont
fragmentées, éphémères et fugaces.
+ Fragmentation de la re-présentation, amplification des fragments « payants » pour les
réseaux et diffraction des fragments considérés sans intérêt pour ce social capitalisé.
+ Le soi qui émane des RS est un produit formaté pour répondre à des besoins
commerciaux mis en forme par des algorithmes.
LabCMO - mai 2023 20
21. Bibliographie - sélection
+ Becker, J. (2012). Le corps humain et ses doubles. Sur les usages de la fiction dans les arts et la robotique. Gradhiva. Revue d’anthropologie et d’histoire des arts, 15, 102— 119.
https://doi.org/10.4000/gradhiva.2335
+ Bode, M., & Kristensen, D. (2015). The digital doppelgänger within. A study on self-tracking and the quantified self-movement.
+ boyd, danah, & Crawford, K. (2012). Critical Questions for Big Data : Provocations for a cultural, technological, and scholarly phenomenon. Information, Communication & Society, 15(5), 662-679.
https://doi.org/10.1080/1369118X.2012.678878
+ Brook, P. (1996). The Empty Space (1. ed.). Touchstone.
+ Bynum, T. W. (2008). Norbert Wiener and the rise of information ethics. Information technology and moral philosophy, 8-25.
+ Cerulo, K. A. (2011). Social Interaction : Do Non-humans Count? : Human/Non-human Interaction. Sociology Compass, 5(9), 775-791. https://doi.org/10.1111/j.1751-9020.2011.00404.x
+ Denouël, J., & Granjon, F. (Éds.). (2011). Communiquer à l’ère numérique : Regards croisés sur la sociologie des usages. Presses des Mines.
+ du Preez, A. (2016b). When Selfies Turn into Online Doppelgängers: From Double as Shadow to Double as Alter Ego. In C. Travis & A. von Lünen (Éds.), The Digital Arts and Humanities (p. 3-21).
Springer International Publishing. https://doi.org/10.1007/978-3-319-40953-5_1
+ Ertzscheid, O. (2013). Chapitre 1—Les logiques identitaires. In Qu’est-ce que l’identité numérique ? : Enjeux, outils, méthodologies (p. 13-27). OpenEdition Press. http://books.openedition.org/oep/405
+ Féral, J. (2013). De la performance à la performativité. Communications, 92(1), 205-218. https://doi.org/10.3917/commu.092.0205
+ Giddens, A. (1991). Modernity and self-identity : Self and society in the late modern age. Stanford University Press.
+ Gitelman, L. (2013). Raw data is an oxymoron. MIT Press.
+ Goffman, E. (1981). Forms of talk. University of Pennsylvania Press.
+ Goffman, E. (1990). The presentation of self in everyday life (Nachdr.). Doubleday.
+ Proulx, S., Heaton, L., Jane Kwok Choon, M., & Millette, M. (2011). Paradoxical empowerment of produsers in the context of informational capitalism. New Review of Hypermedia and Multimedia, 17(1),
9-29. https://doi.org/10.1080/13614568.2011.552646
+ Sorapure, M. (2003). Screening Moments, Scrolling Lives : Diary Writing on the Web. Biography, 26(1), 1-23. JSTOR.
LabCMO - mai 2023 21
Notes de l'éditeur
Tirés du livre : Ward Bynum, T. 2008. The handbook of information and computer ethics. Hoboken, chapitre 2, “Milestones in the History of Information
and Computer Ethics »
L’éthique de l’IA selon Gibert (2020) correspond « à la branche de l’éthique de la technologie qui évalue les systèmes d’IA et se demande s’ils sont bons pour nous ».
« datafied self, digital self, data twin, digital double, data double, or sometimes as the quantified self… ». Métaphores
Même si Jessica avait accordé un droit d’utiliser ses données dans un projet de chatbot, pouvait-elle réellement consentir à ce que la technologie pourra en dans cinq ans ?
« Le second écueil épistémique se rapporte toujours selon les auteurs Bode et Kristensen (2015) à la qualité du double numérique. Cette qualité est fondée sur une tension émique entre l’objectivité qu’on prête aux données et le mystère phénoménologique qui caractérise la production d’un autre « moi », comme la façon de s’identifier à ce « moi en données ». » (Seraiocco, 2023) Les données sont dites « dématérialisées », car elles sont séparées du monde physique où elles ont été captées et qu’elles doivent « représenter » ; elles sont « liquides », car on peut les bouger, les réaménager facilement à des fins de compréhension et leur densité atteste de la valeur du processus utilisé pour les « recombiner » et en extraire du sens (Lycett, 2013, traduit par l’autrice).
Puisque Goffman s’appuyait sur des concepts issus du théâtre, je continue donc en ligne avec le légendaire Peter Brook (que je citais au Chapitre 2), en affirmant que le mot « représentation » (re-présentation) contient une réponse quant à la temporalité de l’action mise en scène, puisqu’il s’agit de rendre actuel quelque chose du passé.
Ensuite « La scène ou le cadre », où les interactions avec mon dispositif conversationnel se dérouleront, vient aussi coconstruire l’identité numérique de ce profil. Je précise ici, la question des « scenes » : en anglais la « scène » est « setting-s » et la scène (scene) peut aussi avoir un autre sens chez Goffman et désigner plutôt les « faux-pas » qui peuvent survenir dans la gestion des impressions (Goffman, 1990 ; p. 209).
Puis en troisième lieu, les contenus publiés de façon aléatoire par mon dispositif à partir de mes données textuelles et surtout la réception que des usagers leur ont réservée ont aussi contribué à façonner la perception de l’identité numérique émergente de mon dispositif. La « gestion des impressions » (impressions management) comme l’appelait Goffman (1990 ; p. 208).
Facebook qui est passé du format PDF ou .csv ou Html à Html ou JSON
Twitter de .csv à JSON
Les interprétations les plus courantes de Goffman, qui consistent à le voir comme un théoricien des processus universels de l’interaction et de la construction de soi, peuvent être appliquées de façon productive à l’analyse de la société contemporaine. Par exemple, Dell et Marinova 2002), Papacharissi (2002) Robinson (2001), et Ross (2007) utilisent tous la présentation de soi de Goffman pour explorer de nouvelles possibilités identitaires, comme de formation de soi à travers l’usage d’Internet et des communautés en ligne. (Hancock et Garner, 2014, traduit par l’autrice ; p. 166)
Citation originale (Hancock et Garner, 2014 ; p. 166): The most prevalent interpretation of Goffman is to see him as a theorist of universal processes of interaction and self-construction that can productively be applied to the analysis of contemporary society. For example, Dell and Marinova (2002), Papacharissi (2002) Robinson (2001), and Ross (2007) all seek to utilize Goffman’s presentation of self to explore new possibilities of identities and self-formation through internet technologies and online communities.
Dans un article paru sur Swiss Science Today, intitulé « Mon jumeau numérique est-il malade ? », on peut lire : « Imaginez une copie numérique de votre corps. Une sorte de clone virtuel. Ce jumeau fictif détient toutes vos données médicales : âge, poids, taille, antécédents médicaux, rythme car idiaque, activité des organes, taux de cholestérol et patrimoine génétique, entre autres. Ces données sont transformées en formules mathématiques et introduites dans un système informatique géré par de l’intelligence artificielle et des algorithmes. Le jumeau numérique fonctionne en temps réel avec les données du patient, mais aussi avec celles de tous les autres jumeaux numériques existants » (Généreux, 2021)
GPT-2 remixait des expressions tirées de mes billets de blogues des 20 dernières années et des manières de formuler de courts messages à partir des données tirées de quelque 22 000 tweets rédigés en 15 ans.
En choisissant ces messages, en acceptant qu’ils soient diffusés dans mon dispositif conversationnel, je faisais aussi le pari de faire remonter à la surface ces portions moins connues de mon identité.
Revient l’image de double ou d’alter ego qui pourra animer les réseaux sociaux d’un individu à sa place
Le corps ainsi capté est à la fois très détaillé (données sur la santé, données biométriques, mesures, etc.) et flou, puisqu’il parait souvent être capté de trop près, sans contexte.
L’identité dite « réelle » sur les réseaux sociaux
Le cadre de l’action (performance) repose sur des logiques d’engagement, sur le moteur de l’économie publicitaire des réseaux sociaux.
L’amplification du soi vs la partie immergée du soi (le double en données)