UNIVERSITE DE PARIS IV - SORBONNE
CELSA
Ecole des hautes études en sciences de l’information et de la communication
MASTER 2ème
année
Mention : Information et Communication
Spécialité : Management de la communication
« La Big Data entre mythes et réalités : quand l’idéologie technique
questionne l’identité personnelle »
Préparé sous la direction du Professeur Véronique RICHARD
Nom, Prénom : Boissaye, Marine
Promotion : 2013-2014
Option : management de la
communication
Soutenu le :
Note du mémoire :
Mention :
2
REMERCIEMENTS
Je remercie Madame Emmanuelle Lallement et Madame Véronique Richard, qui ont rendu possible
ce travail.
Je remercie Monsieur Florian Malaterre, mon tuteur académique, pour l’intérêt qu’il a manifesté
pour ce projet, ainsi que pour son suivi et ses suggestions avisées.
Je remercie Mademoiselle Mélanie Roosen, mon tuteur professionnel, de m’avoir accompagné
depuis les premières heures et jusqu’au bout de ma démarche.
Merci aussi à Camille et à Lucile pour leur soutien et leur curiosité.
3
RESUME
Depuis les années 2010, le « phénomène Big Data » a fait couler beaucoup d’encre. Il a été
tour à tour associé à l’image de Big Brother, à un âge d’or du marketing ou encore à une
« révolution du savoir ». De ces déclarations, il est difficile de discerner le vrai du faux, l’emphase
de la justesse. Ce travail se donne pour but de déconstruire le mythe afin de mieux analyser l’objet.
Pour parler d’une innovation technique qui touche le quotidien, l’angle choisi a été plus proche de
nous : celui de l’interaction de la Big Data avec l’individu. Au cœur de la Big Data se trouve en
effet les données fournies par les utilisateurs. Quelles sont les implications de la Big Data sur nos
identités personnelles ? Les trois hypothèses énoncées permettent de mieux comprendre les
interactions entre l’individu et les technologies de l’information et de la communication, à travers
une approche épistémologique du phénomène, une analyse des représentations et des imaginaires,
puis des limites dans les usages à fins commerciales.
Algorithme
Analytique
Big Data
Data-visualisation
Epistémologie
Identité
Individu
Internet
Marketing
Profilage
Science
Technique
Technologie
Webmarketing
4
SOMMAIRE :
Introduction…………………………………………………………………..p.6
I. Une « révolution du savoir annoncée » : une utopie à l’épreuve du
réel. p 10
A. Analyse des discours et représentations de la « Big
Data »………………………………………………………………….….p.11
1. Technologie et société
2. « La fin de la théorie » : analyse et déconstruction d’un discours utopique
B. Approche épistémologique : «l’ère du pétabyte» et ses conséquences sur la
méthode scientifique……………………………………………………...p.19
1. Les conditions de la « révolution du savoir » ?
2. L’algorithme, un système balancé entre idéologie technologique et logique capitaliste
C. Etude de cas : IBM. Un discours de marque qui façonne les représentations et
imaginaires de la Big Data…………………………………………..….p.26
1. L’entreprise, la marque et sa raison d’être
2. « Une planète plus intelligente », la technique au service du bien commun, analyse
d’un discours et d’une stratégie de marque
II. Les « empreintes digitales », facteur constituant des identités en ligne
p. 28
A. Le paradoxe de l’identité en ligne: entre protection et projection p.34
B. « Les empreintes digitales » ou l’identité par les traces………….p.38
1. Les corps statistiques
2. L’acceptation par la banalisation et autres jeux sociaux qui mettent en tension
l’identité
C. Analyse d’une structure informationnelle: de la foule à l’individu p.47
1. Le fantasme de la prédiction
2. La personnalisation mènerait-elle à la réification ?
5
III. Les limites du marketing personnalisé……………………………...p.53
A. Le marketing à la recherche d’un nouvel eldorado……………………p.53
1. Les promesses de l’essor de la Big Data et du perfectionnement des outils à
l’épreuve du réel
2. Le marketing par la « différenciation »
3. Le marketing intrusif
B. Recommandations : le consommateur-acteur………………………...p.66
1. Transparence et pédagogie pour redonner le pouvoir à l’utilisateur
2. La VRM, une nouvelle façon de penser la relation au consommateur
3. Une pensée de l’innovation
Conclusion………………………………………………………………….p.71
6
INTRODUCTION
Where is the wisdom we have lost in knowledge?
Where is the knowledge we have lost in information?
[Où est passée la sagesse que nous avons perdue avec la connaissance ?
Où est la connaissance que nous avons perdue avec l’information ?]
T.S. Eliot
Il est communément admis que l’avènement d’Internet a profondément bouleversé
les usages et pratiques de la société moderne, en faisant émerger de nouvelles opportunités et
nouveaux usages, avec leur lot de fantasmes et de représentations. Internet et les réseaux qui
en ont émergé sont souvent considérés comme des outils majeurs : outils de la nouvelle
démocratie participative ou de révolutions faites en ligne. Internet est une innovation du
quotidien, qui a pour force majeure de connecter les individus entre eux, créant ainsi une
nébuleuse de savoirs et connaissances. Le fonctionnement d’Internet est étroitement lié à celui
des utilisateurs, clé de voute de la structure informationnelle d’Internet. L’individu est
essentiel au fonctionnement du réseau, il le constitue. Mais cette vie en ligne n’a pas qu’une
existence sur les écrans. De leurs interactions en ligne, les individus laissent des traces, des
preuves de leur présence. L’analyse de ces traces est une science, une technique développée
ses dernières années par des data-scientists. Récupérées à des fins marchandes, ou à des fins
sécuritaires par les gouvernements, la Big Data est aujourd’hui très convoitée et attise désirs
et fantasmes. Alors que le nombre de données générées augmentent tous les jours, de plus en
plus d’attention est portée sur cette technique, de plus en plus d’investissements sont faits
dans les entreprises afin de collecter les données et d’en comprendre la plus-value.
Comment comprendre cet engouement ? En quoi la technologie associée à l’analyse des
données de masse est-elle une avancée, non seulement scientifique aux usages variées et aux
retombées diverses ?
Tracer les contours de l’objet technologique peut tout d’abord aider à la
compréhension du phénomène qui en résulte. Il s’agit tout d’abord d’identifier la nature et la
spécificité des données appartenant à la Big Data. Celles-ci sont généralement catégorisées
7
comme telles lorsqu’elles relèvent de trois critères, les trois « V », ou 3V. Cette grille de
lecture est établie en 2001 par Doug Laney.
Le premier V est celui du volume, c’est celui qui prime et donne son sens à l’expression
« big ». La Big Data est en effet d’abord caractérisée par « l’explosion du volume de données,
qui met à l’épreuve les infrastructures de stockage classiques des entreprises. » Cette
explosion est due à la multiplication d’innovations technologiques qui permettent ces flux de
données, de la carte bancaire, aux réseaux sociaux, jusqu’à l’Internet des Objets.
La deuxième richesse de la Big Data, c’est sa variété. Les données collectées provenant de
différentes sources et contenus variés, celles-ci contiennent différents types d’informations.
Les données peuvent être des données structurées (historique de ventes, géolocalisation…) ou
non-structurées (commentaires, textes, audio, vidéo). La multiplicité dans la nature des
données permet une compréhension fine d’un traitement.
La troisième caractéristique de la Big Data, c’est sa vélocité. Les progrès en analytique,
notamment les algorithmes auto-apprenants, permettent d’intégrer de la donnée « en
mouvement », non figée.
Ainsi, la Big Data est définie comme « un ensemble d’innovations technologiques qui
transforment profondément la façon dont les entreprises et les individus génèrent,
transmettent, stockent et utilisent des données : massification des échanges de données (vidéo,
texte, son, image), révolution dans le stockage (cloud-computing) et la structuration de
données (NoSQL), progrès des techniques d’analyse, progrès des outils de visualisation de
données… »1
. Cette définition met en valeur la composante technologique, et primordiale, de
l’objet Big Data. Mais la définition plus théorique avancée par les chercheuses Danah Boyd et
Kate Crawford met en lumière de manière plus fine les implications de la Big Data et présente
l’objet comme un phénomène complexe, jouant sur plusieurs tableaux et à plusieurs niveaux.
Nous définissons la Big Data comme un phénomène culturel, technologique, et universitaire,
qui repose sur l’interaction entre :
(1) La technologie : maximiser le pouvoir de l’ordinateur et la justesse des algorithmes afin
de rassembler, analyser, relier et comparer de larges sets de données.
(2) L’analyse : se plonger dans un set de données conséquent afin d’identifier des schémas
(patterns) qui permettent d’énoncer (de souligner) des faits économiques, sociaux, techniques
ou légaux.
1
Data Business,website “Big data definition” [disponible: http://www.data-business.fr/big-data-definition-
enjeux-etudes-cas/]
8
(3) La mythologie : la croyance répandue selon laquelle un set de données conséquent
offrirait une forme supérieure d’intelligence et de connaissance qui pourraient générer des
insights (perceptions) jusque-là imperceptible, augmenté d’une aura de vérité, d’objectivité et
de justesse. 1
Le triptyque technologie-analyse-mythologie est lourd de sens : la technologie est le
pilier de la Big Data, elle en est la matière. L’analyse, (quanti-quali) en est la condition sine
qua non, celle qui donne du sens aux chiffres et érige la technologie en outil, technico-social.
La mythologie qui y est associée nait à la fois du caractère très technique de l’outil et de ses
usages très variés et impactant une variété de domaines.
C’est donc l’intersection entre le matériel, la donnée, et son analyse qualitative qui est
créatrice de cette mythologie évoquée dans le troisième point de la définition.
Graphique qui met en perspective les trois aspects du big data inspiré de la définition de
Danah Boyd & Kate Crawford.
En effet, un des premiers effets depuis l’émergence de la Big Data est celui d’un
bouleversement d’ordre de pensée. Etienne Klein, physicien et docteur en philosophie des
Sciences, constate dans la revue INfluencia consacrée à la question :
1
“We define Big Data as a cultural, technological, and scholarly phenomenon that rests on the interplay of:
(1) Technology: maximizing computation power and algorithmic accuracy to gather, analyze, link, and compare
large data sets.
(2)Analysis: drawing on large data sets to identify patterns in order to make economic, social, technical, and
legal claims.
(3)Mythology: “the widespread belief that large data sets offer a higher form of intelligence and knowledge
that can generate insights that were previously impossible, with the aura of truth, objectivity, and accuracy.”
9
On met des chiffres partout, qui viennent déposer comme des cendres sur le réel (…)
Tout se passe comme si on avait peur de ce qui n’est pas mesuré ou – pire – de ce qui ne serait
pas mesurable.1
Cet équilibre entre le mesuré et le non-mesurable sied véritablement à la sphère de la
communication et du marketing, toujours en recherche de légitimité business. Mais cette
vérité chiffrée est aussi applicable à un grand nombre de domaines dans la société, que ce soit
la médecine, la politique, la biologie ou la gestion des catastrophes naturelles. La diversité de
ses applications a pour conséquence qu’elle est aujourd’hui érigée en système, à travers un
discours techno-centré.
Les questions communes que posent l’accès à ces données se situent à un niveau axiologique :
est-ce que l’utilisation de ces données va faire avancer l’humanité (et ses entreprises, biens et
services) ou au contraire constituer un danger pour les citoyens du monde et utilisateurs
d’internet ? Il ne s’agit pas ici de trancher cette question mais plutôt de déconstruire la notion
de Big Data, en s’éloignant des discours utopiques ou dystopiques, et de tenter de comprendre
l’interaction entre la technologie et l’humain à l’œuvre dans l’outil Big Data. Dans quelle
mesure la Big Data et ses usages marketing sont-ils conditionnées par les savoirs que les
individus ont d’eux-mêmes ? Quelles sont les limites du savoir et du pouvoir statistiques ?
Cette problématique nous amène à interroger la place de l’individu à plusieurs niveaux et à
avancer différentes hypothèses :
Hypothèse n°1 : la Big Data parviendrait à créer une connaissance du réel objectif, à
l’origine d’un renversement de paradigme dans la production de savoirs.
Dans une approche épistémologique, on tentera de comprendre l’idéologie à l’origine de la
mythologie de la donnée, liée à une prétendue objectivité de la science. Comment la
technologie est-elle modelée par une mythologie et un système de valeurs qui la dépasse ?
Quelles sont les tensions créées par cette idéologie à l’épreuve du réel ?
Hypothèse n°2 : La constitution d’une « identité » en ligne serait fortement remise en
question par l’existence des traces numériques
1
Revue INfluencia n°9 « La data » Avril/Juin 2014
10
La deuxième partie tentera de comprendre la place de l’individu dans un système qui semble à
la fois le sublimer et le diminuer. Quelles sont les nouvelles modalités de constitution de notre
identité dans un environnement connecté ? Quels impacts du « savoir par les traces » pour la
constitution de l’identité – au niveau personnel mais aussi collectif ?
Hypothèse n°3 : L’accès des marques à la Big Data modifierait la relation qu’elles
entretiennent avec le consommateur, créant de nouveaux messages, de nouveaux liens.
La troisième partie s’attachera à comprendre comment ces tensions et logiques se retrouvent
dans un usage bien précis, celui du marketing personnalisé. Quelle est la place de l’individu
dans cette nouvelle relation-client ? Comment la technique peut-elle s’associer à la créativité
afin d’élaborer une relation de confiance ?
Nous interrogerons ces trois hypothèses à travers différentes approches
méthodologiques. L’analyse de discours sera mobilisée afin de déconstruire la mythologie
associée à la Big Data et de comprendre les représentations de la technique dans la société.
Une analyse sémiologique des communications de l’entreprise IBM, pionnière dans l’usage
de la Big Data, nous permettra aussi de mieux cerner la place prédominante de l’objet
technique comme objet publicisé, recherché, et précieux.
11
I. LA « REVOLUTION DU SAVOIR » ANNONCEE,
UNE UTOPIE A L’EPREUVE DU REEL
Because more isn’t just more: more is different
[Parce que plus n’est pas seulement plus : plus, c’est différent]
Chris Anderson
A. ANALYSE DES DISCOURS ET REPRESENTATIONS DE LA « BIG DATA »
La première partie de notre analyse se concentre sur la Big Data comme phénomène à
la fois technique et culturel. Un des présupposés de cette recherche consiste à comprendre
l’innovation technologique comme s’intégrant dans un système, et donc comme un objet
mouvant, qui se forme et se déforme au gré de ce que l’environnement extérieur lui greffe.
Ses attributs, ses usages, ses biais, sont autant de composantes de la technique qui ne
dépendent pas d’elle mais de sa compréhension dans une écologie sociale extérieure.
Comment le fondement idéologique, les promesses, les idéaux et représentations ont-ils
12
modelés l’objet Big Data et ses usages ? Quelles sont les conséquences de la mythologie et
des discours techno-centrés à la fois sur les pratiques et sur la société ?
1. TECHNOLOGIE ET SOCIETE
Afin de comprendre l’ampleur du phénomène Big Data dans la sphère médiatique et
communicationnelle, il faut comprendre que la Big Data, en tant qu’innovation technique,
n’est pas un phénomène de mode mais bien une nouvelle technologie qui, comme cela est
prédit souvent modifiera notre façon de « vivre, travailler et penser »1
et a déjà une influence
sur nos vies jusque dans leurs quotidiens. Ces déclarations brutes et les discours
dithyrambiques qui les accompagnent ne sont pas fausses, surtout lorsque l’on remet le
phénomène dans une perspective plus large. En effet, la Big Data fait partie de ces progrès
techniques qui sont importants parce qu’ils ont un impact sur l’écologie sociale. Cette
interaction est en réalité constituante du progrès technologique en soi. Melvin Kranzberg,
historien de la technologie, et auteur des 6 lois de la technologie, l’explique ainsi :
La technologie n’est ni bonne ni mauvaise ; ni même neutre… L’interaction de la technologie
avec l’écologie sociale est telle qu’il est fréquent que les avancées techniques aient des répercussions
environnementales, sociales et humaines, qui aillent bien au-delà de la première utilité de ses appareils
et pratiques techniques elles-mêmes.2
La première phrase, qui remet en cause la neutralité supposée de la technologie, est
selon lui la première loi de la technologie. La dernière étant que la technologie est « une
activité extrêmement humaine ». Ces deux assertions sont liées et sont importantes pour la
compréhension du phénomène de la Big Data. Plus que d’être une application technique figée
– la collection et l’analyse de données, structurées et non structurées, en grande quantité – la
Big Data est un phénomène mouvant, et son utilisation est faite par les hommes : à la fois
dans la production de données (par les utilisateurs) et dans sa réception et transformation (par
des analystes, sociologues, journalistes, marketeurs et autres). L’analyse axiologique du
phénomène selon laquelle le fait d’avoir accès et d’analyser ces données serait un ressort
1
“transform how we live work and think” (Cukier & Mayer-Schonberger, 2013).
2
«Technology is neither good nor bad ; nor is it neutral… technology’s interaction with the social ecology is
such that technical developments frequently have environmental, social, and human consequences that go far
beyond immediate purposes of the technical devices and practices themselves.”
Melvin Kranzberg, 1986, Technology and History: ‘Kranzberg’s laws’, Technology and Culture, 27
13
d’une logique du bien ou du mal, est une limite (Technology is neither good or bad). Mais son
interaction avec la main humaine, son développement dans le temps, et sa finalité lorsque
appliquée à des domaines d’études précis, sont autant de composantes qui font de la Big Data
un phénomène technologique enclin à avoir un impact sociétal, économique et politique. Dans
la mesure où c’est un phénomène technologique ayant une existence en dehors de son corps
scientifique et purement technique, il s’inscrit dans la lignée du progrès dans son acceptation
la plus large. En effet, l’utilisation de la Big Data est un progrès à bien des égards : que ce
soit la médecine analytique, la personnalisation des services, l’usage militaire et
gouvernemental, ou l’aide humanitaire, la Big Data a prouvé plus d’une fois son utilité dans la
société. Mais la force créatrice, qui bouscule et renverse des systèmes entiers, n’est pas propre
à la Big Data, mais à tout phénomène technologique lié à un usage de société.
La technique, et ici la technologie, a le pouvoir de changer tout un système de pensée, son
impact dépassant totalement son simple objet de départ pour s’instiller dans la société et le
monde moderne d’une manière plus générale. Ainsi, Kate Crawford1
et Danah Boyd
rappellent que Ford, en introduisant la mécanisation du travail et en changeant le processus de
division des tâches, n’a pas seulement révolutionné la façon dont on construit les voitures,
mais aussi la façon dont on travaille, notre rapport au travail et la société de manière générale.
Ici, la Big data en tant qu’outil, est vecteur de changement jusque dans la représentation que
nous avons du savoir, de l’information, du réel et des comportements sociaux des individus.
En entreprise notamment, où elle est le plus prégnante pour le moment, elle sert trois
objectifs majeurs : l’amélioration de l’expérience client, l’optimisation des processus et de la
performance opérationnelle de l’entreprise et l’aide au business model. On parle de manière
plus générale d’aide au processus décisionnel en entreprise. La Big Data ne se réduit donc pas
à une technologie qui aurait en elle-même une fin et une application simple ; elle fait part d’un
processus plus complexe et qui dépasse le domaine scientifique. C’est un «actif stratégique »
qui établit un renversement de paradigme d’organisation que l’on nomme généralement «data-
centric». En somme, les données quanti-quali fournies par l’analyse des données structurées et
non structurées (données des entreprises et données en dehors des entreprises, transmises par
les objets connectés) sont aujourd’hui à la source de beaucoup de processus d’analyses, de
1
Boyd, D & Crawford, K. (2012). Critical Questions for Big Data, Information, Communication & Society. 15 (5),
p662-679.
14
recherches et en entreprise, décisionnels. C’est cet écosystème qui mène les chercheurs à
parler de « révolution du savoir » (Boyd et Crawford), de « fin de la théorie » (Anderson) ou à
déclarer, comme Marc Andreesen – un des premiers innovateurs d’internet - que le « logiciel
dévore le monde ».
2. « La fin de la théorie »	selon	Anderson,	analyse	et	déconstruction	d’un	
discours utopique
L’article de Chris Anderson, rédacteur en chef du magazine américain Wired, « The End
of Theory: The Data Deluge Makes the Scientific Method Obsolete », publié en 2008, est le
premier d’une longue liste d’articles annonciateurs d’une révolution, d’un bouleversement
sans précédent, construisant ainsi la mythologie de la data, ainsi qu’un discours
l’accompagnant : parfois utopique, quelques fois sans nuances, mais surtout tracant les
contours de l’objet Big Data telle que présentée et vécue dans la réalité.
Une analyse du contenu de l’article qui a été au départ de l’effervescence médiatique
mais aussi des investissements massifs et de l’intérêt grandissant pour la question, permettra
de mieux comprendre le discours unifiant qui accompagne la Big Data, mais aussi de le
déconstruire et de le remettre en perspective.
Le titre et le contenu de l’article sont devenus au fil des années des références. L’effet
annonciateur, prophétique, sans nuances mais totalisante, de ce qu’est la Big Data et de son
impact sur le monde, semble en effet écrit pour marquer les esprits.
Dans son article, Anderson prévoit « la fin de la théorie », le début d’une « nouvelle ère », et
annonce que la méthode scientifique, ou les modèles auparavant utilisés sont déjà obsolètes
face au « laboratoire de la condition humaine » qu’est le Big Data et l’analytique.
Seuls des modèles, des équations cosmologique aux théories sur le comportements
humains, semblaient capable d’expliquer le monde autour de nous de manière imparfaite mais
cohérente. Jusqu’à maintenant. Aujourd’hui, des entreprises telles que Google, qui s’est
développé dans une ère de données massives et abondantes, n’a pas à se contenter de modèles
incorrects. En fait, ils n’ont pas besoin de s’accommoder de modèles du tout.1
1
Only models, from cosmological equations to theories of human behavior, seemed to be able to consistently,
if imperfectly, explain the world around us. Until now. Today companies like Google, which have grown up in
an era of massively abundant data, don't have to settle for wrong models. Indeed, they don't have to settle for
15
Selon Anderson, la puissance des données disponibles en masses et des algorithmes
seraient telles que la théorie, les modèles scientifiques, n’aurait plus besoin d’être puisque les
« mathématiques appliquées » et les « algorithmes agonistiques » sont bien plus puissants et
justes. Anderson s’appuie sur l’exemple de Google, qui ne se rapproche en rien au départ
d’une agence de publicité mais qui a « seulement supposé que de meilleures données, avec
des meilleurs outils analytiques, allaient remporter la victoire. », pour finir en saluant la
justesse de vue de Google : « Et google avait raison. »1
Anderson insiste sur l’idée que les statistiques non seulement révolutionne la méthode
scientifiques, balayant les hypothèses, les analyses sémantiques, causales, qui ont été utilisés
des siècles pour se concentrer uniquement sur l’analyse des Big Datas, qui « remplacent tout
les autres outils. » et qui chassent « toutes les théories du comportement humain, de la
linguistique à la sociologie. »
La pensée d’Anderson est sur ce point radical. L’avènement du Big Data est selon lui
un raz-de-marée pour la science. Mais sa confiance en la technique est telle qu’elle apparaît
aussi sans nuances. Les hyperboles et les tournures sémantiques font perdre tout pragmatisme
mais aussi toute mesure à Anderson qui va jusqu’à dire : « Avec assez de données, les chiffres
parlent tout seuls. »2
. Anderson manque ici de rigueur intellectuel et trahit une pensée
totalisante. Les données quantitatives issues de la Big Data ne se suffisent pas à eux-mêmes,
ne s’expliquent et ne s’analyse pas sans l’aide d’un « data scientist », ou « data analyst. ».
Nous reviendrons plus tard sur l’implication de ces analyses et sur la place de l’analyse, du
contexte, et de l’expertise, dans le traitement des données. Mais cette formulation est déjà
intéressante en tant qu’elle trahit des croyances et l’espoir mis dans le Big Data et ses
possibilités : ce sont les mythes de la performance, de l’efficacité, et aussi de l’objectivité qui
sont ici mobilisés.
models at all.” Anderson, Chris, The End of Theory: The Data Deluge Makes the Scientific Method Obsolete,
Wired magazine – Juin 2008.
1
It forces us to view data mathematically first and establish a context for it later. For instance, Google
conquered the advertising world with nothing more than applied mathematics. It didn't pretend to know
anything about the culture and conventions of advertising — it just assumed that better data, with better
analytical tools, would win the day. And Google was right.
2
With enough data, the numbers speak for themselves.
16
Anderson, en voulant démontrer la puissance de l’usage des Big Data participe à créer
un discours qui dépasse la seule constatation des avancées de la science et des
bouleversements que celles-ci induisent. En louant les capacités d’analyse sans précédent des
entreprises telles que Google, il leur alloue une puissance et un rôle nouveau, celui de
nouveaux régulateurs, nouveaux maîtres du pouvoir, sans possibilité de contestation face aux
pouvoirs techniques qu’elles contiennent. C’est ainsi que se clôt l’article d’Anderson, laissant
entrevoir un renversement de valeurs et de nouveaux jeux de pouvoirs : « Il est temps de se
demander : qu’est-ce que la science peut-elle apprendre de Google ? ».
Ces déclarations ne sont pas seulement les symptômes d’un effet de mode autour du
phénomène mais s’accorde avec la mythologie crée autour de l’Internet – père du Big Data –
à la fois par ses créateurs et ses utilisateurs. Les métaphores utilisées pour désigner l’Internet
telles que le « cyberspace ». Evoquée la première fois en 1984 dans un roman de William
Gibson intitulé Necromancer, le mot a directement cristallisé les idéaux libertaires des
pionniers d’internet. Dans sa déclaration d’indépendance du cyberespace, écrite par John
Perry Barlow, un des hackers fondateurs d’Internet, le mot est choisi et décrit bien un espace
hors des lois, utopique, où la navigation est totalement libre. « L’autoroute de l’information »,
expression poularisée par Al Gore transmet une idée d’une ampleur toute aussi importante,
mais dans une vision plus polissée, de quelque chose de certes imposant (autoroute) mais
simple et sans embûches (l’idée d’une route). Les mots et expressions associés au Big Data
revêt les mêmes mythologies. L’adjectif Big en témoigne mais le « pétabyte age » d’Anderson
nous mène encore plus loin. Le Big Data serait en lui-même une ère (age) et le mot technique
« pétabyte » confère à celui-ci une aura technologique certes mais aussi obscure. Qu’est-ce
qu’un pétabyte ? Les vocables tels que gigaoctets sont plus communément utilisés, mais
n’appelle pas non plus de représentations clairs. Les « octets » sont les unités utilisées pour
mesurer les quantités d’informations en informatique. Cependant, les octets, gigabytes,
pétabytes, n’appellent à l’esprit de l’utilisateur lambda aucun ordre de grandeur. Par son
manque de connaissance du langage dit geek, l’utilisateur lambda voit la chose sans nuances :
dans sa grandeur presque totale, son immensité indescriptible.
Ces expressions sont signes de l’euphorie et de l’émulation des médias en général sur
la question. Cette excitation s’inscrit dans un discours qui a toujours accompagné Internet
depuis ses balbutiements. Internet en tant qu’innovation « ordonnatrice du monde » a toujours
cristallisée les fantasmes, idéologies et été au départ de visions utopiques et dystopiques qui
17
sont aujourd’hui exacerbées par le Big Data. On trouve en effet au cœur du projet
d’Internet une utopie d’un monde où la connaissance et le savoir seraient démultipliés car mis
en commun. En témoigne l’étymologie du mot ordinateur, signifiant du moins pour la France.
Alors que François Girard, responsable du service de publicité d’IBM, cherchait une
traduction au mot « computer », il demanda conseil à un professeur de linguistique de la
Sorbonne (voir correspondance en annexe). Le mot ordinateur, avant de s’appliquer aux
machines, avait à la fois un sens religieux, et était un adjectif désignant « Dieu qui met de
l’ordre dans le monde. » Même si l’étymologie ne s’applique qu’à la France, les racines du
mot témoignent d’un imaginaire de puissance démiurgique aujourd’hui associée au Big Data.
Ce discours est nourrit à deux niveaux, le premier étant celui des acteurs du Web,
premiers évangélistes, qui nourrit ensuite celui des médias. Les discours de la Silicon Valley –
où évoluent les géants du web que sont Apple, Facebook, Google et Amazon (les GAFA) –
ont pour point commun une vision particulière : le « solutionnisme », selon l’appellation du
philosophe Evgeny Morozov.
Dans son ouvrage « Pour tout résoudre, cliquez-ici », Evgeny Morozov dénonce
l’internet-centrisme qui dévore la planète. En effet, sous l’impulsion des fondateurs des
GAFA, un nouveau discours a pris place dans l’espace public, consistant à vouloir résoudre
les problèmes du monde, aussi divers soient-ils, à l’aide de la technologie. Ainsi, et comme
les unes des médias le décrivent, la Big Data pourrait résoudre les crises humanitaires, et les
réseaux sociaux provoquer les soulèvements populaires les plus opportuns et provoquer des
révolutions par des peuples tyrannisés. Ces évènements en marge étant la partie visible de
l’iceberg, alors que chaque jour de plus en plus de décisions et d’initiatives sont prises à
travers le prisme de la technologie et de la science. La récente annonce de Facebook et
d’Apple1
, qui voudraient financer la congélation de leurs ovocytes de leurs employées afin de
combler le fossé de carrières entre les hommes et les femmes, traduit cette croyance naïve en
la toute puissante des solutions techniques à des problèmes à la fois biologiques et des
problèmes de société (les problèmes d’évolution de carrière des femmes au travail).
1
« Facebook et Apple pourraient subventionner la congélation d'ovocytes de leurs employées » Le Monde
Pixels, 14/10/2014
18
Le « solutionnisme » décrit par Morozov emprunte son concept à un mouvement
philosophique qui le précède, celui du positivisme d’Auguste Comte. Le précepte : « savoir
pour prévoir, afin de pouvoir » prend aujourd’hui un relief spécial et semble se réactualiser.
La Big Data est une science qui touche aux modalités du savoir, qui prétend accumuler ce
savoir mais aussi en tirer de nouvelles capacités, de prédiction (l’algorithme prédictif en étant
l’outil), pour finalement s’arroger d’un pouvoir. La Big Data « se vend elle-même comme une
connaissance qui équivaut au pouvoir. »1
On retrouve ici la dialectique savoir-pouvoir
foucaldienne, avec l’organisation panoptique qui s’ensuit. La croyance en la possibilité d’un
savoir objectif, total, libérée de toutes contraintes humaines, confère à la Big Data un pouvoir
s’en égal.
Mais si l’on s’accorde à parler de renversement de paradigme dans la méthode de
production du savoir, il est néanmoins nécessaire de comprendre les logiques qui régissent ces
nouvelles pratiques, les règles au cœur de l’outil, et dans déceler les limites. Les pratiques de
datamining (nous nous situons ici au niveau de l’analyse de l’objet Big Data en tant que
pratique technique pure), contiennent déjà des approximations et entrainent des
problématiques dans une réalité plus complexe et plus obscure qu’il n’y parait.
B. Approche épistémologique :	«l’ère	du	pétabyte» et ses
conséquences sur la méthode scientifique
1. Les conditions de la « révolution du savoir » ?
Le datamining est défini dans un document du United States General Office comme
« l’application de la technologie et des techniques de banques de données (comme l’analyse
statistique et la modélisation) dans le but de découvrir les structures cachées et les relations
subtiles entre données, et d’en inférer des règles permettant la prédiction des résultats
futurs2
. » Cette nouvelle méthode de productions de savoirs est permise par l’abondance et le
caractère massif des données récoltées sur Internet. En effet, plus la masse de données est
importante, plus le résultat semble pouvoir s’approcher d’un savoir objectif et total. Cette
affirmation permet de comprendre l’emploi de l’adjectif « big » accolé à la « data » mais nous
1
Nathan Jurgenson, 2014, “View from nowhere”, New Inquiry
2
Cité dans : Rouvroy Antoinette, Berns Thomas, « Le nouveau pouvoir statistique », Multitudes 1/ 2010 (n° 40),
p. 88-103
19
éclaire surtout sur le changement de rationalité à l’œuvre dans la pratique du datamining, ou
exploitation de ces données. Kate Crawford, à l’instar de Chris Anderson et d’autres
observateurs du phénomène, prédisent une révolution du savoir, causée par la banalisation de
cette pratique.
Tout d’abord, il convient de rappeler que le volume de données est exponentiel.
Depuis le début de l’humanité jusqu’en 2003, le volume d’informations numérisées produit
par l’humanité n’excédait pas les 5 exaoctets. Fin 2011, 5 exaoctets étaient générés tous les
deux jours. Fin 2013, ce même volume est généré en 12 minutes. Nous entrons dans ce que
Chris Anderson, ex-rédacteur en chef du magazine américain Wired, qualifie de l’ère du
pétabyte. (« The Petabyte Age »). L’ère du Pétabyte, de la donnée reine, impacte tous les
domaines du savoir dans leurs applications : gouvernementales, commerciales,
universitaires… Mais selon Anderson, et on tentera d’en étudier les mécanismes et les effets,
le datamining influe et modifie aussi le cœur de sa matière : la science-même. Comment un
changement quantitatif – le nombre de données disponibles – peut-il induire un changement
de paradigme dans la production de savoirs et la recherche ?
Antoinette Rouvroy et Thomas Berns nous éclairent sur la question. En effet, la
production de savoir par le biais de la Big Data diffère totalement des logiques de
raisonnements jusqu’ici utilisées en recherche. Le modèle est inversé, et l’on passe d’une
logique déductive à une logique inductive.
Rompant avec les ambitions modernes de la rationalité déductive reliant des
phénomènes observables à leurs causes, la rationalité statistique suit une logique inductive
bien particulière dès lors qu’elle tire sa force du traitement automatisé d’informations dont la
seule qualité est l’aspect massif : indifférente aux causes des phénomènes, cette rationalité
s’ancre dans l’observation purement statistique de corrélations (indépendantes de toutes
logique) entre données recueillies d’une manière absolument non sélective dans une variété de
contextes hétérogènes les uns aux autres.1
Ici, c’est bien la quantité de données qui est à l’origine d’un renversement d’un ordre
de pensée : plutôt que de s’appuyer sur un phénomène observable pour en déduire un
1
Ibid
20
système, on s’appuie sur le système observé pour en comprendre, en induire des
comportements. Ainsi, puisque le résultat (le système) se trouve au départ de l’enquête, on
semble éviter tout risque de biais réservé à la méthode déductive. En passant de la déduction
à l’induction, la méthode de production de savoirs abandonne de nombreux prérequis pour
s’approcher d’une objectivité totale et d’une rationalisation extrême.
On soulignera que Rouvroy définit les corrélations comme « indépendantes de toute
logique », que les données sont elles-mêmes « non sélectives », les contextes sont
« hétérogènes ». Ce corpus de données serait à l’échelle de l’intelligence humaine totalement
intraitable, la spécificité du traitement automatisé résidant dans son absence de jugement
causal et de justifications des comportements. La data prime sur le contexte. Les penseurs du
Big Data, cités au préalable, clament tous le même refrain : le nouveau modèle de production
de savoirs par la donnée tue la méthode scientifique, et le monde théorique connu jusqu’à
présent. Savage et Burrows1
, deux sociologues anglais, préviennent du danger et de la crise
imminente de la sociologie empirique due à des méthodes qualitatives, de terrains, qui perdent
en valeur face à la prolifération de données qui assurent d’une efficacité toute autre.
L’ampleur du phénomène, la puissance créatrice de l’outil, le caractère inédit du
phénomène sont autant de variables qui font naître des discours scientistes, qui mettraient de
côté toute intervention humaine à l’heure où la machine règne, et où « les chiffres parlent
d’eux-mêmes. »2
. Une assertion à remettre en perspective.
Les sciences humaines, sciences « molles » ont souvent été critiquées comme étant du
domaine du subjectif : sujettes à l’interprétation personnelle, à la fabulation et à
l’approximation, tandis que les sciences « dures » relèveraient du domaine du réel, de
l’objectif et de l’irréfutable. Avec l’essor de la Big data et de son application à propos de
sujets de recherche sociologiques, les « humanités » se targuent d’un nouveau pouvoir
scientifique et objectif qui leur était jusqu’ici refusé. Mais comme nous l’avons déjà souligné,
les chiffres ne « parlent pas d’eux-mêmes » et même si la matière et les techniques de
recherche ont changé, l’interprétation de la matière est encore nécessaire ainsi que la
transformation de celle-ci. La science seule ne fait pas tout. La donnée pure est une notion
absurde, les données sont croisées, contextualisées, analysées, afin d’être utilisables. Le
quantitatif et le qualitatif s’entrechoquent. Un des problèmes les plus saillants de l’usage de la
1
Savage, Burrows, 2007, The upcoming crisis of empirical sociology, SAGE publications
2
Chris Anderson, loc.cit
21
donnée en marketing est d’ailleurs de recruter des data analysts, ces travailleurs hybrides, au
profil à la fois informatique, scientifique et marketing, sciences humaines. 90% des postes de
data analysts postés en 2011 sont encore viables en 2014.
La foi aveugle en une vérité chiffrée et objective se heurte donc à des réalités plus
triviales, celles des ressources humaines, mais aussi extrêmement pragmatiques. « Tous les
chercheurs sont des interprétateurs de données »1
nous disent Boyd et Crawford. En effet, les
chiffres n’ont pas de sens sans acte interprétatif et l’idée de « raw data » (data pure) est
ineffective puisque les données doivent être « cuisinées » pour rendre compte d’une réalité.
Quelque fois, le manque de contexte entraîne des erreurs d’interprétation qui mettent en péril
l’usage systématisé des données en grande quantité.
Capture d’écran d’une des corrélations absurdes exposée sur le site
http://www.tylervigen.com/
Cette question se pose notamment lors des analyses produites par Facebook. Les
informations partagées sur Facebook sont en partie des énoncés textuels, comprenant des
« statuts » et des « commentaires » partagés par les utilisateurs. L’analyse de ceux-ci, aussi
fine soit-elle, ne parvient pas à déceler l’ironie et le sarcasme, deux réflexes de langage
impossibles à détecter à l’aide de machines, ce qui mène invariablement à des erreurs
1
“all researchers are interpreters of data” (boyd et Crawford, idem)
22
d’interprétation. Les interactions humaines se font à plusieurs niveaux et il est très difficile
d’en déceler toutes les subtilités par une analyse uniquement quantitative. En 2013, Facebook
a mené une recherche auprès de ses utilisateurs pour tenter de découvrir si la vue de certains
contenus sur le site pouvait affecter leur humeur. Mais, outre les questions éthiques posées
lors de cette recherche faite à l’insu des utilisateurs, une question technique s’est posée. Par
exemple, les phrases « I don’t feel happy » et « I feel happy » comptaient réciproquement
comme des statuts « positifs » puisque les deux contenaient le mot « happy ». Cette erreur
grossière n’est peut-être pas l’apanage de toutes les recherches faites à l’aide de data analysis,
mais une des questions soulevées par cette anecdote est la couverture médiatique dont elle a
bénéficié ! La publication des résultats a en effet engendré une folie médiatique autour de
l’affaire, les résultats étant très rarement remis en cause.
Les chercheurs ayant pris la peine de se plonger dans l’analyse des résultats produits
par la Big Data ont donc démontré que les données en masse ne font pas tout et qu’il serait
dangereux d’avoir une foi aveugle en cet outil. Mais cette conséquence de premier niveau, qui
se situe dans le spectre de la recherche et reste en soi une querelle scientifique, a en réalité des
conséquences bien plus larges, toujours dans cette idée déjà évoquée que technique et culture
ne font qu’un. Kate Crawford exprime ses doutes ainsi:
La mythologie actuelle de la Big Data dit que plus de data amènerait plus de justesse
et de vérité. La position epystémologique est tellement séduisante que beaucoup d’entreprises,
depuis la publicité jusqu’à la production automobile, se réorganise afin de collecter des
données de manière massive. Le mythe et les outils, comme Donna Haraway l’a déjà observé,
se constitue l’un et l’autre, et l’instrument de la collecte et de l’analyse de données agissent
aussi comme des agents qui construisent la société. Bruno Latour l’exprime ainsi : « Changer
les outils revient à changer toute la théorie sociale qui l’accompagne ». Le changement dû à la
Big Data est un changement politique et culturel, et non commençons à peine à en voir
l’envergure.1
Ainsi, Kate Crawford note que “le mythe et les outils se constituent l’un et l’autre” dans une
interdépendance que nous avons déjà observé. Hors, il existe un outil fondamental du Big
Data, l’algorithme, qui renferme en lui-même des représentations à l’origine de beaucoup de
1
“The current mythology of big data is that with more data comes greater accuracy and truth. This
epistemological position is so seductive that many industries, from advertising to automobile
manufacturing, are repositioning themselves for massive data gathering. The myth and the tools, as
Donna Haraway once observed, mutually constitute each other, and the instruments of data gathering
and analysis, too, act as agents that shape the social world. Bruno Latour put it this way: “Change the
instruments, and you will change the entire social theory that goes with them.” The turn to big data is a
political and cultural turn, and we are just beginning to see its scope.”
23
croyances liées à la Big Data et ses possibilités. En quoi l’algorithme est-il un des “agents qui
construisent la société?”
2. L’algorithme,	un	système	balancé	entre	idéologie	technologique	et	
logique capitaliste
« Algorithme » est un des termes les plus utilisés lorsqu’on aborde le sujet du Big
Data. Encore une fois, le caractère ambivalent du terme participe à la création de mythologies
autour de son utilisation. Le terme est tiré du domaine scientifique mais semble cristalliser
toutes les peurs et les fantasmes autour de l’usage de la Big Data. Un algorithme est un
ensemble d’étapes, abstraites, qui, une fois traduites en langage informatique, permet de
brasser un ensemble de données complexes, de les croiser et d’en sortir des données
utilisables et consommables. L’utilité et l’efficacité d’un algorithme bien conçu justifient que
les mathématiciens s’y attardent. Le succès d’Amazon repose par exemple sur l’algorithme
qui permet ce service de recommandation personnalisé.
Mais le terme revêt en soi une aura magique que ceux qui en bénéficient semblent vouloir
amplifier et garder les secrets. A l’instar de Coca-Cola qui tait précieusement un « ingrédient
secret » à sa recette, ou Chanel qui ne révèlera jamais d’où vient l’envoutement des essences
du n°5, Google se refuse à révéler son algorithme, source du plus puissant moteur de
recherche des Internets. Et on le comprend, tout comme Amazon, l’algorithme de Google est
la clé de voute de sa marque, elle participe à créer cette aura et justifie le monopole exercé sur
le marché. L’efficacité de son algorithme est un facteur d’attractivité inégalable pour Google.
La raison pour laquelle les utilisateurs d’Internet se tournent vers ce service est parce qu’ils y
vont avec l’idée préconçue – et peut-être justifiée mais là n’est pas la question – que la
recherche effectuée par Google leur donnera le meilleur résultat, le plus fiable, le plus fourni
et le plus détaillé. Pourtant, on serait en droit de se poser des questions quant à leur recette
puisque la situation de monopole inquiète aujourd’hui.
Le ministre allemand de la Justice et de la protection des consommateurs a lui-même
demandé à Google de partager son algorithme lors d’une interview au Financial Times. En
effet, fort de sa situation de monopole, Google aurait les moyens de modifier son algorithme
afin de privilégier certains liens et de biaiser la recherche à des fins avantageuses pour la
firme. L’algorithme “page rank” répond d’ailleurs déjà d’une approche non-objective et
24
personnalisée. L’opacité des algorithmes développés par des firmes privées, qui sont
concernées par la nécessité d’avoir des secrets commerciaux, pose le problème des biais
induits par la recherche algorithmique et impossible à détecter. Ici, l’interaction entre la
technologie et les logiques commerciales modifie totalement la Big Data et pose de
nombreuses questions quant à cette « révolution du savoir ».
Pour ce qui est de l’algorithme de Google, Dominique Cardon pose la question de sa
légitimité. Le fameux « page rank » de Google est, explique-t-il dans son livre La Démocratie
Internet, basé sur un modèle scientifique, où un article cité par un autre chercheur est
considéré comme digne d’intérêt. Ici encore, le monde de la science et de la recherche
apparait comme un idéal à reproduire et à imiter. La hiérarchisation de l’information du
réseau est ordonnée selon les pages les plus citées, liées, commentées. Mais de plus en plus, et
parce que l’algorithme s’auto-modifie à une vitesse incontrôlée, celle-ci se fait personnelle et
se rapproche plus du modèle « de l’audimat et du plébiscite »1
. Ainsi, la hiérarchisation est
personnalisée, ciblée, et les recherches effectuées sur le moteur de recherche ne correspondent
plus à une objectivité scientifique mais plutôt à un système de recommandations ciblées, qui
prennent en compte l’historique de recherche, et d’autres traces laissées en ligne. Si je tape
« jaguar » sur internet, selon que je sois un homme habitant aux Etats-Unis ou en Afrique du
Sud, je recevrai probablement des liens totalement différents, l’un à propos de l’animal et
l’autre à propos de la voiture. Ici, c’est deux paradigmes de la culture Internet qui entrent en
collision : celui du modèle scientiste basé sur la recherche et l’objectivité, et celui libertaire du
capitalisme et du culte de la performance. En utilisant un algorithme qui permet la
personnalisation et le ciblage, Google obéit à la loi capitalistique de la performance et du
service. Ce résultat est le plus pertinent pour cet utilisateur donc c’est celui à privilégier. Quid
de l’objectivité ? Quid de la nécessité éthique de présenter à l’utilisateur une vision complète
de l’objet recherché et non biaisé par un contexte socio-culturel et géographique amené par
l’analyse de ses données ?
Astrid Mager énonce cette double logique dans un nouveau système de pensée qu’elle
nomme « l’idéologie algorithmique »2
. Selon elle, le climat d’euphorie autour des progrès
techniques et des solutions proposées par les moteurs de recherche stabilise et sert les intérêts
capitalistes des entreprises du Web. Encore une fois, l’interaction entre une innovation
1
Cardon, D. (2010) la démocratie internet, Broché
2
Astrid Mager (2012) Algorithmic ideology, Information, Communication & Society, 15 ;5, 769-787
25
technique et la société dans laquelle elle émerge est telle que la société capitaliste
d’aujourd’hui dessine le mode de fonctionnement des engins de recherche tels que celui de
Google.
Un des exemples les plus parlants de cette nouvelle donne mercantile à l’œuvre dans la
technologie est la plateforme AdWords développée par Google qui offre des publicités
ciblées, basés sur les termes de recherches utilisés par l’internaute. Le privilège accordé aux
publicités et le profilage systématique des utilisateurs entrent dans cette logique de la
performance et de la commercialisation évoquée plus haut, et ont des conséquences sociétales
que nous évoquerons dans la deuxième partie.
Mais, comme Mager le démontre à travers ses travaux, si cette logique mercantile marche,
c’est aussi parce que les entreprises qui créent les sites internet et les marketeurs cherchent
une visibilité qu’ils ne trouvent que s’ils se plient aux règles du jeu. En effet, en accordance
avec la logique de l’algorithme « page Rank », seuls les sites les plus cliqués remontent dans
les premières pages de Google. Alors les sites en ligne sont aujourd’hui construits afin d’être
au plus près de ce qui est populaire, recherché, ou alors sont des sites sponsorisés par le
moteur de recherche (boost dans l’algorithme possible si l’on paye) dans la mouvance de ce
qu’on appelle le « native advertisement », ou la publicité déguisée.
En conclusion, l’algorithme, loué pour son objectivité toute scientifique, est en réalité
soumis au biais mercantile des entreprises privées. Cette évolution dans l’élaboration d’un
outil au départ uniquement technique mais modelé par la société qui l’entoure porte un
nouveau coup au mythe de la Big Data comme phénomène révolutionnaire. Plutôt que
d’ériger un nouveau système radicalement différent du précédent, proche d’une idéologie
« techno-fondamentaliste »1
les possibilités technologiques participent à l’évolution de
pratiques ancrées dans une société aux logiques capitalistes.
C. Etude de cas : IBM. Un discours de marque qui façonne les
représentations et imaginaires de la Big Data
1
Astrid Mager, 2012, op.cit
26
Le cas d’IBM illustre non seulement comment la Big Data peut être utilisée pour faire du
marketing, non pas dans le cadre d’une opération éphémère mais dans une stratégie de marque
et de business plus large. En d’autres termes, IBM nous intéresse ici pour sa double casquette,
celle d’une entreprise technologique au cœur du commerce de la donnée et des logiciels, mais
aussi en tant que marque, construisant son discours non pas autour de l’entreprise et de ses
services mais mettant l’accent sur les innovations technologiques en elle-même, et son rôle
dans la société. L’étude du cas d’IBM dans ces pages est donc construite autour de deux
analyses. Premièrement, celle d’IBM en tant qu’acteur incontournable du secteur
technologique ayant une prise de parole grand public et B2C (business to consumer). Le
deuxième angle de cette étude de cas est celui de l’analyse du discours structurant d’IBM
autour des innovations technologiques et de son impact sur le développement du monde. Afin
d’explorer ces deux aspects, nous passerons tout d’abord en revue la transformation de
l’entreprise et la formation de la marque IBM à travers le temps, pour ensuite se concentrer
sur deux prises de paroles essentielles. L’analyse sémiotique des campagnes « IBM for a
smarter planet » et tout particulièrment « IBM smarter cities » nous permettra de comprendre
la construction de la promesse et de la stratégie de marque.
1. L’entreprise,	la	marque	et	sa	raison	d’être1
IBM est une entreprise vieille de plus de cent ans. En un siècle, elle s’est imposée comme
un acteur majeur de la révolution informatique. Née en 1911 de la fusion de trois entreprises
américaines, IBM est d’abord dénommée la CTR, Computing-Tabulating-Recording, en
raison de son expertise dans le domaine des pointeuses, des balances automatiques et des
machines de calcul. En 1924, elle devient l’International Business Machines, et se targe dun
slogan resté célèbre : « Think ».
Le premier succès technologique d’IBM est la commercialisation de deux machines ayant
marquées l’histoire de la technologie : le premier calculateur électromécanique capable de
fonctionner sans intervention humaine, puis en 1948, le Selective Sequence Electronic
Calculator (SSEC) considéré comme le premier vrai ordinateur. La véritable révolution qui
marquera l’entrée dans l’ère de l’informatique moderne advient en 1964 lorsque IBM lance la
« révolution 360 », un système de machines aux circuits intégrés compatibles entre eux et
1
« the brand bigger purpose » en marketing consiste à adopter une mission qui dépasse le business seul de la
marque afin de construire une prise de parole, une identité et un système de valeur.
27
donc s’adaptant à plusieurs besoins professionnels. En tant que pionnier de l’ère de
l’informatique, IBM est avant tout une entreprise tournée vers des échanges avec d’autres
entreprises, sur un modèle de B2B (business to business). Les premiers ordinateurs ont en
effet fait le succès d’IBM bien avant que le consommateur soit concerné par l’acquisition
d’ordinateur à usage personnel.
Par son histoire et son implication dans les avancées technologiques concernant les
« hardwares », c’est-à-dire les ordinateurs, IBM reste aujourd’hui très liée à cette imaginaire.
Un élément clé à la fois de l’histoire de l’ordinateur et de l’histoire de la marque s’est déroulé
en 2011, lorsque l’ordinateur Watson d’IBM a défié l’esprit humain lors du jeu télévisé
Jeopardy ! Watson est aujourd’hui le premier champion du jeu télévisé. Cette performance
témoigne d’un pari risqué de la part d’IBM. Bien sûr, Jeopardy ! est un jeu très populaire aux
Etats-Unis et participer au jeu assure une visibilité immense à la marque. IBM se situe ici
dans un débat historique et dans un environnement empli de fantasmes : celui de la bataille
entre l’homme et la machine. En faisant participer sa machine au jeu, IBM démontre la
suprématie de la machine sur l’homme. Ce faisant, elle expose et fait la publicité de ses
produits d’une manière que l’on ne saurait réfuter. Mais, le positionnement est extrême et
fort : IBM se situe du côté des machines et pourrait mener le monde à sa perte, la peur, les
fantasmes, les visions dystopiques et la littérature environnante nourrissant les imaginaires et
représentations du public. Ce coup de force est une manière de faire connaître la marque, de
prouver sa performance, mais peine à créer du lien avec les consommateurs. Une marque ne
doit pas seulement parvenir à se faire connaître, mais doit aussi créer un lien affectif avec son
public. Etre aimé constitue un pari non négligeable pour une marque, et présenter une
machine intelligente, lançant des défis à l’homme, en tant que représentant de la marque
semble être un pari risqué de la part d’IBM.
Mais si IBM réussit aujourd’hui son pari d’être une marque à la fois aimée et reconnue, c’est
aussi en grâce à une stratégie de marque plus élaborée, dépassant le simple coup d’éclat de
Watson gagnant le Jeopardy !
2. « Une planète plus intelligente », la technique au service du bien
commun,	analyse	d’un	discours	et	d’une	stratégie	de	marque
28
La figure de Watson appartient cependant plus au passé d’IBM qu’à son présent et son
futur. Les deux activités principales d’IBM sont aujourd’hui les services (dont une grande
partie se situe dans la branche Big Data and analytics) et les logiciels (software).
Afin de communiquer sur cette nouvelle identité, IBM a associé à son slogan « think », une
initiative pérenne et holistique : « IBM for a smarter planet »1
. Programme holistique car il
permet de regrouper toutes les activités d’IBM, le programme « smarter planet » est aussi une
prise de parole générale qui dépasse le cadre de son business. Dans la lignée de l’entreprise à
l’origine de l’ordinateur, IBM se fait aujourd’hui ordonnatrice du monde.
IBM présente ainsi son programme sur son site internet français2
:
« Depuis cinq ans, les IBMers collaborent avec des entreprises, des villes et des
communautés du monde entier pour construire une planète plus intelligente.
Nous avons réalisé d'immenses progrès grâce à des dirigeants qui se sont servis de
l'explosion des données pour transformer leurs entreprises et leurs institutions en
s'appuyant sur les analyses, la technologie mobile, le social business et le cloud.
Nous avons également constaté que certains d'entre eux avaient commencé à tirer
profit de cette nouvelle ère. Ils sont en train de changer leur façon de prendre des
décisions. Ils redéfinissent les méthodes de travail de leurs équipes, revoient comment
servir au mieux leurs clients et modifient la nature même de leur activité.
C'est la capacité à tirer profit des données qui offre à ces dirigeants un avantage
concurrentiel à l'ère du "tout intelligent".
Aujourd'hui, les vieilles habitudes laissent la place à de nouvelles perspectives, de
nouvelles méthodes de travail et de nouvelles solutions dans tous les secteurs (US)
secteurs. Les rôles changent. Et plus que jamais, nos dirigeants ont besoin d'un
partenaire pour les aider à s'adapter. »
Le programme d’entreprise est fondé sur l’expertise Big Data et analytique de l’entreprise, et
IBM se propose de mettre son savoir non seulement aux services de ses clients, mais aussi de
la planète entière et de ses habitants. IBM reprend ici à son compte les bénéfices et
opportunités crées par la donnée, avec les attributs mythologiques déjà évoqués qui lui sont
associés, et se positionne ainsi lui aussi dans un véritable bouleversement, et renversement de
paradigme. (« Sur une planète plus intelligente, il faut changer le paradigme de la réaction à
l'anticipation »3
)
1
« IBM pour une planète plus intelligente »
2
http://www.ibm.com/smarterplanet/fr/fr/overview/ideas/index.html
3
http://www.ibm.com/smarterplanet/fr/fr/overview/ideas/index.html
29
Les nouvelles lois scientifiques d’une planète « toute intelligente » selon IBM sont les
suivantes :
- Utilisez l’analyse et non l’instinct
- Les individus ne peuvent plus être considérés en tant que segment
- Le social est le nouveau mode de production.
Sans détailler les implications et solutions associées à ces nouvelles lois paradigmatiques, il
est intéressant de noter que ceux-ci s’inscrivent totalement dans le cadre plus général de la
pensée dictée par la data : le délaissement de la pensée subjective et de ses biais au profit
d’une analyse objective, vraie, aux résultats assurés, la croyance en un savoir si fin que
« l’individu » et ses tréfonds n’ont plus de secrets et enfin l’organisation du monde en réseau,
où l’Internet social, serait le nouveau lieu du savoir.
Le programme « smarter planet » s’inscrit non seulement dans les discours de « la fin de la
théorie » et de « révolution du savoir » étudiés en première partie, mais promeut aussi une
culture techno-centrée et participe à la croyance selon laquelle les problèmes du monde
pourraient se résoudre grâce à la technologie. On retrouve dans le discours et les initiatives
d’IBM tout le « solutionnisme » dénoncé par Morozov. On pourrait rétorquer qu’IBM a en
effet l’expertise d’améliorer des systèmes et de contribuer à ces innovations, mais c’est ici
non pas les prouesses techniques mais plutôt la promesse, la mission organisatrice annoncée
dans leur communication qu’il est intéressant de souligner. Dans une conférence de
présentation du programme en 20081
, Ginni Rometti présente ainsi la mission, telle une
évidence :
Avec tout cette technologie et ce réseau disponible à un prix si bas, tout n’est-il pas
améliorable ? Tout n’est-il pas connectable? Quelle information ne peut pas être transformée
en idée ? Quel service n’est pas rendu disponible pour un client, un citoyen, un étudiant ou un
patient?2
Ainsi IBM adopte un discours prosélyte sur le big data, mais l’analytique étant leur cœur de
métier, la logique veut que cette entreprise soit émettrice de ce message, qu’elle soit au départ
de ces croyances.
1
“Conversations for a Smarter Planet: 1 in a Series,” IBM. 2008.
2
“With so much technology and networking available at such low cost, what wouldn’t you enhance?
What wouldn’t you connect? What information wouldn’t you mine for insight? What service wouldn’t
you provide a customer, a citizen, a student or a patient?
30
Une des difficultés communicationnelles dès lors que les produits et services sont si
technologiques est d’avoir un discours de vulgarisation qui ne perde pas en précision, et
surtout un discours attractif. Comment délivrer à la population le message d’une entreprise
technologique certes, mais au service de tous ? « Smarter planet » est évidemment une
initiative qui a pour but de faire passer ce message, mais l’analyse sémiotique de deux
campagnes va nous permettre de comprendre les ressorts de la communication d’IBM ainsi
que les outils utilisés afin de faire de la Big Data un sujet de société.
Ainsi les publicités s’appuient sur un design très simple, accompagnées de déclarations
affirmatives, mettant le lecteur devant un fait présenté comme une évidence. « Les chauffeurs
peuvent prévoir les embouteillages avant qu’ils arrivent ». «Tous les docteurs connaissent
votre personnalité. » Ces faits sont énoncés d’une manière simple, presque brutale, qui suscite
la curiosité. Mais très peu d’autres informations sont données, en
tout cas elles sont indiquées en plus petit. Le texte explicite la
phrase, mettant en avant l’action faite pour IBM afin de rendre
possible cette amélioration. Le design attractif, les dessins enfantins
retirent toute technicité et créent une simplicité bénéfique au
message. Cette simplicité et ce sentiment d’évidence sont aussi
véhiculés par les jeux de mots utilisés comme celui-ci : « Banks
now hold up robbers » («les banques kidnappent les braqueurs »).
Le principe du jeu de mots est ici mobilisé à plusieurs niveaux. La
malice qui y est associée permet de donner vie au principe d’une
« planète plus intelligente ». Le jeu de mots repose sur l’idée qu’en
inversant l’ordre des mots dans la phrase, un autre sens naîtra, plus
attrayant. Si l’on extrapole l’idée du jeu de mots à celle de la mission que s’est donnée IBM,
on voit qu’IBM se présente comme celui qui, en changeant l’ordre des choses (les banquiers
kidnappent) renverse un ordre préétabli et règle ainsi les problèmes.
La publicité « People for smarter cities », qui met en scène ce qu’IBM appelle des
« publicités avec une utilité » va plus loin dans la banalisation et l’acceptation. Pour
promouvoir les « villes intelligentes » générées par leur technologie, IBM a créé des espaces
publicitaires de rue avec une utilité sociale, par une simple incurvation, ceux-ci se
31
transforment en abri pour la pluie, ou en banc. L’idée étant qu’un peu d’intelligence n’importe
où peut aider à l’amélioration générale de la ville, de la communauté. Ici, pour parler
d’analyse, nul besoin de mettre en avant de la technicité, la seule touche audacieuse suffit à
faire passer le message. IBM se situe dans la simplification, l’épuration extrême, laissant de
côté tout discours technique afin d’imposer son expertise comme une évidence, un ordre
naturel des choses.
Ainsi IBM, avec son discours de marque et la mission qu’elle s’est attribuée, participe
à la création de ce discours techno-centré qui vise à ériger la technologie comme solution aux
problèmes du monde. La Big Data bénéficie de ce rayonnement, qui lui permet de s’instiller
dans les pratiques de plus en plus d’entreprises en quête de performance. Pour tirer un
maximum de ces données qui auparavant n’intéressaient personne, les entreprises multiplient
la collecte de données, et d’autres s’en font leur spécialités. Les “traces” laissées sur Internet
par les individus sont désormais épiées, convoitées. Les progrès en technologie analytique ont
modifié, nous l’avons vu, les conditions de productions de savoirs. Mais afin d’analyser les
données, il faut d’abord les collecter. Quelle est la place de l’individu dans ces nouvelles
pratiques? Quelle nouvelle dynamique de constitution de l’identité voit le jour alors que les
vies sont numérisées, connectées ?
32
II – Les « empreintes digitales », facteur
constituant des identités en ligne
“Je est un autre”
Arthur Rimbaud
« You only have one identity »
Mark Zuckerberg
Nous l’avons vu, l’outil Big Data constitue aujourd’hui un prolongement des logiques de
performance dans une société façonnée par une idéologie à la fois de la technique et du néo-
libéralisme. Cette quête de la performance est associée à une utopie d’une science qui
parlerait d’elle-même, entière, proche d’une vérité objective. Ce changement de paradigme
33
dans la recherche est notamment créé et perpétué grâce à la banalisation de la collecte de
données. Une pratique qui mène, selon Antoinette Rouvroy et Thomas Berns, à une
« digitalisation de la vie-même ». Le phénomène est décrit ainsi :
Par ‘digitalisation de la vie-même’, nous entendons non seulement la banalisation de
l’enregistrement de données biométriques, mais encore, et plus largement, l’enregistrement
systématique, sous formes de « traces » digitales, des comportements humains individuels ou
collectifs, y compris parmi les plus triviaux (ceux qui passent même inaperçus de la part de ceux
qui les adoptent, et qui précisément n’ « intéressent » personne, n’étant pas eux-mêmes tenus pour
signifiant). Ce phénomène de traduction du monde physique et de ses habitants en données
métabolisables par les systèmes informatiques n’est désormais plus limité, ni même freiné de
manière essentielle par une inaccessibilité technique ou économique, ni par une récalcitrante
significative du public1
.
En parlant de digitalisation de « la vie même », on opère un glissement entre le savoir
statistique, à la ‘vie’ statistique, espace où les individus ne sauraient s’échapper des « traces »
laissées au fil de leur navigation et de leur quotidien connecté. En effet, l’individu est au cœur
du processus de savoir. Emetteur de données, l’individu est le premier maillon de la chaîne de
savoir mais il est aussi le récepteur, la finalité recherchée dans la sphère des services émis par
la Big Data. L’objet de cette partie est tout d’abord d’analyser la place de l’individu dans ce
nouveau système fait par lui, pour lui, et parfois contre lui. L’analyse menée se divise en deux
parties. Nous nous attacherons tout d’abord à étudier « l’infra-individuel » : quelles sont les
nouvelles modalités de constitution d’une identité dans des espaces en ligne construite sur le
« clair-obscur » ? Quelle division s’opère alors que les mouvances identitaires se fixent
derrière les écrans ?
Ensuite, nous tenterons d’éclairer l’influence des pratiques algorithmiques au niveau « supra-
individuel », c’est-à-dire dire sur la modélisation et de la hiérarchisation de la connaissance en
ligne, et des nouveaux rapports de l’individu au monde extérieur.
A. Le	paradoxe	de	l’identité en ligne : entre protection et projection
Dominique Kaplan définit l’identité ainsi :
L’identité n’est pas une donnée fixe, livrée une fois pour toute, qu’il s’agirait
simplement de garantir et protéger. C’est une construction permanente, multiforme, qui marie
1
Rouvroy Antoinette, Berns Thomas, « Le nouveau pouvoir statistique », Multitudes 1/ 2010 (n° 40), p. 88-103
34
des éléments extérieurs et intérieurs à l’individu, objectifs et subjectifs, pérennes et éphémères.
C’est surtout une construction sociale : l’identité se définit dans la relation aux autres.
La vie privée est au départ de ce qui constitue notre intimité, c’est là que se forme ce
qui relève de l’intime ainsi que nos convictions et croyances personnelles. Elle est aussi le
socle de la vie publique, et l’une ne saurait être dissociée de l’autre puisqu’elles se nourrissent
l’une l’autre, sur la base d’un va-et-vient et d’une construction en négatif. La vie publique,
c’est le privé que j’expose, et la vie privée est constituée de mes expériences publiques
intériorisées, déconstruites. En cela, les frontières entre l’une et l’autre sont floues, et
dépendent du contexte, de l’individu lui-même et des espaces, notamment numériques, qui
contribuent eux aussi à casser la prétendue dichotomie privé/public. Ainsi, le concept
d’identité est fortement lié à celui de vie privée. Pourtant, cette sphère semble s’estomper, se
réduire comme peau de chagrin puisque tout s’expose, et que les informations non-exposées
sont en réalité récupérées par des entreprises.
Comment se constitue notre identité si elle n’est plus définie par le va-et-vient de l’exposition
publique et de la réserve privée ? Comment concilier exposition de soi et protection alors que
sur le réseau les limites sont floues et non-hermétiques ?
La problématique de constitution de nos identités – transformées, altérées, par les
usages numériques et la nouvelle règle du jeu de la traçabilité est traversée par un paradoxe,
énoncé par Daniel Kaplan dans son ouvrage Informatique, libertés, Identité. Selon lui, au
cœur de nos identités en ligne « protection et projection de soi forment un couple
indissociable, et l’on n’assurera pas l’une sans faciliter la seconde. ». On tentera de résoudre
ce paradoxe et de comprendre les modalités de la constitution d’une identité sous le prisme
d’un espace public qui est aussi un espace analysé, fouillé, décrypté et réorganisé à l’aide de
la science analytique.
Tout d’abord, afin de bien cerner la complexité de la formation de nos identités en
ligne, il est nécessaire de contextualiser et de définir le terme d’identité. Celle-ci ne doit pas
s’entendre comme une entité fixe, mais comme un concept mouvant, qui se constitue dans le
temps, et dans l’espace, à travers des interactions (avec des pairs), des allers et retours entre
l’exposition et la réclusion, et des altérations du au temps, à l’expérience. Je n’ai pas la même
identité si je suis à la maison avec mes enfants, ou sur mon lieu de travail. L’identité dans la
vie réelle est déjà plurielle, mais elle semble se dupliquer sur les écrans et même se
fragmenter, et, peut-être se disloquer ?
35
Cette fragmentation, ou démultiplication des identités est caractéristique de
« l’homme post-moderne ». Quand Pierre Grelley pose la question : Etes-vous postmoderne ?
Il énonce l’idée d’une « fragilisation de l’individu » due à un « abandon de l’organisation ».
Grelley va jusqu’à questionner le terme « d’individu » pour lui substituer le terme de
« personne », plus approprié « aux rôles divers au sein des tribus auxquelles elle se réfère.»1
.
Une identité fragmentée dans un monde explosé certes mais cette identité est aussi
hyperbolisée, renforcée par l’exposition de soi. En effet, si l’individu ne se constitue plus
comme unité indivisible, il ne renonce pas à sa singularité pour autant. Dominique Cardon
évoque cette nouvelle formation de l’identité dans son ouvrage La démocratie Internet. Selon
lui « l’exposition des individus sur Internet traduit une forme d’intensification du rapport à
soi’2
dans nos sociétés.» Mais la projection de soi décrite comme une pratique construite de
l’identité peut être comprise comme une tentative de contrôle de la part de l’individu. Cette
première manière de résoudre le paradoxe consiste à prêter aux utilisateurs plus de rationalité
que de supposé. Le calcul de notre image en ligne serait à la fois une « opportunité de
coopération »3
(moyen de faire grandir son réseau), mais aussi une valorisation de soi, et un
contrôle opéré en négatif sur ce que je livre de moi. ‘Contrôle en négatif’ doit être compris
comme l’idée que le manque apparent de contrôle restrictif cacherait en réalité une activité
consciente de « contrôle » au sens de maîtrise.
Les usagers donc, plutôt que de s’échiner à protéger leurs données, opéreraient un
contrôle de soi à travers le calcul de leur identité affichée. En effet, les identités affichées sur
Internet sont de plus en plus calibrées selon le type de support et l’audience à qui l’on
s’adresse. On ne livrera pas les mêmes informations sur un réseau social professionnel et un
réseau social d’affinités. Les utilisateurs créent, avant même la récupération des données par
des analystes, des « profils » d’eux-mêmes. En conséquence, en soignant leur image, en étant
les propres modérateurs de leurs identités dans l’espace public numérique, les utilisateurs sont
plus enclins à livrer des informations très personnelles, parce qu’ils semblent en avoir la
maîtrise. Le caractère illusoire de ce contrôle est cependant à souligner, et fera l’objet de notre
analyse. Sans aborder la question de l’après de ces données – décontextualisées, croisées, re-
1
Grelley Pierre, « Êtes-vous postmoderne ? », Informations sociales 8/ 2006 (n° 136), p. 51-52
2
Cardon cite : Anthony giddens, la transformation de l’intimité. Sexualité, amour et érotisme dans nos sociétés
modernes, Paris, Le Rouergue/Chambon, 2004
3
Cardon, Dominique, 2010, La démocratie Internet, Broché
36
profilées - on peut déjà noter que le contrôle est relatif dans la mesure où notre identité
dépend aussi de l’interaction avec nos tiers, qui participent à la formation de cette image de
nous.
Chaque remarque, commentaire, évaluation, interaction, en ligne est susceptible de
forger une image de soi qui n’a pas été validée par nous-mêmes. C’est la question de l’e-
réputation, que nous n’allons pas aborder ici mais qui concerne et inquiète de nombreux
usagers d’Internet. Des données à priori banales peuvent se transformer, par leur existence en
ligne, et par l’interaction avec d’autres usagers, et donc devenir a postériori des données « à
caractère personnel ». Cette subtilité a d’ailleurs été prise en compte en 2004, dans la Loi
relative à l’informatique, aux fichiers et aux libertés.1
Ainsi, le contrôle est illusoire, puisque
même à la surface de l’écran, l’identité échappe à notre intentionnalité.
L’idée selon laquelle nous ne nous exposons pas à nu mais bien dans une idée de
séparation des espaces et ayant consciences des règles du jeu se matérialise dans les pratiques.
C’est ce que prouve l’échec des systèmes de « fédérations d’identités » qui visaient à garder
les informations livrées sur un site, pour les délivrer à nouveau sur un site différent par la
suite, par souci de commodité pour l’usager. Lorsqu’un réseau social me demande de
récupérer mon annuaire d’adresse email afin de partager avec toutes les personnes avec qui
j’ai un contact par échanges d’e-mails par exemple, cela provoque une véritable collision
entre deux espaces qui sont différents, à l’intérieur desquelles je n’expose pas la même
identité. L’étape qui suit l’idée de fragmentation puis de contrôle de son identité est
logiquement la valorisation de soi, élément majeur de la « projection de soi ». Ces jeux subtils
poussent certains chercheurs, à l’instar de Danah Boyd, à annoncer que la vie privée n’a pas
disparu :
De manière fondamentale, la vie privée n’est pas le contrôle sur la manière dont
l’information se déverse. C’est plutôt la capacité à comprendre un système social afin d’avoir
un comportement adéquat. Pour cela, les individus doivent avoir confiance en leur
interprétation du contexte, c’est-à-dire des personnes autour et de l’architecture de l’espace.
Quand ils sentent que le contrôle leur échappe ou quand il leur manque ce contrôle, ils doivent
faire la chose qu’il faut, et crier à la violation de leur intimité.2
1
« Données à caractère personnel : toute information relative à une personne physique identifiée ou qui peut
être identifié, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs
éléments qui lui sont propres. » (Loi relative à l’informatique, aux fichiers et aux libertés)
2
“Fundamentally, privacy is about having control over how information flows. It's about being able to
understand the social setting in order to behave appropriately. To do so, people must trust their interpretation
of the context, including the people in the room and the architecture that defines the setting. When they feel
37
Il est cependant possible de reprocher à Danah Boyd ou encore Daniel Kaplan une vision
partielle de ce qu’est l’identité en ligne. En se plaçant du côté de l’utilisateur et de son
intentionnalité, ils en déduisent une forme de pouvoir et de maîtrise de l’identité, mais ils
semblent se borner à la surface du réseau, hors, et c’était l’objet de la première partie, celui-ci
ne finit pas à la surface de l’écran. Là où les conditions de formation de l’identité en ligne
diffèrent réellement de celles d’une vie hors-ligne, c’est que celle-ci laisse des traces. Alors
que chaque individu, en accordance avec la définition de Kaplan, se définit dans un
mouvement, changeant, évoluant, les traces, les données collectées, ont la possibilité de
modeler une toute autre vision de cette même identité.
B. Les « empreintes digitales »	ou	l’identité	par	les	traces	
Rouvroy et Berns mettent en avant le concept de « dividualisation » de nos identités
afin d’illustrer ces nouvelles conditions du devenir de nos identités.
Selon les deux chercheurs, les différents usages sur Internet mèneraient à la
« dividualisation » des individus, c’est-à-dire l’atomisation de nos identités sur Internet.
L’individu devient presque fantôme, n’ayant plus aucune homogénéité et intelligibilité. Les
données personnelles forment des traces atomisées, récupérées par les entreprises de la Big
Data :
« La mesure de toute chose est « dividuelle », à la fois infra- et supra-personnelle,
rhizomatique, constituée d’une multitude de représentations numérisées, potentiellement
contradictoires entre elles et en tout cas hétérogènes les unes aux autres. C’est cet « être »
numérique constamment décomposé, recomposé, composite, qui intéresse à présent
directement le pouvoir. » 1
1. « Corps statistiques »
as though control has been taken away from them or when they lack the control they need to do the right
thing, they scream privacy foul.” in Boyd, Danah. 2010. "Making Sense of Privacy and Publicity." SXSW. Austin,
Texas, March 13.
1
Antoinette Rouvroy et Thomas Berns, Le nouveau pouvoir statistique » ou quand le contrôle s’exerce sur un
réel normé, docile et sans évènement car constitué de corps « numériques »…, Multitudes, 2010/1 n°40, p.88-
103
38
Ainsi, cette identité construite sur les écrans – en un sens maîtrisée - est par la suite
désincarnée, déformée par l’analyse technique qui en est faite. En récupérant les « traces »
laissées sur l’Internet, les analyses produisent d’autres profils, qui ne correspondent plus à une
identité seule, faite à la lumière de l’individualité, mais qui se mêlent aux autres pour former
d’autres agrégats. Rouvroy situe ici l’entrechoquement de « l’infra-individuel » et du « supra-
individuel » :
A la différence du monde physique, l’univers numérique, déterritorialisé, n’est peuplé
d’aucun objet, d’aucune forme résiliente, mais seulement de réseaux de données. A fortiori,
aucun corps individuel, subjectif, actuel, susceptible d’évènement, ne peut s’y rencontrer.
L’unique sujet qui est aussi l’unique souverain de l’univers numérique est un corps statistique,
impersonnel, virtuel, moulage générique et changeant des « risques et opportunités » détectés
en temps réel, nourris de fragments infra-personnels d’existences quotidiennes agrégés à un
niveau supra-individuel sous forme de modèles de comportements, ou profils, auxquels
correspondent, par certaines combinaisons de traits chaque fois spécifique, une multitude de
personnes1
.
Rouvroy ne met pas de côté les logiques d’exposition de soi et de valorisation qui sont
les premiers balbutiements d’une réflexion sur l’identité. Mais selon elle, c’est bien parce que
nous perdons nos identités propres que nous créons ces avatars sur les réseaux tels que
Facebook, qu’elle compare « à l’intérieur bourgeois de la fin du XIXème », remplis de signes
de l’appartenance sociale de chacun, de son goût et des signes extérieurs d’une identité.
Les données, sorties de leurs contextes, sont dépourvues de toutes connotations
personnelles au sens d’identifiables. Une donnée personnelle, mêlée à d’autres données toutes
aussi personnelles afin de créer un « profil », de repérer un motif, devient, pour reprendre les
termes de Rouvroy « supra-individuel ». Nos « singularités respectives » n’ont aucune
signification pour l’analyse de données. Ainsi, Rouvroy ne situe pas la collecte de données
dans une réflexion sur la vie privée, selon elle, il s’agit plus d’une perte totale d’identité, alors
que nous devenons des « corps statistiques ».
L’analyse de Rouvroy se vérifie dans les pratiques d’un site comme celui d’OKCupid, site de
rencontre qui entend créer des affinités amoureuses à l’aide de la comptabilité algorithmique.
Dans son livre « Dataclysm, who we are when we think no one is looking », Christian
1
Antoinette Rouvroy, Des données sans personne : le fétichisme de la donnée à caractère personnel à
l’épreuve de l’idéologie des Big Data, Selected Work
39
Rudder, le fondateur du site, met en avant les méthodes et révèle les dessous du site. On peut
donc observer cette duplicité qui règne sur l’internet. Il existe le « profil utilisateur », puis à
l’envers de l’écran, d’autres profils sont mobilisés. Une partie du livre est ainsi consacré à
mettre en avant des schémas raciaux. Les asiatiques auraient sur leur profil utilisateur plus de
mentions d’une chose plutôt que d’une autre… On observe une re-catégorisation sociale ou
raciale, alors même que l’individu pense s’être extrait de celle-ci puor s’affirmer en tant
qu’individu propre. Rudder n’hésite pas à exposer les résultats d’enquêtes et
d’expérimentations qu’il a mené sur son site, à l’insu des utilisateurs.
Le site a par exemple truqué les réponses des algorithmes afin de faire se rencontrer
deux « profils » qui selon les statistiques, avaient une très faible probabilité de se
correspondre. Rudder le sait, il s’expose à des critiques et des questionnements sur son
éthique, mais selon lui, le jeu en vaut la chandelle. Le titre de son livre est explicite, Rudder
veut explorer la nature humaine et observer l’individu et ses pratiques « quand il pense que
personne ne regarde ». Afin de mieux analyser ses utilisateurs, OKCupid a même mis en
place un système qui permet de collecter non seulement les messages émis mais aussi les mots
et phrases tapées qui ne sont pas envoyés, écrits puis effacés. Rudder défend ses pratiques au
nom d’une réalité objective, qui mettrait en lumière la véritable nature de l’homme, dégagée
de toute pression sociale ou « surmoi ». Les notions freudiennes pourraient être ici mobilisées
puisque les ambitions du site épousent la logique de désintégration du sujet humain telle
qu’opérée par Freud. Selon Rudder, les données récupérées à l’insu de l’utilisateur
témoigneraient d’une réalité et d’une vérité débarrassée de la contrainte du « surmoi ».
Par exemple, Rudder explique que la plupart des gens n’affichent pas de préférence quant à
l’appartenance ethnique lors de la constitution de leur profil. Il est rare de trouver un profil
stipulant qu’il n’est pas intéressé par les hommes ou les femmes noir(e)s. Cependant, les
analyses des données à la suite d’interactions et de choix prouvent que chaque ethnie a une
tendance lourde à n’interagir qu’avec des membres de la même ethnie. On pourra rétorquer à
Rudder que ces résultats illustrent une forme de reproduction sociale qui ne relève pas
nécessairement de l’individu et de l’intime mais plutôt de cadres sociaux plus larges, mais ce
que démontrent ces analyses, c’est justement qu’un deuxième sens, invisible aux yeux des
utilisateurs, est affilié aux « profils » lissés. La constitution de notre identité se fait par
rapport à l’espace public : en disant au monde qui l’on est, de manière volontaire, on se
constitue et on envoie une image de soi. Mais quelle identité se met en place quand l’espace le
plus intérieur, non destiné à être public, devient constituant de ma personne, devient un
indicateur puissant de mon identité ?
40
Cette intrusion dans le moi intime, ce glissement dans la foramtion de nos identités, se
fait à plusieurs strates. Pour ce qui est de l’experience d’OKCupid, elle reste interne à
l’entreprise et nous le verrons, les résultats de ces analyses ont diverses conséquences. Le
deuxième glissement se fait lorsqu’une information publique devient publicisée. On observe
alors une rupture dans la relation des individus aux entreprises. Danah Boyd, chercheuse
spécialisée sur les interactions des jeunes sur les réseaux sociaux, rappelle que lorsque les
réseaux, les systèmes, changent les règles du jeu, il en résulte une défiance et une perte de
confiance de la part de l’utilisateur. En effet, chaque utilisateur a le droit de prétendre à un
présupposé d’obscurité.
C’est cette rupture de confiance qui est advenue lorsque Facebook a, sans prévenir,
changé ses règles de confidentialité, et mis à disposition une nouvelle interface en 2008, le fil
d’actualité qui apparaît à droite de l’écran, et indique à tous les « amis » votre activité en
temps réels : quelles photos vous avez aimé, commenté, à quel événement vous participez…
Ces informations assez détaillées étaient auparavant noyées dans la foule de données et
d’informations. Un coup de projecteur dessus change les modalités et crée un espace plus
surveillé, où chaque geste peut avoir des conséquences.
Une autre avancée du site Facebook a fait couler beaucoup d’encre et modifié
profondément les possibilités de recherche sur le site, il s’agit de l’outil Graph Search. Graph
search est un « moteur de recherche amélioré sur Facebook, recoupant les données
personnelles des utilisateurs pour des résultats plus précis en fonction de leurs amis, photos,
lieux et centres d'intérêt. »1
. Ce nouveau service est un pas vers la démocratisation des usages
de Big Data, desquels le croisement d’informations est un pilier. Cet outil à l’usage de tous
apparaît presque comme une vulgarisation de data analyse, et donc expose le plus grand
nombre à ses résultats inédits. A l’aide de l’outil, on peut en effet faire remonter des
informations auparavant insignifiantes, mais qui prennent tout leur sens une fois croisées. Les
implications sont doubles, tout d’abord les informations mises en lumière étaient auparavant
noyées dans la masse de données accessibles seulement par ordre chronologique. La
« publicisation » de données publiques est encore une fois mobilisée ici. Le deuxième effet
pervers intervient lorsque les corrélations faites mettent en lumière des associations
1
Le Monde, « Les résultats dérangeants de Graph Search »
[Disponible : http://rezonances.blog.lemonde.fr/2013/01/23/les-resultats-derangeants-de-graph-search- le-
nouvel-outil-de-recherche-sur-facebook/]
41
dérangeantes. Tom Scott, un utilisateur de Facebook, a ainsi compilé ses résultats dérangeants
dans un site dédié. (Voir annexe). Ainsi, Tom Scott montre qu’il est possible de retrouver
grâce à l’outil de recherche sociale des « membre de la famille de gens vivant en Chine et
indiquant aimé [le dissident] Falung Gong. ». Il est assez aisé de comprendre les implications
d’un outil aussi fin que celui-ci lorsque les informations sont à risques. On pourra rétorquer
que ces utilisateurs sont les seuls à blâmer étant donné que ces informations étaient déjà
publiques. Ici, le présupposé d’obscurité et la fine différence entre public et publicisé entre
encore en jeu. Pour reprendre les termes de Dominique Cardon, le web se fait en « clair-
obscur » et il est très difficile d’en maîtriser les nuances et ombres, surtout lorsque les règles
du jeu changent sans consultation préalable. En effet, le Graph Search permet de trouver des
informations sur des personnes qui ne font pas partis du cercle « d’amis », c’est-à-dire
d’utilisateurs que j’ai accepté dans ma communauté en ligne, et faisant partie de ce web
« public ». Sans le Graph Search, les photos publiées étaient automatiquement visibles et
disponibles pour cette communauté, mais en développant l’outil, Facebook a aussi changé
cette modalité, rendant publiques des informations autrefois réservé à un cercle précis. Ainsi,
mon identité, ma é-réputation, se trouve totalement bouleversé par l’ubiquité du site et
l’exposition soudaine de parties signifiantes de mon identité.
La constitution de nos identités en ligne est donc paradoxalement définie par un double
mouvement de projection et de protection. Mais les choix des utilisateurs dans cette binarité
semblent être eux-mêmes paradoxaux : ayant conscience de la récupération de ses données,
du risque d’altération de son identité par des entreprises et firmes, ils semblent ne pas s’en
préoccuper. Ou du moins, si les inquiétudes se font paraîtres, elles ne sont que très rarement
suivies d’actes. Comment expliquer la séparation entre croyances et actes ? Quelles forces
extérieures sont au départ de la résilience de l’individu face à la collecte de données ?
2. L’acceptation	par	la	banalisation	et	autres	jeux	sociaux	qui	
mettent en tension « l’identité »
« La banalisation d’une surveillance démocratique et égalitaire qui ne prétend plus
cibler personne a priori, mais s’applique à tout le monde par défaut, ont tôt fait d’éroder
réticences et résistances » préviennent Rouvroy et Berns. La résistance s’érode puisque le
procédé se banalise certes, mais il est alors crucial de comprendre les rouages de cette
42
banalisation. Par quels procédés a-t-on implémentés l’idée que la co-production de données
était plus normale que la rétention ?
Tout d’abord, il convient de souligner des pratiques répandues et qui induisent un
comportement qui ne nécessite pas l’adhésion de l’individu mais répond plutôt du
« phénomène d’inertie ». En effet, il est commun que les sites ne demandent pas à l’utilisateur
de notifier son accord mais présuppose que celui-ci est direct. Par une logique d’inertie qui est
aisément compréhensible, l’utilisateur ne fait pas l’effort de décocher les cases, c’est donc
plutôt « sur le mode l’adhésion par défaut que du consentement libre et éclairé que les
individus vivent cette prolifération de données enregistrées »1
. L’effort parait disproportionné
à l’utilisateur, qui cède aux sirènes de la commodité et de l’immédiateté, alors que les
conséquences sont, elles, invisibles et lointaines. La nouvelle métaphore du mode d’échange
sur internet appelé le cloud, le nuage, renforce encore cette impression lointaine, nébuleuse.
Les données seraient stockées dans le cloud, inaccessibles. Dans le cas des cases pré-cochées,
ou encore dans celui des conditions de confidentialité rarement lues et dénoncées comme trop
complexes, en police si étroite qu’elles n’appellent pas à la lecture, c’est le design, ou
l’architecture de l’espace qui est en cause. L’environnement est pensé, construit, pour
favoriser les comportements. Dans d’autres cas, c’est plutôt des tendances de société plus
larges qui agissent directement sur la façon dont les individus se perçoivent et donc décident
de livrer ou non leurs données.
Le mode par-défaut et l’immédiateté de la pratique sont à l’origine d’une pratique
inconsciente. Mais si les utilisateurs avertis sont à mêmes de livrer leur données malgré tout,
c’est aussi parce qu’ils considèrent que celles-ci valent moins que d’autres avantages qu’il
pourrait en tirer.
Ainsi, Luth Research, une start-up de San Diego offre même aujourd’hui la possibilité
de récupérer les données personnelles sur les ordinateurs et smartphones de leurs clients en
échange d’une somme de cent dollars par mois. L’offre est attractive et plus de dix mille
personnes ont d’ores et déjà adhéré au système, laissant l’entreprise collecter leurs données de
géolocalisation, leurs recherches Google et temps de connexion aux réseaux sociaux.2
1
Antoinette Rouvroy, Des données sans personne : le fétichisme de la donnée à caractère personnel à
l’épreuve de l’idéologie des Big Data, Selected Work
2
http://www.technologyreview.com/news/529686/how-much-is-your-privacy-worth/
43
Cette logique est propre à Internet et peut être résumé au « service pour profil ». Une idée qui
est exprimée dans cette phrase qui est devenue un avertissement dans les milieux
numériques : « si c’est gratuit, c’est toi le produit.» Phrase qui revient souvent à la fois pour
dénoncer et justifier les pratiques de profilage. En effet, la nécessité économique impose un
modèle viable afin que ces services gratuits le restent. Aujourd’hui, si les sites internets,
d’information, de musique ou réseaux sociaux sont accessibles gratuitement, c’est parce que
les sites revendent les données personnelles à des agences de publicités. Si l’utilisateur
concède à ces pratiques, c’est grâce à l’attrait de la gratuité et du service rendu. Ce modèle
économique à l’œuvre sur Internet est déclinable et peut se comprendre comme un simple
échange de biens pour services, associée parfois à une récompense.
Ainsi, les données seraient parfois livrées contre un coupon de réduction.
Selon une étude menée par PunchTab1
, une agence de publicité, en Avril 2014, 27% des
sondés se disent prêt à être traqués par des détaillants en contrepartie d’une récompense telles
que des bons de réductions. 88% des sondés seraient prêts à partager leur localisation pour des
bons de réductions, et 69% pour des publicités ciblées qui correspondraient aux produits
qu’ils aiment.
Sans questionner les implications éthiques de ce genre de pratiques, ni d’afficher un
jugement moral ou une vision péjorative, il convient d’en éclairer les logiques et
conséquences, encore une fois sur les comportements. Ce système de « profil pour service »
provoque en effet de nouveaux comportements, desquels on peut questionner à la fois
l’origine, l’élément déclencheur, et la finalité.
Le foisonnement de données de notre monde hyper-connecté provient, on l’a dit, de
notre présence sur de plus en plus d’objets connectés que sont les ordinateurs, tablettes,
téléphones, carte de crédit. Mais ces objets se diversifient avec l’apparition de « l’internet des
objets ». Appareils de la vie quotidienne aux fonctions diverses, ces objets ont en ommuns
d’être « connectés » ou « intelligents » : ils collectent des informations, ensuite réutlisables
pour l’utlisateur mais aussi pour la société qui les produit. La voiture peut maintenant être
connéctées, mais aussi le réfrigérateur, ou encore un bracelet à l’usage des sportifs (le Nike
fuel band par exemple). Les pouvoirs associés à ces objets, les possibilités qui s’ouvrent sont
1
http://www.mediapost.com/publications/article/230662/consumers-agree-to-mobile-location-tracking-for-
sp.html?edition=74952
44
multiples, nombreuses et il serait rédhibitoire d’en faire la liste exhaustive. Cependant, il est
intéressant de noter qu’avec la prolifération de ces objets se dessinent plusieurs logiques
comportementales qui font avancer plus loin la Big Data dans le quotidien des utilisateurs.
La tendance du « quantified Self », qui consiste en une obsession pour l’évaluation
personnelle de ses performances, en est l’exemple le plus fragrant. L’accès de l’utilisateur à
ses données quantifiées provoque des pratiques d’évaluation constantes, des cycles de
sommeil, des calories, du nombre de pas effectués, qui mènent à un contrôle de soi sans
précédent. Encore une fois, ce contrôle de soi apparaît ambivalent : j’en sais de plus en plus
sur moi, mais je me livre aussi entièrement.
Ce mouvement de « self-tracking » et de « quantifief self » témoignent d’une banalisation de
la prédominance des données et s’inscrit dans l’obsession de la performance, de l’efficacité et
de l’évaluation. Ces effets associés à l’accumulation d’informations numérisées, enregistrées,
façonnent en effet nos nouveaux usages. En témoignent le fonctionnement du système de la
société de véhicules Uber, qui pratique une double évaluation – à la fois des usagers et des
chauffeurs – afin de réguler les flux et d’organiser les interactions et transactions. Un usager
désagréable sera mal noté et moins bien servi. De même, une mauvaise note pour un
chauffeur aura des conséquences sur son salaire et sur son emploi.
Cette évaluation permanente, et la valorisation des bons résultats, des bonnes performances,
est à l’origine d’une logique perverse de normativité par l’exemple. Pour démontrer ce point,
Evgeny Morozov1
utilise l’exemple de la poubelle connectée. La poubelle intelligente est une
poubelle qui photographie vos déchets afin d’analyser le contenu de la poubelle. Cette photo
est ensuite partagée sur Facebook.
Cette objet apparaît en regard de deux tendances de profondeurs : la prolifération d’objets
intelligents et l’obsession de l’évaluation (on comprend ici que l’évaluation se situe au niveau
du bon ou mauvais comportement alimentaires, tels que le gaspillage ou le tri) et la
possibilité, et même l’inclinaison, que nous avons à partager sur les réseaux. Les vertus de
l’intéraction et de l’exposition personnelle jouent ici un rôle de pression sociale. Afficher les
bons et mauvais comportements aux yeux de tous permet de réguler ceux-ci. Morozov énonce
que cette « normativité par l’exemple » régule nos comportements et que la banalisation du
partage permet de répandre la pratique. C’est l’effet pervers de la fameuse maxime que l’on
1
Evgeny Morozov, 2013, “Is smart making us dumb?”, Wall Street Journal
45
n’a rien à craindre, si l’on n’a « rien à cacher. » Derrière cette simple affirmation se cache
l’idée que ceux qui sont soucieux de leur identité et qui refusent de s’exposer seraient suspects
de mauvais comportements. L’exemple de la poubelle connectée est intéressant parce qu’il
mêle à la fois la connectivité et l’exposition sociale, et donc la pression des pairs. Mais la
pratique des capteurs est très répandue, notamment dans les voitures. Aujourd’hui de
nombreuses sociétés d’assurance adoptent un système de bonus ou de malus accordé selon la
conduite de l’utilisateur basé sur les données collectées sur les voitures connectées. On peut
craindre que bientôt les mêmes sociétés refuseront d’assurer les individus qui ne désirent pas
partager leurs données, supposant qu’un refus s’accompagnerait d’un mauvais comportement.
Il s’ensuit un dilemme éthique quant à la régulation : celui qui donne sa data pénalise celui qui
préfère se préserver dans une logique énoncé plus haut, mais en régulant les pratiques, on
pénalise celui qui partage ses données.
La prédominance de ces technologies dans nos vies a donc de nombreux impacts sur les
logiques sociétales, renforçant certaines pratiques et affirmant de nouvelles normes.
Les technologies agissent de plus en plus en amont, dictant nos comportements et régulant les
corps et les comportements. Cette régulation va jusqu’à déclencher un autre « paradoxe de
l’identité » énoncé par Neil Richards et Jonathan King dans leur essai Three paradoxes of Big
Data :
Les entreprises qui savent comment générer du savoir de ces données en saura plus
pour nous que nous ne nous connaissons nous-mêmes, et seront à même de créer des
techniques qui nous poussent dans la direction qu’ils veulent, plutôt que vers là où nous
serions allé si nous étions cantonné à nos propres moyens.1
Le paradoxe ici mis en avant n’est plus une tension entre la projection et la réclusion mais une
tension entre la possibilité de se former un savoir sur soi-même et le risque de perdre notre
individualité. Les adeptes du courant du « quantified self » en sont l’exemple principal, en
tant qu’ils sont pris dans une hubris de la quantification et de la connaissance de soi. Mais la
structure informationnelle du Web et la gouvernance algorithmique qui en résulte, et qui
s’applique à tous les utilisateurs, ont aussi la possibilité d’altérer nos capacités d’entendement.
En effet, l’identité telle que constituée sur les réseaux est une nouvelle fois menacée lorsque
la liberté de choix est altérée. Le droit à l’identité est en effet définit par le droit à définir
1
« The companies that figure out how to generate intelligence from that data will know more about us than
we know our selves, and will be able to craft techniques that push us toward where they want us to go, rather
than where we would go by ourselves if left to our own devices.”
Richard. N & King.J 2013, Standford Law Review
46
nous-mêmes qui nous sommes. Comment la structure informationnelle d’Internet – avec les
pratiques de personnalisation et de profilage - mettent possiblement en péril ce droit à
l’identité ?
C. Analyse	d’une	structure	informationnelle,	de	la	foule	à	l’individu.
La structure informationnelle du Web, sous-tendue par une organisation et hiérarchisation
algorithmique décrite en première partie (l’algorithme Page Rank de Google) sont sujets à
deux formes de perfectionnement, sans cesse recherché, ceux de la prédiction et de la
personnalisation. Ces deux visées contiennent cependant en elles-mêmes des dangers et
modifie l’appréhension du réel, ainsi que les dynamiques entre individu et société,
information et savoir.
1. Le fantasme de la prédiction
Tout d’abord, il est éclairant de rappeler que l’Internet est le lieu où se rencontre l’individuel
et le collectif. En cela, il est le lieu de formations de notre identité personnelle, puisque nous
pouvons y affirmer et valoriser nos propres personnes, et notre individualité. Mais il est aussi
le lieu où se constitue le savoir collectif, et même l’intelligence collective. Le web, en ayant
une capacité de rassemblement, puis de hiérarchisation de l’information dépasse la simple
fonction de réservoir que l’on associait autrefois à une bibliothèque. Quand l’algorithme Page
Rank décide des premiers résultats à afficher sur Google, ou lorsqu’Amazon nous donne des
recommandations, une hiérarchisation s’opère selon différents modèles mais qui ont tous en
commun d’être générés par la sagesse collective.
En effet, alors que les fantasmes de science totale, qui dépasserait les limites de l’individu
semblent appartenir à une certaine idéologie, une des premières révolutions de l’Internet a été
celle liée à l’intelligence collective. La collecte systématique de choix individuels donnant
sens à une organisation plurielle et collective est celle qui régit les formes de hiérarchisation
et donc l’information disponible sur Internet. Cependant, la puissance technique des moteurs
de recherches, augmenté des avancées dans la science analytique, ajoute des nouvelles
dimensions à nos recherches épistémiques. Dans une logique de service à l’individu et
d’efficacité, les moteurs de recherches, mais aussi des sites d’information, sont désormais à
même de rendre des services personnalisés. En effet la généralisation des méthodes de traque
47
et de profilage, l’évaluation permanente des mouvements et résultats, permet aux sites de
modifier leur offre, de s’adapter. Mais en devenant plus flexibles elles-mêmes, les offres ne
risquent-t-elles pas de fixer l’utilisateur dans un « profil » trop rigide ?
Une des caractéristiques du Big Data est en effet la possibilité de prévoir des comportements
futurs à l’aide de faits passés. En effet, un présupposé méthodologique mais aussi idéologique
de la science des données est que « ce qui a été, sera». C’est ainsi que des « profils » sont
créées, afin d’organiser l’information, puis d’appliquer cette connaissance à des fins
prédictives. Cet homme a acheté cette chemise et ce bonnet, l’analyse de ces données peut
prédire que son prochain achat sera un manteau.
Ces systèmes de recommandations mèneraient à une « hypertrophie de la sphère privée ». Si
chaque interaction me définit, et me réserve un environnement en lien avec mes préférences
déjà indiquées, alors l’environnement général se construit en silos, se refermant au fur et à
mesure que la personnification s’amplifie, sur une sphère réduite, où l’extérieur perd de son
importance et où l’individuel, le déjà-là, prédomine.
Encore une fois, l’étymologie des métaphores d’Internet sont une ressource précieuse qui
nous permet de comprendre les mutations de l’environnement en ligne. Au départ, on parle
« d’explorateur », (comme l’Internet Explorer par exemple), et on découvre aux premières
heures d’Internet des phénomènes de serendipité, quand l’utilisateur ‘navigue’ sur le Web.
Aujourd’hui, les conditions de cette navigation changent et nos ‘promenades’, ou
« cyberflâneries », sont de plus en plus déterminées. Eric Shmidt le souligne d’ailleurs dans
un entretien qu’il donne au Wall Street Journal : « Ce qui rend les journaux si
fondamentalement fascinant – la sérendipité – peut aujourd’hui être calculé. On peut la
produire de manière électronique ». S’ensuit une descrpition des futurs services de Google par
son directeur actuel : « Disons que vous marchez dans la rue. Grace à ce que Google a
collecté sur vous, on sait à peu près qui vous êtes, à peu près ce qui vous plait, et qui sont vos
amis. »1
Goole sait aussi, où vous êtes, et donc, peut vous proposer les services qui vous
correspondent. C’est-à-dire que Google pourra vous indiquer la prochaine boulangerie sur le
chemin, si vous avez indiqué aimer les croissants, et ainsi de suite.
1
"The thing that makes newspapers so fundamentally fascinating—that serendipity—can be calculated now.
We can actually produce it electronically,"
The Wall Street Journal, Google and the search for the future, 2010.
48
Ce qu’Éric Schmidt semble laisser de côté, et qui est pourtant constitutif de la sérendipité, ou
de la flânerie, c’est l’idée d’errance, de non-détermination et de hasard, totalement exclu du
modèle proposé par Eric Schmidt.
Ce nouveau modèle remet en question le « consentement libre et éclairé » et les conditions du
choix. Cette prédétermination, qui mènerait à l’érosion de notre puissance d’agir et de nos
capacités d’entendements. Ainsi, la maxime d’Horace, reprise par Kant dans Qu’est-ce que les
lumières ?, semble ici prendre tout son relief. « Sapere Aude », le courage de notre propre
entendement, est une notion qui semble se réactualiser face à l’altération d’autonomie
résultant du profilage et de la traque. La seule façon d’apprendre à un homme à penser est de
le laisser tenter lui-même.
Les systèmes personnalisés, qui pavent le chemin avant même qu’il soit emprunté, font perdre
à l’homme sa capacité d’entendement. Ces techniques « de classification et d’évolution
anticipative des comportements humains »1
contiennent en elle un principe et une croyance
aux implications idéologiques lourdes en cela qu’elles définissent l’identité « en devenir »,
par rapport à un réel qu’elle prétend gouverner, renfermant une identité passé. C’est selon ce
principe que les algorithmes prédictifs « s’attachent à gouverner le potentiel, le virtuel » plutôt
que l’actuel. Les propos d’Eric Schimdt, président de Google, confirme cette volonté avouée :
« Je pense que la plupart des gens ne veulent pas que Google répondent à leur questions, ils
veulent que Google leur disent ce qu’ils vont faire ensuite. »2
L’anticipation, le futur, et par là même le contrôle des identités en devenir, est la temporalité
dans laquelle les avancées techniques se trouvent. Rouvroy parle de « glissement stratégique
ou tactique dans la gestion de l’incertitude ». Le « gouvernement algorithmique » entend donc
maîtriser le probable afin de modeler un réel. Anticiper les désirs, offrir un service pas encore
formulé, voilà la vision fantasmée des entreprises de personnalisation.
2. La personnalisation mènerait-elle à la réification ?
1
Rouvroy, A, « des données sans personnes », op.cit
2
"I actually think most people don't want Google to answer their questions," he elaborates. "They want Google
to tell them what they should be doing next." The Wall Street Journal, Google and the search for the future,
2010.
49
Un des premiers dangers est donc la fixation de nos identités, « profilées », « anticipées ». Du
côté des entreprises, on observe pourtant un véritable engouement. Plus on en sait sur vous,
plus on pourra vous satisfaire. Alors que l’on a définit l’identité comme une matière
mouvante, les outils de personnalisation, de traque, ont pour effet de fixer celle-ci dans le
marbre. Prenons l’exemple du journalisme en ligne. A l’époque de la presse papier,
comprendre les désirs des lecteurs, identifier une cible précise, analyser la vie du papier une
fois mis dans les mains du lecteur relevait de la science-fiction. L’offre était alors fixe. Mais
lorsque les informations sur le nombre de clics sur un article en ligne, sur le temps de lecture
passé sur une page ou à propos du taux de partage sur les réseaux, sont devenues accessibles,
alors l’offre s’est adaptée. Ainsi de plus en plus, on donne aux lecteurs du contenu qui
correspond à des désirs a priori. La déstructuration de l’offre sur les écrits d’écrans a souvent
été mise en avant, notamment par Yves Jeanneret1
, qui analyse les écrits d’écran en tant que
« dispositif médiatique », et s’attarde à démontrer que la matérialité de ces textes diffère de
celles des contenus des médias traditionnels. Jeanneret réduit les Nouvelles Technologies de
l’Information à des objets sémiotiques, reléguant la composante technique à de simples
prophéties idéologiques. Ici, c’est la technicité de l’objet qui nous intéresse, en tant qu’elle
modélise l’objet culturel. Avec l’analyse des données personnelles et la personnification des
contenus, l’écran, ou l’ordinateur, n’est plus support, mais devient démiurge. Dominique
Cotte met cette dimension en avant, en insistant sur la « stratification » des écrits. Selon Cotte,
« tout dispositif de communication contemporain [s’articule] sur (au moins) deux niveaux :
une partie visible, offerte sur des dispositifs de lecture fortement technicisés (les écrans) et
une partie invisible formée des dispositifs de programmation, d’organisation et de transfert. »2
Dominique Cotte étudie l’écrit d’écran en tant qu’il est soumis à un environnement technique,
duquel il est interdépendant. Notre parti-pris est de souligner que la technicité devient
omniprésente et qu’elle est le socle de l’objet sémiotique qui apparaît par la suite. Elle se
trouve avant la recherche (collecte de données), pendant (traquage), et après (profilage). Ces
trois pratiques technologiques appartenant à la sphère du Big Data influent sur le contenu
présenté sur l’écran. On peut ici parler de nouvelles modalités de réception du savoir. On
assiste aujourd’hui aux balbutiements de cette prédominance de la technique sur le contenu,
mais qui tend à se généralisé. Aujourd’hui, un site de médias va me recommander des articles
selon mes préférences et mon profil auparavant identifiés (si vous lisez cet article, vous serez
1
Jeanneret, Yves, Y-a-t-il (vraiment) des technologies de l’information ? Villeneuve d'Ascq, Presses
universitaires du Septentrion, coll. « Savoirs mieux », 2000
2
Cotte Dominique, « Écrits de réseaux, écrits en strates », Hermès, La Revue 2/ 2004 (n° 39), p. 109-115
50
intéressé par celui-ci, et ainsi de suite) mais demain, il est possible que le contenu de l’objet
change aussi. John Turow donne l’exemple suivant dans son ouvrage The daily you : How the
new advertising industry is defining you identity.
Un service comme The daily me, régie publicitaire en ligne spécialisée dans la récolte
d’empreintes numériques, c’est à dire de traces laissées par les internautes, vend son expertise
et sa base de données à des éditeurs de contenus soucieux d’offrir à leurs lecteurs des
contenus ciblés, personnalisés. Ces informations permettent aujourd’hui de proposer un
environnement de contenus adapté au lecteur, en d’autres termes, il lui livre des informations
qui correspondent à ses centres d’intérêt. Mais le service est aussi en mesure, comme
l’explique son fondateur et directeur dans l’ouvrage de Turow, de modifier le contenu
sémiotique des écrits. Si le lecteur est habitué à lire des articles sur des sites de presse
féminine par exemple, et que celui-ci se trouve à lire des informations tout autre, le site sera
en mesure d’adapter le vocabulaire et le contenu de l’article afin de ressembler au plus près à
des articles déjà consultés, c’est-à-dire imitant le style des revues de presse féminine. La
personnalisation éditoriale n’est pas encore au point mais semble être un moyen de répondre à
la chasse à l’attention des lecteurs que se livrent les éditeurs de contenus en ligne. Le pas a
d’ailleurs été franchi dans l’industrie audiovisuelle, lorsque Netflix, service de vidéos à la
demande en ligne, a conçu sa série House of Cards, à partir des données collectées sur les
habitudes des téléspectateurs et sur leurs préférences. Rouvroy dénonce ainsi un « court-
circuitage des capacités d’entendement, de volonté et d’énonciation des individus, et donc de
la fonction-personne, par des systèmes informatiques capables de prendre de vitesse,
littéralement, et de neutraliser ceux des effets de l’incertitude radicale qui seraient suspensifs
des flux. »1
Ainsi, le profilage serait en mesure de façonner un environnement, de nous offrir un « réel
clôturé », dans lequel la « dimension de puissance » des individus – réalisée par les capacités
de choix et de volonté – serait amenuisé. En effet, Eric Shmidt, le président de Google,
annonçait lui-même, que bientôt, il sera presque impossible de consommer ou d’avoir accès à
quelque chose qui n’aura pas été prévu pour eux.
Ainsi, les techniques d’analyse prédictive ont la possibilité d’influer sur les individus
et la société, en renforçant les préjugés, et en limitant l’autonomie individuelle. En prenant
1
Rouvroy, A, idem
51
pour devise que « ce qui a été sera », les techniques de production du savoir perpétuent l’a-
priori, enfermant l’individu dans un « profil », une identité à laquelle il est difficile
d’échapper. De telles avancées technologiques mettent en péril les capacités d’entendement et
la liberté de choix des individus, tout en renforçant les déterminismes sociaux. Mais les
techniques de profilage à des fins de personnalisation sont aussi l’apanage d’un domaine
particulier, celui du marketing. L’individu, devenu potentiel client, est la « cible » des
marketeurs, que ce soit en ligne ou hors-ligne. Quelles relations s’instaurent entre l’individu et
la marque lorsque celles-ci adoptent des techniques de personnalisation ?
52
III. Les limites du marketing personnalisé
A. Le	marketing	à	la	recherche	d’un	nouvel	eldorado	
La collecte et l’analyse des données personnelles sont convoitées par la grande majorité
des acteurs du marketing pour deux raisons. Premièrement, les données concernent les
individus et donc les potentiels consommateurs. La « cible », l’audience, est la condition sine
qua non d’une stratégie marketing. Si la communication et la publicité existent, c’est afin de
construire un pont entre la marque et le consommateur. La compréhension de la cible est la
pierre angulaire d’une stratégie marketing, ils en sont la finalité. Avoir accès à des données
qui renseignent sur les potentiels clients permet d’optimiser les plans marketings. La
connaissance de la cible, par des faits quantifiables, semble au premier abord le meilleur
moyen de mieux cerner cette dernière. Ensuite, le marketing est un domaine bâtard, puisqu’il
est à la croisée de plusieurs sciences sociales appliquées aux lois du marché. Les recherches
53
en sociologie, les études qualitatives, la créativité, sont autant d’enseignements et de pratiques
qui nourrissent les départements marketing et les agences de publicité. Ces dernières sont
d’ailleurs souvent dénommées « agences créatives », mettant en avant les solutions créatives
qu’elles apportent à des problèmes business. Ce faisant, le marketing et la publicité ont
toujours souffert d’un manque de légitimité, travaillant à justifier leurs rôles auprès des
directions. La difficulté à trouver sa légitimité tient à deux réalités. Il est tout d’abord très
difficile de mesurer l’impact des actions sur les ventes, le retour sur investissement. La
justification des choix, la rationalisation des processus et des actions mis en place est la
deuxième faiblesse du marketing et de la publicité. On voit ici très clairement l’apport de la
Big Data dans le domaine, elle serait en quelque sorte la caution scientifique, la preuve par les
chiffres, rationnalisant les pratiques sous l’égide de la quantification. Mais en cherchant à tout
prix à adopter ces logiques, les publicitaires se heurtent à des difficultés. La technique peut-
elle vraiment tenir toutes ses promesses ? La relation avec les consommateurs, que l’on a
identifiés comme cruciaux dans la stratégie, ne risque-t-elle pas d’être endommagé au
passage ? Quelles sont les opportunités mais aussi les risques associés aux innovations que
sont à la fois le data mining, le profilage et le ciblage comportementale ?
1. Les	promesses	de	l’essor	de	la	Big	Data	et	du	perfectionnement	
des	outils	à	l’épreuve	du	réel
Il est tout d’abord important de qualifier les types de données utilisées lors des analyses
Big Data en marketing. Le data marketing s’appuie sur trois types de données:
- Les données contextuelles, sur la navigation de l’internaute, c’est-à-dire sa
géolocalisation ainsi que les sites visités.
- les « 1st party data », les données propriétaires de l’annonceur, c’est-à-dire les bases
clients, points de ventes…
- Les données externes, « les 3rd party data », fournies par des sociétés spécialisées, qui
contiennent des catégorisations socio-professionnelles, les intentions d’achat, etc…
En quoi est-ce que ces données sont-elles sources de richesse pour une marque ? Pourquoi
le marketing est-il un des domaines majeurs d’investissement de recherches en Big Data et
méthode analytique ? Bien sûr, ces données donnent des renseignements sur l’identité des
54
individus, mais les PII (Personnal Identificable Information1
) ne sont pas toujours ni utiles, ni
forcément accessibles. Ainsi, les identités, entendu comme les renseignement d’états-civils,
ne sont pas forcément ce qui intéresse le marketing et nous ne nous situons pas ici dans la
problématique de la vie privée au stricte sens du terme.
Ce qui intéresse le marketing, la publicité, sur les comportements en lignes, sont ce qui est
parfois appelé les « données de l’intention »2
. L’expression a été popularisé par Battelle,
entrepreneur américain. La logique prédictive des algorithmes de recherches que nous avons
étudié a déjà mis en lumière ce glissement de temporalité. Nos identités en ligne, puisque
augmentées de nos « empreintes » sont telles que se dessine un « moi futur », probable. Si on
reprend cette logique dans une perspective marketing, ces données représentent « les
intentions de l’humanité – une base de données immense renfermant les désirs, besoins,
nécessités, et appréciations3
»
Ces données permettent donc de procéder à un « profilage » de la cible. Associé au
marketing personnalisé, il est courant que cette technique soit méprise comme une nouvelle
connaissance non plus d’une cible mais d’un individu. Hors, excepté les campagnes de
« retargeting », basé sur la traque, les opérations de profilage ne permettent pas la
connaissance précise d’un consommateur, en tant qu’individu un et spécial. Le profilage
permet de créer non pas des campagnes personnalisé, mais un découpage plus fin de la cible,
selon des critères non-éprouvés par les classiques classifications socio-professionnels.
Antoinette Rouvroy définit le profilage comme étant une « objectivisation » et une
« optimisation » de la distribution des ressources, répartis en fonction de « profils » et non pas
d’individus :
Face au foisonnement anarchique et l’irrégularité des comportements humains, le
profilage algorithmique (reposant sur les opérations de récolte de données et d’établissement
de corrélations qui le précèdent) permet d’inférer avec une certaine marge d’incertitude, de la
seule présence de certaines caractéristiques individuelles non observables, actuelles ou futures.
1
"Personally identifiable information" (PII), est une notion utilisée dans la loi Américaine, désignant les
informations pouvant être utilisées afin d’identifier, contacter, ou localiser un individu, ou d’identifier un
individu en contexte.
2
“Data base of intentions”
3
“This information represents, in aggregate form, a place holder for the intentions of humankind – a massive
database of desires, needs, wants, and likes” The Data Base of Intentions is far larger than I thought – Battelle
media blogs
[Disponible:http://battellemedia.com/archives/2010/03/the_database_of_intentions_is_far_larger_than_i_tho
ught.php]
55
Le profilage (…) permet d’objectivé et d’optimiser (…) la distribution ou la répartition des
opportunités, des ressources et des offres de biens et de services en fonction des prédictions
associées non plus à chaque personne individuellement mais à chaque profil.
Tout d’abord, la confusion entre identité et profil est au départ de beaucoup de fausses
conceptions, mais le profilage est aussi un art complexe, qui, pour être pertinent, doit éviter
biens des écueils. La tentation de reproduire des schémas de classifications éprouvées, des
représentations sociales, à partir de chiffres pourtant éclairants, n’est pas moindre. Légitimé
par les chiffres et les données quantitatives, les classifications n’échappent pourtant pas à
cette subjectivisation propre à l’interprétation. L’offre de l’agence Amaury médias est un
exemple de ce chevauchement entre l’interprétatif et le quantitatif.
L’agence, en collaboration avec une société de ciblage prédictif - nugg.ad - a constitué 19
segments d’audience «prêts à l’emploi» :
Pour prouver l’efficience de leur méthode, ils mettent en exergue une étude de cas
dans leurs publicités et affirment trouver sur le site lequipe.fr 3 catégories de visiteurs :
« Les Gentlemen » - Hédonistes, ils ont le gout du luxe, des belles choses et les
moyens de se faire plaisir.
« Les money Makers » La finance n’a pas de secret pour eux. Ils sont à l’affut des
meilleurs produits pour faire fructifier leurs revenus.
« Les Sportives » : parce qu’il n’y a pas que les hommes qui lisent l’Equipe. »
Ainsi les segments d’audience sont définis comme « prêts à l’emploi », comme des
catégories, basées sur des chiffres certes mais appelant plus l’imaginaire et les représentations
mentales que de véritables faits. L’analyse subjective est d’ailleurs suggérée dans la
description du processus d’analyse décrite dans la publicité:
A partir du brief client, ils [les commerciaux de la régie] seront le relais en interne
avec le marketing et les experts digitaux pour proposer le meilleur segment, s’assurer de la
viabilité du segment choisi et optimiser la diffusion du dispositif.
Les segments ne sont donc pas issus de l’analyse quantitative mais bien d’une
proposition faite à la fois par les marketeurs et les experts digitaux.
Ce schéma est celui exposé par Etienne Klein dans la revue INfluencia
56
Nous nous trouvons désormais soumis à une multitude d’évaluations, lesquelles ne sont pas
prononcées par des prédicateurs religieux ou des idéologues illuminés : elles se présentent
désormais comme de simples jugements ‘d’experts’, c’est-à-dire sont censés être effectuées au
nom de savoirs et de compétences de type scientifique, et donc, à ce titre, impartiaux et
objectifs.
Le risque de retomber dans des biais socio-culturels est donc bien réel. Les
« jugements d’experts » étant des titres cachant une réalité bien plus triviale. Par l’appellation
d’experts, les « interprétateurs de données » légitiment cette interprétation, mais ne peuvent
faire oublier le « jugement », et donc la nécessité d’affirmer un choix, ou un avis, sur les faits.
Le saut interprétatif est bien réel, malgré les fantasmes d’objectivisation.
Si le profilage permis par les Big Datas ne permet pas d’atteindre le marketing
personnalisé tant vanté, certaines marques parviennent à toucher l’individu dans sa singularité
(toute relative) par des moyens plus traditionnels, mais relevant bien de « l’hypertrophie de la
sphère privée » et de l’inclinaison à une exposition de soi. On pense à la récente campagne
Coca-cola. En remplaçant son logo par un prénom sur leurs canettes, avec la mention
« partagez un coca cola avec… », la marque, sans aucun dispositif technologique ou
sophistication, atteint une forme de personnalisation en touchant chaque individu. Cette
flatterie de l’identité de chacun s’insère dans une conception post-moderne de l’individu, où
l’individu est à la fois singulier, et totalement universel. En effet, si je suis touché
personnellement par l’apparition de mon prénom sur la bouteille de soda, d’autres, avec le
même prénom, le seront aussi. Ainsi, la publicité flatte l’individu, mais convoite l’universel.
Elle profite d’une tendance à l’individualisme tout en s’inscrivant dans un système normatif.
Cette recherche de cette double cible – toucher tout le monde, en touchant chacun, est aussi
fantasmatique que l’idée que derrière chaque profil se cache un individu.
Mais lorsque les pratiques mettent en valeur, et font participer l’individu, comme dans la
campagne Coca-Cola, alors on passe du fantasme à l’efficacité marketing et donc de
l’augmentation des ventes. Il est important de noter que même si cette campagne de Coca ne
fait pas directement appel aux Big Datas, elle a quand même pour point de départ une analyse
des prénoms les plus données dans la tranche d’âge de la cible. On retrouve ici, non pas du
webmarketing, mais des principes de marketing de bases respectés et bien mis à profit.
Alors que Coca-cola, ainsi que d’autres marques telles que Milka et le carré de
chocolat à envoyer à un ami, passent par l’universel pour toucher le particulier, les pratiques
du web-marketing font le chemin inverse et tentent de trouver de l’universel dans le
57
particulier. A partir de données venues du bas, ou de la fin de la chaîne, c’est-à-dire des
consommateurs, la marque a accès à un terrain d’observation et d’analyse extrêmement vaste.
Les données collectées et l’accès en temps réel aux comportements des utilisateurs permettent
aux marques un accès presque immédiat à des « focus groupes géants ». La problématique
étant alors organisationnelle. Comment rendre intelligible ces myriades d’informations et
donner du sens à des comportements humains ? Le « profil » des consommateurs est un
moyen de regrouper plusieurs individus en « types » de consommateurs. Ces profils, liés à
l’historique du consommateur, (la fameuse banque de données d’intentions), permettent
l’optimisation totale des coûts. En effet, ces techniques de marketing digital permettent
d’envoyer le bon message à la bonne personne au bon moment, mais facilitent aussi, et c’est
une avancée cruciale, de définir ce que vaut chaque consommateur. Sheldon Gilbert,
fondateur de Proclivity Media, résume ainsi les étapes dans les avancées permises par les la
technologie. « La chose la plus importante pour quiconque dans la publicité est de
comprendre les intentions du consommateur1
.» explique-t-il dans un entretien au New-York
Time2
. Mais derrière ces intentions, il s’agit aussi de comprendre la valeur de chaque
consommateur potentiel. La valeur attribuée à chaque consommateur, et combien le
publicitaire est prêt à dépenser pour celui-ci sont des décisions basés sur différents critères,
dont le « profilage » de l’individu, et son « traquage ». Gilbert donne ainsi un exemple
concret. Si un consommateur à 10% de probabilités de faire un achat à 50€, alors le
consommateur peut être évalué à 5€. Si la valeur d’un consommateur est inférieure au cout de
l’effort marketing, alors il est probable que le publicitaire décide de ne pas envoyer de
publicités à cet individu. Bien sûr, ces statistiques et calculs de la probabilité sont effectués à
l’aide d’outils venus du mariage de la technologie et de la publicité (l’AdTech –advertising
technology) et correspondent à des processus automatisés. Ceux-ci permettent l’avènement
d’une publicité « en temps réel » mais ce marketing « de la différenciation », qui classe et
évalue les consommateurs de manière automatique peut aussi contenir en lui-même des biais,
et avoir des effets pervers.
1
“The most important thing for anyone to do in advertising is to understand the intent of the consumer,”
2
New-York Times, Oct 2012 , « New ways marketers are manipulating data to influence you »Disponible :
http://bits.blogs.nytimes.com/2013/06/19/new-ways-marketers-are-manipulating-data-to-influence-you/]
58
2. Le marketing par la « différenciation » : l’ère	 du	 mieux	
consommer ?
Alors que Seth Godin, véritable gourou du marketing aux Etats-Unis, titre son dernier
ouvrage Exit le marketing de masse, nous sommes tous singuliers, se faisant le chantre de la
personnalisation et l’apôtre de la singulière créativité de chacun, le marketing personnalisé, ou
marketing de « la différentiation », est soumis à un biais qu’il convient de faire remarquer. En
effet, face à la difficulté de cerner l’individualité, nous l’avons vu, le profilage ou data mining
peuvent aussi être des pratiques discriminantes.
John Podesta1
, conseiller de l’administration Obama écrit dans un rapport sur les
opportunités à saisir du Big Data, prévient que les pouvoirs de l’analytique « avaient le
potentiel d’éclipser les protections de droits civiques dans la manière dont ceux-ci étaient
utilisés dans les domaines du logement, de l’accès au crédit, à l’emploi, à la santé, à
l’éducation et sur le marché. » De nombreux chercheurs s’inquiètent du risque de voir
apparaître de nouvelles formes de discriminations, volontaires ou non. Il est en effet assez
complexe, et crucial, de déterminer « où commence la personnalisation à valeur ajoutée et où
commence la discrimination nuisible.»2
. Un des problèmes majeurs est de définir le terme de
discrimination, en tant qu’elle n’est pas seulement différenciation. Celle-ci est le plus souvent
illégale, mais peut aussi être voulue (les mineurs n’ayant pas le droit de votes), ou acceptable
(la recommandation sur Amazon)3
. Dans le cas de la publicité ciblée, on se trouve sur une
ligne fine entre une discrimination acceptable, car se rapprochant de l’idée qu’on rend un
service différent selon le profil de la personne, sans heurter, ou diminuer aucun
consommateurs potentiels, et une discrimination moins éthique, résultat d’un processus où les
raisons de privilégier, ou de catégoriser une partie des individus plutôt qu’une autre seraient
suspects. Cette qualification est complexe lorsqu’appliquée au data mining puisque la
pratique est en elle-même discriminatoire, elle repose sur la différenciation. Le data mining
permet en effet de classifier, de différencier une catégorie d’une autre. Le problème étant bien
de savoir quels critères vont mener à tracer cette ligne. Prenons l’exemple du spam, objet
1
Podesta, J. (2014). Big Data: Seizing Opportunities, Preserving Values. Available:
http://www.whitehouse.gov/sites/default/files/docs/big_data_privacy_report_may_1_2014.pdf
2
“where value-added personalization	and	segmentation	ends	and	where	harmful	discrimination	begins”
Schrage, 2014). Schrage, M. (2014). Big Data’s Dangerous New Era of Discrimination. [Disponible
http://blogs.hbr.org/2014/01/big-datas-dangerous-new-era-of-discrimination/.]
3
Judged by the Tin Man: Individual Rights in the Age of Big Data
59
récurrent du processus de datamining. La structure technologique qui permet de différencier
un spam d’un e-mail important est simple parce que les critères ne portent pas à confusion.
Par des corrélations, par exemple le nombre de fois où l’email envoyé par cette boite mail n’a
pas été lu par le destinataire - la technologie parvient à identifier (c’est le procédé de machine
learning) si un mail est un « bon » mail, ou un « spam ». Cet usage du data mining n’a aucune
conséquence éthique et requiert d’une binarité de classes qui rend la tâche aisée : il existe
seulement quelques critères, très pragmatiques, pour distinguer un mail pollution d’un autre.
Mais lorsque les classifications ne répondent pas d’une classification naturelle, empirique,
comme par exemple distinguer un « bon » consommateur d’un « mauvais » consommateur, ou
d’un employé ? Comment créer ces classes ? Comment s’assurer que les critères utilisés ne
désavantagent pas, à tort, une certaine classe de la population ?
Une des possibles discriminations à l’œuvre dans le profilage est la classification entre
les « bons » et les « mauvais » sujets. Si un individu est identifié comme étant à plus haut-
risque, ou à plus haut coût qu’un autre, alors ces profils profiteront de moins d’avantages que
d’autres. « Une manière simple de réduire les coûts et de conserver ses ressources peut être de
décourager les consommateurs les moins rentables et les plus coûteux »1
.
Le ciblage comportemental en marketing procède à cette discrimination, en donnant plus
d’avantages à ceux qui sont considérés comme plus à même de correspondre à de « bons »
clients. Ainsi, dans un article de recherche2
, deux chercheuses en droit, Laura Moy et Amanda
Conley mettent en avant le prix à payer des services personnalisés : les riches en profitant, et
les pauvres payant pour ces services leur étant refusés. La logique est la suivante. Un
consommateur avec une forte valeur ajoutée étant plus profitable, il va se voir offrir plus de
promotions, de services, ou d’avantages qu’un consommateur au pouvoir d’achat moindre,
qui payera ses produits au prix fort. Les deux chercheuses s’appuient par exemple sur les
programmes de fidélités des supermarchés :
[Ceux-ci] sont pensés pour identifier et récompenser les consommateurs les plus aisés – la
petite minorité de consommateurs qui font la majorité des ventes du magasin – au dépens de ceux au
bout de la chaîne du pouvoir d’achat.3
1
Sharge, op.cit
2
Laura Moy & Amanda Conley, Paying the Wealthy for being Wealthy: The Hidden Costs of Behavioral
Marketing
3
“Grocery store loyalty programs, for example, are designed to identify and reward the wealthiest shoppers—
the small minority of customers responsible for a majority of the store’s revenue—at the expense of those at
the lowest end of the income spectrum.” – idem
60
Les objectifs d’efficacité du marché auraient des conséquences sur la répartition des
avantages, forçant le trait des inégalités déjà existantes et exacerbant la logique du profit qui
la précède.
Ainsi, le débat se déplace non pas sur les limites de la collection de données personnelles,
qui permettrait une identification mais plutôt sur les usages affiliés à cette pratique. Comment
être sûrs que les données ne sont pas utilisées à des fins discriminatoires ? Comment vérifier
que les choix faits, ce tri statistique, n’est pas pour principe une classification discriminatoire
et moralement répréhensible ? Nous avons mis en avant la boucle selon laquelle les riches
s’enrichissent et les pauvres restent marginaux. Mais ces discriminations peuvent aussi
toucher des profils bien plus divers. L’usage, de plus en plus répandu, des « e-score », ou de
l’évaluation en ligne, est soumis aux mêmes types de problèmes. Ces évaluations en ligne
sont invisibles au consommateur et répondent de la même logique de profilage, seulement par
le biais de la notation et de l’évaluation. Nous avons déjà mis en avant cette pratique par la
société de transports Uber, qui pratique l’évaluation à la fois pour ses usagers et ses
chauffeurs. Mais celle-ci est l’apanage de beaucoup de services clientèle. La conséquence
étant que si je n’ai pas une bonne note, alors j’en pâtirais.
La difficulté à trouver des critères de classification raisonnables, sans avantager à outrance
les uns au dépend des autres, est une forme de discrimination courante au sein des offres
commerciales, services clients, et autres systèmes améliorés de CRM (Client Relationship
Management). Mais il existe aussi un autre biais aux pratiques de datamining, qui se
rapproche de la discrimination telle qu’interdite par la loi, et qui consiste à classifier les sujets
selon des critères de « classes protégées », c’est-à-dire par rapport à leur ethnicité, religion,
genre, ou orientation sexuelle. Evidemment, ces classifications tombent sous le coup de la loi
et il est impossible pour un service marketing de qualifier ainsi son « modèle ». Cependant, il
n’est pas rare de trouver des dénominations plus subtiles dans les segments créés, mais
renfermant une même réalité. La FTC (Federation Trade Commission), commission de
défense des citoyens américains a ainsi mis en avant dans une étude les segments marketing
répondant de cette pratique1
. Parmi ceux-ci, on trouve les « Timeless Traditions », (Eternels
1
FTC to Study Data Broker Industry's Collection and Use of Consumer Data, Commission Issues Nine Orders for
Information to Analyze Industry's Privacy Practices, [Disponible:http://www.ftc.gov/news-events/press-
releases/2012/12/ftc-study-data-broker-industrys-collection-use-consumer-data]
61
traditions), identifiant des immigrés qui « parle quelque peu anglais mais lui préfèrent
généralement l’espagnol). La FTC note que même si ces catégories ne violent pas les lois
américaines anti-discriminations elles sont clairement à l’origine d’un traitement
discriminatoire, perpétrant les inégalités structurelles de départ.
Le marketing augmenté d’une science technologique, atteindrait son idéal d’efficacité au
détriment possible d’une certaine marge de la population. D’aucuns argumenteront que le
marketing n’a pas de visée humaniste et ne s’adresse qu’à des consommateurs, en faisant un
tri nécessaire entre ceux de leur communauté, fédérant certaines identités, en rejetant d’autres.
Cependant, il existe un autre obstacle au marketing personnalisé, qui prend le problème par
l’autre bout. Si l’ère de l’adtechnology est si efficace, ne risque-t-elle pas de se heurter aux
consommateurs ? Quelles sont les barrières du côté des consommateurs ? L’efficacité
maximale d’une publicité n’est pas synonyme de réception optimale. On verra que, plus que
la performance technologique, les consommateurs sont surtout sensibles à des manières de
faire, dans un contexte qu’il faut prendre en compte, et manier.
3. Le marketing intrusif
Harper Reed, conseiller en analytique durant la campagne d’Obama en 2012, déclare dans
la revue INfluencia que la Big Data nous fait entrer dans « l’ère du mieux consommer » où
chaque consommateur consommera des produits adaptés à ces désirs et ses envies. Cette
vision utopique du web marketing rejoint les visées d’Eric Schimdt évoquées auparavant.
Mais le consommateur est-il prêt à entrer dans l’ère du tout-personnalisé ? Celle-ci ressemble-
t-elle vraiment à l’idéal lissé d’individus compris ou est-elle seulement capable de tracer des
« profils » encore grossiers ?
InSkin Media and Rapp Media ont récemment publié une étude montrant que 55% des
consommateurs ne sont pas enclins à acheter un produit en ligne pour lequel ils avaient
pourtant exprimé un intérêt auparavant (en faisant une recherche en ligne) si celui-ci leur est
proposé par le biais de plusieurs publicités re-ciblées1
.
1
“It’s Official: Consumers Are Just Not That Into Retargeted Ads”, The Exchange Wire, Oct 2014
[disponible en ligne : http://www.exchangewire.com/blog/2014/10/23/its-official-consumers-are-just-not-
that-into-retargeted-ads/]
62
L’étude montre que seulement 10% de 1.600 personnes de 20 à 60 ans sont plus enclins à
acheter un produit qui leur serait adressé à la suite de leur comportement en ligne.
Pourtant, les résultats de cette enquête ne disqualifie pas le système de ciblage en ligne
puisque plus de la moitié des sondés pensent que ce processus est utile si il vient d’une société
pertinente, en accord avec leur recherche.
La ligne est donc fine entre la publicité ciblée utile et pertinente, et l’intrusive, faisant naître
des sentiments d’agacement, voire d’énervement (voir annexe). La récurrence de ces
publicités semble être le facteur négatif. Plus la publicité est vue, moins l’internaute la
considère avec sympathie.
Une des révélations de l’étude démontre une subtilité donnant du sens à la démarche et
éclairant le probable état d’esprit des consommateurs. Si la publicité est visionnée pendant la
recherche, elle encourage l’achat 15% fois plus qu’une publicité qui serait vu après l’achat.
Cette subtilité confirme les doutes évoqués auparavant dans notre recherche, qui montrait les
limites de la logique selon laquelle « ce qui a été sera » de l’algorithme prédictif. En effet, les
internautes reconnaissent et apprécient un « profilage » et une personnalisation qui permet
d’avoir un bénéfice direct. Je m’intéresse à un produit, et on me permet de l’acheter. Mais il
semble avoir un décalage entre la puissance prédictive et la persistance des régies publicitaires
et l’état d’esprit des internautes. Si j’ai fait une recherche une fois sur un produit, je ne
souhaite pas que celle-ci me « suivent » et reste accolée à un profil qui est en réalité en
mouvement. Le webmarketing, qui en est encore à ses balbutiements semble encore mal
maîtrisé les subtilités de la réalité en ligne. Les utilisateurs sont volatiles, à la fois changeants
et exigeants. Une approche tr1
op simpliste de la publicité programmée rebute les utilisateurs
et ne permet pas de mettre à profit tout le potentiel de cette technologie. La difficulté réside
aussi en de nombreux problèmes techniques, notamment celui des capping [terme utilisé dans
la publicité en ligne pour désigner la limitation du nombre de fois où l’utilisateur voit une
publicité.] Les erreurs techniques et approximation autour du capping résultent souvent en
une inondation de publicités intentionnellement non contrôlée. Trop souvent, les publicités
ciblées sont mises en ligne seulement motivée par la possibilité de le faire. Parce qu’un espace
peut être acheté, que la donnée est accessible, alors l’envoi d’une publicité ciblée serait
justifiée. C’est cette logique qui mène à la déception des utilisateurs. Une publicité ciblée doit
prendre en compte la fréquence (le capping) mais aussi le contexte. Les internautes sont plus
enclins à cliquer sur une publicité lorsqu’ils se trouvent sur un site auquel ils font confiance
63
par exemple. Pour ne pas être contre-productif, le ciblage comportemental doit être
contextualisé et respecter le seuil de tolérance des utilisateurs.
Ce seuil de tolérance, cette intrusion dans la sphère privée, n’est pas toujours compris.
C’est le cas notamment du magasin Target aux Etats-Unis1
. Target est un détaillant vendant
des produits extrêmement diversifiés, de l’alimentation au divertissement en passant par les
produits d’hygiènes. Il est donc possible, et c’est l’ambition de Target, de faire de ce
supermarché un lieu unique, où le consommateur pourrait procéder à tous ces achats. Hors, le
comportement des utilisateurs prouvent le contraire, on a tendance à aller chercher des
produits dans différentes enseignes diversifiées. La direction marketing du magasin a donc
pensé que s’il ils arrivaient à changer les habitudes de consommation dans un moment crucial
d’une vie, à un des rares moments où le parcours client est modifié, alors ce client resterait
fidèle. Ces moments où les habitudes de consommation changent son rare dans une vie, mais
pour les commerçants et publicitaires, ils sont cruciaux. Les consommateurs se rendent à
peine compte du changement, puisque leurs habitudes de consommations sont concentrées
dans une routine. Lorsque la routine change, qu’ils se marrient, déménagent, divorcent, etc,
alors ils sont naturellement plus enclins à changer de routines de consommations. C’est à ces
moments-là que les consommateurs sont le plus « vulnérables aux interventions marketing ».
Si la publicité est envoyé au bon moment, dans le bon contexte, alors il y a une chance que la
routine prenne le chemin indiqué. Parmi ces moments, l’arrivée d’un enfant fait partie d’un
des bouleversements majeurs. Target a donc pensé qu’il fallait agir au plus vite, avant que
cette femme ne fasse le choix délibéré de changer ses habitudes de consommation, il fallait
induire son choix, en lui prouvant que Target était le lieu où elle pourrait satisfaire toutes ses
nouvelles habitudes d’achat.
Target est une enseigne qui a mis en place un très lourd service de fidélisation et de
connaissance des consommateurs depuis longtemps. Chaque consommateur qui a déjà payé
avec une carte bleue, ou ayant une carte de fidélité, ou ayant communiqué une adresse mail,
se voit assigné une « Guest ID card », c’est-à-dire un fichier client où toutes ces actions sont
gardées précieusement. Ainsi, les data-scientists ont découvert qu’il était possible d’identifier
une femme enceinte à son deuxième trimestre en analysant son panier d’achat. Des produits
qui pris séparément n’avaient aucune cohérence révélaient en fait un schéma corrélatif qui
1
Joel Lovell, « How companies learn your secrets”, NY times, Février 2012
[Disponible :http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?pagewanted=all&_r=0]
64
permettait d’identifier qu’une femme attendait un bébé. L’identification de ces produits
permit aux équipes d’attribuer à chaque consommateur un score de « prédiction de
grossesses » (pregnancy prediction) et même avoir une estimation de la date prévue de
l’accouchement. Ces informations, couplées avec les autres habitudes de consommation
connues sur la cliente permettait à Target de préparer une adresse au consommateur
extrêmement personnalisée. A chaque stade de la grossesse, un bon de réductions pouvait être
offert, compris dans un parcours client qu’on pouvait identifier comme correspondant aux
habitudes et désirs de cette femme. (Ouvre-t-elle les mails qu’on lui envoie ? Fait-elle ces
courses le week-end ou tard le soir ?)
Ainsi, l’analyse des données des consommateurs et des habitudes dans le parcours
d’achat, permet à des entreprises telles que Target d’en savoir beaucoup sur ses clients, et
d’agir en conséquence. Mais un problème s’est vite posé face à l’efficacité de cette méthode
de prédiction de maternité. Comment la femme pouvait-elle bien réagir si on annonçait une
grossesse alors qu’elle-même n’a communiqué aucune information ? Target ne s’est pas
préoccupé de l’intrusion dans la vie privée que représentait cette nouvelle, et a connu
quelques dégâts face à des réactions de consommateurs et de proches choqués d’apprendre
une grossesse par le biais de leur supermarché.
Target est un exemple d’intrusion dans la vie des consommateurs par des marques tourné
vers une logique d’efficacité qui vire parfois à l’enfermement des consommateurs.
Nous avons dénoncé comment le marketing prédictif et les logiques algorithmiques pouvaient
avoir un impact sérieux sur les possibilités de choix des individus et les capacités
d’entendement. Lorsque l’acte marketing est trop éloigné de l’état d’esprit du consommateur,
qui ignore être suivi, observé, convoité, alors il arrive une rupture de confiance. Comment se
fait-il que mon supermarché sache que sa fille soit enceinte avant son père ? Pour éviter ces
débordements, il est important de mesurer la portée de ces actes, et de jouer de manière fine
avec les informations, les insights, fournies par les données. Cette conscience des réticences
encore existantes des consommateurs permet d’éviter l’hubris du marketing prédictif et assure
des campagnes qui touchent mieux les consommateurs. Mais, on peut aussi plaider pour un
marketing plus éthique, qui remet du pouvoir aux consommateurs, dans une relation plus
équilibrée. Deux tendances sont actuellement en développement, nous les explorons dans nos
recommandations.
65
B. RECOMMANDATIONS : LE CONSOMMATEUR-ACTEUR.
1. TRANSPARENCE ET PEDAGOGIE POUR REDONNER LE POUVOIR A L’UTILISATEUR
Puisque rares sont les sujets si proches de la science et de l’informatique qui ont eu
autant d’influence sur les décisions prises en entreprises, il est nécessaire de le rendre
accessible au plus grand nombre. Un des enjeux de cette double casquette réside dans
l’acceptation de la technique par un public non scientifique. Afin de rendre la donnée «
palpable » et afin de faciliter la compréhension des données, de nombreux efforts se font
autour de la visualisation de celle-ci, à travers de nouvelles interfaces et médiations.
Emmanuelle Garnaud-Gamache se pose d’ailleurs la question :
Comment en effet imaginer de rester dans le cadre contraint de l’écran d’ordinateur et de la
souris quand on manipule de telles masses de données1
?
De nouvelles technologies, telles que la réalité augmentée ou la réalité virtuelle permettent de
faciliter la navigation et rendre le travail de l’analyste plus souple. Cette transformation de la
donnée par son support s’effectue au premier niveau – alors qu’elle est encore brute et non
analysée – mais une deuxième transformation s’opère lorsque les données analysées et
croisées sont livrées à un public plus large. Il s’agit de la data-visualisation en elle-même, des
infographies et des cartographies. La donnée chiffrée se traduit, pour des raisons pratiques de
compréhension, en objet qualitatif, voir artistique.
Ces supports sont cruciaux pour faciliter l’adoption de la data dans les milieux
professionnels et dans la société. Puisque les données disent quelque chose de notre monde et
sont sources d’un savoir jusqu’ici inconnu, il importe qu’elles puissent être manipulées par
ceux qui en tirent des conclusions puis comprises par le destinataire final, le public, quand il
en est question. Une infographie doit fournir une information « interprétable, pertinente et
novatrice ». Ces trois critères sont essentiels afin que la cartographie ne devienne pas
1
INfluencia n°9, « La Data »
66
seulement un art de « la donnée pour la donnée », dans une logique stérile de mise en avant
des chiffres. Sa première qualité est d’être interprétable, lisible et claire pour le plus grand
nombre. Sa deuxième est d’être pertinente, que les chiffres mis en avant répondent à une
problématique métier. Elle doit aussi être novatrice, c’est-à-dire qu’elle doit mettre en avant
de nouvelles perspectives grâce à son agencement.
Deux paradigmes de notre temps se font ici face : celui du règne du quantitatif et celui
du culte de l’image. Depuis la Société du spectacle de Guy Debord et jusqu’à l’avènement des
réseaux sociaux, l’image est partout et est érigée en loi suprême des systèmes médiatiques.
Alors pour que les études quantitatives fassent leur entrée dans ce système d’information et
être lue, appréciée, partagée, la data est aussi transformée en image.
De nouveaux métiers apparaissent et les designers se font professionnels de
l’infographie et de la data-visualisation. Celle-ci est utile en tant qu’elle permet de mieux
gérer des masses de données auparavant inintelligibles mais elle permet aussi de vulgariser la
pratique et sert d’argument commercial. Les dashboards produits par les agences digitales
sont utiles pour montrer à une direction marketing les incohérences, ou atouts, de leurs
marques, révélées par la data. La data-visualisation est un médium qui permet de casser un
discours trop rêche pour lui donner relief et perspective. C’est en quelque sorte le « story-
telling » accolé à la data. Une des faiblesses de la donnée utilisée en entreprise aujourd’hui est
qu’elle est souvent collectée et analysée et rarement mise à profit. La data-visualisation
permet de faire passer des messages, et non plus seulement des chiffres.
En plus d’être utilisée pour faciliter la prise de décisions en entreprise, la data-
visualisation peut être une technique pédagogique à des fins de transparence et de reprise en
main de leurs données par les utilisateurs. Cette pratique, pas encore développée mais déjà
pensée par certains chercheurs s’inscrit dans un mouvement appelé «Human Data Interaction
», qui serait une extension de la « Human Computer Interaction » dans lequel s’inscrit la data
visualisation. En effet, cette dernière permet de faciliter et d’encourager l’interaction des
utilisateurs avec la machine. La HDI serait une manière pédagogique d’exposer aux
utilisateurs les données qu’ils livrent. En effet, sur le net, l’architecture, le design, sont des
objets de contexte et d’environnements qui sont décisifs. Nous avons déjà soulevé ce point
lorsque nous avons évoqué les cases pré-cochées ou les paramètres de confidentialités peu
67
lisibles. La data-visualisation accessible par tous les utilisateurs serait la première étape vers
plus de maîtrise des données personnelles.
Une des questions auxquelles la science de l’HDI voudrait répondre est « comment les
données peuvent-elles être utilisées afin de bénéficier et aux individus, et à la société ? ».
Les théoriciens de l’HDI mettent ainsi en avant ce principe : « HDI place l’humain à la place
où il devrait être, non pas comme une partie-prenante du système mais à son centre »1
Le but de l’HDI est de donner à l’individu une plus grande maîtrise de la visibilité, de
l’étendue et des usages liés à leurs données personnelles. La souveraineté de l’utilisateur
permettrait de redonner du contrôle, et ainsi de rééquilibrer les rapports de force. Une fois
éclairés sur les processus technologiques et la transformation de leurs données, les individus
seraient à même de choisir de manière consciente quels paramètres choisir.
2. LA VRM, POUR REPENSER LA RELATION CONSOMMATEUR
Dans la lignée de ses innovations mettant en avant l’aspect pédagogique, il est aussi
important de changer l’approche CRM (Client relationship management) qui déséquilibre les
rapports entre le consommateur et les marques. Nous l’avons démontré, l’individu a un champ
d’actions très limité quant à la maîtrise de ses données. Le principe du Vendor Relationship
Management (VRM) permettrait de rééquilibrer la relation et les interactions. En effet, la
transformation de la collecte de données en actif stratégique pour les marques a atteint la
confiance que les consommateurs avaient dans les marques, qui les traquent le plus souvent à
leur insu. L’exemple du détaillant Target faisant office d’exemple majeur. Une des réactions à
la dégradation de ce contrat de confiance résulte en une baisse de fidélité. En réaction, les
marques pratiquent un management de l’enfermement, de verrouillage de clients ou même de
manque de transparence sur l’utilisation des données, autant de pratiques qui ne font
qu’endommager encore plus la relation client. Adopter une approche VRM, c’est adopter une
règle simple : si l’entreprise sait quelque chose sur moi, alors le consommateur doit le savoir
aussi.Doc Searl pose les bases de cette pratique dans Le Manifeste des évidences.
Selon lui, Internet permet aux consommateurs de faire pression de manière collective sur les
entreprises. Cette nouvelle forme de pouvoir doit s’accompagner d’une nouvelle manière de
penser les interactions. Celles-ci doivent être régies par des principes de transparence.
1
Challenges & Opportunitites in Human-Data Interaction, Mortier.R, Haddadi.R, Tristan. R
68
Trois étapes sont donc essentielles à l’adoption d’une pratique VRM :
- Faire accepter aux entreprises que lorsqu’elles disposent de données, le consommateur doit y avoir
accès
- Créer une série d’outils pour que les consommateurs puissent stocker, se servir de ces données les
exploiter et les visualiser
- Inventer des services permettant de créer de la valeur autour de ces données, pour se connaître soi-
même, pour mieux consommer, pour transformer la relation que nous avons avec les marques ou les
entreprises1
Le dernier point faire entrer la VRM dans un cercle vertueux, où chaque partie-prenante
trouve quelque chose à y gagner.
Si les données personnelles sont accessibles à l’utilisateur, qu’il y trouve une certaine
valeur, une utilité, qu’il peut maîtriser les services qui y sont associés, alors il sera plus enclin
à fournir des données de qualité. En effet, une des limites les plus prégnantes de l’analytique
aujourd’hui réside dans la piètre qualité des données. Si l’utilisateur se fait lui-même
contrôleur de qualité, alors l’entreprise pourrait peut-être enfin atteindre l’objectif de
personnalisation et de service optimal. Les avantages sont nombreux à la fois pour les
entreprises et pour les acteurs publics : ils recréent de la confiance, fidélisent les utilisateurs et
peuvent même créer de nouveaux types de service.
La possibilité de créer des usages de la Big Data plus respecteux de l’individu
conditionne son avenir. Les utilisateurs étant au coeur de ce processus, il serait dangereux de
les négliger et de sous-estimer le pouvoir des consommateurs. Acteurs de la société, matière
première de la Big Data, il est urgent de redéfinir leur place au sein de ce nouvel écosystème.
3. UN ESPRIT D’INNOVATION
Le dernier enseignement de la Big Data dans des problématiques métiers que
nous abordons ici se situe au niveau technique mais touche surtout l’idée selon laquelle ces
innovations ouvrent un monde de possibilités. Un des bouleversements majeurs opéré par la
banalisation des techniques d’analyse en temps réel et de la nouvelle relation au
consommateur se situe au niveau de l’innovation. Un des principes au coeur d’Internet est
l’amélioration constante.2
Le succès d’Amazon et de Google tient en effet à leur capacités à
1
Data Business, La VRM redonne le pouvoir aux utilisateurs [Disponible : http://www.data-
business.fr/le-vrm-consommateur-reprend-le-controle-sur-ses-donnees/]
2
de la Porte Xavier, InternetActu, 2011, “l’histoire de l’innovation contemporaine, c’est les big data”
(disponible : http://www.internetactu.net/2011/11/28/lhistoire-de-linnovation-contemporaine-cest-les-big-
data/)
69
tester, développer, innover en temps réel. Ces entreprises fonctionnent sur des programmes
d’expériences. Celui d’Amazon, apellé “A-B”, consiste à toujours mettre en ligne deux
versions de son site internet, attendant le résultat des statistiques pour décider du meilleur.
Nous avons souligné les limites d’un système de pensée libérée de la théorie, qui ferait une
confiance aveugle aux chiffres. Mais ce nouveau paradigme peut être bénéfique à des
entreprises qui adopteraient l’idée que l’expérimentation est le premier moteur de
l’innovation. La mentalité de l’entreprise, son système organisationnel et même de
management s’en trouvent changés. Les nouvelles technologies ont permis de réduire le temps
du cycle “hypothèse-experience” et ont permis de répandre l’état d’esprit des inventeurs, pour
qui les échecs, les tentatives, sont le meilleur terreau de la réussite.
En conclusion, nous avons vu les limites liées aux usages marketing des technologies
de ciblage comportemental et de profilage des individus, qui s’ils atteignent parfois une
performance maximale en terme de techniques, tendent à rompre la relation du consommateur
avec la marque. Nos recommandations ont pour but de mettre en avant des pistes pour des
usages plus éthiques, plus équilibrés et donc qui bénéficieraient à la fois à la marque et à ses
consommateurs. Le marketing n’est qu’un seul des nombreux domaines d’applications de la
Big Data mais il est exemplaire de la dichotomie de cette technique, à la fois pleine de
promesses et de dangers. Il renferme à la fois les opportunités immenses liées à la technique,
telles que la meilleure connaissance du client, et ses limites, liées à la trop grande confiance, à
l’hubris technique qui se fait parfois au détriment de l’individu.
70
CONCLUSION
Notre travail a mis en lumière les relations complexes de l’individu et de la
technologie dans la pratique de la Big Data. Le système normatif créé par la Big Data comme
science de la performance entretient en effet des relations ambivalentes avec l’individu. Alors
que l’idéologie scientifique, positiviste, voudrait s’en défaire, on a vu que celui-ci avait une
place prédominante dans la production du savoir. A la fois émetteur des données analysées et
cible des usages marketing, celui-ci est au cœur du processus de création de cette science du
réel. Nos trois hypothèses ont chacune été utiles à tracer les contours de cette relation.
Notre première hypothèse posait la Big Data comme une technologie si
révolutionnaire qu’elle opérerait un changement de paradigme du savoir tel que les anciennes
méthodes seraient obsolètes. L’analyse à la fois des usages liés à la technique et des discours
qui l’accompagnent nous a permis de nuancer ses propos et de déconstruire la mythologie qui
lui est liée. Les fantasmes et représentations liés à la science nourrissent en effet le fantasme
d’un savoir objectif, qui se libérerait des biais liés à l’humain. Nous avons vu que la Big Data
opérait en effet un changement de paradigme, mais que celui-ci était aussi miné par d’autres
biais. L’analyse des pratiques analytiques nous a permis de démontrer que les données « pures
» n’existaient pas, et qu’il était dangereux de minimiser le rôle de l’interprétation des résultats
quantitatifs. En considérant l’objet technique comme faisant partie d’un système plus large,
prenant part à l’acceptation d’un système de valeurs néo-libéraliste, nous avons pu observer
que la Big Data était façonnée dans une culture donnée, et donc sujette à des déformations et
distorsions.
Au niveau épistémologique, la Big Data tente de faire abstraction de l’individu mais la
deuxième hypothèse démontre que l’individu est au contraire au cœur du processus, en étant à
la fois l’objet (la matière pure) et le sujet (la connaissance). Nos observations s’efforçent de
mettre en avant les bouleversements de l’apparition de cette technique dans la formation de
nos identités. Le paradoxe de l’identité est ici double : entre exposition et repli de soi, et entre
71
augmentation et perte de soi-même. La numérisation de nos vies a en effet modifié les
conditions de constitution de nos identités. Dans un internet en « clair-obscur », les individus
se forment et les images se font et se défont. L’exploration des usages de collectes de
données, de ses pratiques et des logiques de banalisations, nous a aussi permis d’affirmer que
l’identité construite à travers les « empreintes » digitales était un miroir déformant d’une
réalité qu’il lui échappe. Les conséquences sur la formation des identités mais aussi sur la
connaissance extérieure, a encore une fois servi à comprendre la Big Data comme un
phénomène total, dépassant le seul cadre de la recherche ou de la science.
La dernière hypothèse se concentrait sur l’individu dans son rôle de consommateur.
Les nouvelles pratiques du marketing, que ce soit le marketing web ou la technologie mis à
disposition de la CRM, ont permis au marketing d’approcher une nouvelle sphère : celle de la
personnalisation, de l’approche en temps réel, mais ont aussi endommagé la relation des
marques à leurs clients. Nos recommandations ont mis en avant des solutions pour développer
un marketing respectueux de l’individu. Ces nouvelles pratiques permettraient non seulement
de repenser les relations aux marques, mais aussi de faire prendre conscience aux utilisateurs
que chaque pratique en ligne est aujourd’hui liée à un usage Big Data, que les données sont la
monnaie courante, et qu’il est essentiel pour l’équilibre des échanges, que celles-ci reviennent
aux consommateurs.
La Big Data est un phénomène de société qui opère des transformations souterraines,
mais qui impactent la société et les individus d’une manière pérenne. Elles créent de
nouvelles méthodes de recherche, nouvelles offres, nouveaux services, nouveaux métiers.
Notre propos, tout au long de nos recherches, a été concentré sur l’imbrication de la
technologie et de la société. La Big Data, au-delà du phénomène de mode, est un phénomène
social et culturel. La pédagogie quant aux opportunités mais aussi quant aux limites de cette
innovation est une étape essentielle pour choisir le futur dans lequel nous allons vivre. Les
données produites par l’humanité sont aujourd’hui précieuses, il est important de prendre la
mesure des choses, mais cela ne se fera pas sans le concours des acteurs du domaine. Nous
avons évoqué les rapports de force entre le quantitatif et le qualitatif, le privé et le public, les
identités et l’identité, les marques et les consommateurs.
72
Les données en elles-mêmes, dans une perspective plus pragmatique, et touchant au
domaine du droit, sont manipulées dans l’ombre. De nombreux problèmes juridiques se
posent face à l’hégémonie américaine dans le domaine du stockage de données. Les serveurs
étant situés aux Etats-Unis et les acteurs majeurs dans la Silicon Valley, on se trouve ici face
au déséquilibre majeur de la Big Data. Qui y a accès ? Dans quel but ? Les révélations de
l’affaire Snowden l’année passée ont fait se lever quelques voix face aux dangers que
représentent cette concentration des pouvoirs. Chris Anderson prévoit la « fin de la théorie »,
nous avons su nuancer ses propos dans notre analyse, mais d’autres Cassandre prévoient
aujourd’hui la « fin de la politique » face aux ambitions des géants de la technologie voulant
mettre en place une « régulation algorithmique », un type de gouvernance par l’algorithme
qui, grâce à ses capacités prédictives et à la boucle de rétroaction, pourrait régler les
problématiques de santé et de sécurité. La déconstruction du mythe de la Big Data nous donne
quelques clés pour comprendre les implications de ce type de modèles. Nous allons tenter de
les analyser à la lumière des constatations de nos deux premières hypothèses (la troisième
étant strictement liée au domaine du marketing).
Selon la première hypothèse, le changement de paradigme dans la pratique de la Big
Data, qui renverse la démonstration déductive, et ne s’attarde pas sur les causalités mais
seulement sur les effets, aurait des conséquences extrêmes dans la perspective d’une
régulation algorithmique. La liste exhaustive et l’analyse des effets n’a pas sa place dans cette
conclusion, mais on peut noter que les biais relevés lors de nos observations, ainsi que la
possible politique discriminatoire, ou même les simples erreurs, seraient les défis de ce monde
régulé par la science prédictive des datas.
La place de l’individu dans cette ère du non-politique est aussi mise en question. Quels
sont les fondements moraux d’une société où agir dans le cadre de la loi n’est plus un choix
mais où les comportements sont automatiquement poussés vers le bien ? Sur quels critères les
algorithmes prédictifs désigneraient les individus suspects des autres ? La régulation
algorithmique est aussi une gouvernance du possible, et donc déterministe.
Ces questions sortent du cadre de notre recherche mais sont au cœur des
problématiques futures de la Big Data. Les efforts produits aujourd’hui pour rendre la
technologie plus performante prédisent une accélération dans l’utilisation de nos données et
dans la banalisation de la collecte. Il est nécessaire de s’assurer du bon usage de celles-ci pour
créer, utilisateurs et entreprises ensemble, le monde de demain.
73
Bibliographie
Corpus
- Analyse sémantique
Anderson, Chris, The End of Theory: The Data Deluge Makes the Scientific Method Obsolete,
Wired magazine, Juin 2008
- Etude de cas IBM
Site Internet IBM - www.smartcities.com
IBM smarter world illustration : voleurs de banque
Noma Bar et Tanya Holbrook pour IBM
IBM ad with a purpose, IBM & Ogilvy France
- Etude de cas “Target”
Duhigg Charles, “How companies learn your secrets”, NY times, Fév 2012
- L’outil GraphSearch de Facebook
Via Tom Scott, Tumblr, actual facebook graph searches
Ouvrages bibliographiques et analytiques
Ouvrages théoriques :
Boyd, D & Crawford, K. (2012). Critical Questions for Big Data, Information,
Communication & Society. 15 (5), p662-679.
Cardon, Dominique, 2010, La démocratie Internet, Broché
Kranzberg, Melvin 1986, Technology and History: ‘Kranzberg’s laws’, Technology and
Culture, 27
Jeanneret, Yves, Y-a-t-il (vraiment) des technologies de l’information ? Villeneuve d'Ascq,
Presses universitaires du Septentrion, coll. « Savoirs mieux », 2000
74
Rouvroy, Antoinette, Des données sans personne : le fétichisme de la donnée à caractère
personnel à l’épreuve de l’idéologie des Big Data, Selected Work
Savage, Burrows, 2007, The upcoming crisis of empirical sociology, SAGE publications
Tene, O & Polonesky, J. (2013). Judged by the Tin Man: Individual Rights in the Age of Big
Data. Journal of Telecommunications and High Technology Law. p351-477
Articles scientifiques :
Boyd, Danah. 2010. "Making Sense of Privacy and Publicity." SXSW. Austin, Texas, March
13.
Cotte Dominique, « Écrits de réseaux, écrits en strates », Hermès, La Revue 2/ 2004 (n° 39),
p. 109-115
FTC official website, (Dec, 2012), “FTC to Study Data Broker Industry's Collection and Use
of Consumer Data”, Commission Issues Nine Orders for Information to Analyze Industry's
Privacy Practices,
Challenges & Opportunitites in Human-Data Interaction, Mortier.R, Haddadi.R, Tristan. R
Mager, Astrid Algorithmic ideology, in Information, Communication & Society, 2012 p. 769-
787
Morozov, Evgeny “Is smart making us dumb?”, Wall Street Journal, Jan 2013
Grelley Pierre, « Êtes-vous postmoderne ? », Informations sociales 8/ 2006 (n° 136), p. 51-52
Podesta, J. Big Data: Seizing Opportunities, Preserving Values, 2014
Richard. N & King.J 2013, Standford Law Review
Rouvroy, A., Berns T, « Le nouveau pouvoir statistique - ou quand le contrôle s’exerce sur un
réel normé, docile et sans évènement car constitué de corps « numériques »…, Multitudes,
2010/1 n°40, p.88-103
75
Szadkowski, Michaël « Les résultats dérangeants de Graph Search », Le Monde, Janvier
2013
Sources documentaires
Battle, J. “The database of intentions is far larger than I thought”, Battelle media blogs, 2012
« Facebook et Apple pourraient subventionner la congélation d'ovocytes de leurs employées »
Le Monde Pixels, 14/10/2014
Holman Jenkins Jr., “Google and the search for the future”, The Wall Street Journal, Jan 2010
“It’s Official: Consumers Are Just Not That Into Retargeted Ads”, The Exchange Wire, Oct
2014
Jurgenson, Nathan 2014, “View from nowhere”, New Inquiry, March 2014
Laura Moy & Amanda Conley, “Paying the Wealthy for being Wealthy: The Hidden Costs of
Behavioral Marketing”, Privacylaw Berkeley, Mai 2014
Revue INfluencia n°9 « La data » Avril/Juin 2014
Winston Ross, “How much does your privacy worth?” Technology Review, août 2014
Tanzina Vega, “New ways marketers are manipulating data to influence you”, New-York
Times, Oct 2012
76
ANNEXES
Annexe n°1 – IBM Smarter planet
Publicités IBM « smarter planet »
Artiste : Noma Bar
Graphiste : Tanya Holbrook
77
IBM
« Ad with a purpose »
Ogilvy&Mather pour IBM
2013
78
Annexes n°2 – Graphsearch
http://actualfacebookgraphsearches.tumblr.com
79
80
Annexe n°3 - étymologie du mot « ordinateur »
Source : deslettres.com

Boissaye-Marine-M2MAG-mémoire

  • 1.
    UNIVERSITE DE PARISIV - SORBONNE CELSA Ecole des hautes études en sciences de l’information et de la communication MASTER 2ème année Mention : Information et Communication Spécialité : Management de la communication « La Big Data entre mythes et réalités : quand l’idéologie technique questionne l’identité personnelle » Préparé sous la direction du Professeur Véronique RICHARD Nom, Prénom : Boissaye, Marine Promotion : 2013-2014 Option : management de la communication Soutenu le : Note du mémoire : Mention :
  • 2.
    2 REMERCIEMENTS Je remercie MadameEmmanuelle Lallement et Madame Véronique Richard, qui ont rendu possible ce travail. Je remercie Monsieur Florian Malaterre, mon tuteur académique, pour l’intérêt qu’il a manifesté pour ce projet, ainsi que pour son suivi et ses suggestions avisées. Je remercie Mademoiselle Mélanie Roosen, mon tuteur professionnel, de m’avoir accompagné depuis les premières heures et jusqu’au bout de ma démarche. Merci aussi à Camille et à Lucile pour leur soutien et leur curiosité.
  • 3.
    3 RESUME Depuis les années2010, le « phénomène Big Data » a fait couler beaucoup d’encre. Il a été tour à tour associé à l’image de Big Brother, à un âge d’or du marketing ou encore à une « révolution du savoir ». De ces déclarations, il est difficile de discerner le vrai du faux, l’emphase de la justesse. Ce travail se donne pour but de déconstruire le mythe afin de mieux analyser l’objet. Pour parler d’une innovation technique qui touche le quotidien, l’angle choisi a été plus proche de nous : celui de l’interaction de la Big Data avec l’individu. Au cœur de la Big Data se trouve en effet les données fournies par les utilisateurs. Quelles sont les implications de la Big Data sur nos identités personnelles ? Les trois hypothèses énoncées permettent de mieux comprendre les interactions entre l’individu et les technologies de l’information et de la communication, à travers une approche épistémologique du phénomène, une analyse des représentations et des imaginaires, puis des limites dans les usages à fins commerciales. Algorithme Analytique Big Data Data-visualisation Epistémologie Identité Individu Internet Marketing Profilage Science Technique Technologie Webmarketing
  • 4.
    4 SOMMAIRE : Introduction…………………………………………………………………..p.6 I. Une« révolution du savoir annoncée » : une utopie à l’épreuve du réel. p 10 A. Analyse des discours et représentations de la « Big Data »………………………………………………………………….….p.11 1. Technologie et société 2. « La fin de la théorie » : analyse et déconstruction d’un discours utopique B. Approche épistémologique : «l’ère du pétabyte» et ses conséquences sur la méthode scientifique……………………………………………………...p.19 1. Les conditions de la « révolution du savoir » ? 2. L’algorithme, un système balancé entre idéologie technologique et logique capitaliste C. Etude de cas : IBM. Un discours de marque qui façonne les représentations et imaginaires de la Big Data…………………………………………..….p.26 1. L’entreprise, la marque et sa raison d’être 2. « Une planète plus intelligente », la technique au service du bien commun, analyse d’un discours et d’une stratégie de marque II. Les « empreintes digitales », facteur constituant des identités en ligne p. 28 A. Le paradoxe de l’identité en ligne: entre protection et projection p.34 B. « Les empreintes digitales » ou l’identité par les traces………….p.38 1. Les corps statistiques 2. L’acceptation par la banalisation et autres jeux sociaux qui mettent en tension l’identité C. Analyse d’une structure informationnelle: de la foule à l’individu p.47 1. Le fantasme de la prédiction 2. La personnalisation mènerait-elle à la réification ?
  • 5.
    5 III. Les limitesdu marketing personnalisé……………………………...p.53 A. Le marketing à la recherche d’un nouvel eldorado……………………p.53 1. Les promesses de l’essor de la Big Data et du perfectionnement des outils à l’épreuve du réel 2. Le marketing par la « différenciation » 3. Le marketing intrusif B. Recommandations : le consommateur-acteur………………………...p.66 1. Transparence et pédagogie pour redonner le pouvoir à l’utilisateur 2. La VRM, une nouvelle façon de penser la relation au consommateur 3. Une pensée de l’innovation Conclusion………………………………………………………………….p.71
  • 6.
    6 INTRODUCTION Where is thewisdom we have lost in knowledge? Where is the knowledge we have lost in information? [Où est passée la sagesse que nous avons perdue avec la connaissance ? Où est la connaissance que nous avons perdue avec l’information ?] T.S. Eliot Il est communément admis que l’avènement d’Internet a profondément bouleversé les usages et pratiques de la société moderne, en faisant émerger de nouvelles opportunités et nouveaux usages, avec leur lot de fantasmes et de représentations. Internet et les réseaux qui en ont émergé sont souvent considérés comme des outils majeurs : outils de la nouvelle démocratie participative ou de révolutions faites en ligne. Internet est une innovation du quotidien, qui a pour force majeure de connecter les individus entre eux, créant ainsi une nébuleuse de savoirs et connaissances. Le fonctionnement d’Internet est étroitement lié à celui des utilisateurs, clé de voute de la structure informationnelle d’Internet. L’individu est essentiel au fonctionnement du réseau, il le constitue. Mais cette vie en ligne n’a pas qu’une existence sur les écrans. De leurs interactions en ligne, les individus laissent des traces, des preuves de leur présence. L’analyse de ces traces est une science, une technique développée ses dernières années par des data-scientists. Récupérées à des fins marchandes, ou à des fins sécuritaires par les gouvernements, la Big Data est aujourd’hui très convoitée et attise désirs et fantasmes. Alors que le nombre de données générées augmentent tous les jours, de plus en plus d’attention est portée sur cette technique, de plus en plus d’investissements sont faits dans les entreprises afin de collecter les données et d’en comprendre la plus-value. Comment comprendre cet engouement ? En quoi la technologie associée à l’analyse des données de masse est-elle une avancée, non seulement scientifique aux usages variées et aux retombées diverses ? Tracer les contours de l’objet technologique peut tout d’abord aider à la compréhension du phénomène qui en résulte. Il s’agit tout d’abord d’identifier la nature et la spécificité des données appartenant à la Big Data. Celles-ci sont généralement catégorisées
  • 7.
    7 comme telles lorsqu’ellesrelèvent de trois critères, les trois « V », ou 3V. Cette grille de lecture est établie en 2001 par Doug Laney. Le premier V est celui du volume, c’est celui qui prime et donne son sens à l’expression « big ». La Big Data est en effet d’abord caractérisée par « l’explosion du volume de données, qui met à l’épreuve les infrastructures de stockage classiques des entreprises. » Cette explosion est due à la multiplication d’innovations technologiques qui permettent ces flux de données, de la carte bancaire, aux réseaux sociaux, jusqu’à l’Internet des Objets. La deuxième richesse de la Big Data, c’est sa variété. Les données collectées provenant de différentes sources et contenus variés, celles-ci contiennent différents types d’informations. Les données peuvent être des données structurées (historique de ventes, géolocalisation…) ou non-structurées (commentaires, textes, audio, vidéo). La multiplicité dans la nature des données permet une compréhension fine d’un traitement. La troisième caractéristique de la Big Data, c’est sa vélocité. Les progrès en analytique, notamment les algorithmes auto-apprenants, permettent d’intégrer de la donnée « en mouvement », non figée. Ainsi, la Big Data est définie comme « un ensemble d’innovations technologiques qui transforment profondément la façon dont les entreprises et les individus génèrent, transmettent, stockent et utilisent des données : massification des échanges de données (vidéo, texte, son, image), révolution dans le stockage (cloud-computing) et la structuration de données (NoSQL), progrès des techniques d’analyse, progrès des outils de visualisation de données… »1 . Cette définition met en valeur la composante technologique, et primordiale, de l’objet Big Data. Mais la définition plus théorique avancée par les chercheuses Danah Boyd et Kate Crawford met en lumière de manière plus fine les implications de la Big Data et présente l’objet comme un phénomène complexe, jouant sur plusieurs tableaux et à plusieurs niveaux. Nous définissons la Big Data comme un phénomène culturel, technologique, et universitaire, qui repose sur l’interaction entre : (1) La technologie : maximiser le pouvoir de l’ordinateur et la justesse des algorithmes afin de rassembler, analyser, relier et comparer de larges sets de données. (2) L’analyse : se plonger dans un set de données conséquent afin d’identifier des schémas (patterns) qui permettent d’énoncer (de souligner) des faits économiques, sociaux, techniques ou légaux. 1 Data Business,website “Big data definition” [disponible: http://www.data-business.fr/big-data-definition- enjeux-etudes-cas/]
  • 8.
    8 (3) La mythologie: la croyance répandue selon laquelle un set de données conséquent offrirait une forme supérieure d’intelligence et de connaissance qui pourraient générer des insights (perceptions) jusque-là imperceptible, augmenté d’une aura de vérité, d’objectivité et de justesse. 1 Le triptyque technologie-analyse-mythologie est lourd de sens : la technologie est le pilier de la Big Data, elle en est la matière. L’analyse, (quanti-quali) en est la condition sine qua non, celle qui donne du sens aux chiffres et érige la technologie en outil, technico-social. La mythologie qui y est associée nait à la fois du caractère très technique de l’outil et de ses usages très variés et impactant une variété de domaines. C’est donc l’intersection entre le matériel, la donnée, et son analyse qualitative qui est créatrice de cette mythologie évoquée dans le troisième point de la définition. Graphique qui met en perspective les trois aspects du big data inspiré de la définition de Danah Boyd & Kate Crawford. En effet, un des premiers effets depuis l’émergence de la Big Data est celui d’un bouleversement d’ordre de pensée. Etienne Klein, physicien et docteur en philosophie des Sciences, constate dans la revue INfluencia consacrée à la question : 1 “We define Big Data as a cultural, technological, and scholarly phenomenon that rests on the interplay of: (1) Technology: maximizing computation power and algorithmic accuracy to gather, analyze, link, and compare large data sets. (2)Analysis: drawing on large data sets to identify patterns in order to make economic, social, technical, and legal claims. (3)Mythology: “the widespread belief that large data sets offer a higher form of intelligence and knowledge that can generate insights that were previously impossible, with the aura of truth, objectivity, and accuracy.”
  • 9.
    9 On met deschiffres partout, qui viennent déposer comme des cendres sur le réel (…) Tout se passe comme si on avait peur de ce qui n’est pas mesuré ou – pire – de ce qui ne serait pas mesurable.1 Cet équilibre entre le mesuré et le non-mesurable sied véritablement à la sphère de la communication et du marketing, toujours en recherche de légitimité business. Mais cette vérité chiffrée est aussi applicable à un grand nombre de domaines dans la société, que ce soit la médecine, la politique, la biologie ou la gestion des catastrophes naturelles. La diversité de ses applications a pour conséquence qu’elle est aujourd’hui érigée en système, à travers un discours techno-centré. Les questions communes que posent l’accès à ces données se situent à un niveau axiologique : est-ce que l’utilisation de ces données va faire avancer l’humanité (et ses entreprises, biens et services) ou au contraire constituer un danger pour les citoyens du monde et utilisateurs d’internet ? Il ne s’agit pas ici de trancher cette question mais plutôt de déconstruire la notion de Big Data, en s’éloignant des discours utopiques ou dystopiques, et de tenter de comprendre l’interaction entre la technologie et l’humain à l’œuvre dans l’outil Big Data. Dans quelle mesure la Big Data et ses usages marketing sont-ils conditionnées par les savoirs que les individus ont d’eux-mêmes ? Quelles sont les limites du savoir et du pouvoir statistiques ? Cette problématique nous amène à interroger la place de l’individu à plusieurs niveaux et à avancer différentes hypothèses : Hypothèse n°1 : la Big Data parviendrait à créer une connaissance du réel objectif, à l’origine d’un renversement de paradigme dans la production de savoirs. Dans une approche épistémologique, on tentera de comprendre l’idéologie à l’origine de la mythologie de la donnée, liée à une prétendue objectivité de la science. Comment la technologie est-elle modelée par une mythologie et un système de valeurs qui la dépasse ? Quelles sont les tensions créées par cette idéologie à l’épreuve du réel ? Hypothèse n°2 : La constitution d’une « identité » en ligne serait fortement remise en question par l’existence des traces numériques 1 Revue INfluencia n°9 « La data » Avril/Juin 2014
  • 10.
    10 La deuxième partietentera de comprendre la place de l’individu dans un système qui semble à la fois le sublimer et le diminuer. Quelles sont les nouvelles modalités de constitution de notre identité dans un environnement connecté ? Quels impacts du « savoir par les traces » pour la constitution de l’identité – au niveau personnel mais aussi collectif ? Hypothèse n°3 : L’accès des marques à la Big Data modifierait la relation qu’elles entretiennent avec le consommateur, créant de nouveaux messages, de nouveaux liens. La troisième partie s’attachera à comprendre comment ces tensions et logiques se retrouvent dans un usage bien précis, celui du marketing personnalisé. Quelle est la place de l’individu dans cette nouvelle relation-client ? Comment la technique peut-elle s’associer à la créativité afin d’élaborer une relation de confiance ? Nous interrogerons ces trois hypothèses à travers différentes approches méthodologiques. L’analyse de discours sera mobilisée afin de déconstruire la mythologie associée à la Big Data et de comprendre les représentations de la technique dans la société. Une analyse sémiologique des communications de l’entreprise IBM, pionnière dans l’usage de la Big Data, nous permettra aussi de mieux cerner la place prédominante de l’objet technique comme objet publicisé, recherché, et précieux.
  • 11.
    11 I. LA «REVOLUTION DU SAVOIR » ANNONCEE, UNE UTOPIE A L’EPREUVE DU REEL Because more isn’t just more: more is different [Parce que plus n’est pas seulement plus : plus, c’est différent] Chris Anderson A. ANALYSE DES DISCOURS ET REPRESENTATIONS DE LA « BIG DATA » La première partie de notre analyse se concentre sur la Big Data comme phénomène à la fois technique et culturel. Un des présupposés de cette recherche consiste à comprendre l’innovation technologique comme s’intégrant dans un système, et donc comme un objet mouvant, qui se forme et se déforme au gré de ce que l’environnement extérieur lui greffe. Ses attributs, ses usages, ses biais, sont autant de composantes de la technique qui ne dépendent pas d’elle mais de sa compréhension dans une écologie sociale extérieure. Comment le fondement idéologique, les promesses, les idéaux et représentations ont-ils
  • 12.
    12 modelés l’objet BigData et ses usages ? Quelles sont les conséquences de la mythologie et des discours techno-centrés à la fois sur les pratiques et sur la société ? 1. TECHNOLOGIE ET SOCIETE Afin de comprendre l’ampleur du phénomène Big Data dans la sphère médiatique et communicationnelle, il faut comprendre que la Big Data, en tant qu’innovation technique, n’est pas un phénomène de mode mais bien une nouvelle technologie qui, comme cela est prédit souvent modifiera notre façon de « vivre, travailler et penser »1 et a déjà une influence sur nos vies jusque dans leurs quotidiens. Ces déclarations brutes et les discours dithyrambiques qui les accompagnent ne sont pas fausses, surtout lorsque l’on remet le phénomène dans une perspective plus large. En effet, la Big Data fait partie de ces progrès techniques qui sont importants parce qu’ils ont un impact sur l’écologie sociale. Cette interaction est en réalité constituante du progrès technologique en soi. Melvin Kranzberg, historien de la technologie, et auteur des 6 lois de la technologie, l’explique ainsi : La technologie n’est ni bonne ni mauvaise ; ni même neutre… L’interaction de la technologie avec l’écologie sociale est telle qu’il est fréquent que les avancées techniques aient des répercussions environnementales, sociales et humaines, qui aillent bien au-delà de la première utilité de ses appareils et pratiques techniques elles-mêmes.2 La première phrase, qui remet en cause la neutralité supposée de la technologie, est selon lui la première loi de la technologie. La dernière étant que la technologie est « une activité extrêmement humaine ». Ces deux assertions sont liées et sont importantes pour la compréhension du phénomène de la Big Data. Plus que d’être une application technique figée – la collection et l’analyse de données, structurées et non structurées, en grande quantité – la Big Data est un phénomène mouvant, et son utilisation est faite par les hommes : à la fois dans la production de données (par les utilisateurs) et dans sa réception et transformation (par des analystes, sociologues, journalistes, marketeurs et autres). L’analyse axiologique du phénomène selon laquelle le fait d’avoir accès et d’analyser ces données serait un ressort 1 “transform how we live work and think” (Cukier & Mayer-Schonberger, 2013). 2 «Technology is neither good nor bad ; nor is it neutral… technology’s interaction with the social ecology is such that technical developments frequently have environmental, social, and human consequences that go far beyond immediate purposes of the technical devices and practices themselves.” Melvin Kranzberg, 1986, Technology and History: ‘Kranzberg’s laws’, Technology and Culture, 27
  • 13.
    13 d’une logique dubien ou du mal, est une limite (Technology is neither good or bad). Mais son interaction avec la main humaine, son développement dans le temps, et sa finalité lorsque appliquée à des domaines d’études précis, sont autant de composantes qui font de la Big Data un phénomène technologique enclin à avoir un impact sociétal, économique et politique. Dans la mesure où c’est un phénomène technologique ayant une existence en dehors de son corps scientifique et purement technique, il s’inscrit dans la lignée du progrès dans son acceptation la plus large. En effet, l’utilisation de la Big Data est un progrès à bien des égards : que ce soit la médecine analytique, la personnalisation des services, l’usage militaire et gouvernemental, ou l’aide humanitaire, la Big Data a prouvé plus d’une fois son utilité dans la société. Mais la force créatrice, qui bouscule et renverse des systèmes entiers, n’est pas propre à la Big Data, mais à tout phénomène technologique lié à un usage de société. La technique, et ici la technologie, a le pouvoir de changer tout un système de pensée, son impact dépassant totalement son simple objet de départ pour s’instiller dans la société et le monde moderne d’une manière plus générale. Ainsi, Kate Crawford1 et Danah Boyd rappellent que Ford, en introduisant la mécanisation du travail et en changeant le processus de division des tâches, n’a pas seulement révolutionné la façon dont on construit les voitures, mais aussi la façon dont on travaille, notre rapport au travail et la société de manière générale. Ici, la Big data en tant qu’outil, est vecteur de changement jusque dans la représentation que nous avons du savoir, de l’information, du réel et des comportements sociaux des individus. En entreprise notamment, où elle est le plus prégnante pour le moment, elle sert trois objectifs majeurs : l’amélioration de l’expérience client, l’optimisation des processus et de la performance opérationnelle de l’entreprise et l’aide au business model. On parle de manière plus générale d’aide au processus décisionnel en entreprise. La Big Data ne se réduit donc pas à une technologie qui aurait en elle-même une fin et une application simple ; elle fait part d’un processus plus complexe et qui dépasse le domaine scientifique. C’est un «actif stratégique » qui établit un renversement de paradigme d’organisation que l’on nomme généralement «data- centric». En somme, les données quanti-quali fournies par l’analyse des données structurées et non structurées (données des entreprises et données en dehors des entreprises, transmises par les objets connectés) sont aujourd’hui à la source de beaucoup de processus d’analyses, de 1 Boyd, D & Crawford, K. (2012). Critical Questions for Big Data, Information, Communication & Society. 15 (5), p662-679.
  • 14.
    14 recherches et enentreprise, décisionnels. C’est cet écosystème qui mène les chercheurs à parler de « révolution du savoir » (Boyd et Crawford), de « fin de la théorie » (Anderson) ou à déclarer, comme Marc Andreesen – un des premiers innovateurs d’internet - que le « logiciel dévore le monde ». 2. « La fin de la théorie » selon Anderson, analyse et déconstruction d’un discours utopique L’article de Chris Anderson, rédacteur en chef du magazine américain Wired, « The End of Theory: The Data Deluge Makes the Scientific Method Obsolete », publié en 2008, est le premier d’une longue liste d’articles annonciateurs d’une révolution, d’un bouleversement sans précédent, construisant ainsi la mythologie de la data, ainsi qu’un discours l’accompagnant : parfois utopique, quelques fois sans nuances, mais surtout tracant les contours de l’objet Big Data telle que présentée et vécue dans la réalité. Une analyse du contenu de l’article qui a été au départ de l’effervescence médiatique mais aussi des investissements massifs et de l’intérêt grandissant pour la question, permettra de mieux comprendre le discours unifiant qui accompagne la Big Data, mais aussi de le déconstruire et de le remettre en perspective. Le titre et le contenu de l’article sont devenus au fil des années des références. L’effet annonciateur, prophétique, sans nuances mais totalisante, de ce qu’est la Big Data et de son impact sur le monde, semble en effet écrit pour marquer les esprits. Dans son article, Anderson prévoit « la fin de la théorie », le début d’une « nouvelle ère », et annonce que la méthode scientifique, ou les modèles auparavant utilisés sont déjà obsolètes face au « laboratoire de la condition humaine » qu’est le Big Data et l’analytique. Seuls des modèles, des équations cosmologique aux théories sur le comportements humains, semblaient capable d’expliquer le monde autour de nous de manière imparfaite mais cohérente. Jusqu’à maintenant. Aujourd’hui, des entreprises telles que Google, qui s’est développé dans une ère de données massives et abondantes, n’a pas à se contenter de modèles incorrects. En fait, ils n’ont pas besoin de s’accommoder de modèles du tout.1 1 Only models, from cosmological equations to theories of human behavior, seemed to be able to consistently, if imperfectly, explain the world around us. Until now. Today companies like Google, which have grown up in an era of massively abundant data, don't have to settle for wrong models. Indeed, they don't have to settle for
  • 15.
    15 Selon Anderson, lapuissance des données disponibles en masses et des algorithmes seraient telles que la théorie, les modèles scientifiques, n’aurait plus besoin d’être puisque les « mathématiques appliquées » et les « algorithmes agonistiques » sont bien plus puissants et justes. Anderson s’appuie sur l’exemple de Google, qui ne se rapproche en rien au départ d’une agence de publicité mais qui a « seulement supposé que de meilleures données, avec des meilleurs outils analytiques, allaient remporter la victoire. », pour finir en saluant la justesse de vue de Google : « Et google avait raison. »1 Anderson insiste sur l’idée que les statistiques non seulement révolutionne la méthode scientifiques, balayant les hypothèses, les analyses sémantiques, causales, qui ont été utilisés des siècles pour se concentrer uniquement sur l’analyse des Big Datas, qui « remplacent tout les autres outils. » et qui chassent « toutes les théories du comportement humain, de la linguistique à la sociologie. » La pensée d’Anderson est sur ce point radical. L’avènement du Big Data est selon lui un raz-de-marée pour la science. Mais sa confiance en la technique est telle qu’elle apparaît aussi sans nuances. Les hyperboles et les tournures sémantiques font perdre tout pragmatisme mais aussi toute mesure à Anderson qui va jusqu’à dire : « Avec assez de données, les chiffres parlent tout seuls. »2 . Anderson manque ici de rigueur intellectuel et trahit une pensée totalisante. Les données quantitatives issues de la Big Data ne se suffisent pas à eux-mêmes, ne s’expliquent et ne s’analyse pas sans l’aide d’un « data scientist », ou « data analyst. ». Nous reviendrons plus tard sur l’implication de ces analyses et sur la place de l’analyse, du contexte, et de l’expertise, dans le traitement des données. Mais cette formulation est déjà intéressante en tant qu’elle trahit des croyances et l’espoir mis dans le Big Data et ses possibilités : ce sont les mythes de la performance, de l’efficacité, et aussi de l’objectivité qui sont ici mobilisés. models at all.” Anderson, Chris, The End of Theory: The Data Deluge Makes the Scientific Method Obsolete, Wired magazine – Juin 2008. 1 It forces us to view data mathematically first and establish a context for it later. For instance, Google conquered the advertising world with nothing more than applied mathematics. It didn't pretend to know anything about the culture and conventions of advertising — it just assumed that better data, with better analytical tools, would win the day. And Google was right. 2 With enough data, the numbers speak for themselves.
  • 16.
    16 Anderson, en voulantdémontrer la puissance de l’usage des Big Data participe à créer un discours qui dépasse la seule constatation des avancées de la science et des bouleversements que celles-ci induisent. En louant les capacités d’analyse sans précédent des entreprises telles que Google, il leur alloue une puissance et un rôle nouveau, celui de nouveaux régulateurs, nouveaux maîtres du pouvoir, sans possibilité de contestation face aux pouvoirs techniques qu’elles contiennent. C’est ainsi que se clôt l’article d’Anderson, laissant entrevoir un renversement de valeurs et de nouveaux jeux de pouvoirs : « Il est temps de se demander : qu’est-ce que la science peut-elle apprendre de Google ? ». Ces déclarations ne sont pas seulement les symptômes d’un effet de mode autour du phénomène mais s’accorde avec la mythologie crée autour de l’Internet – père du Big Data – à la fois par ses créateurs et ses utilisateurs. Les métaphores utilisées pour désigner l’Internet telles que le « cyberspace ». Evoquée la première fois en 1984 dans un roman de William Gibson intitulé Necromancer, le mot a directement cristallisé les idéaux libertaires des pionniers d’internet. Dans sa déclaration d’indépendance du cyberespace, écrite par John Perry Barlow, un des hackers fondateurs d’Internet, le mot est choisi et décrit bien un espace hors des lois, utopique, où la navigation est totalement libre. « L’autoroute de l’information », expression poularisée par Al Gore transmet une idée d’une ampleur toute aussi importante, mais dans une vision plus polissée, de quelque chose de certes imposant (autoroute) mais simple et sans embûches (l’idée d’une route). Les mots et expressions associés au Big Data revêt les mêmes mythologies. L’adjectif Big en témoigne mais le « pétabyte age » d’Anderson nous mène encore plus loin. Le Big Data serait en lui-même une ère (age) et le mot technique « pétabyte » confère à celui-ci une aura technologique certes mais aussi obscure. Qu’est-ce qu’un pétabyte ? Les vocables tels que gigaoctets sont plus communément utilisés, mais n’appelle pas non plus de représentations clairs. Les « octets » sont les unités utilisées pour mesurer les quantités d’informations en informatique. Cependant, les octets, gigabytes, pétabytes, n’appellent à l’esprit de l’utilisateur lambda aucun ordre de grandeur. Par son manque de connaissance du langage dit geek, l’utilisateur lambda voit la chose sans nuances : dans sa grandeur presque totale, son immensité indescriptible. Ces expressions sont signes de l’euphorie et de l’émulation des médias en général sur la question. Cette excitation s’inscrit dans un discours qui a toujours accompagné Internet depuis ses balbutiements. Internet en tant qu’innovation « ordonnatrice du monde » a toujours cristallisée les fantasmes, idéologies et été au départ de visions utopiques et dystopiques qui
  • 17.
    17 sont aujourd’hui exacerbéespar le Big Data. On trouve en effet au cœur du projet d’Internet une utopie d’un monde où la connaissance et le savoir seraient démultipliés car mis en commun. En témoigne l’étymologie du mot ordinateur, signifiant du moins pour la France. Alors que François Girard, responsable du service de publicité d’IBM, cherchait une traduction au mot « computer », il demanda conseil à un professeur de linguistique de la Sorbonne (voir correspondance en annexe). Le mot ordinateur, avant de s’appliquer aux machines, avait à la fois un sens religieux, et était un adjectif désignant « Dieu qui met de l’ordre dans le monde. » Même si l’étymologie ne s’applique qu’à la France, les racines du mot témoignent d’un imaginaire de puissance démiurgique aujourd’hui associée au Big Data. Ce discours est nourrit à deux niveaux, le premier étant celui des acteurs du Web, premiers évangélistes, qui nourrit ensuite celui des médias. Les discours de la Silicon Valley – où évoluent les géants du web que sont Apple, Facebook, Google et Amazon (les GAFA) – ont pour point commun une vision particulière : le « solutionnisme », selon l’appellation du philosophe Evgeny Morozov. Dans son ouvrage « Pour tout résoudre, cliquez-ici », Evgeny Morozov dénonce l’internet-centrisme qui dévore la planète. En effet, sous l’impulsion des fondateurs des GAFA, un nouveau discours a pris place dans l’espace public, consistant à vouloir résoudre les problèmes du monde, aussi divers soient-ils, à l’aide de la technologie. Ainsi, et comme les unes des médias le décrivent, la Big Data pourrait résoudre les crises humanitaires, et les réseaux sociaux provoquer les soulèvements populaires les plus opportuns et provoquer des révolutions par des peuples tyrannisés. Ces évènements en marge étant la partie visible de l’iceberg, alors que chaque jour de plus en plus de décisions et d’initiatives sont prises à travers le prisme de la technologie et de la science. La récente annonce de Facebook et d’Apple1 , qui voudraient financer la congélation de leurs ovocytes de leurs employées afin de combler le fossé de carrières entre les hommes et les femmes, traduit cette croyance naïve en la toute puissante des solutions techniques à des problèmes à la fois biologiques et des problèmes de société (les problèmes d’évolution de carrière des femmes au travail). 1 « Facebook et Apple pourraient subventionner la congélation d'ovocytes de leurs employées » Le Monde Pixels, 14/10/2014
  • 18.
    18 Le « solutionnisme» décrit par Morozov emprunte son concept à un mouvement philosophique qui le précède, celui du positivisme d’Auguste Comte. Le précepte : « savoir pour prévoir, afin de pouvoir » prend aujourd’hui un relief spécial et semble se réactualiser. La Big Data est une science qui touche aux modalités du savoir, qui prétend accumuler ce savoir mais aussi en tirer de nouvelles capacités, de prédiction (l’algorithme prédictif en étant l’outil), pour finalement s’arroger d’un pouvoir. La Big Data « se vend elle-même comme une connaissance qui équivaut au pouvoir. »1 On retrouve ici la dialectique savoir-pouvoir foucaldienne, avec l’organisation panoptique qui s’ensuit. La croyance en la possibilité d’un savoir objectif, total, libérée de toutes contraintes humaines, confère à la Big Data un pouvoir s’en égal. Mais si l’on s’accorde à parler de renversement de paradigme dans la méthode de production du savoir, il est néanmoins nécessaire de comprendre les logiques qui régissent ces nouvelles pratiques, les règles au cœur de l’outil, et dans déceler les limites. Les pratiques de datamining (nous nous situons ici au niveau de l’analyse de l’objet Big Data en tant que pratique technique pure), contiennent déjà des approximations et entrainent des problématiques dans une réalité plus complexe et plus obscure qu’il n’y parait. B. Approche épistémologique : «l’ère du pétabyte» et ses conséquences sur la méthode scientifique 1. Les conditions de la « révolution du savoir » ? Le datamining est défini dans un document du United States General Office comme « l’application de la technologie et des techniques de banques de données (comme l’analyse statistique et la modélisation) dans le but de découvrir les structures cachées et les relations subtiles entre données, et d’en inférer des règles permettant la prédiction des résultats futurs2 . » Cette nouvelle méthode de productions de savoirs est permise par l’abondance et le caractère massif des données récoltées sur Internet. En effet, plus la masse de données est importante, plus le résultat semble pouvoir s’approcher d’un savoir objectif et total. Cette affirmation permet de comprendre l’emploi de l’adjectif « big » accolé à la « data » mais nous 1 Nathan Jurgenson, 2014, “View from nowhere”, New Inquiry 2 Cité dans : Rouvroy Antoinette, Berns Thomas, « Le nouveau pouvoir statistique », Multitudes 1/ 2010 (n° 40), p. 88-103
  • 19.
    19 éclaire surtout surle changement de rationalité à l’œuvre dans la pratique du datamining, ou exploitation de ces données. Kate Crawford, à l’instar de Chris Anderson et d’autres observateurs du phénomène, prédisent une révolution du savoir, causée par la banalisation de cette pratique. Tout d’abord, il convient de rappeler que le volume de données est exponentiel. Depuis le début de l’humanité jusqu’en 2003, le volume d’informations numérisées produit par l’humanité n’excédait pas les 5 exaoctets. Fin 2011, 5 exaoctets étaient générés tous les deux jours. Fin 2013, ce même volume est généré en 12 minutes. Nous entrons dans ce que Chris Anderson, ex-rédacteur en chef du magazine américain Wired, qualifie de l’ère du pétabyte. (« The Petabyte Age »). L’ère du Pétabyte, de la donnée reine, impacte tous les domaines du savoir dans leurs applications : gouvernementales, commerciales, universitaires… Mais selon Anderson, et on tentera d’en étudier les mécanismes et les effets, le datamining influe et modifie aussi le cœur de sa matière : la science-même. Comment un changement quantitatif – le nombre de données disponibles – peut-il induire un changement de paradigme dans la production de savoirs et la recherche ? Antoinette Rouvroy et Thomas Berns nous éclairent sur la question. En effet, la production de savoir par le biais de la Big Data diffère totalement des logiques de raisonnements jusqu’ici utilisées en recherche. Le modèle est inversé, et l’on passe d’une logique déductive à une logique inductive. Rompant avec les ambitions modernes de la rationalité déductive reliant des phénomènes observables à leurs causes, la rationalité statistique suit une logique inductive bien particulière dès lors qu’elle tire sa force du traitement automatisé d’informations dont la seule qualité est l’aspect massif : indifférente aux causes des phénomènes, cette rationalité s’ancre dans l’observation purement statistique de corrélations (indépendantes de toutes logique) entre données recueillies d’une manière absolument non sélective dans une variété de contextes hétérogènes les uns aux autres.1 Ici, c’est bien la quantité de données qui est à l’origine d’un renversement d’un ordre de pensée : plutôt que de s’appuyer sur un phénomène observable pour en déduire un 1 Ibid
  • 20.
    20 système, on s’appuiesur le système observé pour en comprendre, en induire des comportements. Ainsi, puisque le résultat (le système) se trouve au départ de l’enquête, on semble éviter tout risque de biais réservé à la méthode déductive. En passant de la déduction à l’induction, la méthode de production de savoirs abandonne de nombreux prérequis pour s’approcher d’une objectivité totale et d’une rationalisation extrême. On soulignera que Rouvroy définit les corrélations comme « indépendantes de toute logique », que les données sont elles-mêmes « non sélectives », les contextes sont « hétérogènes ». Ce corpus de données serait à l’échelle de l’intelligence humaine totalement intraitable, la spécificité du traitement automatisé résidant dans son absence de jugement causal et de justifications des comportements. La data prime sur le contexte. Les penseurs du Big Data, cités au préalable, clament tous le même refrain : le nouveau modèle de production de savoirs par la donnée tue la méthode scientifique, et le monde théorique connu jusqu’à présent. Savage et Burrows1 , deux sociologues anglais, préviennent du danger et de la crise imminente de la sociologie empirique due à des méthodes qualitatives, de terrains, qui perdent en valeur face à la prolifération de données qui assurent d’une efficacité toute autre. L’ampleur du phénomène, la puissance créatrice de l’outil, le caractère inédit du phénomène sont autant de variables qui font naître des discours scientistes, qui mettraient de côté toute intervention humaine à l’heure où la machine règne, et où « les chiffres parlent d’eux-mêmes. »2 . Une assertion à remettre en perspective. Les sciences humaines, sciences « molles » ont souvent été critiquées comme étant du domaine du subjectif : sujettes à l’interprétation personnelle, à la fabulation et à l’approximation, tandis que les sciences « dures » relèveraient du domaine du réel, de l’objectif et de l’irréfutable. Avec l’essor de la Big data et de son application à propos de sujets de recherche sociologiques, les « humanités » se targuent d’un nouveau pouvoir scientifique et objectif qui leur était jusqu’ici refusé. Mais comme nous l’avons déjà souligné, les chiffres ne « parlent pas d’eux-mêmes » et même si la matière et les techniques de recherche ont changé, l’interprétation de la matière est encore nécessaire ainsi que la transformation de celle-ci. La science seule ne fait pas tout. La donnée pure est une notion absurde, les données sont croisées, contextualisées, analysées, afin d’être utilisables. Le quantitatif et le qualitatif s’entrechoquent. Un des problèmes les plus saillants de l’usage de la 1 Savage, Burrows, 2007, The upcoming crisis of empirical sociology, SAGE publications 2 Chris Anderson, loc.cit
  • 21.
    21 donnée en marketingest d’ailleurs de recruter des data analysts, ces travailleurs hybrides, au profil à la fois informatique, scientifique et marketing, sciences humaines. 90% des postes de data analysts postés en 2011 sont encore viables en 2014. La foi aveugle en une vérité chiffrée et objective se heurte donc à des réalités plus triviales, celles des ressources humaines, mais aussi extrêmement pragmatiques. « Tous les chercheurs sont des interprétateurs de données »1 nous disent Boyd et Crawford. En effet, les chiffres n’ont pas de sens sans acte interprétatif et l’idée de « raw data » (data pure) est ineffective puisque les données doivent être « cuisinées » pour rendre compte d’une réalité. Quelque fois, le manque de contexte entraîne des erreurs d’interprétation qui mettent en péril l’usage systématisé des données en grande quantité. Capture d’écran d’une des corrélations absurdes exposée sur le site http://www.tylervigen.com/ Cette question se pose notamment lors des analyses produites par Facebook. Les informations partagées sur Facebook sont en partie des énoncés textuels, comprenant des « statuts » et des « commentaires » partagés par les utilisateurs. L’analyse de ceux-ci, aussi fine soit-elle, ne parvient pas à déceler l’ironie et le sarcasme, deux réflexes de langage impossibles à détecter à l’aide de machines, ce qui mène invariablement à des erreurs 1 “all researchers are interpreters of data” (boyd et Crawford, idem)
  • 22.
    22 d’interprétation. Les interactionshumaines se font à plusieurs niveaux et il est très difficile d’en déceler toutes les subtilités par une analyse uniquement quantitative. En 2013, Facebook a mené une recherche auprès de ses utilisateurs pour tenter de découvrir si la vue de certains contenus sur le site pouvait affecter leur humeur. Mais, outre les questions éthiques posées lors de cette recherche faite à l’insu des utilisateurs, une question technique s’est posée. Par exemple, les phrases « I don’t feel happy » et « I feel happy » comptaient réciproquement comme des statuts « positifs » puisque les deux contenaient le mot « happy ». Cette erreur grossière n’est peut-être pas l’apanage de toutes les recherches faites à l’aide de data analysis, mais une des questions soulevées par cette anecdote est la couverture médiatique dont elle a bénéficié ! La publication des résultats a en effet engendré une folie médiatique autour de l’affaire, les résultats étant très rarement remis en cause. Les chercheurs ayant pris la peine de se plonger dans l’analyse des résultats produits par la Big Data ont donc démontré que les données en masse ne font pas tout et qu’il serait dangereux d’avoir une foi aveugle en cet outil. Mais cette conséquence de premier niveau, qui se situe dans le spectre de la recherche et reste en soi une querelle scientifique, a en réalité des conséquences bien plus larges, toujours dans cette idée déjà évoquée que technique et culture ne font qu’un. Kate Crawford exprime ses doutes ainsi: La mythologie actuelle de la Big Data dit que plus de data amènerait plus de justesse et de vérité. La position epystémologique est tellement séduisante que beaucoup d’entreprises, depuis la publicité jusqu’à la production automobile, se réorganise afin de collecter des données de manière massive. Le mythe et les outils, comme Donna Haraway l’a déjà observé, se constitue l’un et l’autre, et l’instrument de la collecte et de l’analyse de données agissent aussi comme des agents qui construisent la société. Bruno Latour l’exprime ainsi : « Changer les outils revient à changer toute la théorie sociale qui l’accompagne ». Le changement dû à la Big Data est un changement politique et culturel, et non commençons à peine à en voir l’envergure.1 Ainsi, Kate Crawford note que “le mythe et les outils se constituent l’un et l’autre” dans une interdépendance que nous avons déjà observé. Hors, il existe un outil fondamental du Big Data, l’algorithme, qui renferme en lui-même des représentations à l’origine de beaucoup de 1 “The current mythology of big data is that with more data comes greater accuracy and truth. This epistemological position is so seductive that many industries, from advertising to automobile manufacturing, are repositioning themselves for massive data gathering. The myth and the tools, as Donna Haraway once observed, mutually constitute each other, and the instruments of data gathering and analysis, too, act as agents that shape the social world. Bruno Latour put it this way: “Change the instruments, and you will change the entire social theory that goes with them.” The turn to big data is a political and cultural turn, and we are just beginning to see its scope.”
  • 23.
    23 croyances liées àla Big Data et ses possibilités. En quoi l’algorithme est-il un des “agents qui construisent la société?” 2. L’algorithme, un système balancé entre idéologie technologique et logique capitaliste « Algorithme » est un des termes les plus utilisés lorsqu’on aborde le sujet du Big Data. Encore une fois, le caractère ambivalent du terme participe à la création de mythologies autour de son utilisation. Le terme est tiré du domaine scientifique mais semble cristalliser toutes les peurs et les fantasmes autour de l’usage de la Big Data. Un algorithme est un ensemble d’étapes, abstraites, qui, une fois traduites en langage informatique, permet de brasser un ensemble de données complexes, de les croiser et d’en sortir des données utilisables et consommables. L’utilité et l’efficacité d’un algorithme bien conçu justifient que les mathématiciens s’y attardent. Le succès d’Amazon repose par exemple sur l’algorithme qui permet ce service de recommandation personnalisé. Mais le terme revêt en soi une aura magique que ceux qui en bénéficient semblent vouloir amplifier et garder les secrets. A l’instar de Coca-Cola qui tait précieusement un « ingrédient secret » à sa recette, ou Chanel qui ne révèlera jamais d’où vient l’envoutement des essences du n°5, Google se refuse à révéler son algorithme, source du plus puissant moteur de recherche des Internets. Et on le comprend, tout comme Amazon, l’algorithme de Google est la clé de voute de sa marque, elle participe à créer cette aura et justifie le monopole exercé sur le marché. L’efficacité de son algorithme est un facteur d’attractivité inégalable pour Google. La raison pour laquelle les utilisateurs d’Internet se tournent vers ce service est parce qu’ils y vont avec l’idée préconçue – et peut-être justifiée mais là n’est pas la question – que la recherche effectuée par Google leur donnera le meilleur résultat, le plus fiable, le plus fourni et le plus détaillé. Pourtant, on serait en droit de se poser des questions quant à leur recette puisque la situation de monopole inquiète aujourd’hui. Le ministre allemand de la Justice et de la protection des consommateurs a lui-même demandé à Google de partager son algorithme lors d’une interview au Financial Times. En effet, fort de sa situation de monopole, Google aurait les moyens de modifier son algorithme afin de privilégier certains liens et de biaiser la recherche à des fins avantageuses pour la firme. L’algorithme “page rank” répond d’ailleurs déjà d’une approche non-objective et
  • 24.
    24 personnalisée. L’opacité desalgorithmes développés par des firmes privées, qui sont concernées par la nécessité d’avoir des secrets commerciaux, pose le problème des biais induits par la recherche algorithmique et impossible à détecter. Ici, l’interaction entre la technologie et les logiques commerciales modifie totalement la Big Data et pose de nombreuses questions quant à cette « révolution du savoir ». Pour ce qui est de l’algorithme de Google, Dominique Cardon pose la question de sa légitimité. Le fameux « page rank » de Google est, explique-t-il dans son livre La Démocratie Internet, basé sur un modèle scientifique, où un article cité par un autre chercheur est considéré comme digne d’intérêt. Ici encore, le monde de la science et de la recherche apparait comme un idéal à reproduire et à imiter. La hiérarchisation de l’information du réseau est ordonnée selon les pages les plus citées, liées, commentées. Mais de plus en plus, et parce que l’algorithme s’auto-modifie à une vitesse incontrôlée, celle-ci se fait personnelle et se rapproche plus du modèle « de l’audimat et du plébiscite »1 . Ainsi, la hiérarchisation est personnalisée, ciblée, et les recherches effectuées sur le moteur de recherche ne correspondent plus à une objectivité scientifique mais plutôt à un système de recommandations ciblées, qui prennent en compte l’historique de recherche, et d’autres traces laissées en ligne. Si je tape « jaguar » sur internet, selon que je sois un homme habitant aux Etats-Unis ou en Afrique du Sud, je recevrai probablement des liens totalement différents, l’un à propos de l’animal et l’autre à propos de la voiture. Ici, c’est deux paradigmes de la culture Internet qui entrent en collision : celui du modèle scientiste basé sur la recherche et l’objectivité, et celui libertaire du capitalisme et du culte de la performance. En utilisant un algorithme qui permet la personnalisation et le ciblage, Google obéit à la loi capitalistique de la performance et du service. Ce résultat est le plus pertinent pour cet utilisateur donc c’est celui à privilégier. Quid de l’objectivité ? Quid de la nécessité éthique de présenter à l’utilisateur une vision complète de l’objet recherché et non biaisé par un contexte socio-culturel et géographique amené par l’analyse de ses données ? Astrid Mager énonce cette double logique dans un nouveau système de pensée qu’elle nomme « l’idéologie algorithmique »2 . Selon elle, le climat d’euphorie autour des progrès techniques et des solutions proposées par les moteurs de recherche stabilise et sert les intérêts capitalistes des entreprises du Web. Encore une fois, l’interaction entre une innovation 1 Cardon, D. (2010) la démocratie internet, Broché 2 Astrid Mager (2012) Algorithmic ideology, Information, Communication & Society, 15 ;5, 769-787
  • 25.
    25 technique et lasociété dans laquelle elle émerge est telle que la société capitaliste d’aujourd’hui dessine le mode de fonctionnement des engins de recherche tels que celui de Google. Un des exemples les plus parlants de cette nouvelle donne mercantile à l’œuvre dans la technologie est la plateforme AdWords développée par Google qui offre des publicités ciblées, basés sur les termes de recherches utilisés par l’internaute. Le privilège accordé aux publicités et le profilage systématique des utilisateurs entrent dans cette logique de la performance et de la commercialisation évoquée plus haut, et ont des conséquences sociétales que nous évoquerons dans la deuxième partie. Mais, comme Mager le démontre à travers ses travaux, si cette logique mercantile marche, c’est aussi parce que les entreprises qui créent les sites internet et les marketeurs cherchent une visibilité qu’ils ne trouvent que s’ils se plient aux règles du jeu. En effet, en accordance avec la logique de l’algorithme « page Rank », seuls les sites les plus cliqués remontent dans les premières pages de Google. Alors les sites en ligne sont aujourd’hui construits afin d’être au plus près de ce qui est populaire, recherché, ou alors sont des sites sponsorisés par le moteur de recherche (boost dans l’algorithme possible si l’on paye) dans la mouvance de ce qu’on appelle le « native advertisement », ou la publicité déguisée. En conclusion, l’algorithme, loué pour son objectivité toute scientifique, est en réalité soumis au biais mercantile des entreprises privées. Cette évolution dans l’élaboration d’un outil au départ uniquement technique mais modelé par la société qui l’entoure porte un nouveau coup au mythe de la Big Data comme phénomène révolutionnaire. Plutôt que d’ériger un nouveau système radicalement différent du précédent, proche d’une idéologie « techno-fondamentaliste »1 les possibilités technologiques participent à l’évolution de pratiques ancrées dans une société aux logiques capitalistes. C. Etude de cas : IBM. Un discours de marque qui façonne les représentations et imaginaires de la Big Data 1 Astrid Mager, 2012, op.cit
  • 26.
    26 Le cas d’IBMillustre non seulement comment la Big Data peut être utilisée pour faire du marketing, non pas dans le cadre d’une opération éphémère mais dans une stratégie de marque et de business plus large. En d’autres termes, IBM nous intéresse ici pour sa double casquette, celle d’une entreprise technologique au cœur du commerce de la donnée et des logiciels, mais aussi en tant que marque, construisant son discours non pas autour de l’entreprise et de ses services mais mettant l’accent sur les innovations technologiques en elle-même, et son rôle dans la société. L’étude du cas d’IBM dans ces pages est donc construite autour de deux analyses. Premièrement, celle d’IBM en tant qu’acteur incontournable du secteur technologique ayant une prise de parole grand public et B2C (business to consumer). Le deuxième angle de cette étude de cas est celui de l’analyse du discours structurant d’IBM autour des innovations technologiques et de son impact sur le développement du monde. Afin d’explorer ces deux aspects, nous passerons tout d’abord en revue la transformation de l’entreprise et la formation de la marque IBM à travers le temps, pour ensuite se concentrer sur deux prises de paroles essentielles. L’analyse sémiotique des campagnes « IBM for a smarter planet » et tout particulièrment « IBM smarter cities » nous permettra de comprendre la construction de la promesse et de la stratégie de marque. 1. L’entreprise, la marque et sa raison d’être1 IBM est une entreprise vieille de plus de cent ans. En un siècle, elle s’est imposée comme un acteur majeur de la révolution informatique. Née en 1911 de la fusion de trois entreprises américaines, IBM est d’abord dénommée la CTR, Computing-Tabulating-Recording, en raison de son expertise dans le domaine des pointeuses, des balances automatiques et des machines de calcul. En 1924, elle devient l’International Business Machines, et se targe dun slogan resté célèbre : « Think ». Le premier succès technologique d’IBM est la commercialisation de deux machines ayant marquées l’histoire de la technologie : le premier calculateur électromécanique capable de fonctionner sans intervention humaine, puis en 1948, le Selective Sequence Electronic Calculator (SSEC) considéré comme le premier vrai ordinateur. La véritable révolution qui marquera l’entrée dans l’ère de l’informatique moderne advient en 1964 lorsque IBM lance la « révolution 360 », un système de machines aux circuits intégrés compatibles entre eux et 1 « the brand bigger purpose » en marketing consiste à adopter une mission qui dépasse le business seul de la marque afin de construire une prise de parole, une identité et un système de valeur.
  • 27.
    27 donc s’adaptant àplusieurs besoins professionnels. En tant que pionnier de l’ère de l’informatique, IBM est avant tout une entreprise tournée vers des échanges avec d’autres entreprises, sur un modèle de B2B (business to business). Les premiers ordinateurs ont en effet fait le succès d’IBM bien avant que le consommateur soit concerné par l’acquisition d’ordinateur à usage personnel. Par son histoire et son implication dans les avancées technologiques concernant les « hardwares », c’est-à-dire les ordinateurs, IBM reste aujourd’hui très liée à cette imaginaire. Un élément clé à la fois de l’histoire de l’ordinateur et de l’histoire de la marque s’est déroulé en 2011, lorsque l’ordinateur Watson d’IBM a défié l’esprit humain lors du jeu télévisé Jeopardy ! Watson est aujourd’hui le premier champion du jeu télévisé. Cette performance témoigne d’un pari risqué de la part d’IBM. Bien sûr, Jeopardy ! est un jeu très populaire aux Etats-Unis et participer au jeu assure une visibilité immense à la marque. IBM se situe ici dans un débat historique et dans un environnement empli de fantasmes : celui de la bataille entre l’homme et la machine. En faisant participer sa machine au jeu, IBM démontre la suprématie de la machine sur l’homme. Ce faisant, elle expose et fait la publicité de ses produits d’une manière que l’on ne saurait réfuter. Mais, le positionnement est extrême et fort : IBM se situe du côté des machines et pourrait mener le monde à sa perte, la peur, les fantasmes, les visions dystopiques et la littérature environnante nourrissant les imaginaires et représentations du public. Ce coup de force est une manière de faire connaître la marque, de prouver sa performance, mais peine à créer du lien avec les consommateurs. Une marque ne doit pas seulement parvenir à se faire connaître, mais doit aussi créer un lien affectif avec son public. Etre aimé constitue un pari non négligeable pour une marque, et présenter une machine intelligente, lançant des défis à l’homme, en tant que représentant de la marque semble être un pari risqué de la part d’IBM. Mais si IBM réussit aujourd’hui son pari d’être une marque à la fois aimée et reconnue, c’est aussi en grâce à une stratégie de marque plus élaborée, dépassant le simple coup d’éclat de Watson gagnant le Jeopardy ! 2. « Une planète plus intelligente », la technique au service du bien commun, analyse d’un discours et d’une stratégie de marque
  • 28.
    28 La figure deWatson appartient cependant plus au passé d’IBM qu’à son présent et son futur. Les deux activités principales d’IBM sont aujourd’hui les services (dont une grande partie se situe dans la branche Big Data and analytics) et les logiciels (software). Afin de communiquer sur cette nouvelle identité, IBM a associé à son slogan « think », une initiative pérenne et holistique : « IBM for a smarter planet »1 . Programme holistique car il permet de regrouper toutes les activités d’IBM, le programme « smarter planet » est aussi une prise de parole générale qui dépasse le cadre de son business. Dans la lignée de l’entreprise à l’origine de l’ordinateur, IBM se fait aujourd’hui ordonnatrice du monde. IBM présente ainsi son programme sur son site internet français2 : « Depuis cinq ans, les IBMers collaborent avec des entreprises, des villes et des communautés du monde entier pour construire une planète plus intelligente. Nous avons réalisé d'immenses progrès grâce à des dirigeants qui se sont servis de l'explosion des données pour transformer leurs entreprises et leurs institutions en s'appuyant sur les analyses, la technologie mobile, le social business et le cloud. Nous avons également constaté que certains d'entre eux avaient commencé à tirer profit de cette nouvelle ère. Ils sont en train de changer leur façon de prendre des décisions. Ils redéfinissent les méthodes de travail de leurs équipes, revoient comment servir au mieux leurs clients et modifient la nature même de leur activité. C'est la capacité à tirer profit des données qui offre à ces dirigeants un avantage concurrentiel à l'ère du "tout intelligent". Aujourd'hui, les vieilles habitudes laissent la place à de nouvelles perspectives, de nouvelles méthodes de travail et de nouvelles solutions dans tous les secteurs (US) secteurs. Les rôles changent. Et plus que jamais, nos dirigeants ont besoin d'un partenaire pour les aider à s'adapter. » Le programme d’entreprise est fondé sur l’expertise Big Data et analytique de l’entreprise, et IBM se propose de mettre son savoir non seulement aux services de ses clients, mais aussi de la planète entière et de ses habitants. IBM reprend ici à son compte les bénéfices et opportunités crées par la donnée, avec les attributs mythologiques déjà évoqués qui lui sont associés, et se positionne ainsi lui aussi dans un véritable bouleversement, et renversement de paradigme. (« Sur une planète plus intelligente, il faut changer le paradigme de la réaction à l'anticipation »3 ) 1 « IBM pour une planète plus intelligente » 2 http://www.ibm.com/smarterplanet/fr/fr/overview/ideas/index.html 3 http://www.ibm.com/smarterplanet/fr/fr/overview/ideas/index.html
  • 29.
    29 Les nouvelles loisscientifiques d’une planète « toute intelligente » selon IBM sont les suivantes : - Utilisez l’analyse et non l’instinct - Les individus ne peuvent plus être considérés en tant que segment - Le social est le nouveau mode de production. Sans détailler les implications et solutions associées à ces nouvelles lois paradigmatiques, il est intéressant de noter que ceux-ci s’inscrivent totalement dans le cadre plus général de la pensée dictée par la data : le délaissement de la pensée subjective et de ses biais au profit d’une analyse objective, vraie, aux résultats assurés, la croyance en un savoir si fin que « l’individu » et ses tréfonds n’ont plus de secrets et enfin l’organisation du monde en réseau, où l’Internet social, serait le nouveau lieu du savoir. Le programme « smarter planet » s’inscrit non seulement dans les discours de « la fin de la théorie » et de « révolution du savoir » étudiés en première partie, mais promeut aussi une culture techno-centrée et participe à la croyance selon laquelle les problèmes du monde pourraient se résoudre grâce à la technologie. On retrouve dans le discours et les initiatives d’IBM tout le « solutionnisme » dénoncé par Morozov. On pourrait rétorquer qu’IBM a en effet l’expertise d’améliorer des systèmes et de contribuer à ces innovations, mais c’est ici non pas les prouesses techniques mais plutôt la promesse, la mission organisatrice annoncée dans leur communication qu’il est intéressant de souligner. Dans une conférence de présentation du programme en 20081 , Ginni Rometti présente ainsi la mission, telle une évidence : Avec tout cette technologie et ce réseau disponible à un prix si bas, tout n’est-il pas améliorable ? Tout n’est-il pas connectable? Quelle information ne peut pas être transformée en idée ? Quel service n’est pas rendu disponible pour un client, un citoyen, un étudiant ou un patient?2 Ainsi IBM adopte un discours prosélyte sur le big data, mais l’analytique étant leur cœur de métier, la logique veut que cette entreprise soit émettrice de ce message, qu’elle soit au départ de ces croyances. 1 “Conversations for a Smarter Planet: 1 in a Series,” IBM. 2008. 2 “With so much technology and networking available at such low cost, what wouldn’t you enhance? What wouldn’t you connect? What information wouldn’t you mine for insight? What service wouldn’t you provide a customer, a citizen, a student or a patient?
  • 30.
    30 Une des difficultéscommunicationnelles dès lors que les produits et services sont si technologiques est d’avoir un discours de vulgarisation qui ne perde pas en précision, et surtout un discours attractif. Comment délivrer à la population le message d’une entreprise technologique certes, mais au service de tous ? « Smarter planet » est évidemment une initiative qui a pour but de faire passer ce message, mais l’analyse sémiotique de deux campagnes va nous permettre de comprendre les ressorts de la communication d’IBM ainsi que les outils utilisés afin de faire de la Big Data un sujet de société. Ainsi les publicités s’appuient sur un design très simple, accompagnées de déclarations affirmatives, mettant le lecteur devant un fait présenté comme une évidence. « Les chauffeurs peuvent prévoir les embouteillages avant qu’ils arrivent ». «Tous les docteurs connaissent votre personnalité. » Ces faits sont énoncés d’une manière simple, presque brutale, qui suscite la curiosité. Mais très peu d’autres informations sont données, en tout cas elles sont indiquées en plus petit. Le texte explicite la phrase, mettant en avant l’action faite pour IBM afin de rendre possible cette amélioration. Le design attractif, les dessins enfantins retirent toute technicité et créent une simplicité bénéfique au message. Cette simplicité et ce sentiment d’évidence sont aussi véhiculés par les jeux de mots utilisés comme celui-ci : « Banks now hold up robbers » («les banques kidnappent les braqueurs »). Le principe du jeu de mots est ici mobilisé à plusieurs niveaux. La malice qui y est associée permet de donner vie au principe d’une « planète plus intelligente ». Le jeu de mots repose sur l’idée qu’en inversant l’ordre des mots dans la phrase, un autre sens naîtra, plus attrayant. Si l’on extrapole l’idée du jeu de mots à celle de la mission que s’est donnée IBM, on voit qu’IBM se présente comme celui qui, en changeant l’ordre des choses (les banquiers kidnappent) renverse un ordre préétabli et règle ainsi les problèmes. La publicité « People for smarter cities », qui met en scène ce qu’IBM appelle des « publicités avec une utilité » va plus loin dans la banalisation et l’acceptation. Pour promouvoir les « villes intelligentes » générées par leur technologie, IBM a créé des espaces publicitaires de rue avec une utilité sociale, par une simple incurvation, ceux-ci se
  • 31.
    31 transforment en abripour la pluie, ou en banc. L’idée étant qu’un peu d’intelligence n’importe où peut aider à l’amélioration générale de la ville, de la communauté. Ici, pour parler d’analyse, nul besoin de mettre en avant de la technicité, la seule touche audacieuse suffit à faire passer le message. IBM se situe dans la simplification, l’épuration extrême, laissant de côté tout discours technique afin d’imposer son expertise comme une évidence, un ordre naturel des choses. Ainsi IBM, avec son discours de marque et la mission qu’elle s’est attribuée, participe à la création de ce discours techno-centré qui vise à ériger la technologie comme solution aux problèmes du monde. La Big Data bénéficie de ce rayonnement, qui lui permet de s’instiller dans les pratiques de plus en plus d’entreprises en quête de performance. Pour tirer un maximum de ces données qui auparavant n’intéressaient personne, les entreprises multiplient la collecte de données, et d’autres s’en font leur spécialités. Les “traces” laissées sur Internet par les individus sont désormais épiées, convoitées. Les progrès en technologie analytique ont modifié, nous l’avons vu, les conditions de productions de savoirs. Mais afin d’analyser les données, il faut d’abord les collecter. Quelle est la place de l’individu dans ces nouvelles pratiques? Quelle nouvelle dynamique de constitution de l’identité voit le jour alors que les vies sont numérisées, connectées ?
  • 32.
    32 II – Les« empreintes digitales », facteur constituant des identités en ligne “Je est un autre” Arthur Rimbaud « You only have one identity » Mark Zuckerberg Nous l’avons vu, l’outil Big Data constitue aujourd’hui un prolongement des logiques de performance dans une société façonnée par une idéologie à la fois de la technique et du néo- libéralisme. Cette quête de la performance est associée à une utopie d’une science qui parlerait d’elle-même, entière, proche d’une vérité objective. Ce changement de paradigme
  • 33.
    33 dans la rechercheest notamment créé et perpétué grâce à la banalisation de la collecte de données. Une pratique qui mène, selon Antoinette Rouvroy et Thomas Berns, à une « digitalisation de la vie-même ». Le phénomène est décrit ainsi : Par ‘digitalisation de la vie-même’, nous entendons non seulement la banalisation de l’enregistrement de données biométriques, mais encore, et plus largement, l’enregistrement systématique, sous formes de « traces » digitales, des comportements humains individuels ou collectifs, y compris parmi les plus triviaux (ceux qui passent même inaperçus de la part de ceux qui les adoptent, et qui précisément n’ « intéressent » personne, n’étant pas eux-mêmes tenus pour signifiant). Ce phénomène de traduction du monde physique et de ses habitants en données métabolisables par les systèmes informatiques n’est désormais plus limité, ni même freiné de manière essentielle par une inaccessibilité technique ou économique, ni par une récalcitrante significative du public1 . En parlant de digitalisation de « la vie même », on opère un glissement entre le savoir statistique, à la ‘vie’ statistique, espace où les individus ne sauraient s’échapper des « traces » laissées au fil de leur navigation et de leur quotidien connecté. En effet, l’individu est au cœur du processus de savoir. Emetteur de données, l’individu est le premier maillon de la chaîne de savoir mais il est aussi le récepteur, la finalité recherchée dans la sphère des services émis par la Big Data. L’objet de cette partie est tout d’abord d’analyser la place de l’individu dans ce nouveau système fait par lui, pour lui, et parfois contre lui. L’analyse menée se divise en deux parties. Nous nous attacherons tout d’abord à étudier « l’infra-individuel » : quelles sont les nouvelles modalités de constitution d’une identité dans des espaces en ligne construite sur le « clair-obscur » ? Quelle division s’opère alors que les mouvances identitaires se fixent derrière les écrans ? Ensuite, nous tenterons d’éclairer l’influence des pratiques algorithmiques au niveau « supra- individuel », c’est-à-dire dire sur la modélisation et de la hiérarchisation de la connaissance en ligne, et des nouveaux rapports de l’individu au monde extérieur. A. Le paradoxe de l’identité en ligne : entre protection et projection Dominique Kaplan définit l’identité ainsi : L’identité n’est pas une donnée fixe, livrée une fois pour toute, qu’il s’agirait simplement de garantir et protéger. C’est une construction permanente, multiforme, qui marie 1 Rouvroy Antoinette, Berns Thomas, « Le nouveau pouvoir statistique », Multitudes 1/ 2010 (n° 40), p. 88-103
  • 34.
    34 des éléments extérieurset intérieurs à l’individu, objectifs et subjectifs, pérennes et éphémères. C’est surtout une construction sociale : l’identité se définit dans la relation aux autres. La vie privée est au départ de ce qui constitue notre intimité, c’est là que se forme ce qui relève de l’intime ainsi que nos convictions et croyances personnelles. Elle est aussi le socle de la vie publique, et l’une ne saurait être dissociée de l’autre puisqu’elles se nourrissent l’une l’autre, sur la base d’un va-et-vient et d’une construction en négatif. La vie publique, c’est le privé que j’expose, et la vie privée est constituée de mes expériences publiques intériorisées, déconstruites. En cela, les frontières entre l’une et l’autre sont floues, et dépendent du contexte, de l’individu lui-même et des espaces, notamment numériques, qui contribuent eux aussi à casser la prétendue dichotomie privé/public. Ainsi, le concept d’identité est fortement lié à celui de vie privée. Pourtant, cette sphère semble s’estomper, se réduire comme peau de chagrin puisque tout s’expose, et que les informations non-exposées sont en réalité récupérées par des entreprises. Comment se constitue notre identité si elle n’est plus définie par le va-et-vient de l’exposition publique et de la réserve privée ? Comment concilier exposition de soi et protection alors que sur le réseau les limites sont floues et non-hermétiques ? La problématique de constitution de nos identités – transformées, altérées, par les usages numériques et la nouvelle règle du jeu de la traçabilité est traversée par un paradoxe, énoncé par Daniel Kaplan dans son ouvrage Informatique, libertés, Identité. Selon lui, au cœur de nos identités en ligne « protection et projection de soi forment un couple indissociable, et l’on n’assurera pas l’une sans faciliter la seconde. ». On tentera de résoudre ce paradoxe et de comprendre les modalités de la constitution d’une identité sous le prisme d’un espace public qui est aussi un espace analysé, fouillé, décrypté et réorganisé à l’aide de la science analytique. Tout d’abord, afin de bien cerner la complexité de la formation de nos identités en ligne, il est nécessaire de contextualiser et de définir le terme d’identité. Celle-ci ne doit pas s’entendre comme une entité fixe, mais comme un concept mouvant, qui se constitue dans le temps, et dans l’espace, à travers des interactions (avec des pairs), des allers et retours entre l’exposition et la réclusion, et des altérations du au temps, à l’expérience. Je n’ai pas la même identité si je suis à la maison avec mes enfants, ou sur mon lieu de travail. L’identité dans la vie réelle est déjà plurielle, mais elle semble se dupliquer sur les écrans et même se fragmenter, et, peut-être se disloquer ?
  • 35.
    35 Cette fragmentation, oudémultiplication des identités est caractéristique de « l’homme post-moderne ». Quand Pierre Grelley pose la question : Etes-vous postmoderne ? Il énonce l’idée d’une « fragilisation de l’individu » due à un « abandon de l’organisation ». Grelley va jusqu’à questionner le terme « d’individu » pour lui substituer le terme de « personne », plus approprié « aux rôles divers au sein des tribus auxquelles elle se réfère.»1 . Une identité fragmentée dans un monde explosé certes mais cette identité est aussi hyperbolisée, renforcée par l’exposition de soi. En effet, si l’individu ne se constitue plus comme unité indivisible, il ne renonce pas à sa singularité pour autant. Dominique Cardon évoque cette nouvelle formation de l’identité dans son ouvrage La démocratie Internet. Selon lui « l’exposition des individus sur Internet traduit une forme d’intensification du rapport à soi’2 dans nos sociétés.» Mais la projection de soi décrite comme une pratique construite de l’identité peut être comprise comme une tentative de contrôle de la part de l’individu. Cette première manière de résoudre le paradoxe consiste à prêter aux utilisateurs plus de rationalité que de supposé. Le calcul de notre image en ligne serait à la fois une « opportunité de coopération »3 (moyen de faire grandir son réseau), mais aussi une valorisation de soi, et un contrôle opéré en négatif sur ce que je livre de moi. ‘Contrôle en négatif’ doit être compris comme l’idée que le manque apparent de contrôle restrictif cacherait en réalité une activité consciente de « contrôle » au sens de maîtrise. Les usagers donc, plutôt que de s’échiner à protéger leurs données, opéreraient un contrôle de soi à travers le calcul de leur identité affichée. En effet, les identités affichées sur Internet sont de plus en plus calibrées selon le type de support et l’audience à qui l’on s’adresse. On ne livrera pas les mêmes informations sur un réseau social professionnel et un réseau social d’affinités. Les utilisateurs créent, avant même la récupération des données par des analystes, des « profils » d’eux-mêmes. En conséquence, en soignant leur image, en étant les propres modérateurs de leurs identités dans l’espace public numérique, les utilisateurs sont plus enclins à livrer des informations très personnelles, parce qu’ils semblent en avoir la maîtrise. Le caractère illusoire de ce contrôle est cependant à souligner, et fera l’objet de notre analyse. Sans aborder la question de l’après de ces données – décontextualisées, croisées, re- 1 Grelley Pierre, « Êtes-vous postmoderne ? », Informations sociales 8/ 2006 (n° 136), p. 51-52 2 Cardon cite : Anthony giddens, la transformation de l’intimité. Sexualité, amour et érotisme dans nos sociétés modernes, Paris, Le Rouergue/Chambon, 2004 3 Cardon, Dominique, 2010, La démocratie Internet, Broché
  • 36.
    36 profilées - onpeut déjà noter que le contrôle est relatif dans la mesure où notre identité dépend aussi de l’interaction avec nos tiers, qui participent à la formation de cette image de nous. Chaque remarque, commentaire, évaluation, interaction, en ligne est susceptible de forger une image de soi qui n’a pas été validée par nous-mêmes. C’est la question de l’e- réputation, que nous n’allons pas aborder ici mais qui concerne et inquiète de nombreux usagers d’Internet. Des données à priori banales peuvent se transformer, par leur existence en ligne, et par l’interaction avec d’autres usagers, et donc devenir a postériori des données « à caractère personnel ». Cette subtilité a d’ailleurs été prise en compte en 2004, dans la Loi relative à l’informatique, aux fichiers et aux libertés.1 Ainsi, le contrôle est illusoire, puisque même à la surface de l’écran, l’identité échappe à notre intentionnalité. L’idée selon laquelle nous ne nous exposons pas à nu mais bien dans une idée de séparation des espaces et ayant consciences des règles du jeu se matérialise dans les pratiques. C’est ce que prouve l’échec des systèmes de « fédérations d’identités » qui visaient à garder les informations livrées sur un site, pour les délivrer à nouveau sur un site différent par la suite, par souci de commodité pour l’usager. Lorsqu’un réseau social me demande de récupérer mon annuaire d’adresse email afin de partager avec toutes les personnes avec qui j’ai un contact par échanges d’e-mails par exemple, cela provoque une véritable collision entre deux espaces qui sont différents, à l’intérieur desquelles je n’expose pas la même identité. L’étape qui suit l’idée de fragmentation puis de contrôle de son identité est logiquement la valorisation de soi, élément majeur de la « projection de soi ». Ces jeux subtils poussent certains chercheurs, à l’instar de Danah Boyd, à annoncer que la vie privée n’a pas disparu : De manière fondamentale, la vie privée n’est pas le contrôle sur la manière dont l’information se déverse. C’est plutôt la capacité à comprendre un système social afin d’avoir un comportement adéquat. Pour cela, les individus doivent avoir confiance en leur interprétation du contexte, c’est-à-dire des personnes autour et de l’architecture de l’espace. Quand ils sentent que le contrôle leur échappe ou quand il leur manque ce contrôle, ils doivent faire la chose qu’il faut, et crier à la violation de leur intimité.2 1 « Données à caractère personnel : toute information relative à une personne physique identifiée ou qui peut être identifié, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres. » (Loi relative à l’informatique, aux fichiers et aux libertés) 2 “Fundamentally, privacy is about having control over how information flows. It's about being able to understand the social setting in order to behave appropriately. To do so, people must trust their interpretation of the context, including the people in the room and the architecture that defines the setting. When they feel
  • 37.
    37 Il est cependantpossible de reprocher à Danah Boyd ou encore Daniel Kaplan une vision partielle de ce qu’est l’identité en ligne. En se plaçant du côté de l’utilisateur et de son intentionnalité, ils en déduisent une forme de pouvoir et de maîtrise de l’identité, mais ils semblent se borner à la surface du réseau, hors, et c’était l’objet de la première partie, celui-ci ne finit pas à la surface de l’écran. Là où les conditions de formation de l’identité en ligne diffèrent réellement de celles d’une vie hors-ligne, c’est que celle-ci laisse des traces. Alors que chaque individu, en accordance avec la définition de Kaplan, se définit dans un mouvement, changeant, évoluant, les traces, les données collectées, ont la possibilité de modeler une toute autre vision de cette même identité. B. Les « empreintes digitales » ou l’identité par les traces Rouvroy et Berns mettent en avant le concept de « dividualisation » de nos identités afin d’illustrer ces nouvelles conditions du devenir de nos identités. Selon les deux chercheurs, les différents usages sur Internet mèneraient à la « dividualisation » des individus, c’est-à-dire l’atomisation de nos identités sur Internet. L’individu devient presque fantôme, n’ayant plus aucune homogénéité et intelligibilité. Les données personnelles forment des traces atomisées, récupérées par les entreprises de la Big Data : « La mesure de toute chose est « dividuelle », à la fois infra- et supra-personnelle, rhizomatique, constituée d’une multitude de représentations numérisées, potentiellement contradictoires entre elles et en tout cas hétérogènes les unes aux autres. C’est cet « être » numérique constamment décomposé, recomposé, composite, qui intéresse à présent directement le pouvoir. » 1 1. « Corps statistiques » as though control has been taken away from them or when they lack the control they need to do the right thing, they scream privacy foul.” in Boyd, Danah. 2010. "Making Sense of Privacy and Publicity." SXSW. Austin, Texas, March 13. 1 Antoinette Rouvroy et Thomas Berns, Le nouveau pouvoir statistique » ou quand le contrôle s’exerce sur un réel normé, docile et sans évènement car constitué de corps « numériques »…, Multitudes, 2010/1 n°40, p.88- 103
  • 38.
    38 Ainsi, cette identitéconstruite sur les écrans – en un sens maîtrisée - est par la suite désincarnée, déformée par l’analyse technique qui en est faite. En récupérant les « traces » laissées sur l’Internet, les analyses produisent d’autres profils, qui ne correspondent plus à une identité seule, faite à la lumière de l’individualité, mais qui se mêlent aux autres pour former d’autres agrégats. Rouvroy situe ici l’entrechoquement de « l’infra-individuel » et du « supra- individuel » : A la différence du monde physique, l’univers numérique, déterritorialisé, n’est peuplé d’aucun objet, d’aucune forme résiliente, mais seulement de réseaux de données. A fortiori, aucun corps individuel, subjectif, actuel, susceptible d’évènement, ne peut s’y rencontrer. L’unique sujet qui est aussi l’unique souverain de l’univers numérique est un corps statistique, impersonnel, virtuel, moulage générique et changeant des « risques et opportunités » détectés en temps réel, nourris de fragments infra-personnels d’existences quotidiennes agrégés à un niveau supra-individuel sous forme de modèles de comportements, ou profils, auxquels correspondent, par certaines combinaisons de traits chaque fois spécifique, une multitude de personnes1 . Rouvroy ne met pas de côté les logiques d’exposition de soi et de valorisation qui sont les premiers balbutiements d’une réflexion sur l’identité. Mais selon elle, c’est bien parce que nous perdons nos identités propres que nous créons ces avatars sur les réseaux tels que Facebook, qu’elle compare « à l’intérieur bourgeois de la fin du XIXème », remplis de signes de l’appartenance sociale de chacun, de son goût et des signes extérieurs d’une identité. Les données, sorties de leurs contextes, sont dépourvues de toutes connotations personnelles au sens d’identifiables. Une donnée personnelle, mêlée à d’autres données toutes aussi personnelles afin de créer un « profil », de repérer un motif, devient, pour reprendre les termes de Rouvroy « supra-individuel ». Nos « singularités respectives » n’ont aucune signification pour l’analyse de données. Ainsi, Rouvroy ne situe pas la collecte de données dans une réflexion sur la vie privée, selon elle, il s’agit plus d’une perte totale d’identité, alors que nous devenons des « corps statistiques ». L’analyse de Rouvroy se vérifie dans les pratiques d’un site comme celui d’OKCupid, site de rencontre qui entend créer des affinités amoureuses à l’aide de la comptabilité algorithmique. Dans son livre « Dataclysm, who we are when we think no one is looking », Christian 1 Antoinette Rouvroy, Des données sans personne : le fétichisme de la donnée à caractère personnel à l’épreuve de l’idéologie des Big Data, Selected Work
  • 39.
    39 Rudder, le fondateurdu site, met en avant les méthodes et révèle les dessous du site. On peut donc observer cette duplicité qui règne sur l’internet. Il existe le « profil utilisateur », puis à l’envers de l’écran, d’autres profils sont mobilisés. Une partie du livre est ainsi consacré à mettre en avant des schémas raciaux. Les asiatiques auraient sur leur profil utilisateur plus de mentions d’une chose plutôt que d’une autre… On observe une re-catégorisation sociale ou raciale, alors même que l’individu pense s’être extrait de celle-ci puor s’affirmer en tant qu’individu propre. Rudder n’hésite pas à exposer les résultats d’enquêtes et d’expérimentations qu’il a mené sur son site, à l’insu des utilisateurs. Le site a par exemple truqué les réponses des algorithmes afin de faire se rencontrer deux « profils » qui selon les statistiques, avaient une très faible probabilité de se correspondre. Rudder le sait, il s’expose à des critiques et des questionnements sur son éthique, mais selon lui, le jeu en vaut la chandelle. Le titre de son livre est explicite, Rudder veut explorer la nature humaine et observer l’individu et ses pratiques « quand il pense que personne ne regarde ». Afin de mieux analyser ses utilisateurs, OKCupid a même mis en place un système qui permet de collecter non seulement les messages émis mais aussi les mots et phrases tapées qui ne sont pas envoyés, écrits puis effacés. Rudder défend ses pratiques au nom d’une réalité objective, qui mettrait en lumière la véritable nature de l’homme, dégagée de toute pression sociale ou « surmoi ». Les notions freudiennes pourraient être ici mobilisées puisque les ambitions du site épousent la logique de désintégration du sujet humain telle qu’opérée par Freud. Selon Rudder, les données récupérées à l’insu de l’utilisateur témoigneraient d’une réalité et d’une vérité débarrassée de la contrainte du « surmoi ». Par exemple, Rudder explique que la plupart des gens n’affichent pas de préférence quant à l’appartenance ethnique lors de la constitution de leur profil. Il est rare de trouver un profil stipulant qu’il n’est pas intéressé par les hommes ou les femmes noir(e)s. Cependant, les analyses des données à la suite d’interactions et de choix prouvent que chaque ethnie a une tendance lourde à n’interagir qu’avec des membres de la même ethnie. On pourra rétorquer à Rudder que ces résultats illustrent une forme de reproduction sociale qui ne relève pas nécessairement de l’individu et de l’intime mais plutôt de cadres sociaux plus larges, mais ce que démontrent ces analyses, c’est justement qu’un deuxième sens, invisible aux yeux des utilisateurs, est affilié aux « profils » lissés. La constitution de notre identité se fait par rapport à l’espace public : en disant au monde qui l’on est, de manière volontaire, on se constitue et on envoie une image de soi. Mais quelle identité se met en place quand l’espace le plus intérieur, non destiné à être public, devient constituant de ma personne, devient un indicateur puissant de mon identité ?
  • 40.
    40 Cette intrusion dansle moi intime, ce glissement dans la foramtion de nos identités, se fait à plusieurs strates. Pour ce qui est de l’experience d’OKCupid, elle reste interne à l’entreprise et nous le verrons, les résultats de ces analyses ont diverses conséquences. Le deuxième glissement se fait lorsqu’une information publique devient publicisée. On observe alors une rupture dans la relation des individus aux entreprises. Danah Boyd, chercheuse spécialisée sur les interactions des jeunes sur les réseaux sociaux, rappelle que lorsque les réseaux, les systèmes, changent les règles du jeu, il en résulte une défiance et une perte de confiance de la part de l’utilisateur. En effet, chaque utilisateur a le droit de prétendre à un présupposé d’obscurité. C’est cette rupture de confiance qui est advenue lorsque Facebook a, sans prévenir, changé ses règles de confidentialité, et mis à disposition une nouvelle interface en 2008, le fil d’actualité qui apparaît à droite de l’écran, et indique à tous les « amis » votre activité en temps réels : quelles photos vous avez aimé, commenté, à quel événement vous participez… Ces informations assez détaillées étaient auparavant noyées dans la foule de données et d’informations. Un coup de projecteur dessus change les modalités et crée un espace plus surveillé, où chaque geste peut avoir des conséquences. Une autre avancée du site Facebook a fait couler beaucoup d’encre et modifié profondément les possibilités de recherche sur le site, il s’agit de l’outil Graph Search. Graph search est un « moteur de recherche amélioré sur Facebook, recoupant les données personnelles des utilisateurs pour des résultats plus précis en fonction de leurs amis, photos, lieux et centres d'intérêt. »1 . Ce nouveau service est un pas vers la démocratisation des usages de Big Data, desquels le croisement d’informations est un pilier. Cet outil à l’usage de tous apparaît presque comme une vulgarisation de data analyse, et donc expose le plus grand nombre à ses résultats inédits. A l’aide de l’outil, on peut en effet faire remonter des informations auparavant insignifiantes, mais qui prennent tout leur sens une fois croisées. Les implications sont doubles, tout d’abord les informations mises en lumière étaient auparavant noyées dans la masse de données accessibles seulement par ordre chronologique. La « publicisation » de données publiques est encore une fois mobilisée ici. Le deuxième effet pervers intervient lorsque les corrélations faites mettent en lumière des associations 1 Le Monde, « Les résultats dérangeants de Graph Search » [Disponible : http://rezonances.blog.lemonde.fr/2013/01/23/les-resultats-derangeants-de-graph-search- le- nouvel-outil-de-recherche-sur-facebook/]
  • 41.
    41 dérangeantes. Tom Scott,un utilisateur de Facebook, a ainsi compilé ses résultats dérangeants dans un site dédié. (Voir annexe). Ainsi, Tom Scott montre qu’il est possible de retrouver grâce à l’outil de recherche sociale des « membre de la famille de gens vivant en Chine et indiquant aimé [le dissident] Falung Gong. ». Il est assez aisé de comprendre les implications d’un outil aussi fin que celui-ci lorsque les informations sont à risques. On pourra rétorquer que ces utilisateurs sont les seuls à blâmer étant donné que ces informations étaient déjà publiques. Ici, le présupposé d’obscurité et la fine différence entre public et publicisé entre encore en jeu. Pour reprendre les termes de Dominique Cardon, le web se fait en « clair- obscur » et il est très difficile d’en maîtriser les nuances et ombres, surtout lorsque les règles du jeu changent sans consultation préalable. En effet, le Graph Search permet de trouver des informations sur des personnes qui ne font pas partis du cercle « d’amis », c’est-à-dire d’utilisateurs que j’ai accepté dans ma communauté en ligne, et faisant partie de ce web « public ». Sans le Graph Search, les photos publiées étaient automatiquement visibles et disponibles pour cette communauté, mais en développant l’outil, Facebook a aussi changé cette modalité, rendant publiques des informations autrefois réservé à un cercle précis. Ainsi, mon identité, ma é-réputation, se trouve totalement bouleversé par l’ubiquité du site et l’exposition soudaine de parties signifiantes de mon identité. La constitution de nos identités en ligne est donc paradoxalement définie par un double mouvement de projection et de protection. Mais les choix des utilisateurs dans cette binarité semblent être eux-mêmes paradoxaux : ayant conscience de la récupération de ses données, du risque d’altération de son identité par des entreprises et firmes, ils semblent ne pas s’en préoccuper. Ou du moins, si les inquiétudes se font paraîtres, elles ne sont que très rarement suivies d’actes. Comment expliquer la séparation entre croyances et actes ? Quelles forces extérieures sont au départ de la résilience de l’individu face à la collecte de données ? 2. L’acceptation par la banalisation et autres jeux sociaux qui mettent en tension « l’identité » « La banalisation d’une surveillance démocratique et égalitaire qui ne prétend plus cibler personne a priori, mais s’applique à tout le monde par défaut, ont tôt fait d’éroder réticences et résistances » préviennent Rouvroy et Berns. La résistance s’érode puisque le procédé se banalise certes, mais il est alors crucial de comprendre les rouages de cette
  • 42.
    42 banalisation. Par quelsprocédés a-t-on implémentés l’idée que la co-production de données était plus normale que la rétention ? Tout d’abord, il convient de souligner des pratiques répandues et qui induisent un comportement qui ne nécessite pas l’adhésion de l’individu mais répond plutôt du « phénomène d’inertie ». En effet, il est commun que les sites ne demandent pas à l’utilisateur de notifier son accord mais présuppose que celui-ci est direct. Par une logique d’inertie qui est aisément compréhensible, l’utilisateur ne fait pas l’effort de décocher les cases, c’est donc plutôt « sur le mode l’adhésion par défaut que du consentement libre et éclairé que les individus vivent cette prolifération de données enregistrées »1 . L’effort parait disproportionné à l’utilisateur, qui cède aux sirènes de la commodité et de l’immédiateté, alors que les conséquences sont, elles, invisibles et lointaines. La nouvelle métaphore du mode d’échange sur internet appelé le cloud, le nuage, renforce encore cette impression lointaine, nébuleuse. Les données seraient stockées dans le cloud, inaccessibles. Dans le cas des cases pré-cochées, ou encore dans celui des conditions de confidentialité rarement lues et dénoncées comme trop complexes, en police si étroite qu’elles n’appellent pas à la lecture, c’est le design, ou l’architecture de l’espace qui est en cause. L’environnement est pensé, construit, pour favoriser les comportements. Dans d’autres cas, c’est plutôt des tendances de société plus larges qui agissent directement sur la façon dont les individus se perçoivent et donc décident de livrer ou non leurs données. Le mode par-défaut et l’immédiateté de la pratique sont à l’origine d’une pratique inconsciente. Mais si les utilisateurs avertis sont à mêmes de livrer leur données malgré tout, c’est aussi parce qu’ils considèrent que celles-ci valent moins que d’autres avantages qu’il pourrait en tirer. Ainsi, Luth Research, une start-up de San Diego offre même aujourd’hui la possibilité de récupérer les données personnelles sur les ordinateurs et smartphones de leurs clients en échange d’une somme de cent dollars par mois. L’offre est attractive et plus de dix mille personnes ont d’ores et déjà adhéré au système, laissant l’entreprise collecter leurs données de géolocalisation, leurs recherches Google et temps de connexion aux réseaux sociaux.2 1 Antoinette Rouvroy, Des données sans personne : le fétichisme de la donnée à caractère personnel à l’épreuve de l’idéologie des Big Data, Selected Work 2 http://www.technologyreview.com/news/529686/how-much-is-your-privacy-worth/
  • 43.
    43 Cette logique estpropre à Internet et peut être résumé au « service pour profil ». Une idée qui est exprimée dans cette phrase qui est devenue un avertissement dans les milieux numériques : « si c’est gratuit, c’est toi le produit.» Phrase qui revient souvent à la fois pour dénoncer et justifier les pratiques de profilage. En effet, la nécessité économique impose un modèle viable afin que ces services gratuits le restent. Aujourd’hui, si les sites internets, d’information, de musique ou réseaux sociaux sont accessibles gratuitement, c’est parce que les sites revendent les données personnelles à des agences de publicités. Si l’utilisateur concède à ces pratiques, c’est grâce à l’attrait de la gratuité et du service rendu. Ce modèle économique à l’œuvre sur Internet est déclinable et peut se comprendre comme un simple échange de biens pour services, associée parfois à une récompense. Ainsi, les données seraient parfois livrées contre un coupon de réduction. Selon une étude menée par PunchTab1 , une agence de publicité, en Avril 2014, 27% des sondés se disent prêt à être traqués par des détaillants en contrepartie d’une récompense telles que des bons de réductions. 88% des sondés seraient prêts à partager leur localisation pour des bons de réductions, et 69% pour des publicités ciblées qui correspondraient aux produits qu’ils aiment. Sans questionner les implications éthiques de ce genre de pratiques, ni d’afficher un jugement moral ou une vision péjorative, il convient d’en éclairer les logiques et conséquences, encore une fois sur les comportements. Ce système de « profil pour service » provoque en effet de nouveaux comportements, desquels on peut questionner à la fois l’origine, l’élément déclencheur, et la finalité. Le foisonnement de données de notre monde hyper-connecté provient, on l’a dit, de notre présence sur de plus en plus d’objets connectés que sont les ordinateurs, tablettes, téléphones, carte de crédit. Mais ces objets se diversifient avec l’apparition de « l’internet des objets ». Appareils de la vie quotidienne aux fonctions diverses, ces objets ont en ommuns d’être « connectés » ou « intelligents » : ils collectent des informations, ensuite réutlisables pour l’utlisateur mais aussi pour la société qui les produit. La voiture peut maintenant être connéctées, mais aussi le réfrigérateur, ou encore un bracelet à l’usage des sportifs (le Nike fuel band par exemple). Les pouvoirs associés à ces objets, les possibilités qui s’ouvrent sont 1 http://www.mediapost.com/publications/article/230662/consumers-agree-to-mobile-location-tracking-for- sp.html?edition=74952
  • 44.
    44 multiples, nombreuses etil serait rédhibitoire d’en faire la liste exhaustive. Cependant, il est intéressant de noter qu’avec la prolifération de ces objets se dessinent plusieurs logiques comportementales qui font avancer plus loin la Big Data dans le quotidien des utilisateurs. La tendance du « quantified Self », qui consiste en une obsession pour l’évaluation personnelle de ses performances, en est l’exemple le plus fragrant. L’accès de l’utilisateur à ses données quantifiées provoque des pratiques d’évaluation constantes, des cycles de sommeil, des calories, du nombre de pas effectués, qui mènent à un contrôle de soi sans précédent. Encore une fois, ce contrôle de soi apparaît ambivalent : j’en sais de plus en plus sur moi, mais je me livre aussi entièrement. Ce mouvement de « self-tracking » et de « quantifief self » témoignent d’une banalisation de la prédominance des données et s’inscrit dans l’obsession de la performance, de l’efficacité et de l’évaluation. Ces effets associés à l’accumulation d’informations numérisées, enregistrées, façonnent en effet nos nouveaux usages. En témoignent le fonctionnement du système de la société de véhicules Uber, qui pratique une double évaluation – à la fois des usagers et des chauffeurs – afin de réguler les flux et d’organiser les interactions et transactions. Un usager désagréable sera mal noté et moins bien servi. De même, une mauvaise note pour un chauffeur aura des conséquences sur son salaire et sur son emploi. Cette évaluation permanente, et la valorisation des bons résultats, des bonnes performances, est à l’origine d’une logique perverse de normativité par l’exemple. Pour démontrer ce point, Evgeny Morozov1 utilise l’exemple de la poubelle connectée. La poubelle intelligente est une poubelle qui photographie vos déchets afin d’analyser le contenu de la poubelle. Cette photo est ensuite partagée sur Facebook. Cette objet apparaît en regard de deux tendances de profondeurs : la prolifération d’objets intelligents et l’obsession de l’évaluation (on comprend ici que l’évaluation se situe au niveau du bon ou mauvais comportement alimentaires, tels que le gaspillage ou le tri) et la possibilité, et même l’inclinaison, que nous avons à partager sur les réseaux. Les vertus de l’intéraction et de l’exposition personnelle jouent ici un rôle de pression sociale. Afficher les bons et mauvais comportements aux yeux de tous permet de réguler ceux-ci. Morozov énonce que cette « normativité par l’exemple » régule nos comportements et que la banalisation du partage permet de répandre la pratique. C’est l’effet pervers de la fameuse maxime que l’on 1 Evgeny Morozov, 2013, “Is smart making us dumb?”, Wall Street Journal
  • 45.
    45 n’a rien àcraindre, si l’on n’a « rien à cacher. » Derrière cette simple affirmation se cache l’idée que ceux qui sont soucieux de leur identité et qui refusent de s’exposer seraient suspects de mauvais comportements. L’exemple de la poubelle connectée est intéressant parce qu’il mêle à la fois la connectivité et l’exposition sociale, et donc la pression des pairs. Mais la pratique des capteurs est très répandue, notamment dans les voitures. Aujourd’hui de nombreuses sociétés d’assurance adoptent un système de bonus ou de malus accordé selon la conduite de l’utilisateur basé sur les données collectées sur les voitures connectées. On peut craindre que bientôt les mêmes sociétés refuseront d’assurer les individus qui ne désirent pas partager leurs données, supposant qu’un refus s’accompagnerait d’un mauvais comportement. Il s’ensuit un dilemme éthique quant à la régulation : celui qui donne sa data pénalise celui qui préfère se préserver dans une logique énoncé plus haut, mais en régulant les pratiques, on pénalise celui qui partage ses données. La prédominance de ces technologies dans nos vies a donc de nombreux impacts sur les logiques sociétales, renforçant certaines pratiques et affirmant de nouvelles normes. Les technologies agissent de plus en plus en amont, dictant nos comportements et régulant les corps et les comportements. Cette régulation va jusqu’à déclencher un autre « paradoxe de l’identité » énoncé par Neil Richards et Jonathan King dans leur essai Three paradoxes of Big Data : Les entreprises qui savent comment générer du savoir de ces données en saura plus pour nous que nous ne nous connaissons nous-mêmes, et seront à même de créer des techniques qui nous poussent dans la direction qu’ils veulent, plutôt que vers là où nous serions allé si nous étions cantonné à nos propres moyens.1 Le paradoxe ici mis en avant n’est plus une tension entre la projection et la réclusion mais une tension entre la possibilité de se former un savoir sur soi-même et le risque de perdre notre individualité. Les adeptes du courant du « quantified self » en sont l’exemple principal, en tant qu’ils sont pris dans une hubris de la quantification et de la connaissance de soi. Mais la structure informationnelle du Web et la gouvernance algorithmique qui en résulte, et qui s’applique à tous les utilisateurs, ont aussi la possibilité d’altérer nos capacités d’entendement. En effet, l’identité telle que constituée sur les réseaux est une nouvelle fois menacée lorsque la liberté de choix est altérée. Le droit à l’identité est en effet définit par le droit à définir 1 « The companies that figure out how to generate intelligence from that data will know more about us than we know our selves, and will be able to craft techniques that push us toward where they want us to go, rather than where we would go by ourselves if left to our own devices.” Richard. N & King.J 2013, Standford Law Review
  • 46.
    46 nous-mêmes qui noussommes. Comment la structure informationnelle d’Internet – avec les pratiques de personnalisation et de profilage - mettent possiblement en péril ce droit à l’identité ? C. Analyse d’une structure informationnelle, de la foule à l’individu. La structure informationnelle du Web, sous-tendue par une organisation et hiérarchisation algorithmique décrite en première partie (l’algorithme Page Rank de Google) sont sujets à deux formes de perfectionnement, sans cesse recherché, ceux de la prédiction et de la personnalisation. Ces deux visées contiennent cependant en elles-mêmes des dangers et modifie l’appréhension du réel, ainsi que les dynamiques entre individu et société, information et savoir. 1. Le fantasme de la prédiction Tout d’abord, il est éclairant de rappeler que l’Internet est le lieu où se rencontre l’individuel et le collectif. En cela, il est le lieu de formations de notre identité personnelle, puisque nous pouvons y affirmer et valoriser nos propres personnes, et notre individualité. Mais il est aussi le lieu où se constitue le savoir collectif, et même l’intelligence collective. Le web, en ayant une capacité de rassemblement, puis de hiérarchisation de l’information dépasse la simple fonction de réservoir que l’on associait autrefois à une bibliothèque. Quand l’algorithme Page Rank décide des premiers résultats à afficher sur Google, ou lorsqu’Amazon nous donne des recommandations, une hiérarchisation s’opère selon différents modèles mais qui ont tous en commun d’être générés par la sagesse collective. En effet, alors que les fantasmes de science totale, qui dépasserait les limites de l’individu semblent appartenir à une certaine idéologie, une des premières révolutions de l’Internet a été celle liée à l’intelligence collective. La collecte systématique de choix individuels donnant sens à une organisation plurielle et collective est celle qui régit les formes de hiérarchisation et donc l’information disponible sur Internet. Cependant, la puissance technique des moteurs de recherches, augmenté des avancées dans la science analytique, ajoute des nouvelles dimensions à nos recherches épistémiques. Dans une logique de service à l’individu et d’efficacité, les moteurs de recherches, mais aussi des sites d’information, sont désormais à même de rendre des services personnalisés. En effet la généralisation des méthodes de traque
  • 47.
    47 et de profilage,l’évaluation permanente des mouvements et résultats, permet aux sites de modifier leur offre, de s’adapter. Mais en devenant plus flexibles elles-mêmes, les offres ne risquent-t-elles pas de fixer l’utilisateur dans un « profil » trop rigide ? Une des caractéristiques du Big Data est en effet la possibilité de prévoir des comportements futurs à l’aide de faits passés. En effet, un présupposé méthodologique mais aussi idéologique de la science des données est que « ce qui a été, sera». C’est ainsi que des « profils » sont créées, afin d’organiser l’information, puis d’appliquer cette connaissance à des fins prédictives. Cet homme a acheté cette chemise et ce bonnet, l’analyse de ces données peut prédire que son prochain achat sera un manteau. Ces systèmes de recommandations mèneraient à une « hypertrophie de la sphère privée ». Si chaque interaction me définit, et me réserve un environnement en lien avec mes préférences déjà indiquées, alors l’environnement général se construit en silos, se refermant au fur et à mesure que la personnification s’amplifie, sur une sphère réduite, où l’extérieur perd de son importance et où l’individuel, le déjà-là, prédomine. Encore une fois, l’étymologie des métaphores d’Internet sont une ressource précieuse qui nous permet de comprendre les mutations de l’environnement en ligne. Au départ, on parle « d’explorateur », (comme l’Internet Explorer par exemple), et on découvre aux premières heures d’Internet des phénomènes de serendipité, quand l’utilisateur ‘navigue’ sur le Web. Aujourd’hui, les conditions de cette navigation changent et nos ‘promenades’, ou « cyberflâneries », sont de plus en plus déterminées. Eric Shmidt le souligne d’ailleurs dans un entretien qu’il donne au Wall Street Journal : « Ce qui rend les journaux si fondamentalement fascinant – la sérendipité – peut aujourd’hui être calculé. On peut la produire de manière électronique ». S’ensuit une descrpition des futurs services de Google par son directeur actuel : « Disons que vous marchez dans la rue. Grace à ce que Google a collecté sur vous, on sait à peu près qui vous êtes, à peu près ce qui vous plait, et qui sont vos amis. »1 Goole sait aussi, où vous êtes, et donc, peut vous proposer les services qui vous correspondent. C’est-à-dire que Google pourra vous indiquer la prochaine boulangerie sur le chemin, si vous avez indiqué aimer les croissants, et ainsi de suite. 1 "The thing that makes newspapers so fundamentally fascinating—that serendipity—can be calculated now. We can actually produce it electronically," The Wall Street Journal, Google and the search for the future, 2010.
  • 48.
    48 Ce qu’Éric Schmidtsemble laisser de côté, et qui est pourtant constitutif de la sérendipité, ou de la flânerie, c’est l’idée d’errance, de non-détermination et de hasard, totalement exclu du modèle proposé par Eric Schmidt. Ce nouveau modèle remet en question le « consentement libre et éclairé » et les conditions du choix. Cette prédétermination, qui mènerait à l’érosion de notre puissance d’agir et de nos capacités d’entendements. Ainsi, la maxime d’Horace, reprise par Kant dans Qu’est-ce que les lumières ?, semble ici prendre tout son relief. « Sapere Aude », le courage de notre propre entendement, est une notion qui semble se réactualiser face à l’altération d’autonomie résultant du profilage et de la traque. La seule façon d’apprendre à un homme à penser est de le laisser tenter lui-même. Les systèmes personnalisés, qui pavent le chemin avant même qu’il soit emprunté, font perdre à l’homme sa capacité d’entendement. Ces techniques « de classification et d’évolution anticipative des comportements humains »1 contiennent en elle un principe et une croyance aux implications idéologiques lourdes en cela qu’elles définissent l’identité « en devenir », par rapport à un réel qu’elle prétend gouverner, renfermant une identité passé. C’est selon ce principe que les algorithmes prédictifs « s’attachent à gouverner le potentiel, le virtuel » plutôt que l’actuel. Les propos d’Eric Schimdt, président de Google, confirme cette volonté avouée : « Je pense que la plupart des gens ne veulent pas que Google répondent à leur questions, ils veulent que Google leur disent ce qu’ils vont faire ensuite. »2 L’anticipation, le futur, et par là même le contrôle des identités en devenir, est la temporalité dans laquelle les avancées techniques se trouvent. Rouvroy parle de « glissement stratégique ou tactique dans la gestion de l’incertitude ». Le « gouvernement algorithmique » entend donc maîtriser le probable afin de modeler un réel. Anticiper les désirs, offrir un service pas encore formulé, voilà la vision fantasmée des entreprises de personnalisation. 2. La personnalisation mènerait-elle à la réification ? 1 Rouvroy, A, « des données sans personnes », op.cit 2 "I actually think most people don't want Google to answer their questions," he elaborates. "They want Google to tell them what they should be doing next." The Wall Street Journal, Google and the search for the future, 2010.
  • 49.
    49 Un des premiersdangers est donc la fixation de nos identités, « profilées », « anticipées ». Du côté des entreprises, on observe pourtant un véritable engouement. Plus on en sait sur vous, plus on pourra vous satisfaire. Alors que l’on a définit l’identité comme une matière mouvante, les outils de personnalisation, de traque, ont pour effet de fixer celle-ci dans le marbre. Prenons l’exemple du journalisme en ligne. A l’époque de la presse papier, comprendre les désirs des lecteurs, identifier une cible précise, analyser la vie du papier une fois mis dans les mains du lecteur relevait de la science-fiction. L’offre était alors fixe. Mais lorsque les informations sur le nombre de clics sur un article en ligne, sur le temps de lecture passé sur une page ou à propos du taux de partage sur les réseaux, sont devenues accessibles, alors l’offre s’est adaptée. Ainsi de plus en plus, on donne aux lecteurs du contenu qui correspond à des désirs a priori. La déstructuration de l’offre sur les écrits d’écrans a souvent été mise en avant, notamment par Yves Jeanneret1 , qui analyse les écrits d’écran en tant que « dispositif médiatique », et s’attarde à démontrer que la matérialité de ces textes diffère de celles des contenus des médias traditionnels. Jeanneret réduit les Nouvelles Technologies de l’Information à des objets sémiotiques, reléguant la composante technique à de simples prophéties idéologiques. Ici, c’est la technicité de l’objet qui nous intéresse, en tant qu’elle modélise l’objet culturel. Avec l’analyse des données personnelles et la personnification des contenus, l’écran, ou l’ordinateur, n’est plus support, mais devient démiurge. Dominique Cotte met cette dimension en avant, en insistant sur la « stratification » des écrits. Selon Cotte, « tout dispositif de communication contemporain [s’articule] sur (au moins) deux niveaux : une partie visible, offerte sur des dispositifs de lecture fortement technicisés (les écrans) et une partie invisible formée des dispositifs de programmation, d’organisation et de transfert. »2 Dominique Cotte étudie l’écrit d’écran en tant qu’il est soumis à un environnement technique, duquel il est interdépendant. Notre parti-pris est de souligner que la technicité devient omniprésente et qu’elle est le socle de l’objet sémiotique qui apparaît par la suite. Elle se trouve avant la recherche (collecte de données), pendant (traquage), et après (profilage). Ces trois pratiques technologiques appartenant à la sphère du Big Data influent sur le contenu présenté sur l’écran. On peut ici parler de nouvelles modalités de réception du savoir. On assiste aujourd’hui aux balbutiements de cette prédominance de la technique sur le contenu, mais qui tend à se généralisé. Aujourd’hui, un site de médias va me recommander des articles selon mes préférences et mon profil auparavant identifiés (si vous lisez cet article, vous serez 1 Jeanneret, Yves, Y-a-t-il (vraiment) des technologies de l’information ? Villeneuve d'Ascq, Presses universitaires du Septentrion, coll. « Savoirs mieux », 2000 2 Cotte Dominique, « Écrits de réseaux, écrits en strates », Hermès, La Revue 2/ 2004 (n° 39), p. 109-115
  • 50.
    50 intéressé par celui-ci,et ainsi de suite) mais demain, il est possible que le contenu de l’objet change aussi. John Turow donne l’exemple suivant dans son ouvrage The daily you : How the new advertising industry is defining you identity. Un service comme The daily me, régie publicitaire en ligne spécialisée dans la récolte d’empreintes numériques, c’est à dire de traces laissées par les internautes, vend son expertise et sa base de données à des éditeurs de contenus soucieux d’offrir à leurs lecteurs des contenus ciblés, personnalisés. Ces informations permettent aujourd’hui de proposer un environnement de contenus adapté au lecteur, en d’autres termes, il lui livre des informations qui correspondent à ses centres d’intérêt. Mais le service est aussi en mesure, comme l’explique son fondateur et directeur dans l’ouvrage de Turow, de modifier le contenu sémiotique des écrits. Si le lecteur est habitué à lire des articles sur des sites de presse féminine par exemple, et que celui-ci se trouve à lire des informations tout autre, le site sera en mesure d’adapter le vocabulaire et le contenu de l’article afin de ressembler au plus près à des articles déjà consultés, c’est-à-dire imitant le style des revues de presse féminine. La personnalisation éditoriale n’est pas encore au point mais semble être un moyen de répondre à la chasse à l’attention des lecteurs que se livrent les éditeurs de contenus en ligne. Le pas a d’ailleurs été franchi dans l’industrie audiovisuelle, lorsque Netflix, service de vidéos à la demande en ligne, a conçu sa série House of Cards, à partir des données collectées sur les habitudes des téléspectateurs et sur leurs préférences. Rouvroy dénonce ainsi un « court- circuitage des capacités d’entendement, de volonté et d’énonciation des individus, et donc de la fonction-personne, par des systèmes informatiques capables de prendre de vitesse, littéralement, et de neutraliser ceux des effets de l’incertitude radicale qui seraient suspensifs des flux. »1 Ainsi, le profilage serait en mesure de façonner un environnement, de nous offrir un « réel clôturé », dans lequel la « dimension de puissance » des individus – réalisée par les capacités de choix et de volonté – serait amenuisé. En effet, Eric Shmidt, le président de Google, annonçait lui-même, que bientôt, il sera presque impossible de consommer ou d’avoir accès à quelque chose qui n’aura pas été prévu pour eux. Ainsi, les techniques d’analyse prédictive ont la possibilité d’influer sur les individus et la société, en renforçant les préjugés, et en limitant l’autonomie individuelle. En prenant 1 Rouvroy, A, idem
  • 51.
    51 pour devise que« ce qui a été sera », les techniques de production du savoir perpétuent l’a- priori, enfermant l’individu dans un « profil », une identité à laquelle il est difficile d’échapper. De telles avancées technologiques mettent en péril les capacités d’entendement et la liberté de choix des individus, tout en renforçant les déterminismes sociaux. Mais les techniques de profilage à des fins de personnalisation sont aussi l’apanage d’un domaine particulier, celui du marketing. L’individu, devenu potentiel client, est la « cible » des marketeurs, que ce soit en ligne ou hors-ligne. Quelles relations s’instaurent entre l’individu et la marque lorsque celles-ci adoptent des techniques de personnalisation ?
  • 52.
    52 III. Les limitesdu marketing personnalisé A. Le marketing à la recherche d’un nouvel eldorado La collecte et l’analyse des données personnelles sont convoitées par la grande majorité des acteurs du marketing pour deux raisons. Premièrement, les données concernent les individus et donc les potentiels consommateurs. La « cible », l’audience, est la condition sine qua non d’une stratégie marketing. Si la communication et la publicité existent, c’est afin de construire un pont entre la marque et le consommateur. La compréhension de la cible est la pierre angulaire d’une stratégie marketing, ils en sont la finalité. Avoir accès à des données qui renseignent sur les potentiels clients permet d’optimiser les plans marketings. La connaissance de la cible, par des faits quantifiables, semble au premier abord le meilleur moyen de mieux cerner cette dernière. Ensuite, le marketing est un domaine bâtard, puisqu’il est à la croisée de plusieurs sciences sociales appliquées aux lois du marché. Les recherches
  • 53.
    53 en sociologie, lesétudes qualitatives, la créativité, sont autant d’enseignements et de pratiques qui nourrissent les départements marketing et les agences de publicité. Ces dernières sont d’ailleurs souvent dénommées « agences créatives », mettant en avant les solutions créatives qu’elles apportent à des problèmes business. Ce faisant, le marketing et la publicité ont toujours souffert d’un manque de légitimité, travaillant à justifier leurs rôles auprès des directions. La difficulté à trouver sa légitimité tient à deux réalités. Il est tout d’abord très difficile de mesurer l’impact des actions sur les ventes, le retour sur investissement. La justification des choix, la rationalisation des processus et des actions mis en place est la deuxième faiblesse du marketing et de la publicité. On voit ici très clairement l’apport de la Big Data dans le domaine, elle serait en quelque sorte la caution scientifique, la preuve par les chiffres, rationnalisant les pratiques sous l’égide de la quantification. Mais en cherchant à tout prix à adopter ces logiques, les publicitaires se heurtent à des difficultés. La technique peut- elle vraiment tenir toutes ses promesses ? La relation avec les consommateurs, que l’on a identifiés comme cruciaux dans la stratégie, ne risque-t-elle pas d’être endommagé au passage ? Quelles sont les opportunités mais aussi les risques associés aux innovations que sont à la fois le data mining, le profilage et le ciblage comportementale ? 1. Les promesses de l’essor de la Big Data et du perfectionnement des outils à l’épreuve du réel Il est tout d’abord important de qualifier les types de données utilisées lors des analyses Big Data en marketing. Le data marketing s’appuie sur trois types de données: - Les données contextuelles, sur la navigation de l’internaute, c’est-à-dire sa géolocalisation ainsi que les sites visités. - les « 1st party data », les données propriétaires de l’annonceur, c’est-à-dire les bases clients, points de ventes… - Les données externes, « les 3rd party data », fournies par des sociétés spécialisées, qui contiennent des catégorisations socio-professionnelles, les intentions d’achat, etc… En quoi est-ce que ces données sont-elles sources de richesse pour une marque ? Pourquoi le marketing est-il un des domaines majeurs d’investissement de recherches en Big Data et méthode analytique ? Bien sûr, ces données donnent des renseignements sur l’identité des
  • 54.
    54 individus, mais lesPII (Personnal Identificable Information1 ) ne sont pas toujours ni utiles, ni forcément accessibles. Ainsi, les identités, entendu comme les renseignement d’états-civils, ne sont pas forcément ce qui intéresse le marketing et nous ne nous situons pas ici dans la problématique de la vie privée au stricte sens du terme. Ce qui intéresse le marketing, la publicité, sur les comportements en lignes, sont ce qui est parfois appelé les « données de l’intention »2 . L’expression a été popularisé par Battelle, entrepreneur américain. La logique prédictive des algorithmes de recherches que nous avons étudié a déjà mis en lumière ce glissement de temporalité. Nos identités en ligne, puisque augmentées de nos « empreintes » sont telles que se dessine un « moi futur », probable. Si on reprend cette logique dans une perspective marketing, ces données représentent « les intentions de l’humanité – une base de données immense renfermant les désirs, besoins, nécessités, et appréciations3 » Ces données permettent donc de procéder à un « profilage » de la cible. Associé au marketing personnalisé, il est courant que cette technique soit méprise comme une nouvelle connaissance non plus d’une cible mais d’un individu. Hors, excepté les campagnes de « retargeting », basé sur la traque, les opérations de profilage ne permettent pas la connaissance précise d’un consommateur, en tant qu’individu un et spécial. Le profilage permet de créer non pas des campagnes personnalisé, mais un découpage plus fin de la cible, selon des critères non-éprouvés par les classiques classifications socio-professionnels. Antoinette Rouvroy définit le profilage comme étant une « objectivisation » et une « optimisation » de la distribution des ressources, répartis en fonction de « profils » et non pas d’individus : Face au foisonnement anarchique et l’irrégularité des comportements humains, le profilage algorithmique (reposant sur les opérations de récolte de données et d’établissement de corrélations qui le précèdent) permet d’inférer avec une certaine marge d’incertitude, de la seule présence de certaines caractéristiques individuelles non observables, actuelles ou futures. 1 "Personally identifiable information" (PII), est une notion utilisée dans la loi Américaine, désignant les informations pouvant être utilisées afin d’identifier, contacter, ou localiser un individu, ou d’identifier un individu en contexte. 2 “Data base of intentions” 3 “This information represents, in aggregate form, a place holder for the intentions of humankind – a massive database of desires, needs, wants, and likes” The Data Base of Intentions is far larger than I thought – Battelle media blogs [Disponible:http://battellemedia.com/archives/2010/03/the_database_of_intentions_is_far_larger_than_i_tho ught.php]
  • 55.
    55 Le profilage (…)permet d’objectivé et d’optimiser (…) la distribution ou la répartition des opportunités, des ressources et des offres de biens et de services en fonction des prédictions associées non plus à chaque personne individuellement mais à chaque profil. Tout d’abord, la confusion entre identité et profil est au départ de beaucoup de fausses conceptions, mais le profilage est aussi un art complexe, qui, pour être pertinent, doit éviter biens des écueils. La tentation de reproduire des schémas de classifications éprouvées, des représentations sociales, à partir de chiffres pourtant éclairants, n’est pas moindre. Légitimé par les chiffres et les données quantitatives, les classifications n’échappent pourtant pas à cette subjectivisation propre à l’interprétation. L’offre de l’agence Amaury médias est un exemple de ce chevauchement entre l’interprétatif et le quantitatif. L’agence, en collaboration avec une société de ciblage prédictif - nugg.ad - a constitué 19 segments d’audience «prêts à l’emploi» : Pour prouver l’efficience de leur méthode, ils mettent en exergue une étude de cas dans leurs publicités et affirment trouver sur le site lequipe.fr 3 catégories de visiteurs : « Les Gentlemen » - Hédonistes, ils ont le gout du luxe, des belles choses et les moyens de se faire plaisir. « Les money Makers » La finance n’a pas de secret pour eux. Ils sont à l’affut des meilleurs produits pour faire fructifier leurs revenus. « Les Sportives » : parce qu’il n’y a pas que les hommes qui lisent l’Equipe. » Ainsi les segments d’audience sont définis comme « prêts à l’emploi », comme des catégories, basées sur des chiffres certes mais appelant plus l’imaginaire et les représentations mentales que de véritables faits. L’analyse subjective est d’ailleurs suggérée dans la description du processus d’analyse décrite dans la publicité: A partir du brief client, ils [les commerciaux de la régie] seront le relais en interne avec le marketing et les experts digitaux pour proposer le meilleur segment, s’assurer de la viabilité du segment choisi et optimiser la diffusion du dispositif. Les segments ne sont donc pas issus de l’analyse quantitative mais bien d’une proposition faite à la fois par les marketeurs et les experts digitaux. Ce schéma est celui exposé par Etienne Klein dans la revue INfluencia
  • 56.
    56 Nous nous trouvonsdésormais soumis à une multitude d’évaluations, lesquelles ne sont pas prononcées par des prédicateurs religieux ou des idéologues illuminés : elles se présentent désormais comme de simples jugements ‘d’experts’, c’est-à-dire sont censés être effectuées au nom de savoirs et de compétences de type scientifique, et donc, à ce titre, impartiaux et objectifs. Le risque de retomber dans des biais socio-culturels est donc bien réel. Les « jugements d’experts » étant des titres cachant une réalité bien plus triviale. Par l’appellation d’experts, les « interprétateurs de données » légitiment cette interprétation, mais ne peuvent faire oublier le « jugement », et donc la nécessité d’affirmer un choix, ou un avis, sur les faits. Le saut interprétatif est bien réel, malgré les fantasmes d’objectivisation. Si le profilage permis par les Big Datas ne permet pas d’atteindre le marketing personnalisé tant vanté, certaines marques parviennent à toucher l’individu dans sa singularité (toute relative) par des moyens plus traditionnels, mais relevant bien de « l’hypertrophie de la sphère privée » et de l’inclinaison à une exposition de soi. On pense à la récente campagne Coca-cola. En remplaçant son logo par un prénom sur leurs canettes, avec la mention « partagez un coca cola avec… », la marque, sans aucun dispositif technologique ou sophistication, atteint une forme de personnalisation en touchant chaque individu. Cette flatterie de l’identité de chacun s’insère dans une conception post-moderne de l’individu, où l’individu est à la fois singulier, et totalement universel. En effet, si je suis touché personnellement par l’apparition de mon prénom sur la bouteille de soda, d’autres, avec le même prénom, le seront aussi. Ainsi, la publicité flatte l’individu, mais convoite l’universel. Elle profite d’une tendance à l’individualisme tout en s’inscrivant dans un système normatif. Cette recherche de cette double cible – toucher tout le monde, en touchant chacun, est aussi fantasmatique que l’idée que derrière chaque profil se cache un individu. Mais lorsque les pratiques mettent en valeur, et font participer l’individu, comme dans la campagne Coca-Cola, alors on passe du fantasme à l’efficacité marketing et donc de l’augmentation des ventes. Il est important de noter que même si cette campagne de Coca ne fait pas directement appel aux Big Datas, elle a quand même pour point de départ une analyse des prénoms les plus données dans la tranche d’âge de la cible. On retrouve ici, non pas du webmarketing, mais des principes de marketing de bases respectés et bien mis à profit. Alors que Coca-cola, ainsi que d’autres marques telles que Milka et le carré de chocolat à envoyer à un ami, passent par l’universel pour toucher le particulier, les pratiques du web-marketing font le chemin inverse et tentent de trouver de l’universel dans le
  • 57.
    57 particulier. A partirde données venues du bas, ou de la fin de la chaîne, c’est-à-dire des consommateurs, la marque a accès à un terrain d’observation et d’analyse extrêmement vaste. Les données collectées et l’accès en temps réel aux comportements des utilisateurs permettent aux marques un accès presque immédiat à des « focus groupes géants ». La problématique étant alors organisationnelle. Comment rendre intelligible ces myriades d’informations et donner du sens à des comportements humains ? Le « profil » des consommateurs est un moyen de regrouper plusieurs individus en « types » de consommateurs. Ces profils, liés à l’historique du consommateur, (la fameuse banque de données d’intentions), permettent l’optimisation totale des coûts. En effet, ces techniques de marketing digital permettent d’envoyer le bon message à la bonne personne au bon moment, mais facilitent aussi, et c’est une avancée cruciale, de définir ce que vaut chaque consommateur. Sheldon Gilbert, fondateur de Proclivity Media, résume ainsi les étapes dans les avancées permises par les la technologie. « La chose la plus importante pour quiconque dans la publicité est de comprendre les intentions du consommateur1 .» explique-t-il dans un entretien au New-York Time2 . Mais derrière ces intentions, il s’agit aussi de comprendre la valeur de chaque consommateur potentiel. La valeur attribuée à chaque consommateur, et combien le publicitaire est prêt à dépenser pour celui-ci sont des décisions basés sur différents critères, dont le « profilage » de l’individu, et son « traquage ». Gilbert donne ainsi un exemple concret. Si un consommateur à 10% de probabilités de faire un achat à 50€, alors le consommateur peut être évalué à 5€. Si la valeur d’un consommateur est inférieure au cout de l’effort marketing, alors il est probable que le publicitaire décide de ne pas envoyer de publicités à cet individu. Bien sûr, ces statistiques et calculs de la probabilité sont effectués à l’aide d’outils venus du mariage de la technologie et de la publicité (l’AdTech –advertising technology) et correspondent à des processus automatisés. Ceux-ci permettent l’avènement d’une publicité « en temps réel » mais ce marketing « de la différenciation », qui classe et évalue les consommateurs de manière automatique peut aussi contenir en lui-même des biais, et avoir des effets pervers. 1 “The most important thing for anyone to do in advertising is to understand the intent of the consumer,” 2 New-York Times, Oct 2012 , « New ways marketers are manipulating data to influence you »Disponible : http://bits.blogs.nytimes.com/2013/06/19/new-ways-marketers-are-manipulating-data-to-influence-you/]
  • 58.
    58 2. Le marketingpar la « différenciation » : l’ère du mieux consommer ? Alors que Seth Godin, véritable gourou du marketing aux Etats-Unis, titre son dernier ouvrage Exit le marketing de masse, nous sommes tous singuliers, se faisant le chantre de la personnalisation et l’apôtre de la singulière créativité de chacun, le marketing personnalisé, ou marketing de « la différentiation », est soumis à un biais qu’il convient de faire remarquer. En effet, face à la difficulté de cerner l’individualité, nous l’avons vu, le profilage ou data mining peuvent aussi être des pratiques discriminantes. John Podesta1 , conseiller de l’administration Obama écrit dans un rapport sur les opportunités à saisir du Big Data, prévient que les pouvoirs de l’analytique « avaient le potentiel d’éclipser les protections de droits civiques dans la manière dont ceux-ci étaient utilisés dans les domaines du logement, de l’accès au crédit, à l’emploi, à la santé, à l’éducation et sur le marché. » De nombreux chercheurs s’inquiètent du risque de voir apparaître de nouvelles formes de discriminations, volontaires ou non. Il est en effet assez complexe, et crucial, de déterminer « où commence la personnalisation à valeur ajoutée et où commence la discrimination nuisible.»2 . Un des problèmes majeurs est de définir le terme de discrimination, en tant qu’elle n’est pas seulement différenciation. Celle-ci est le plus souvent illégale, mais peut aussi être voulue (les mineurs n’ayant pas le droit de votes), ou acceptable (la recommandation sur Amazon)3 . Dans le cas de la publicité ciblée, on se trouve sur une ligne fine entre une discrimination acceptable, car se rapprochant de l’idée qu’on rend un service différent selon le profil de la personne, sans heurter, ou diminuer aucun consommateurs potentiels, et une discrimination moins éthique, résultat d’un processus où les raisons de privilégier, ou de catégoriser une partie des individus plutôt qu’une autre seraient suspects. Cette qualification est complexe lorsqu’appliquée au data mining puisque la pratique est en elle-même discriminatoire, elle repose sur la différenciation. Le data mining permet en effet de classifier, de différencier une catégorie d’une autre. Le problème étant bien de savoir quels critères vont mener à tracer cette ligne. Prenons l’exemple du spam, objet 1 Podesta, J. (2014). Big Data: Seizing Opportunities, Preserving Values. Available: http://www.whitehouse.gov/sites/default/files/docs/big_data_privacy_report_may_1_2014.pdf 2 “where value-added personalization and segmentation ends and where harmful discrimination begins” Schrage, 2014). Schrage, M. (2014). Big Data’s Dangerous New Era of Discrimination. [Disponible http://blogs.hbr.org/2014/01/big-datas-dangerous-new-era-of-discrimination/.] 3 Judged by the Tin Man: Individual Rights in the Age of Big Data
  • 59.
    59 récurrent du processusde datamining. La structure technologique qui permet de différencier un spam d’un e-mail important est simple parce que les critères ne portent pas à confusion. Par des corrélations, par exemple le nombre de fois où l’email envoyé par cette boite mail n’a pas été lu par le destinataire - la technologie parvient à identifier (c’est le procédé de machine learning) si un mail est un « bon » mail, ou un « spam ». Cet usage du data mining n’a aucune conséquence éthique et requiert d’une binarité de classes qui rend la tâche aisée : il existe seulement quelques critères, très pragmatiques, pour distinguer un mail pollution d’un autre. Mais lorsque les classifications ne répondent pas d’une classification naturelle, empirique, comme par exemple distinguer un « bon » consommateur d’un « mauvais » consommateur, ou d’un employé ? Comment créer ces classes ? Comment s’assurer que les critères utilisés ne désavantagent pas, à tort, une certaine classe de la population ? Une des possibles discriminations à l’œuvre dans le profilage est la classification entre les « bons » et les « mauvais » sujets. Si un individu est identifié comme étant à plus haut- risque, ou à plus haut coût qu’un autre, alors ces profils profiteront de moins d’avantages que d’autres. « Une manière simple de réduire les coûts et de conserver ses ressources peut être de décourager les consommateurs les moins rentables et les plus coûteux »1 . Le ciblage comportemental en marketing procède à cette discrimination, en donnant plus d’avantages à ceux qui sont considérés comme plus à même de correspondre à de « bons » clients. Ainsi, dans un article de recherche2 , deux chercheuses en droit, Laura Moy et Amanda Conley mettent en avant le prix à payer des services personnalisés : les riches en profitant, et les pauvres payant pour ces services leur étant refusés. La logique est la suivante. Un consommateur avec une forte valeur ajoutée étant plus profitable, il va se voir offrir plus de promotions, de services, ou d’avantages qu’un consommateur au pouvoir d’achat moindre, qui payera ses produits au prix fort. Les deux chercheuses s’appuient par exemple sur les programmes de fidélités des supermarchés : [Ceux-ci] sont pensés pour identifier et récompenser les consommateurs les plus aisés – la petite minorité de consommateurs qui font la majorité des ventes du magasin – au dépens de ceux au bout de la chaîne du pouvoir d’achat.3 1 Sharge, op.cit 2 Laura Moy & Amanda Conley, Paying the Wealthy for being Wealthy: The Hidden Costs of Behavioral Marketing 3 “Grocery store loyalty programs, for example, are designed to identify and reward the wealthiest shoppers— the small minority of customers responsible for a majority of the store’s revenue—at the expense of those at the lowest end of the income spectrum.” – idem
  • 60.
    60 Les objectifs d’efficacitédu marché auraient des conséquences sur la répartition des avantages, forçant le trait des inégalités déjà existantes et exacerbant la logique du profit qui la précède. Ainsi, le débat se déplace non pas sur les limites de la collection de données personnelles, qui permettrait une identification mais plutôt sur les usages affiliés à cette pratique. Comment être sûrs que les données ne sont pas utilisées à des fins discriminatoires ? Comment vérifier que les choix faits, ce tri statistique, n’est pas pour principe une classification discriminatoire et moralement répréhensible ? Nous avons mis en avant la boucle selon laquelle les riches s’enrichissent et les pauvres restent marginaux. Mais ces discriminations peuvent aussi toucher des profils bien plus divers. L’usage, de plus en plus répandu, des « e-score », ou de l’évaluation en ligne, est soumis aux mêmes types de problèmes. Ces évaluations en ligne sont invisibles au consommateur et répondent de la même logique de profilage, seulement par le biais de la notation et de l’évaluation. Nous avons déjà mis en avant cette pratique par la société de transports Uber, qui pratique l’évaluation à la fois pour ses usagers et ses chauffeurs. Mais celle-ci est l’apanage de beaucoup de services clientèle. La conséquence étant que si je n’ai pas une bonne note, alors j’en pâtirais. La difficulté à trouver des critères de classification raisonnables, sans avantager à outrance les uns au dépend des autres, est une forme de discrimination courante au sein des offres commerciales, services clients, et autres systèmes améliorés de CRM (Client Relationship Management). Mais il existe aussi un autre biais aux pratiques de datamining, qui se rapproche de la discrimination telle qu’interdite par la loi, et qui consiste à classifier les sujets selon des critères de « classes protégées », c’est-à-dire par rapport à leur ethnicité, religion, genre, ou orientation sexuelle. Evidemment, ces classifications tombent sous le coup de la loi et il est impossible pour un service marketing de qualifier ainsi son « modèle ». Cependant, il n’est pas rare de trouver des dénominations plus subtiles dans les segments créés, mais renfermant une même réalité. La FTC (Federation Trade Commission), commission de défense des citoyens américains a ainsi mis en avant dans une étude les segments marketing répondant de cette pratique1 . Parmi ceux-ci, on trouve les « Timeless Traditions », (Eternels 1 FTC to Study Data Broker Industry's Collection and Use of Consumer Data, Commission Issues Nine Orders for Information to Analyze Industry's Privacy Practices, [Disponible:http://www.ftc.gov/news-events/press- releases/2012/12/ftc-study-data-broker-industrys-collection-use-consumer-data]
  • 61.
    61 traditions), identifiant desimmigrés qui « parle quelque peu anglais mais lui préfèrent généralement l’espagnol). La FTC note que même si ces catégories ne violent pas les lois américaines anti-discriminations elles sont clairement à l’origine d’un traitement discriminatoire, perpétrant les inégalités structurelles de départ. Le marketing augmenté d’une science technologique, atteindrait son idéal d’efficacité au détriment possible d’une certaine marge de la population. D’aucuns argumenteront que le marketing n’a pas de visée humaniste et ne s’adresse qu’à des consommateurs, en faisant un tri nécessaire entre ceux de leur communauté, fédérant certaines identités, en rejetant d’autres. Cependant, il existe un autre obstacle au marketing personnalisé, qui prend le problème par l’autre bout. Si l’ère de l’adtechnology est si efficace, ne risque-t-elle pas de se heurter aux consommateurs ? Quelles sont les barrières du côté des consommateurs ? L’efficacité maximale d’une publicité n’est pas synonyme de réception optimale. On verra que, plus que la performance technologique, les consommateurs sont surtout sensibles à des manières de faire, dans un contexte qu’il faut prendre en compte, et manier. 3. Le marketing intrusif Harper Reed, conseiller en analytique durant la campagne d’Obama en 2012, déclare dans la revue INfluencia que la Big Data nous fait entrer dans « l’ère du mieux consommer » où chaque consommateur consommera des produits adaptés à ces désirs et ses envies. Cette vision utopique du web marketing rejoint les visées d’Eric Schimdt évoquées auparavant. Mais le consommateur est-il prêt à entrer dans l’ère du tout-personnalisé ? Celle-ci ressemble- t-elle vraiment à l’idéal lissé d’individus compris ou est-elle seulement capable de tracer des « profils » encore grossiers ? InSkin Media and Rapp Media ont récemment publié une étude montrant que 55% des consommateurs ne sont pas enclins à acheter un produit en ligne pour lequel ils avaient pourtant exprimé un intérêt auparavant (en faisant une recherche en ligne) si celui-ci leur est proposé par le biais de plusieurs publicités re-ciblées1 . 1 “It’s Official: Consumers Are Just Not That Into Retargeted Ads”, The Exchange Wire, Oct 2014 [disponible en ligne : http://www.exchangewire.com/blog/2014/10/23/its-official-consumers-are-just-not- that-into-retargeted-ads/]
  • 62.
    62 L’étude montre queseulement 10% de 1.600 personnes de 20 à 60 ans sont plus enclins à acheter un produit qui leur serait adressé à la suite de leur comportement en ligne. Pourtant, les résultats de cette enquête ne disqualifie pas le système de ciblage en ligne puisque plus de la moitié des sondés pensent que ce processus est utile si il vient d’une société pertinente, en accord avec leur recherche. La ligne est donc fine entre la publicité ciblée utile et pertinente, et l’intrusive, faisant naître des sentiments d’agacement, voire d’énervement (voir annexe). La récurrence de ces publicités semble être le facteur négatif. Plus la publicité est vue, moins l’internaute la considère avec sympathie. Une des révélations de l’étude démontre une subtilité donnant du sens à la démarche et éclairant le probable état d’esprit des consommateurs. Si la publicité est visionnée pendant la recherche, elle encourage l’achat 15% fois plus qu’une publicité qui serait vu après l’achat. Cette subtilité confirme les doutes évoqués auparavant dans notre recherche, qui montrait les limites de la logique selon laquelle « ce qui a été sera » de l’algorithme prédictif. En effet, les internautes reconnaissent et apprécient un « profilage » et une personnalisation qui permet d’avoir un bénéfice direct. Je m’intéresse à un produit, et on me permet de l’acheter. Mais il semble avoir un décalage entre la puissance prédictive et la persistance des régies publicitaires et l’état d’esprit des internautes. Si j’ai fait une recherche une fois sur un produit, je ne souhaite pas que celle-ci me « suivent » et reste accolée à un profil qui est en réalité en mouvement. Le webmarketing, qui en est encore à ses balbutiements semble encore mal maîtrisé les subtilités de la réalité en ligne. Les utilisateurs sont volatiles, à la fois changeants et exigeants. Une approche tr1 op simpliste de la publicité programmée rebute les utilisateurs et ne permet pas de mettre à profit tout le potentiel de cette technologie. La difficulté réside aussi en de nombreux problèmes techniques, notamment celui des capping [terme utilisé dans la publicité en ligne pour désigner la limitation du nombre de fois où l’utilisateur voit une publicité.] Les erreurs techniques et approximation autour du capping résultent souvent en une inondation de publicités intentionnellement non contrôlée. Trop souvent, les publicités ciblées sont mises en ligne seulement motivée par la possibilité de le faire. Parce qu’un espace peut être acheté, que la donnée est accessible, alors l’envoi d’une publicité ciblée serait justifiée. C’est cette logique qui mène à la déception des utilisateurs. Une publicité ciblée doit prendre en compte la fréquence (le capping) mais aussi le contexte. Les internautes sont plus enclins à cliquer sur une publicité lorsqu’ils se trouvent sur un site auquel ils font confiance
  • 63.
    63 par exemple. Pourne pas être contre-productif, le ciblage comportemental doit être contextualisé et respecter le seuil de tolérance des utilisateurs. Ce seuil de tolérance, cette intrusion dans la sphère privée, n’est pas toujours compris. C’est le cas notamment du magasin Target aux Etats-Unis1 . Target est un détaillant vendant des produits extrêmement diversifiés, de l’alimentation au divertissement en passant par les produits d’hygiènes. Il est donc possible, et c’est l’ambition de Target, de faire de ce supermarché un lieu unique, où le consommateur pourrait procéder à tous ces achats. Hors, le comportement des utilisateurs prouvent le contraire, on a tendance à aller chercher des produits dans différentes enseignes diversifiées. La direction marketing du magasin a donc pensé que s’il ils arrivaient à changer les habitudes de consommation dans un moment crucial d’une vie, à un des rares moments où le parcours client est modifié, alors ce client resterait fidèle. Ces moments où les habitudes de consommation changent son rare dans une vie, mais pour les commerçants et publicitaires, ils sont cruciaux. Les consommateurs se rendent à peine compte du changement, puisque leurs habitudes de consommations sont concentrées dans une routine. Lorsque la routine change, qu’ils se marrient, déménagent, divorcent, etc, alors ils sont naturellement plus enclins à changer de routines de consommations. C’est à ces moments-là que les consommateurs sont le plus « vulnérables aux interventions marketing ». Si la publicité est envoyé au bon moment, dans le bon contexte, alors il y a une chance que la routine prenne le chemin indiqué. Parmi ces moments, l’arrivée d’un enfant fait partie d’un des bouleversements majeurs. Target a donc pensé qu’il fallait agir au plus vite, avant que cette femme ne fasse le choix délibéré de changer ses habitudes de consommation, il fallait induire son choix, en lui prouvant que Target était le lieu où elle pourrait satisfaire toutes ses nouvelles habitudes d’achat. Target est une enseigne qui a mis en place un très lourd service de fidélisation et de connaissance des consommateurs depuis longtemps. Chaque consommateur qui a déjà payé avec une carte bleue, ou ayant une carte de fidélité, ou ayant communiqué une adresse mail, se voit assigné une « Guest ID card », c’est-à-dire un fichier client où toutes ces actions sont gardées précieusement. Ainsi, les data-scientists ont découvert qu’il était possible d’identifier une femme enceinte à son deuxième trimestre en analysant son panier d’achat. Des produits qui pris séparément n’avaient aucune cohérence révélaient en fait un schéma corrélatif qui 1 Joel Lovell, « How companies learn your secrets”, NY times, Février 2012 [Disponible :http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?pagewanted=all&_r=0]
  • 64.
    64 permettait d’identifier qu’unefemme attendait un bébé. L’identification de ces produits permit aux équipes d’attribuer à chaque consommateur un score de « prédiction de grossesses » (pregnancy prediction) et même avoir une estimation de la date prévue de l’accouchement. Ces informations, couplées avec les autres habitudes de consommation connues sur la cliente permettait à Target de préparer une adresse au consommateur extrêmement personnalisée. A chaque stade de la grossesse, un bon de réductions pouvait être offert, compris dans un parcours client qu’on pouvait identifier comme correspondant aux habitudes et désirs de cette femme. (Ouvre-t-elle les mails qu’on lui envoie ? Fait-elle ces courses le week-end ou tard le soir ?) Ainsi, l’analyse des données des consommateurs et des habitudes dans le parcours d’achat, permet à des entreprises telles que Target d’en savoir beaucoup sur ses clients, et d’agir en conséquence. Mais un problème s’est vite posé face à l’efficacité de cette méthode de prédiction de maternité. Comment la femme pouvait-elle bien réagir si on annonçait une grossesse alors qu’elle-même n’a communiqué aucune information ? Target ne s’est pas préoccupé de l’intrusion dans la vie privée que représentait cette nouvelle, et a connu quelques dégâts face à des réactions de consommateurs et de proches choqués d’apprendre une grossesse par le biais de leur supermarché. Target est un exemple d’intrusion dans la vie des consommateurs par des marques tourné vers une logique d’efficacité qui vire parfois à l’enfermement des consommateurs. Nous avons dénoncé comment le marketing prédictif et les logiques algorithmiques pouvaient avoir un impact sérieux sur les possibilités de choix des individus et les capacités d’entendement. Lorsque l’acte marketing est trop éloigné de l’état d’esprit du consommateur, qui ignore être suivi, observé, convoité, alors il arrive une rupture de confiance. Comment se fait-il que mon supermarché sache que sa fille soit enceinte avant son père ? Pour éviter ces débordements, il est important de mesurer la portée de ces actes, et de jouer de manière fine avec les informations, les insights, fournies par les données. Cette conscience des réticences encore existantes des consommateurs permet d’éviter l’hubris du marketing prédictif et assure des campagnes qui touchent mieux les consommateurs. Mais, on peut aussi plaider pour un marketing plus éthique, qui remet du pouvoir aux consommateurs, dans une relation plus équilibrée. Deux tendances sont actuellement en développement, nous les explorons dans nos recommandations.
  • 65.
    65 B. RECOMMANDATIONS :LE CONSOMMATEUR-ACTEUR. 1. TRANSPARENCE ET PEDAGOGIE POUR REDONNER LE POUVOIR A L’UTILISATEUR Puisque rares sont les sujets si proches de la science et de l’informatique qui ont eu autant d’influence sur les décisions prises en entreprises, il est nécessaire de le rendre accessible au plus grand nombre. Un des enjeux de cette double casquette réside dans l’acceptation de la technique par un public non scientifique. Afin de rendre la donnée « palpable » et afin de faciliter la compréhension des données, de nombreux efforts se font autour de la visualisation de celle-ci, à travers de nouvelles interfaces et médiations. Emmanuelle Garnaud-Gamache se pose d’ailleurs la question : Comment en effet imaginer de rester dans le cadre contraint de l’écran d’ordinateur et de la souris quand on manipule de telles masses de données1 ? De nouvelles technologies, telles que la réalité augmentée ou la réalité virtuelle permettent de faciliter la navigation et rendre le travail de l’analyste plus souple. Cette transformation de la donnée par son support s’effectue au premier niveau – alors qu’elle est encore brute et non analysée – mais une deuxième transformation s’opère lorsque les données analysées et croisées sont livrées à un public plus large. Il s’agit de la data-visualisation en elle-même, des infographies et des cartographies. La donnée chiffrée se traduit, pour des raisons pratiques de compréhension, en objet qualitatif, voir artistique. Ces supports sont cruciaux pour faciliter l’adoption de la data dans les milieux professionnels et dans la société. Puisque les données disent quelque chose de notre monde et sont sources d’un savoir jusqu’ici inconnu, il importe qu’elles puissent être manipulées par ceux qui en tirent des conclusions puis comprises par le destinataire final, le public, quand il en est question. Une infographie doit fournir une information « interprétable, pertinente et novatrice ». Ces trois critères sont essentiels afin que la cartographie ne devienne pas 1 INfluencia n°9, « La Data »
  • 66.
    66 seulement un artde « la donnée pour la donnée », dans une logique stérile de mise en avant des chiffres. Sa première qualité est d’être interprétable, lisible et claire pour le plus grand nombre. Sa deuxième est d’être pertinente, que les chiffres mis en avant répondent à une problématique métier. Elle doit aussi être novatrice, c’est-à-dire qu’elle doit mettre en avant de nouvelles perspectives grâce à son agencement. Deux paradigmes de notre temps se font ici face : celui du règne du quantitatif et celui du culte de l’image. Depuis la Société du spectacle de Guy Debord et jusqu’à l’avènement des réseaux sociaux, l’image est partout et est érigée en loi suprême des systèmes médiatiques. Alors pour que les études quantitatives fassent leur entrée dans ce système d’information et être lue, appréciée, partagée, la data est aussi transformée en image. De nouveaux métiers apparaissent et les designers se font professionnels de l’infographie et de la data-visualisation. Celle-ci est utile en tant qu’elle permet de mieux gérer des masses de données auparavant inintelligibles mais elle permet aussi de vulgariser la pratique et sert d’argument commercial. Les dashboards produits par les agences digitales sont utiles pour montrer à une direction marketing les incohérences, ou atouts, de leurs marques, révélées par la data. La data-visualisation est un médium qui permet de casser un discours trop rêche pour lui donner relief et perspective. C’est en quelque sorte le « story- telling » accolé à la data. Une des faiblesses de la donnée utilisée en entreprise aujourd’hui est qu’elle est souvent collectée et analysée et rarement mise à profit. La data-visualisation permet de faire passer des messages, et non plus seulement des chiffres. En plus d’être utilisée pour faciliter la prise de décisions en entreprise, la data- visualisation peut être une technique pédagogique à des fins de transparence et de reprise en main de leurs données par les utilisateurs. Cette pratique, pas encore développée mais déjà pensée par certains chercheurs s’inscrit dans un mouvement appelé «Human Data Interaction », qui serait une extension de la « Human Computer Interaction » dans lequel s’inscrit la data visualisation. En effet, cette dernière permet de faciliter et d’encourager l’interaction des utilisateurs avec la machine. La HDI serait une manière pédagogique d’exposer aux utilisateurs les données qu’ils livrent. En effet, sur le net, l’architecture, le design, sont des objets de contexte et d’environnements qui sont décisifs. Nous avons déjà soulevé ce point lorsque nous avons évoqué les cases pré-cochées ou les paramètres de confidentialités peu
  • 67.
    67 lisibles. La data-visualisationaccessible par tous les utilisateurs serait la première étape vers plus de maîtrise des données personnelles. Une des questions auxquelles la science de l’HDI voudrait répondre est « comment les données peuvent-elles être utilisées afin de bénéficier et aux individus, et à la société ? ». Les théoriciens de l’HDI mettent ainsi en avant ce principe : « HDI place l’humain à la place où il devrait être, non pas comme une partie-prenante du système mais à son centre »1 Le but de l’HDI est de donner à l’individu une plus grande maîtrise de la visibilité, de l’étendue et des usages liés à leurs données personnelles. La souveraineté de l’utilisateur permettrait de redonner du contrôle, et ainsi de rééquilibrer les rapports de force. Une fois éclairés sur les processus technologiques et la transformation de leurs données, les individus seraient à même de choisir de manière consciente quels paramètres choisir. 2. LA VRM, POUR REPENSER LA RELATION CONSOMMATEUR Dans la lignée de ses innovations mettant en avant l’aspect pédagogique, il est aussi important de changer l’approche CRM (Client relationship management) qui déséquilibre les rapports entre le consommateur et les marques. Nous l’avons démontré, l’individu a un champ d’actions très limité quant à la maîtrise de ses données. Le principe du Vendor Relationship Management (VRM) permettrait de rééquilibrer la relation et les interactions. En effet, la transformation de la collecte de données en actif stratégique pour les marques a atteint la confiance que les consommateurs avaient dans les marques, qui les traquent le plus souvent à leur insu. L’exemple du détaillant Target faisant office d’exemple majeur. Une des réactions à la dégradation de ce contrat de confiance résulte en une baisse de fidélité. En réaction, les marques pratiquent un management de l’enfermement, de verrouillage de clients ou même de manque de transparence sur l’utilisation des données, autant de pratiques qui ne font qu’endommager encore plus la relation client. Adopter une approche VRM, c’est adopter une règle simple : si l’entreprise sait quelque chose sur moi, alors le consommateur doit le savoir aussi.Doc Searl pose les bases de cette pratique dans Le Manifeste des évidences. Selon lui, Internet permet aux consommateurs de faire pression de manière collective sur les entreprises. Cette nouvelle forme de pouvoir doit s’accompagner d’une nouvelle manière de penser les interactions. Celles-ci doivent être régies par des principes de transparence. 1 Challenges & Opportunitites in Human-Data Interaction, Mortier.R, Haddadi.R, Tristan. R
  • 68.
    68 Trois étapes sontdonc essentielles à l’adoption d’une pratique VRM : - Faire accepter aux entreprises que lorsqu’elles disposent de données, le consommateur doit y avoir accès - Créer une série d’outils pour que les consommateurs puissent stocker, se servir de ces données les exploiter et les visualiser - Inventer des services permettant de créer de la valeur autour de ces données, pour se connaître soi- même, pour mieux consommer, pour transformer la relation que nous avons avec les marques ou les entreprises1 Le dernier point faire entrer la VRM dans un cercle vertueux, où chaque partie-prenante trouve quelque chose à y gagner. Si les données personnelles sont accessibles à l’utilisateur, qu’il y trouve une certaine valeur, une utilité, qu’il peut maîtriser les services qui y sont associés, alors il sera plus enclin à fournir des données de qualité. En effet, une des limites les plus prégnantes de l’analytique aujourd’hui réside dans la piètre qualité des données. Si l’utilisateur se fait lui-même contrôleur de qualité, alors l’entreprise pourrait peut-être enfin atteindre l’objectif de personnalisation et de service optimal. Les avantages sont nombreux à la fois pour les entreprises et pour les acteurs publics : ils recréent de la confiance, fidélisent les utilisateurs et peuvent même créer de nouveaux types de service. La possibilité de créer des usages de la Big Data plus respecteux de l’individu conditionne son avenir. Les utilisateurs étant au coeur de ce processus, il serait dangereux de les négliger et de sous-estimer le pouvoir des consommateurs. Acteurs de la société, matière première de la Big Data, il est urgent de redéfinir leur place au sein de ce nouvel écosystème. 3. UN ESPRIT D’INNOVATION Le dernier enseignement de la Big Data dans des problématiques métiers que nous abordons ici se situe au niveau technique mais touche surtout l’idée selon laquelle ces innovations ouvrent un monde de possibilités. Un des bouleversements majeurs opéré par la banalisation des techniques d’analyse en temps réel et de la nouvelle relation au consommateur se situe au niveau de l’innovation. Un des principes au coeur d’Internet est l’amélioration constante.2 Le succès d’Amazon et de Google tient en effet à leur capacités à 1 Data Business, La VRM redonne le pouvoir aux utilisateurs [Disponible : http://www.data- business.fr/le-vrm-consommateur-reprend-le-controle-sur-ses-donnees/] 2 de la Porte Xavier, InternetActu, 2011, “l’histoire de l’innovation contemporaine, c’est les big data” (disponible : http://www.internetactu.net/2011/11/28/lhistoire-de-linnovation-contemporaine-cest-les-big- data/)
  • 69.
    69 tester, développer, innoveren temps réel. Ces entreprises fonctionnent sur des programmes d’expériences. Celui d’Amazon, apellé “A-B”, consiste à toujours mettre en ligne deux versions de son site internet, attendant le résultat des statistiques pour décider du meilleur. Nous avons souligné les limites d’un système de pensée libérée de la théorie, qui ferait une confiance aveugle aux chiffres. Mais ce nouveau paradigme peut être bénéfique à des entreprises qui adopteraient l’idée que l’expérimentation est le premier moteur de l’innovation. La mentalité de l’entreprise, son système organisationnel et même de management s’en trouvent changés. Les nouvelles technologies ont permis de réduire le temps du cycle “hypothèse-experience” et ont permis de répandre l’état d’esprit des inventeurs, pour qui les échecs, les tentatives, sont le meilleur terreau de la réussite. En conclusion, nous avons vu les limites liées aux usages marketing des technologies de ciblage comportemental et de profilage des individus, qui s’ils atteignent parfois une performance maximale en terme de techniques, tendent à rompre la relation du consommateur avec la marque. Nos recommandations ont pour but de mettre en avant des pistes pour des usages plus éthiques, plus équilibrés et donc qui bénéficieraient à la fois à la marque et à ses consommateurs. Le marketing n’est qu’un seul des nombreux domaines d’applications de la Big Data mais il est exemplaire de la dichotomie de cette technique, à la fois pleine de promesses et de dangers. Il renferme à la fois les opportunités immenses liées à la technique, telles que la meilleure connaissance du client, et ses limites, liées à la trop grande confiance, à l’hubris technique qui se fait parfois au détriment de l’individu.
  • 70.
    70 CONCLUSION Notre travail amis en lumière les relations complexes de l’individu et de la technologie dans la pratique de la Big Data. Le système normatif créé par la Big Data comme science de la performance entretient en effet des relations ambivalentes avec l’individu. Alors que l’idéologie scientifique, positiviste, voudrait s’en défaire, on a vu que celui-ci avait une place prédominante dans la production du savoir. A la fois émetteur des données analysées et cible des usages marketing, celui-ci est au cœur du processus de création de cette science du réel. Nos trois hypothèses ont chacune été utiles à tracer les contours de cette relation. Notre première hypothèse posait la Big Data comme une technologie si révolutionnaire qu’elle opérerait un changement de paradigme du savoir tel que les anciennes méthodes seraient obsolètes. L’analyse à la fois des usages liés à la technique et des discours qui l’accompagnent nous a permis de nuancer ses propos et de déconstruire la mythologie qui lui est liée. Les fantasmes et représentations liés à la science nourrissent en effet le fantasme d’un savoir objectif, qui se libérerait des biais liés à l’humain. Nous avons vu que la Big Data opérait en effet un changement de paradigme, mais que celui-ci était aussi miné par d’autres biais. L’analyse des pratiques analytiques nous a permis de démontrer que les données « pures » n’existaient pas, et qu’il était dangereux de minimiser le rôle de l’interprétation des résultats quantitatifs. En considérant l’objet technique comme faisant partie d’un système plus large, prenant part à l’acceptation d’un système de valeurs néo-libéraliste, nous avons pu observer que la Big Data était façonnée dans une culture donnée, et donc sujette à des déformations et distorsions. Au niveau épistémologique, la Big Data tente de faire abstraction de l’individu mais la deuxième hypothèse démontre que l’individu est au contraire au cœur du processus, en étant à la fois l’objet (la matière pure) et le sujet (la connaissance). Nos observations s’efforçent de mettre en avant les bouleversements de l’apparition de cette technique dans la formation de nos identités. Le paradoxe de l’identité est ici double : entre exposition et repli de soi, et entre
  • 71.
    71 augmentation et pertede soi-même. La numérisation de nos vies a en effet modifié les conditions de constitution de nos identités. Dans un internet en « clair-obscur », les individus se forment et les images se font et se défont. L’exploration des usages de collectes de données, de ses pratiques et des logiques de banalisations, nous a aussi permis d’affirmer que l’identité construite à travers les « empreintes » digitales était un miroir déformant d’une réalité qu’il lui échappe. Les conséquences sur la formation des identités mais aussi sur la connaissance extérieure, a encore une fois servi à comprendre la Big Data comme un phénomène total, dépassant le seul cadre de la recherche ou de la science. La dernière hypothèse se concentrait sur l’individu dans son rôle de consommateur. Les nouvelles pratiques du marketing, que ce soit le marketing web ou la technologie mis à disposition de la CRM, ont permis au marketing d’approcher une nouvelle sphère : celle de la personnalisation, de l’approche en temps réel, mais ont aussi endommagé la relation des marques à leurs clients. Nos recommandations ont mis en avant des solutions pour développer un marketing respectueux de l’individu. Ces nouvelles pratiques permettraient non seulement de repenser les relations aux marques, mais aussi de faire prendre conscience aux utilisateurs que chaque pratique en ligne est aujourd’hui liée à un usage Big Data, que les données sont la monnaie courante, et qu’il est essentiel pour l’équilibre des échanges, que celles-ci reviennent aux consommateurs. La Big Data est un phénomène de société qui opère des transformations souterraines, mais qui impactent la société et les individus d’une manière pérenne. Elles créent de nouvelles méthodes de recherche, nouvelles offres, nouveaux services, nouveaux métiers. Notre propos, tout au long de nos recherches, a été concentré sur l’imbrication de la technologie et de la société. La Big Data, au-delà du phénomène de mode, est un phénomène social et culturel. La pédagogie quant aux opportunités mais aussi quant aux limites de cette innovation est une étape essentielle pour choisir le futur dans lequel nous allons vivre. Les données produites par l’humanité sont aujourd’hui précieuses, il est important de prendre la mesure des choses, mais cela ne se fera pas sans le concours des acteurs du domaine. Nous avons évoqué les rapports de force entre le quantitatif et le qualitatif, le privé et le public, les identités et l’identité, les marques et les consommateurs.
  • 72.
    72 Les données enelles-mêmes, dans une perspective plus pragmatique, et touchant au domaine du droit, sont manipulées dans l’ombre. De nombreux problèmes juridiques se posent face à l’hégémonie américaine dans le domaine du stockage de données. Les serveurs étant situés aux Etats-Unis et les acteurs majeurs dans la Silicon Valley, on se trouve ici face au déséquilibre majeur de la Big Data. Qui y a accès ? Dans quel but ? Les révélations de l’affaire Snowden l’année passée ont fait se lever quelques voix face aux dangers que représentent cette concentration des pouvoirs. Chris Anderson prévoit la « fin de la théorie », nous avons su nuancer ses propos dans notre analyse, mais d’autres Cassandre prévoient aujourd’hui la « fin de la politique » face aux ambitions des géants de la technologie voulant mettre en place une « régulation algorithmique », un type de gouvernance par l’algorithme qui, grâce à ses capacités prédictives et à la boucle de rétroaction, pourrait régler les problématiques de santé et de sécurité. La déconstruction du mythe de la Big Data nous donne quelques clés pour comprendre les implications de ce type de modèles. Nous allons tenter de les analyser à la lumière des constatations de nos deux premières hypothèses (la troisième étant strictement liée au domaine du marketing). Selon la première hypothèse, le changement de paradigme dans la pratique de la Big Data, qui renverse la démonstration déductive, et ne s’attarde pas sur les causalités mais seulement sur les effets, aurait des conséquences extrêmes dans la perspective d’une régulation algorithmique. La liste exhaustive et l’analyse des effets n’a pas sa place dans cette conclusion, mais on peut noter que les biais relevés lors de nos observations, ainsi que la possible politique discriminatoire, ou même les simples erreurs, seraient les défis de ce monde régulé par la science prédictive des datas. La place de l’individu dans cette ère du non-politique est aussi mise en question. Quels sont les fondements moraux d’une société où agir dans le cadre de la loi n’est plus un choix mais où les comportements sont automatiquement poussés vers le bien ? Sur quels critères les algorithmes prédictifs désigneraient les individus suspects des autres ? La régulation algorithmique est aussi une gouvernance du possible, et donc déterministe. Ces questions sortent du cadre de notre recherche mais sont au cœur des problématiques futures de la Big Data. Les efforts produits aujourd’hui pour rendre la technologie plus performante prédisent une accélération dans l’utilisation de nos données et dans la banalisation de la collecte. Il est nécessaire de s’assurer du bon usage de celles-ci pour créer, utilisateurs et entreprises ensemble, le monde de demain.
  • 73.
    73 Bibliographie Corpus - Analyse sémantique Anderson,Chris, The End of Theory: The Data Deluge Makes the Scientific Method Obsolete, Wired magazine, Juin 2008 - Etude de cas IBM Site Internet IBM - www.smartcities.com IBM smarter world illustration : voleurs de banque Noma Bar et Tanya Holbrook pour IBM IBM ad with a purpose, IBM & Ogilvy France - Etude de cas “Target” Duhigg Charles, “How companies learn your secrets”, NY times, Fév 2012 - L’outil GraphSearch de Facebook Via Tom Scott, Tumblr, actual facebook graph searches Ouvrages bibliographiques et analytiques Ouvrages théoriques : Boyd, D & Crawford, K. (2012). Critical Questions for Big Data, Information, Communication & Society. 15 (5), p662-679. Cardon, Dominique, 2010, La démocratie Internet, Broché Kranzberg, Melvin 1986, Technology and History: ‘Kranzberg’s laws’, Technology and Culture, 27 Jeanneret, Yves, Y-a-t-il (vraiment) des technologies de l’information ? Villeneuve d'Ascq, Presses universitaires du Septentrion, coll. « Savoirs mieux », 2000
  • 74.
    74 Rouvroy, Antoinette, Desdonnées sans personne : le fétichisme de la donnée à caractère personnel à l’épreuve de l’idéologie des Big Data, Selected Work Savage, Burrows, 2007, The upcoming crisis of empirical sociology, SAGE publications Tene, O & Polonesky, J. (2013). Judged by the Tin Man: Individual Rights in the Age of Big Data. Journal of Telecommunications and High Technology Law. p351-477 Articles scientifiques : Boyd, Danah. 2010. "Making Sense of Privacy and Publicity." SXSW. Austin, Texas, March 13. Cotte Dominique, « Écrits de réseaux, écrits en strates », Hermès, La Revue 2/ 2004 (n° 39), p. 109-115 FTC official website, (Dec, 2012), “FTC to Study Data Broker Industry's Collection and Use of Consumer Data”, Commission Issues Nine Orders for Information to Analyze Industry's Privacy Practices, Challenges & Opportunitites in Human-Data Interaction, Mortier.R, Haddadi.R, Tristan. R Mager, Astrid Algorithmic ideology, in Information, Communication & Society, 2012 p. 769- 787 Morozov, Evgeny “Is smart making us dumb?”, Wall Street Journal, Jan 2013 Grelley Pierre, « Êtes-vous postmoderne ? », Informations sociales 8/ 2006 (n° 136), p. 51-52 Podesta, J. Big Data: Seizing Opportunities, Preserving Values, 2014 Richard. N & King.J 2013, Standford Law Review Rouvroy, A., Berns T, « Le nouveau pouvoir statistique - ou quand le contrôle s’exerce sur un réel normé, docile et sans évènement car constitué de corps « numériques »…, Multitudes, 2010/1 n°40, p.88-103
  • 75.
    75 Szadkowski, Michaël «Les résultats dérangeants de Graph Search », Le Monde, Janvier 2013 Sources documentaires Battle, J. “The database of intentions is far larger than I thought”, Battelle media blogs, 2012 « Facebook et Apple pourraient subventionner la congélation d'ovocytes de leurs employées » Le Monde Pixels, 14/10/2014 Holman Jenkins Jr., “Google and the search for the future”, The Wall Street Journal, Jan 2010 “It’s Official: Consumers Are Just Not That Into Retargeted Ads”, The Exchange Wire, Oct 2014 Jurgenson, Nathan 2014, “View from nowhere”, New Inquiry, March 2014 Laura Moy & Amanda Conley, “Paying the Wealthy for being Wealthy: The Hidden Costs of Behavioral Marketing”, Privacylaw Berkeley, Mai 2014 Revue INfluencia n°9 « La data » Avril/Juin 2014 Winston Ross, “How much does your privacy worth?” Technology Review, août 2014 Tanzina Vega, “New ways marketers are manipulating data to influence you”, New-York Times, Oct 2012
  • 76.
    76 ANNEXES Annexe n°1 –IBM Smarter planet Publicités IBM « smarter planet » Artiste : Noma Bar Graphiste : Tanya Holbrook
  • 77.
    77 IBM « Ad witha purpose » Ogilvy&Mather pour IBM 2013
  • 78.
    78 Annexes n°2 –Graphsearch http://actualfacebookgraphsearches.tumblr.com
  • 79.
  • 80.
    80 Annexe n°3 -étymologie du mot « ordinateur » Source : deslettres.com