... et à la nouvelle
créolisation
Frédéric Kaplan
frederic.kaplan@ep!.ch
twitter: @frederickaplan
i"yi i Ë f i|= :'=lz"t
i
ËË;te â
ë iË , ËË.rËË
i€ËâË
.P . - -
7EÊ
ËËËËË
-.:
==.8=?
-- o'a
à3;:
9ll
g ;âÈ u . Ë Ê Ë ig
=
xYAii
ÎE
.iiË s:;! F
H u Ë
Ë;-gE-r=EEi
e
iEgËËË
35ËËËËËËËËËEË r*
*ËjËj1ËA êo iÉU . E IE6 s Ë É É s€! e!ZE ôr' ùËÊ
E ; IËO
F É
gË:;
l=i"ËË r
âËi*
a) - â:EiË +i€;
i:=ËiË;
)
F)
Èil
i eË Ë
ËËËË
r , i ËÉ = â ; " t 4 ; , î : â
.-'rt I-ù
Xù |
|
i çË
Ë;ËË::
Ëgg9€
tsl a Ëi ÊËË
| v EË ; h Ë ç F s
rsl E €!
€H p
='53
É
: s r ç Ë2 F . i = â a
ÈF.:Ë!Ë'Ë!sài
*x;-uçgFE;i9
3 ^ a = ; . éo o - E5 : o
; iËsÉtâËr;
>V?
.S rr)
fr p
a
$-..{
o o
{ËâËiÈËÈ
Ë
Ë È ËE : s Ë q Ë ï s *
3 . 4Ë ! à Ëk É g s 3 ;
ô E
i l y E 5 6 3 EÉ 3
GE'
,:e.I
i F
a
r1
t4
i-l
FI
a
tnl z
: i Ê
a É Ë f ieÉ ÉEË E : il ;
;+E E
93Fg
Ë
Ê
y âiÈ
â+ Hb- .9: ;ÈâE i i ' : = - e t -
z (
J
'-.1
a C)
0,
s
È'l
È
.$
(n
tl
C)
r-l
'IJ
E
I
X
9
É
{l
=il
ËËËËg
E
o
tËiË
F
;Ëî
ËËË:
.t{
ËË
(-
Ë
t!
z -
o (- IL
U È{ C)
"l I d ,-{ {
À
:
F-.1
rt) 'rê d
c
J
:
o
z :zZz11;
L’histoire de Google tient en
deux algorithmes :
l’un l’a rendu populaire,
l’autre l’a rendu riche.
PageRank
Une intuition sur ce qui fait la
légitimité d’une source
d’information et la nature
pragmatique du lien hypertexte.
PageRank
La valeur PageRank d’une page
est liée au nombre de pages qui la
citent et à leur propre valeur
PageRank.
Le PageRank est la probabilité
stationnaire d'une chaîne de Markov.
Beaucoup de “start-ups”
proposant une valeur
d’usage mais pas de valeur
d’échange ne résistèrent pas
à l’éclatement de la “Bulle
Internet”.
Google a eu une meilleure idée
que de simplement vendre de
la publicité et a su transformer
le capital linguistique qu’elle
accumulait en un service
créant de la valeur.
Un algorithme qui organise
automatiquement la
spéculation autour des mots a
permis de créer le premier
marché linguistique mondial.
Le marché linguistique existait
déjà avant Google.
Il était possible depuis
longtemps d’acheter certains
mots (Trademarks)
> cf. C.Fauré commentant Lombardo sur l’origine antique des Trademarks
> http://www.christian-faure.net/2012/01/22/les-savoirs-de-lecriture-en-grece-
ancienne-3-marchands-transactions-economiques-ecritures/
1. Enchère sur un mot clé (E)
Une entreprise choisit un mot ou une
expression, par exemple “vacances”
et le prix maximum qu’elle serait prête
à payer en cas de clic.
Google propose une estimation du montant de l’enchère à proposer pour avoir de
bonnes chances d’être dans la première page des résultats proposés.
Les acheteurs de mots peuvent aussi cibler leur publicité à des dates ou des lieux
spéci"ques.
2. Calcul du score de qualité de la
publicité (Q)
Google donne un score à la publicité sur
une échelle de un à dix.
Ce score dépend essentiellement de la pertinence du texte de la publicité par rapport à la
requête de l’utilisateur, de la qualité de la page vers laquelle la publicité pointe (qualité de
son contenu et rapidité de chargement) et du nombre de clics moyen sur la publicité. En
gros, ce score mesure à quel point la publicité “fonctionne”.
C’est un point essentiel car Google ne gagne de l’argent que si les internautes choisissent
e#ectivement de cliquer sur le lien proposé par la publicité.
L’algorithme exact qui produit le score de qualité de la publicité reste secret et
modi!able à loisir par Google.
3. Calcul du rang (R)
Le Rang est l’Enchère multipliée par le
Score. Une publicité ayant un bon score
peut ainsi compenser une enchère plus
faible et arriver devant.
R=E*Q
4. Calcul du prix à payer en cas de
clic (P)
Le prix que paye une entreprise 1 si un
internaute clique sur sa publicité n’est
pas le prix de l’enchère mais le prix de
l’enchère 2 juste en dessous de sa
propre enchère modulé par la qualité
relative entre cette deuxième enchère
et celle de l’entreprise.
Tout tient dans la formule : P1 = E2 * (Q2 / Q1) où P1 est le prix payé par l’entreprise, E2
est l’enchère la plus haute en dessous de l’enchère de l'entreprise 1, Q1 la qualité de
l’enchère 1, Q2 la qualité de l’enchère 2.
Ce jeu d’enchères est recalculé pour
chaque requête de chaque utilisateur
— des millions de fois par seconde
Cet algorithme génère des
dizaines de milliards de
dollars par an.
10,584 milliards de dollars pour le seul
quatrième trimestre 2011
40 milliards / an
Quelques éléments de comparaison :
Budget de Bibliothèque Nationale de France : 226 millions d’euros / an
Chi#re d’a#aire de Renault en 2011 : 42 millions
...
Le marché linguistique ainsi créé par Google
est déjà global et multilingue.
La “Bourse des mots” qui lui est associée
donne une indication relativement juste des
grands mouvements sémantiques
mondiaux.
Google a réussi à étendre le
domaine du capitalisme à la
langue elle-même, à
organiser la vente de
“mots” à l’échelle planétaire.
L’ensemble de ses autres
projets et innovations
technologiques peuvent être
analysés à travers ce prisme.
Quand Google corrige à la volée un
mot que vous avez mal
orthographié, il ne fait pas que
vous rendre service :
il transforme un matériau sans
valeur en une ressource
économique directement rentable.
Quand Google prolonge une
phrase que vous avez commencée
à taper dans la case de recherche,
il vous ramène dans le domaine de
la langue qu’il exploite, vous invite
à emprunter le chemin statistique
tracé par les autres internautes.
Les technologies du capitalisme linguistique
poussent à la régularisation de la langue.
Plus nous ferons appel aux prothèses
linguistiques, laissant les algorithmes
corriger et prolonger nos propos, plus cette
régularisation sera e$cace.
Nous nous exprimons chaque jour un peu plus au travers
d’une des interfaces de Google ; pas simplement lorsque
nous faisons une recherche, mais aussi quand
- nous écrivons un courrier électronique avec GMail
- un article avec Google Docs
- nous signalons une information sur le réseau social Google+,
- et même oralement, à travers les interfaces de
reconnaissance vocale que Google intègre à ses applications
mobiles.
Nous sommes déjà des millions
chaque jour à écrire et à parler
par le biais de Google.
C’est pourquoi le modèle statistique
multilingue que Google a$ne en
permanence et vers lequel il tente de
ramener chaque requête est bien plus à
jour que le dictionnaire publié annuellement
par nos académiciens.
Google suit les mouvements
de la langue minute par
minute, car il a le premier
découvert en elle un minerai
d’une richesse extraordinaire,
et s’est doté des moyens
nécessaires pour l’exploiter.
L’extension du domaine commercial de la
langue est permise par deux dynamiques
(1) La régularisation de la langue par la
médiation des prothèses linguistiques
(2) La multiplication et la banalisation des
prothèses linguistiques
La découverte de ce territoire du
capitalisme jusqu’ici ignoré ouvre un
nouveau champ de bataille économique.
Google béné"cie certes d’une avance
importante, mais des rivaux, ayant compris
les règles de cette nouvelle compétition,
"niront par se pro"ler.
Nous quittons une économie de
l’attention pour entrer dans une
économie de l’expression.
L’enjeu n’est plus tant de capter les regards, que d’être un
médiateur de la parole et l’écrit.
Les gagnants seront ceux qui auront pu développer des
relations linguistiques intimes et durables avec un grand
nombre d’utilisateurs, pour modéliser et in!échir la langue,
créer un marché linguistique contrôlé et organiser la
spéculation sur les mots.
Le “Flash Crash” du 6 mai 2010 a fait prendre
conscience de l’omniprésence des algorithmes
dans la "nance.
Dès que les systèmes culturels
proposent des fonctions
précises à optimiser, les
algorithmes deviennent des
alternatives pertinentes à
l’action humaine.
Dès que le nombre d’actions
décidées par des algorithmes
devient signi"catif par rapport
aux actions humaines, la forme
des systèmes culturels
changent profondément.
Comme pour le domaine de la
"nance, les algorithmes sont
devenus des acteurs majeurs
du capitalisme linguistique.
Il nous fait donc désormais distinguer deux
types de ressources linguistiques:
(a) les ressources primaires produites par des
humains (conversations orales ou écrites,
contenus de livres scannés, etc.)
(b) les ressources secondaires produites par
des machines en général à partir des
ressources primaires (traduction automatique,
articles écrits par des algorithmes, spam).
Malheureusement, sans connaître l’origine
d’une production, il n’est souvent pas aisé de
distinguer entre ressources primaires ou
secondaires. Un humain peut dans certains
cas faire la di#érence, mais il est di$cile de
construire des algorithmes pour faire
automatiquement cette distinction.
Les acteurs du capitalisme linguistique doivent
modéliser la langue le plus parfaitement
possible. C’est leur capital.
Google voit les ressources secondaires
comme un danger, une pollution pour ses
modèles.
La modi"cation de la syntaxe dans des
chaînes de traduction automatique illustre un
certain de type de pollution.
“La qualité se dégrade petit à petit au fur et à mesure
quand on applique des algorithmes de traduction
automatique”
“Quality degrades gradually as and when we measure
applies algorithms to machine translation”
“Calidad degrada gradualmente a medida y cuando la
medida se aplica algoritmos de traducción automática”
“Qualité se dégrade progressivement au fur et à mesure est
appliquée algorithmes de traduction automatique”
Un nombre croissant de textes sont
maintenant directement produits par des
machines
Un lecteur averti peut souvent détecter la mécanique sous-
jacente et deviner parfois que ces textes ne sont pas écrits
par des humains.
Leur composition syntaxique et surtout leur positionnement
pragmatique sonnent parfois faux, re!étant les biais de
l’algorithme qui les compose.
Ces textes sont optimisés pour l’univers
linguistique qu’ils investissent
Le même contenu peut donner lieu à di#érentes formes :
Articles longs ou courts, chroniques sportives, tweets,
message vocal.
Il peut être exprimé en optimisant son e$cacité pour les
moteurs de recherche (SEO) : choix de mots particuliers, de
tournures statistiques optimales.
Comme en !nance, les algorithmes sont sans doute
meilleurs que les hommes pour produire des stratégies
optimales dans le milieu économique du capitalisme
linguistique.
Les algorithmes qui archivent inlassablement
le web ne font pas facilement la di#érence
entre ces ressources linguistiques dégradées
et les ressources primaires.
Au fur et à mesure que la quantité de
ressources secondaires devient signi"cative
par rapport aux ressources primaires, les
modèles statistiques peuvent se modi"er pour
intégrer le vocabulaire, les formulations et
les tournures des algorithmes.
Ce sont ces tournures qui
risquent de nous être
proposées sous la forme de
suggestions ou de corrections.
Pour lutter contre cette “pollution” croissante,
Google a modi"é en 2011 son service Google
Translate.
Google a remplacé son service créateur de ressources
secondaires en un service de traduction “on demand” qui
garde toujours le texte original de la traduction, pour s’en
servir pour la recherche et pour potentiellement améliorer
progressivement la traduction proposée au fur et à mesure que
les algorithmes de traduction progressent.
cf. Kirti Vashee / Analysis of the Shutdown Announcements of the Google Translate API
Cela ne su$ra pas.
Il faut maintenant compter avec l’écriture des
machines et tous les hybrides de ce nouvel
ordre linguistique.
Sur les 30 meilleurs
éditeurs de Wikipedia,
les 2/3 sont des bots
> R.Stuart Geiger, “The Lives of Bots.” in Wikipedia: A Critical Point of View. 2011
> http://en.wikipedia.org/wiki/Wikipedia:List_of_Wikipedians_by_number_of_recent_edits
D’ici deux ans, une proportion
signi"cative des messages sur
les réseaux sociaux seront
peut-être produits par des
bots.
> Hwang, Pearce and Nanis (2012) Socialbots: voices from the fronts interactions Volume 19
Issue 2, March + April 2012
Ainsi, textes humains et algorithmiques se
mêlent pour proposer une nouvelle forme
d’écriture.
Et c’est cette nouvelle écriture que d’autres
algorithmes analysent pour ensuite structurer
nos propres productions linguistiques.
Avec le capitalisme
linguistique, la langue elle-
même se transforme pour
intégrer les biais linguistiques
des machines et les
contraintes de l’économie
linguistique planétaire.
Nous assistons peut-être une
nouvelle phase de
“grammatisation” de la
langue, une nouvelle
rétroaction de la technologie
et de l’économie sur la langue
naturelle.
Dans un temps intermédiaire
apparait quelque chose
comme une lingua franca, un
pidgin ou un créole, dont la
syntaxe et le vocabulaire sont
liés aux capacités linguistiques
des machines et aux valeurs
marchandes des mots.