La langue comme capital

La langue
comme capital.
!
!
!
!
Frédéric Kaplan
Digital Humanities Laboratory / EPFL / Suisse.

Résumé des
épisodes
précédents.

5
FREDERIC KAPLAN
Linguistic Capitalism and
Algorithmic Mediation
GOOGLE MADE 50 BILLION DOLLARS in revenue in 2012, an
impressive financial result for a company created less than fifteen year ago.1
That figure represents about 140 millions dollars per day, 5 million dollars
per hour. By the time you have finished reading this article (about six
minutes), Google will have made about 500,000 dollars. What does Google
actually sell to get such astonishing results? Words. Millions of words.
The success of Google’s highly original business model is the story of two
algorithms. The first—pioneering a new way of associating web pages to
queries based on keywords—has made Google popular. The second—
assigning a commercial value to those keywords—has made Google rich.
In 1998, search engines could be used to search for web pages contain-ing
certain keywords, but they used inefficient and easily hackable ranking
methods, such as the number of occurrences of a search keyword within

Vincent
Buntinx
Dana
Kianfar

Le capitalisme
linguistique en
5 thèses.

Thèse 1
!
Le capitalisme linguistique est
un nouveau régime économique
caractérisé par la monétisation
des langues au niveau mondial.

Google réalise 50 milliards de
dollars par an * simplement en
organisant la vente des mots à
l’échelle planétaire.
!
* 137 M / jour, 5+ M / heures

ski
sun screen
or
world cup

Thèse 2
!
Le capitalisme linguistique n’est
pas une économie de
l’attention, mais une
économie de l’expression.

Économie de l’attention
Attention Intention
Lieu de la médiation

Économie de l’expression
Intention Expression
Lieu de la médiation

Dans une économie de
l’expression, il faut développer
des relations linguistiques intimes
et durables avec un grand nombre
d’utilisateurs, pour pouvoir
modéliser et infléchir la langue.

Nous sommes déjà des millions à
nous exprimer tous les jours au
travers des prothèses
linguistiques de Google :
Google docs, Gmail, Google+ …

Thèse 3
!
Le capitalisme linguistique tend
à optimiser la langue pour la
faire entrer dans son domaine
commercialement exploitable.

Quand Google corrige à la volée
un mot que vous avez mal
orthographié, il transforme un
matériau sans valeur en une
ressource économique
potentiellement rentable.

Quand Google prolonge une
phrase que vous avez
commencée à taper, il ramène
votre expression dans le
domaine de la langue qu’il peut
exploiter.

la langue vivante
la langue
exploitable
commercialement

L’autocompletion s’est
aujourd’hui généralisée sur
presque toutes les interfaces
de saisie.

Thèse 4
!
La langue exploitable
commercialement est une
langue prédictible par les
algorithmes.

La langue prédictible sert non
seulement à l’autocompletion
mais aussi à proposer de
nouveaux services linguistiques
(traduction automatique,
écriture automatique)

L’objectif du capitalisme
linguistique est donc de
régulariser la langue pour
maximiser son potentiel
économique.

Thèse 5
!
Dans le capitalisme linguistique,
la langue est un capital.

Les acteurs du capitalisme
linguistique tendent à
engranger un capital fait de
modèles toujours plus vastes de
la langue prédictible.

Ce capital se transforme en
produits et services de
médiation linguistique qui à leur
tour génèrent plus de capital
linguistique.

Parallèlement, par
l’organisation de la vente des
mots, le capital linguistique en
croissance est convertible en
capital économique.

Capital linguistique de
langue prédictible
Extension des
services de médiation
linguistique
Capital linguistique de
langue prédictible
plus étendu
Capital économique Capital économique
plus étendu

Ce nouveau contexte
économique et technique est
susceptible d’être à la base
d’une transformation
linguistique majeure.

Il convient de distinguer les
ressources linguistiques
primaires produites sans
médiation algorithmique
(conversations écrites, contenus
de livres numérisés, etc.) …

… des resources linguistiques
secondaires produites comme
transformations algorithmiques
de ressources primaires.

Par exemple, les algorithmes de
traduction automatique
permettent de transformer le
capital linguistique d’une langue
en une autre.

Ils ont une double importance
économique car ils proposent
des services linguistiques
précieux et ils décuplent le
capital linguistique accumulé.

Mais cette intermédiation
algorithmique n’est pas sans
effet.

Pour traduire deux langues
européennes, l’anglais est
souvent utilisé comme langue
pivot.

langue
source
langue
cible
langue
pivot

Le biais culturel d’un tel procédé est évidemment
important. Le Français et l’Italien sont des langues
relativement proches.
!
En comparaison, l’anglais est une langue particulière,
compacte, idiomatique.
!
Projeter vers l’espace anglophone puis reprojeter vers une
langue cible induit des effets linguistiques et culturels qu’il
faut étudier.

Dans le cadre du capitalisme linguistique, l’impérialisme
linguistique de l’anglais a donc des effets beaucoup plus
subtils que ne le laisseraient penser les approches qui
n’étudient que la “guerre des langues”.
!
Le fait de pivoter par une langue conduit à introduire dans
les autres langues des logiques linguistiques propres et
donc insensiblement des modes de pensée spécifiques.

À l’échelle mondiale, c’est un réseau de chaines de
traduction qui est en train de se mettre en place et qui
impose parfois, pour traduire une expression d’une langue à
une autre, de pivoter par une série de langues
intermédiaires.

Dans d’autres cas, le capital
linguistique sert à produire des
contenus textuels inédits.

Show and Tell: A Neural Image Caption Generator
Oriol Vinyals
Google
vinyals@google.com
Alexander Toshev
Google
toshev@google.com
Samy Bengio
Google
bengio@google.com
Dumitru Erhan
Google
dumitru@google.com
Abstract
Automatically describing the content of an image is a
fundamental problem in artificial intelligence that connects
computer vision and natural language processing. In this
paper, we present a generative model based on a deep re-current
architecture that combines recent advances in com-puter
vision and machine translation and that can be used
to generate natural sentences describing an image. The
model is trained to maximize the likelihood of the target de-scription
sentence given the training image. Experiments
on several datasets show the accuracy of the model and the
fluency of the language it learns solely from image descrip-tions.
Our model is often quite accurate, which we verify
both qualitatively and quantitatively. For instance, while
the current state-of-the-art BLEU score (the higher the bet-ter)
on the Pascal dataset is 25, our approach yields 59, to
be compared to human performance around 69. We also
show BLEU score improvements on Flickr30k, from 55 to
66, and on SBU, from 19 to 27.
1. Introduction
Being able to automatically describe the content of an
image using properly formed English sentences is a very
A group of people
shopping at an
outdoor market.
!
There are many
vegetables at the
fruit stand.
Vision!
Deep CNN
Language !
Generating!
RNN
Figure 1. NIC, our model, is based end-to-end on a neural net-work
consisting of a vision CNN followed by a language gener-ating
RNN. It generates complete sentences in natural language
from an input image, as shown on the example above.
would like to present in this work a single joint model that
takes an image I as input, and is trained to maximize the
likelihood p(S|I) of producing a target sequence of words
S = {S1, S2, . . .} where each word St comes from a given
dictionary, that describes the image adequately.
The main inspiration of our work comes from recent ad-vances
in machine translation, where the task is to transform
a sentence S written in a source language, into its transla-tion
T in the target language, by maximizing p(T|S). For
many years, machine translation was also achieved by a se-ries
of separate tasks (translating words individually, align-ing
arXiv:1411.4555v1 [cs.CV] 17 Nov 2014

Ici le capital linguistique génère
un extension linguistique
artificielle, avec des expressions
potentiellement inédites.

Pour juger la pertinence de ces
expressions, des “armées” de
juges humains doivent être
recrutées.

La description systématique des
images par des algorithmes peut
être à l’origine d’un tsunami de
nouvelles tournures
linguistiques.

De plus en plus souvent, de
telles ressources secondaires
sont présentées comme des
ressources primaires.

lsjbot
Wikipedia bot
auteur de 2.7M articles sur
Wikipedia, 10K par jour

Les algorithmes qui analysent la
langues ne font pas souvent la
différence entre ces ressources
secondaires et les ressources
primaires.

Les nouvelles formes hybrides
entrent ainsi dans le capital
linguistique et seront peut-être
un jour proposées comme
suggestions ou corrections.

Nous sommes face à une
nouvelle forme de “créolisation”.

Une prédiction
!
Avec le développement général
de l’autocompletion, il n’y aura
plus d’ici 5 ans aucune nouvelle
ressource primaire.

Scenario 1
!
Cette évolution linguistique est globalement acceptée ou
ignorée.
!
La langue predictible et économiquement exploitable
converge avec la langue naturelle vers un nouveau créole.
!
Le capitalisme linguistique se développe et se complexifie
pour devenir un des secteurs économiques les plus
importants.

Scenario 2
!
Suite à une prise de conscience et pour tenter d’inverser le
phénomène, la médiation algorithmique est mieux comprise
et labellisée.
!
Des “gisements” de ressources primaires (grandes
bibliothèques numérisées) sont exploitées pour mieux
detecter les phénomènes d’hybridation.

Scenario 2 (suite)
!
Dans l’objectif de comprendre et maitriser cette évolution,
une nouvelle linguistique se développe.
!
Cette linguistique utilise massivement les algorithmes pour
mieux comprendre et surveiller l’effet des algorithmes.

Frédéric Kaplan
frederic.kaplan@epfl.ch
@frederickaplan
!
http://dhlab.epfl.ch

La langue comme capital

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Similaire à La langue comme capital

Similaire à La langue comme capital (17)

Plus de Frederic Kaplan

Plus de Frederic Kaplan (20)

La langue comme capital