Présentation au seminaire Digital Studies
Presentation du seminaire
Langue, écriture et automatisme : les software studies face au capitalisme linguistique
Le stade numérique du processus de grammatisation pose le problème d’un changement radical des conditions de la lecture, de l’écriture et de l’expression linguistique : la formalisation, la discrétisation et l’extériorisation des comportements langagiers humains dans les rétentions tertiaires numériques semblent rendre impossible la ré-appropriation de ces savoirs par les individus. En effet, afin de tirer profit de la recherche des internautes, Google exerce un contrôle sur la langue au moyen d’outils de correction et de complétion automatique. En incitant l’internaute à employer les mots les plus utilisés statistiquement et qui font l’objet de la spéculation des publicitaires, ces automates le ramènent dans le domaine de la langue « prédictible » et commercialement exploitable par l’entreprise. Grâce à cette médiation algorithmique de l’expression, Google est donc parvenu à transformer le matériel linguistique en véritable ressource économique. Mais ce phénomène, que Frédéric Kaplan décrit sous le nom de « capitalisme linguistique », a pour effet direct une régularisation et une homogénéisation des langues naturelles, qui s’accompagne de leur désidiomatisation à échelle mondiale. Cet effet rétroactif des technologies sur la langue semble conduire à l’émergence d’une nouvelle syntaxe et d’un nouveau lexique informé par les capacités linguistiques des machines et la valeur économique des mots.
5. 5
FREDERIC KAPLAN
Linguistic Capitalism and
Algorithmic Mediation
GOOGLE MADE 50 BILLION DOLLARS in revenue in 2012, an
impressive financial result for a company created less than fifteen year ago.1
That figure represents about 140 millions dollars per day, 5 million dollars
per hour. By the time you have finished reading this article (about six
minutes), Google will have made about 500,000 dollars. What does Google
actually sell to get such astonishing results? Words. Millions of words.
The success of Google’s highly original business model is the story of two
algorithms. The first—pioneering a new way of associating web pages to
queries based on keywords—has made Google popular. The second—
assigning a commercial value to those keywords—has made Google rich.
In 1998, search engines could be used to search for web pages contain-ing
certain keywords, but they used inefficient and easily hackable ranking
methods, such as the number of occurrences of a search keyword within
14. Dans une économie de
l’expression, il faut développer
des relations linguistiques intimes
et durables avec un grand nombre
d’utilisateurs, pour pouvoir
modéliser et infléchir la langue.
15. Nous sommes déjà des millions à
nous exprimer tous les jours au
travers des prothèses
linguistiques de Google :
Google docs, Gmail, Google+ …
16. Thèse 3
!
Le capitalisme linguistique tend
à optimiser la langue pour la
faire entrer dans son domaine
commercialement exploitable.
17.
18. Quand Google corrige à la volée
un mot que vous avez mal
orthographié, il transforme un
matériau sans valeur en une
ressource économique
potentiellement rentable.
19. Quand Google prolonge une
phrase que vous avez
commencée à taper, il ramène
votre expression dans le
domaine de la langue qu’il peut
exploiter.
22. Thèse 4
!
La langue exploitable
commercialement est une
langue prédictible par les
algorithmes.
23. La langue prédictible sert non
seulement à l’autocompletion
mais aussi à proposer de
nouveaux services linguistiques
(traduction automatique,
écriture automatique)
24. L’objectif du capitalisme
linguistique est donc de
régulariser la langue pour
maximiser son potentiel
économique.
25. Thèse 5
!
Dans le capitalisme linguistique,
la langue est un capital.
26. Les acteurs du capitalisme
linguistique tendent à
engranger un capital fait de
modèles toujours plus vastes de
la langue prédictible.
27. Ce capital se transforme en
produits et services de
médiation linguistique qui à leur
tour génèrent plus de capital
linguistique.
28. Parallèlement, par
l’organisation de la vente des
mots, le capital linguistique en
croissance est convertible en
capital économique.
29. Capital linguistique de
langue prédictible
Extension des
services de médiation
linguistique
Capital linguistique de
langue prédictible
plus étendu
Capital économique Capital économique
plus étendu
30. Ce nouveau contexte
économique et technique est
susceptible d’être à la base
d’une transformation
linguistique majeure.
31. Il convient de distinguer les
ressources linguistiques
primaires produites sans
médiation algorithmique
(conversations écrites, contenus
de livres numérisés, etc.) …
32. … des resources linguistiques
secondaires produites comme
transformations algorithmiques
de ressources primaires.
33. Par exemple, les algorithmes de
traduction automatique
permettent de transformer le
capital linguistique d’une langue
en une autre.
34. Ils ont une double importance
économique car ils proposent
des services linguistiques
précieux et ils décuplent le
capital linguistique accumulé.
39. Le biais culturel d’un tel procédé est évidemment
important. Le Français et l’Italien sont des langues
relativement proches.
!
En comparaison, l’anglais est une langue particulière,
compacte, idiomatique.
!
Projeter vers l’espace anglophone puis reprojeter vers une
langue cible induit des effets linguistiques et culturels qu’il
faut étudier.
40. Dans le cadre du capitalisme linguistique, l’impérialisme
linguistique de l’anglais a donc des effets beaucoup plus
subtils que ne le laisseraient penser les approches qui
n’étudient que la “guerre des langues”.
!
Le fait de pivoter par une langue conduit à introduire dans
les autres langues des logiques linguistiques propres et
donc insensiblement des modes de pensée spécifiques.
41. À l’échelle mondiale, c’est un réseau de chaines de
traduction qui est en train de se mettre en place et qui
impose parfois, pour traduire une expression d’une langue à
une autre, de pivoter par une série de langues
intermédiaires.
42. Dans d’autres cas, le capital
linguistique sert à produire des
contenus textuels inédits.
43. Show and Tell: A Neural Image Caption Generator
Oriol Vinyals
Google
vinyals@google.com
Alexander Toshev
Google
toshev@google.com
Samy Bengio
Google
bengio@google.com
Dumitru Erhan
Google
dumitru@google.com
Abstract
Automatically describing the content of an image is a
fundamental problem in artificial intelligence that connects
computer vision and natural language processing. In this
paper, we present a generative model based on a deep re-current
architecture that combines recent advances in com-puter
vision and machine translation and that can be used
to generate natural sentences describing an image. The
model is trained to maximize the likelihood of the target de-scription
sentence given the training image. Experiments
on several datasets show the accuracy of the model and the
fluency of the language it learns solely from image descrip-tions.
Our model is often quite accurate, which we verify
both qualitatively and quantitatively. For instance, while
the current state-of-the-art BLEU score (the higher the bet-ter)
on the Pascal dataset is 25, our approach yields 59, to
be compared to human performance around 69. We also
show BLEU score improvements on Flickr30k, from 55 to
66, and on SBU, from 19 to 27.
1. Introduction
Being able to automatically describe the content of an
image using properly formed English sentences is a very
A group of people
shopping at an
outdoor market.
!
There are many
vegetables at the
fruit stand.
Vision!
Deep CNN
Language !
Generating!
RNN
Figure 1. NIC, our model, is based end-to-end on a neural net-work
consisting of a vision CNN followed by a language gener-ating
RNN. It generates complete sentences in natural language
from an input image, as shown on the example above.
would like to present in this work a single joint model that
takes an image I as input, and is trained to maximize the
likelihood p(S|I) of producing a target sequence of words
S = {S1, S2, . . .} where each word St comes from a given
dictionary, that describes the image adequately.
The main inspiration of our work comes from recent ad-vances
in machine translation, where the task is to transform
a sentence S written in a source language, into its transla-tion
T in the target language, by maximizing p(T|S). For
many years, machine translation was also achieved by a se-ries
of separate tasks (translating words individually, align-ing
arXiv:1411.4555v1 [cs.CV] 17 Nov 2014
44.
45.
46. Ici le capital linguistique génère
un extension linguistique
artificielle, avec des expressions
potentiellement inédites.
47. Pour juger la pertinence de ces
expressions, des “armées” de
juges humains doivent être
recrutées.
48.
49. La description systématique des
images par des algorithmes peut
être à l’origine d’un tsunami de
nouvelles tournures
linguistiques.
50. De plus en plus souvent, de
telles ressources secondaires
sont présentées comme des
ressources primaires.
56. Une prédiction
!
Avec le développement général
de l’autocompletion, il n’y aura
plus d’ici 5 ans aucune nouvelle
ressource primaire.
57. Scenario 1
!
Cette évolution linguistique est globalement acceptée ou
ignorée.
!
La langue predictible et économiquement exploitable
converge avec la langue naturelle vers un nouveau créole.
!
Le capitalisme linguistique se développe et se complexifie
pour devenir un des secteurs économiques les plus
importants.
58. Scenario 2
!
Suite à une prise de conscience et pour tenter d’inverser le
phénomène, la médiation algorithmique est mieux comprise
et labellisée.
!
Des “gisements” de ressources primaires (grandes
bibliothèques numérisées) sont exploitées pour mieux
detecter les phénomènes d’hybridation.
59. Scenario 2 (suite)
!
Dans l’objectif de comprendre et maitriser cette évolution,
une nouvelle linguistique se développe.
!
Cette linguistique utilise massivement les algorithmes pour
mieux comprendre et surveiller l’effet des algorithmes.