La langue 
comme capital. 
! 
! 
! 
! 
Frédéric Kaplan 
Digital Humanities Laboratory / EPFL / Suisse.
Résumé des 
épisodes 
précédents.
5 
FREDERIC KAPLAN 
Linguistic Capitalism and 
Algorithmic Mediation 
GOOGLE MADE 50 BILLION DOLLARS in revenue in 2012, a...
Vincent 
Buntinx 
Dana 
Kianfar
Le capitalisme 
linguistique en 
5 thèses.
Thèse 1 
! 
Le capitalisme linguistique est 
un nouveau régime économique 
caractérisé par la monétisation 
des langues au...
Google réalise 50 milliards de 
dollars par an * simplement en 
organisant la vente des mots à 
l’échelle planétaire. 
! 
...
ski 
sun screen 
or 
world cup
Thèse 2 
! 
Le capitalisme linguistique n’est 
pas une économie de 
l’attention, mais une 
économie de l’expression.
Économie de l’attention 
Attention Intention 
Lieu de la médiation
Économie de l’expression 
Intention Expression 
Lieu de la médiation
Dans une économie de 
l’expression, il faut développer 
des relations linguistiques intimes 
et durables avec un grand nom...
Nous sommes déjà des millions à 
nous exprimer tous les jours au 
travers des prothèses 
linguistiques de Google : 
Google...
Thèse 3 
! 
Le capitalisme linguistique tend 
à optimiser la langue pour la 
faire entrer dans son domaine 
commercialemen...
Quand Google corrige à la volée 
un mot que vous avez mal 
orthographié, il transforme un 
matériau sans valeur en une 
re...
Quand Google prolonge une 
phrase que vous avez 
commencée à taper, il ramène 
votre expression dans le 
domaine de la lan...
la langue vivante 
la langue 
exploitable 
commercialement
L’autocompletion s’est 
aujourd’hui généralisée sur 
presque toutes les interfaces 
de saisie.
Thèse 4 
! 
La langue exploitable 
commercialement est une 
langue prédictible par les 
algorithmes.
La langue prédictible sert non 
seulement à l’autocompletion 
mais aussi à proposer de 
nouveaux services linguistiques 
(...
L’objectif du capitalisme 
linguistique est donc de 
régulariser la langue pour 
maximiser son potentiel 
économique.
Thèse 5 
! 
Dans le capitalisme linguistique, 
la langue est un capital.
Les acteurs du capitalisme 
linguistique tendent à 
engranger un capital fait de 
modèles toujours plus vastes de 
la lang...
Ce capital se transforme en 
produits et services de 
médiation linguistique qui à leur 
tour génèrent plus de capital 
li...
Parallèlement, par 
l’organisation de la vente des 
mots, le capital linguistique en 
croissance est convertible en 
capit...
Capital linguistique de 
langue prédictible 
Extension des 
services de médiation 
linguistique 
Capital linguistique de 
...
Ce nouveau contexte 
économique et technique est 
susceptible d’être à la base 
d’une transformation 
linguistique majeure...
Il convient de distinguer les 
ressources linguistiques 
primaires produites sans 
médiation algorithmique 
(conversations...
… des resources linguistiques 
secondaires produites comme 
transformations algorithmiques 
de ressources primaires.
Par exemple, les algorithmes de 
traduction automatique 
permettent de transformer le 
capital linguistique d’une langue 
...
Ils ont une double importance 
économique car ils proposent 
des services linguistiques 
précieux et ils décuplent le 
cap...
Mais cette intermédiation 
algorithmique n’est pas sans 
effet.
Pour traduire deux langues 
européennes, l’anglais est 
souvent utilisé comme langue 
pivot.
langue 
source 
langue 
cible 
langue 
pivot
Le biais culturel d’un tel procédé est évidemment 
important. Le Français et l’Italien sont des langues 
relativement proc...
Dans le cadre du capitalisme linguistique, l’impérialisme 
linguistique de l’anglais a donc des effets beaucoup plus 
subt...
À l’échelle mondiale, c’est un réseau de chaines de 
traduction qui est en train de se mettre en place et qui 
impose parf...
Dans d’autres cas, le capital 
linguistique sert à produire des 
contenus textuels inédits.
Show and Tell: A Neural Image Caption Generator 
Oriol Vinyals 
Google 
vinyals@google.com 
Alexander Toshev 
Google 
tosh...
Ici le capital linguistique génère 
un extension linguistique 
artificielle, avec des expressions 
potentiellement inédite...
Pour juger la pertinence de ces 
expressions, des “armées” de 
juges humains doivent être 
recrutées.
La description systématique des 
images par des algorithmes peut 
être à l’origine d’un tsunami de 
nouvelles tournures 
l...
De plus en plus souvent, de 
telles ressources secondaires 
sont présentées comme des 
ressources primaires.
lsjbot 
Wikipedia bot 
auteur de 2.7M articles sur 
Wikipedia, 10K par jour
Les algorithmes qui analysent la 
langues ne font pas souvent la 
différence entre ces ressources 
secondaires et les ress...
Les nouvelles formes hybrides 
entrent ainsi dans le capital 
linguistique et seront peut-être 
un jour proposées comme 
s...
Nous sommes face à une 
nouvelle forme de “créolisation”.
Une prédiction 
! 
Avec le développement général 
de l’autocompletion, il n’y aura 
plus d’ici 5 ans aucune nouvelle 
ress...
Scenario 1 
! 
Cette évolution linguistique est globalement acceptée ou 
ignorée. 
! 
La langue predictible et économiquem...
Scenario 2 
! 
Suite à une prise de conscience et pour tenter d’inverser le 
phénomène, la médiation algorithmique est mie...
Scenario 2 (suite) 
! 
Dans l’objectif de comprendre et maitriser cette évolution, 
une nouvelle linguistique se développe...
Frédéric Kaplan 
frederic.kaplan@epfl.ch 
@frederickaplan 
! 
http://dhlab.epfl.ch
La langue comme capital
La langue comme capital
La langue comme capital
La langue comme capital
La langue comme capital
La langue comme capital
La langue comme capital
La langue comme capital
Prochain SlideShare
Chargement dans…5
×

La langue comme capital

3 168 vues

Publié le

Présentation au seminaire Digital Studies

Presentation du seminaire

Langue, écriture et automatisme : les software studies face au capitalisme linguistique

Le stade numérique du processus de grammatisation pose le problème d’un changement radical des conditions de la lecture, de l’écriture et de l’expression linguistique : la formalisation, la discrétisation et l’extériorisation des comportements langagiers humains dans les rétentions tertiaires numériques semblent rendre impossible la ré-appropriation de ces savoirs par les individus. En effet, afin de tirer profit de la recherche des internautes, Google exerce un contrôle sur la langue au moyen d’outils de correction et de complétion automatique. En incitant l’internaute à employer les mots les plus utilisés statistiquement et qui font l’objet de la spéculation des publicitaires, ces automates le ramènent dans le domaine de la langue « prédictible » et commercialement exploitable par l’entreprise. Grâce à cette médiation algorithmique de l’expression, Google est donc parvenu à transformer le matériel linguistique en véritable ressource économique. Mais ce phénomène, que Frédéric Kaplan décrit sous le nom de « capitalisme linguistique », a pour effet direct une régularisation et une homogénéisation des langues naturelles, qui s’accompagne de leur désidiomatisation à échelle mondiale. Cet effet rétroactif des technologies sur la langue semble conduire à l’émergence d’une nouvelle syntaxe et d’un nouveau lexique informé par les capacités linguistiques des machines et la valeur économique des mots.

Publié dans : Économie & finance

La langue comme capital

  1. 1. La langue comme capital. ! ! ! ! Frédéric Kaplan Digital Humanities Laboratory / EPFL / Suisse.
  2. 2. Résumé des épisodes précédents.
  3. 3. 5 FREDERIC KAPLAN Linguistic Capitalism and Algorithmic Mediation GOOGLE MADE 50 BILLION DOLLARS in revenue in 2012, an impressive financial result for a company created less than fifteen year ago.1 That figure represents about 140 millions dollars per day, 5 million dollars per hour. By the time you have finished reading this article (about six minutes), Google will have made about 500,000 dollars. What does Google actually sell to get such astonishing results? Words. Millions of words. The success of Google’s highly original business model is the story of two algorithms. The first—pioneering a new way of associating web pages to queries based on keywords—has made Google popular. The second— assigning a commercial value to those keywords—has made Google rich. In 1998, search engines could be used to search for web pages contain-ing certain keywords, but they used inefficient and easily hackable ranking methods, such as the number of occurrences of a search keyword within
  4. 4. Vincent Buntinx Dana Kianfar
  5. 5. Le capitalisme linguistique en 5 thèses.
  6. 6. Thèse 1 ! Le capitalisme linguistique est un nouveau régime économique caractérisé par la monétisation des langues au niveau mondial.
  7. 7. Google réalise 50 milliards de dollars par an * simplement en organisant la vente des mots à l’échelle planétaire. ! * 137 M / jour, 5+ M / heures
  8. 8. ski sun screen or world cup
  9. 9. Thèse 2 ! Le capitalisme linguistique n’est pas une économie de l’attention, mais une économie de l’expression.
  10. 10. Économie de l’attention Attention Intention Lieu de la médiation
  11. 11. Économie de l’expression Intention Expression Lieu de la médiation
  12. 12. Dans une économie de l’expression, il faut développer des relations linguistiques intimes et durables avec un grand nombre d’utilisateurs, pour pouvoir modéliser et infléchir la langue.
  13. 13. Nous sommes déjà des millions à nous exprimer tous les jours au travers des prothèses linguistiques de Google : Google docs, Gmail, Google+ …
  14. 14. Thèse 3 ! Le capitalisme linguistique tend à optimiser la langue pour la faire entrer dans son domaine commercialement exploitable.
  15. 15. Quand Google corrige à la volée un mot que vous avez mal orthographié, il transforme un matériau sans valeur en une ressource économique potentiellement rentable.
  16. 16. Quand Google prolonge une phrase que vous avez commencée à taper, il ramène votre expression dans le domaine de la langue qu’il peut exploiter.
  17. 17. la langue vivante la langue exploitable commercialement
  18. 18. L’autocompletion s’est aujourd’hui généralisée sur presque toutes les interfaces de saisie.
  19. 19. Thèse 4 ! La langue exploitable commercialement est une langue prédictible par les algorithmes.
  20. 20. La langue prédictible sert non seulement à l’autocompletion mais aussi à proposer de nouveaux services linguistiques (traduction automatique, écriture automatique)
  21. 21. L’objectif du capitalisme linguistique est donc de régulariser la langue pour maximiser son potentiel économique.
  22. 22. Thèse 5 ! Dans le capitalisme linguistique, la langue est un capital.
  23. 23. Les acteurs du capitalisme linguistique tendent à engranger un capital fait de modèles toujours plus vastes de la langue prédictible.
  24. 24. Ce capital se transforme en produits et services de médiation linguistique qui à leur tour génèrent plus de capital linguistique.
  25. 25. Parallèlement, par l’organisation de la vente des mots, le capital linguistique en croissance est convertible en capital économique.
  26. 26. Capital linguistique de langue prédictible Extension des services de médiation linguistique Capital linguistique de langue prédictible plus étendu Capital économique Capital économique plus étendu
  27. 27. Ce nouveau contexte économique et technique est susceptible d’être à la base d’une transformation linguistique majeure.
  28. 28. Il convient de distinguer les ressources linguistiques primaires produites sans médiation algorithmique (conversations écrites, contenus de livres numérisés, etc.) …
  29. 29. … des resources linguistiques secondaires produites comme transformations algorithmiques de ressources primaires.
  30. 30. Par exemple, les algorithmes de traduction automatique permettent de transformer le capital linguistique d’une langue en une autre.
  31. 31. Ils ont une double importance économique car ils proposent des services linguistiques précieux et ils décuplent le capital linguistique accumulé.
  32. 32. Mais cette intermédiation algorithmique n’est pas sans effet.
  33. 33. Pour traduire deux langues européennes, l’anglais est souvent utilisé comme langue pivot.
  34. 34. langue source langue cible langue pivot
  35. 35. Le biais culturel d’un tel procédé est évidemment important. Le Français et l’Italien sont des langues relativement proches. ! En comparaison, l’anglais est une langue particulière, compacte, idiomatique. ! Projeter vers l’espace anglophone puis reprojeter vers une langue cible induit des effets linguistiques et culturels qu’il faut étudier.
  36. 36. Dans le cadre du capitalisme linguistique, l’impérialisme linguistique de l’anglais a donc des effets beaucoup plus subtils que ne le laisseraient penser les approches qui n’étudient que la “guerre des langues”. ! Le fait de pivoter par une langue conduit à introduire dans les autres langues des logiques linguistiques propres et donc insensiblement des modes de pensée spécifiques.
  37. 37. À l’échelle mondiale, c’est un réseau de chaines de traduction qui est en train de se mettre en place et qui impose parfois, pour traduire une expression d’une langue à une autre, de pivoter par une série de langues intermédiaires.
  38. 38. Dans d’autres cas, le capital linguistique sert à produire des contenus textuels inédits.
  39. 39. Show and Tell: A Neural Image Caption Generator Oriol Vinyals Google vinyals@google.com Alexander Toshev Google toshev@google.com Samy Bengio Google bengio@google.com Dumitru Erhan Google dumitru@google.com Abstract Automatically describing the content of an image is a fundamental problem in artificial intelligence that connects computer vision and natural language processing. In this paper, we present a generative model based on a deep re-current architecture that combines recent advances in com-puter vision and machine translation and that can be used to generate natural sentences describing an image. The model is trained to maximize the likelihood of the target de-scription sentence given the training image. Experiments on several datasets show the accuracy of the model and the fluency of the language it learns solely from image descrip-tions. Our model is often quite accurate, which we verify both qualitatively and quantitatively. For instance, while the current state-of-the-art BLEU score (the higher the bet-ter) on the Pascal dataset is 25, our approach yields 59, to be compared to human performance around 69. We also show BLEU score improvements on Flickr30k, from 55 to 66, and on SBU, from 19 to 27. 1. Introduction Being able to automatically describe the content of an image using properly formed English sentences is a very A group of people shopping at an outdoor market. ! There are many vegetables at the fruit stand. Vision! Deep CNN Language ! Generating! RNN Figure 1. NIC, our model, is based end-to-end on a neural net-work consisting of a vision CNN followed by a language gener-ating RNN. It generates complete sentences in natural language from an input image, as shown on the example above. would like to present in this work a single joint model that takes an image I as input, and is trained to maximize the likelihood p(S|I) of producing a target sequence of words S = {S1, S2, . . .} where each word St comes from a given dictionary, that describes the image adequately. The main inspiration of our work comes from recent ad-vances in machine translation, where the task is to transform a sentence S written in a source language, into its transla-tion T in the target language, by maximizing p(T|S). For many years, machine translation was also achieved by a se-ries of separate tasks (translating words individually, align-ing arXiv:1411.4555v1 [cs.CV] 17 Nov 2014
  40. 40. Ici le capital linguistique génère un extension linguistique artificielle, avec des expressions potentiellement inédites.
  41. 41. Pour juger la pertinence de ces expressions, des “armées” de juges humains doivent être recrutées.
  42. 42. La description systématique des images par des algorithmes peut être à l’origine d’un tsunami de nouvelles tournures linguistiques.
  43. 43. De plus en plus souvent, de telles ressources secondaires sont présentées comme des ressources primaires.
  44. 44. lsjbot Wikipedia bot auteur de 2.7M articles sur Wikipedia, 10K par jour
  45. 45. Les algorithmes qui analysent la langues ne font pas souvent la différence entre ces ressources secondaires et les ressources primaires.
  46. 46. Les nouvelles formes hybrides entrent ainsi dans le capital linguistique et seront peut-être un jour proposées comme suggestions ou corrections.
  47. 47. Nous sommes face à une nouvelle forme de “créolisation”.
  48. 48. Une prédiction ! Avec le développement général de l’autocompletion, il n’y aura plus d’ici 5 ans aucune nouvelle ressource primaire.
  49. 49. Scenario 1 ! Cette évolution linguistique est globalement acceptée ou ignorée. ! La langue predictible et économiquement exploitable converge avec la langue naturelle vers un nouveau créole. ! Le capitalisme linguistique se développe et se complexifie pour devenir un des secteurs économiques les plus importants.
  50. 50. Scenario 2 ! Suite à une prise de conscience et pour tenter d’inverser le phénomène, la médiation algorithmique est mieux comprise et labellisée. ! Des “gisements” de ressources primaires (grandes bibliothèques numérisées) sont exploitées pour mieux detecter les phénomènes d’hybridation.
  51. 51. Scenario 2 (suite) ! Dans l’objectif de comprendre et maitriser cette évolution, une nouvelle linguistique se développe. ! Cette linguistique utilise massivement les algorithmes pour mieux comprendre et surveiller l’effet des algorithmes.
  52. 52. Frédéric Kaplan frederic.kaplan@epfl.ch @frederickaplan ! http://dhlab.epfl.ch

×