La langue comme capital

3 109 vues

Publié le

Présentation au seminaire Digital Studies

Presentation du seminaire

Langue, écriture et automatisme : les software studies face au capitalisme linguistique

Le stade numérique du processus de grammatisation pose le problème d’un changement radical des conditions de la lecture, de l’écriture et de l’expression linguistique : la formalisation, la discrétisation et l’extériorisation des comportements langagiers humains dans les rétentions tertiaires numériques semblent rendre impossible la ré-appropriation de ces savoirs par les individus. En effet, afin de tirer profit de la recherche des internautes, Google exerce un contrôle sur la langue au moyen d’outils de correction et de complétion automatique. En incitant l’internaute à employer les mots les plus utilisés statistiquement et qui font l’objet de la spéculation des publicitaires, ces automates le ramènent dans le domaine de la langue « prédictible » et commercialement exploitable par l’entreprise. Grâce à cette médiation algorithmique de l’expression, Google est donc parvenu à transformer le matériel linguistique en véritable ressource économique. Mais ce phénomène, que Frédéric Kaplan décrit sous le nom de « capitalisme linguistique », a pour effet direct une régularisation et une homogénéisation des langues naturelles, qui s’accompagne de leur désidiomatisation à échelle mondiale. Cet effet rétroactif des technologies sur la langue semble conduire à l’émergence d’une nouvelle syntaxe et d’un nouveau lexique informé par les capacités linguistiques des machines et la valeur économique des mots.

Publié dans : Économie & finance

La langue comme capital

  1. 1. La langue comme capital. ! ! ! ! Frédéric Kaplan Digital Humanities Laboratory / EPFL / Suisse.
  2. 2. Résumé des épisodes précédents.
  3. 3. 5 FREDERIC KAPLAN Linguistic Capitalism and Algorithmic Mediation GOOGLE MADE 50 BILLION DOLLARS in revenue in 2012, an impressive financial result for a company created less than fifteen year ago.1 That figure represents about 140 millions dollars per day, 5 million dollars per hour. By the time you have finished reading this article (about six minutes), Google will have made about 500,000 dollars. What does Google actually sell to get such astonishing results? Words. Millions of words. The success of Google’s highly original business model is the story of two algorithms. The first—pioneering a new way of associating web pages to queries based on keywords—has made Google popular. The second— assigning a commercial value to those keywords—has made Google rich. In 1998, search engines could be used to search for web pages contain-ing certain keywords, but they used inefficient and easily hackable ranking methods, such as the number of occurrences of a search keyword within
  4. 4. Vincent Buntinx Dana Kianfar
  5. 5. Le capitalisme linguistique en 5 thèses.
  6. 6. Thèse 1 ! Le capitalisme linguistique est un nouveau régime économique caractérisé par la monétisation des langues au niveau mondial.
  7. 7. Google réalise 50 milliards de dollars par an * simplement en organisant la vente des mots à l’échelle planétaire. ! * 137 M / jour, 5+ M / heures
  8. 8. ski sun screen or world cup
  9. 9. Thèse 2 ! Le capitalisme linguistique n’est pas une économie de l’attention, mais une économie de l’expression.
  10. 10. Économie de l’attention Attention Intention Lieu de la médiation
  11. 11. Économie de l’expression Intention Expression Lieu de la médiation
  12. 12. Dans une économie de l’expression, il faut développer des relations linguistiques intimes et durables avec un grand nombre d’utilisateurs, pour pouvoir modéliser et infléchir la langue.
  13. 13. Nous sommes déjà des millions à nous exprimer tous les jours au travers des prothèses linguistiques de Google : Google docs, Gmail, Google+ …
  14. 14. Thèse 3 ! Le capitalisme linguistique tend à optimiser la langue pour la faire entrer dans son domaine commercialement exploitable.
  15. 15. Quand Google corrige à la volée un mot que vous avez mal orthographié, il transforme un matériau sans valeur en une ressource économique potentiellement rentable.
  16. 16. Quand Google prolonge une phrase que vous avez commencée à taper, il ramène votre expression dans le domaine de la langue qu’il peut exploiter.
  17. 17. la langue vivante la langue exploitable commercialement
  18. 18. L’autocompletion s’est aujourd’hui généralisée sur presque toutes les interfaces de saisie.
  19. 19. Thèse 4 ! La langue exploitable commercialement est une langue prédictible par les algorithmes.
  20. 20. La langue prédictible sert non seulement à l’autocompletion mais aussi à proposer de nouveaux services linguistiques (traduction automatique, écriture automatique)
  21. 21. L’objectif du capitalisme linguistique est donc de régulariser la langue pour maximiser son potentiel économique.
  22. 22. Thèse 5 ! Dans le capitalisme linguistique, la langue est un capital.
  23. 23. Les acteurs du capitalisme linguistique tendent à engranger un capital fait de modèles toujours plus vastes de la langue prédictible.
  24. 24. Ce capital se transforme en produits et services de médiation linguistique qui à leur tour génèrent plus de capital linguistique.
  25. 25. Parallèlement, par l’organisation de la vente des mots, le capital linguistique en croissance est convertible en capital économique.
  26. 26. Capital linguistique de langue prédictible Extension des services de médiation linguistique Capital linguistique de langue prédictible plus étendu Capital économique Capital économique plus étendu
  27. 27. Ce nouveau contexte économique et technique est susceptible d’être à la base d’une transformation linguistique majeure.
  28. 28. Il convient de distinguer les ressources linguistiques primaires produites sans médiation algorithmique (conversations écrites, contenus de livres numérisés, etc.) …
  29. 29. … des resources linguistiques secondaires produites comme transformations algorithmiques de ressources primaires.
  30. 30. Par exemple, les algorithmes de traduction automatique permettent de transformer le capital linguistique d’une langue en une autre.
  31. 31. Ils ont une double importance économique car ils proposent des services linguistiques précieux et ils décuplent le capital linguistique accumulé.
  32. 32. Mais cette intermédiation algorithmique n’est pas sans effet.
  33. 33. Pour traduire deux langues européennes, l’anglais est souvent utilisé comme langue pivot.
  34. 34. langue source langue cible langue pivot
  35. 35. Le biais culturel d’un tel procédé est évidemment important. Le Français et l’Italien sont des langues relativement proches. ! En comparaison, l’anglais est une langue particulière, compacte, idiomatique. ! Projeter vers l’espace anglophone puis reprojeter vers une langue cible induit des effets linguistiques et culturels qu’il faut étudier.
  36. 36. Dans le cadre du capitalisme linguistique, l’impérialisme linguistique de l’anglais a donc des effets beaucoup plus subtils que ne le laisseraient penser les approches qui n’étudient que la “guerre des langues”. ! Le fait de pivoter par une langue conduit à introduire dans les autres langues des logiques linguistiques propres et donc insensiblement des modes de pensée spécifiques.
  37. 37. À l’échelle mondiale, c’est un réseau de chaines de traduction qui est en train de se mettre en place et qui impose parfois, pour traduire une expression d’une langue à une autre, de pivoter par une série de langues intermédiaires.
  38. 38. Dans d’autres cas, le capital linguistique sert à produire des contenus textuels inédits.
  39. 39. Show and Tell: A Neural Image Caption Generator Oriol Vinyals Google vinyals@google.com Alexander Toshev Google toshev@google.com Samy Bengio Google bengio@google.com Dumitru Erhan Google dumitru@google.com Abstract Automatically describing the content of an image is a fundamental problem in artificial intelligence that connects computer vision and natural language processing. In this paper, we present a generative model based on a deep re-current architecture that combines recent advances in com-puter vision and machine translation and that can be used to generate natural sentences describing an image. The model is trained to maximize the likelihood of the target de-scription sentence given the training image. Experiments on several datasets show the accuracy of the model and the fluency of the language it learns solely from image descrip-tions. Our model is often quite accurate, which we verify both qualitatively and quantitatively. For instance, while the current state-of-the-art BLEU score (the higher the bet-ter) on the Pascal dataset is 25, our approach yields 59, to be compared to human performance around 69. We also show BLEU score improvements on Flickr30k, from 55 to 66, and on SBU, from 19 to 27. 1. Introduction Being able to automatically describe the content of an image using properly formed English sentences is a very A group of people shopping at an outdoor market. ! There are many vegetables at the fruit stand. Vision! Deep CNN Language ! Generating! RNN Figure 1. NIC, our model, is based end-to-end on a neural net-work consisting of a vision CNN followed by a language gener-ating RNN. It generates complete sentences in natural language from an input image, as shown on the example above. would like to present in this work a single joint model that takes an image I as input, and is trained to maximize the likelihood p(S|I) of producing a target sequence of words S = {S1, S2, . . .} where each word St comes from a given dictionary, that describes the image adequately. The main inspiration of our work comes from recent ad-vances in machine translation, where the task is to transform a sentence S written in a source language, into its transla-tion T in the target language, by maximizing p(T|S). For many years, machine translation was also achieved by a se-ries of separate tasks (translating words individually, align-ing arXiv:1411.4555v1 [cs.CV] 17 Nov 2014
  40. 40. Ici le capital linguistique génère un extension linguistique artificielle, avec des expressions potentiellement inédites.
  41. 41. Pour juger la pertinence de ces expressions, des “armées” de juges humains doivent être recrutées.
  42. 42. La description systématique des images par des algorithmes peut être à l’origine d’un tsunami de nouvelles tournures linguistiques.
  43. 43. De plus en plus souvent, de telles ressources secondaires sont présentées comme des ressources primaires.
  44. 44. lsjbot Wikipedia bot auteur de 2.7M articles sur Wikipedia, 10K par jour
  45. 45. Les algorithmes qui analysent la langues ne font pas souvent la différence entre ces ressources secondaires et les ressources primaires.
  46. 46. Les nouvelles formes hybrides entrent ainsi dans le capital linguistique et seront peut-être un jour proposées comme suggestions ou corrections.
  47. 47. Nous sommes face à une nouvelle forme de “créolisation”.
  48. 48. Une prédiction ! Avec le développement général de l’autocompletion, il n’y aura plus d’ici 5 ans aucune nouvelle ressource primaire.
  49. 49. Scenario 1 ! Cette évolution linguistique est globalement acceptée ou ignorée. ! La langue predictible et économiquement exploitable converge avec la langue naturelle vers un nouveau créole. ! Le capitalisme linguistique se développe et se complexifie pour devenir un des secteurs économiques les plus importants.
  50. 50. Scenario 2 ! Suite à une prise de conscience et pour tenter d’inverser le phénomène, la médiation algorithmique est mieux comprise et labellisée. ! Des “gisements” de ressources primaires (grandes bibliothèques numérisées) sont exploitées pour mieux detecter les phénomènes d’hybridation.
  51. 51. Scenario 2 (suite) ! Dans l’objectif de comprendre et maitriser cette évolution, une nouvelle linguistique se développe. ! Cette linguistique utilise massivement les algorithmes pour mieux comprendre et surveiller l’effet des algorithmes.
  52. 52. Frédéric Kaplan frederic.kaplan@epfl.ch @frederickaplan ! http://dhlab.epfl.ch

×