Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

La question de la langue à l'époque de Google

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Prochain SlideShare
La langue comme capital
La langue comme capital
Chargement dans…3
×

Consultez-les par la suite

1 sur 94 Publicité
Publicité

Plus De Contenu Connexe

Les utilisateurs ont également aimé (20)

Similaire à La question de la langue à l'époque de Google (20)

Publicité

Plus par Frederic Kaplan (18)

Plus récents (20)

Publicité

La question de la langue à l'époque de Google

  1. 1. La question de la langue à l’époque de Google Frédéric Kaplan frederic.kaplan@ep!.ch twitter : @frederickaplan
  2. 2. Chi"re d’a"aires de Google 40 milliards / an (en $)
  3. 3. ... simplement en vendant des mots.
  4. 4. 110 millions / jour
  5. 5. 4.5 millions / heure
  6. 6. 75 000 / min
  7. 7. À la #n de cet exposé, Google aura gagné environ 2 millions de dollars.
  8. 8. L’histoire de Google tient en deux algorithmes : l’un l’a rendu populaire, l’autre l’a rendu riche.
  9. 9. L’un a créé une valeur d’usage, l’autre une valeur d’échange.
  10. 10. 1 L’algorithme qui a rendu Google célèbre
  11. 11. Altavista — 1996
  12. 12. Google — 1998
  13. 13. PageRank L’algorithme qui a permis à Google de devenir la porte d’entrée du web.
  14. 14. Brin et Page travaillent sur le Standford Library Technologies Project
  15. 15. Comment classer les résultats de recherche pour un mot-clé donné ?
  16. 16. Hypothèse Les documents les plus importants sont ceux qui sont le plus cités.
  17. 17. Mais certaines citations valent plus que d’autres.
  18. 18. Et comment sait-on qu’un document est important ? Par le nombre de citations.
  19. 19. Une formule récursive.
  20. 20. La valeur PageRank d’un document est liée au nombre de documents qui le citent et à leur propre valeur PageRank.
  21. 21. Le PageRank est aussi la probabilité stationnaire d'une chaîne de Markov.
  22. 22. Brin et Page proposent alors une analogie. Le web est un ensemble de documents. Chaque hyperlien correspond à une citation.
  23. 23. Dans sa version « pure », Pagerank incarne un certain idéal démocratique. « Dans l’esprit de PageRank ». Dominique Cardon. Exposé Colloque Arc-Info. Nov 2012
  24. 24. Mais pour bien fonctionner, il faudrait que personne ne tente d’optimiser ses documents en fonction de l’algorithme.
  25. 25. Mais, évidemment, ce n’est pas le cas.
  26. 26. Des algorithmes se sont massivement développés pour tromper l’algorithme de classement de Google.
  27. 27. Ils optimisent les textes et leurs intertextualités pour arriver en premier dans les résultats de recherche.
  28. 28. Une première guerre «linguistique » a commencé.
  29. 29. Mars 2000 : Éclatement de la « Bulle Internet ».
  30. 30. Beaucoup de « start-ups » proposant une valeur d’usage, mais pas de valeur d’échange ne résistèrent pas.
  31. 31. Google a eu une meilleure idée que de simplement vendre de la publicité.
  32. 32. Brin et Page ont réalisé qu’ils accumulaient du capital linguistique grâce au nombre croissant d’utilisateurs qui s’exprimaient au travers de services de Google.
  33. 33. Il leur su$sait d’exploiter ce capital.
  34. 34. 2 l’algorithme qui a rendu Google riche
  35. 35. Un algorithme qui organise automatiquement la spéculation autour des mots a permis de créer le premier marché linguistique mondial.
  36. 36. Le marché linguistique existait déjà avant Google. Il était possible depuis longtemps d’acheter certains mots (Trademarks) > cf. C.Fauré commentant Lombardo sur l’origine antique des Trademarks > http://www.christian-faure.net/2012/01/22/les-savoirs-de-lecriture-en-grece- ancienne-3-marchands-transactions-economiques-ecritures/
  37. 37. L’algorithme de Google a élargi et en partie libéralisé ce marché.
  38. 38. 1 4 2 5 3 6 7 8 9 10
  39. 39. Tous les mots peuvent donner lieu à des enchères...
  40. 40. L’algorithme classe automatiquement les annonces selon un calcul en quatre étapes.
  41. 41. 1. Enchère sur un mot clé (E) Une entreprise choisit un mot ou une expression, par exemple « vacances » et le prix maximum qu’elle serait prête à payer en cas de clic. Google propose une estimation du montant de l’enchère à proposer pour avoir de bonnes chances d’être dans la première page des résultats proposés. Les acheteurs de mots peuvent aussi cibler leur publicité à des dates ou des lieux spéci#ques.
  42. 42. 2. Calcul du score de qualité de la publicité (Q) Google donne un score à la publicité sur une échelle de un à dix. Ce score dépend essentiellement de la pertinence du texte de la publicité par rapport à la requête de l’utilisateur, de la qualité de la page vers laquelle la publicité pointe (qualité de son contenu et rapidité de chargement) et du nombre de clics moyen sur la publicité. En gros, ce score mesure à quel point la publicité « fonctionne ». C’est un point essentiel, car Google ne gagne de l’argent que si les internautes choisissent e"ectivement de cliquer sur le lien proposé par la publicité. L’algorithme exact qui produit le score de qualité de la publicité reste secret et modi!able à loisir par Google.
  43. 43. 3. Calcul du rang (R) Le Rang est l’Enchère multipliée par le Score. Une publicité ayant un bon score peut ainsi compenser une enchère plus faible et arriver devant. R=E*Q
  44. 44. 4. Calcul du prix à payer en cas de clic (P) Le prix que paye une entreprise 1 si un internaute clique sur sa publicité n’est pas le prix de l’enchère, mais le prix de l’enchère 2 juste en dessous de sa propre enchère modulée par la qualité relative entre cette deuxième enchère et celle de l’entreprise. Tout tient dans la formule : P1 = E2 * (Q2 / Q1) où P1 est le prix payé par l’entreprise, E2 est l’enchère la plus haute en dessous de l’enchère de l'entreprise 1, Q1 la qualité de l’enchère 1, Q2 la qualité de l’enchère 2.
  45. 45. Ce jeu d’enchères est recalculé pour chaque requête de chaque utilisateur — des millions de fois par seconde
  46. 46. Cet algorithme génère 40 de milliards de dollars par an.
  47. 47. Le marché linguistique ainsi créé par Google est déjà global et multilingue.
  48. 48. La « Bourse des mots » qui lui est associée donne une indication relativement juste des grands mouvements sémantiques mondiaux.
  49. 49. ski or sun screen world cup
  50. 50. Google a réussi à étendre le domaine du capitalisme à la langue elle-même, à organiser la vente de « mots » à l’échelle planétaire.
  51. 51. Ces autres projets et innovations technologiques peuvent être analysés à travers ce prisme.
  52. 52. Quand Google corrige à la volée un mot que vous avez mal orthographié, il transforme un matériau sans valeur en une ressource économique potentiellement rentable.
  53. 53. Quand Google prolonge une phrase que vous avez commencée à taper, il ramène votre expression dans le domaine de la langue qu’il peut exploiter.
  54. 54. la langue vivante la langue exploitable commercialement
  55. 55. English Googlish
  56. 56. Français Googlais
  57. 57. Anglais Bingish
  58. 58. Nous nous exprimons chaque jour un peu plus au travers d’une des interfaces de Google (GMail, Google Docs, Google+, etc.)
  59. 59. Nous sommes déjà des millions chaque jour à écrire et à parler par le biais de Google.
  60. 60. Les acteurs du capitalisme linguistique doivent développer des relations linguistiques intimes et durables avec un grand nombre d’utilisateurs, pour pouvoir modéliser et in!échir la langue.
  61. 61. Le capitalisme linguistique n’est pas une économie de l’attention.
  62. 62. C’est une économie de l’expression.
  63. 63. L’objectif n’est tant de capter les regards, mais d’être un médiateur de l’écrit.
  64. 64. Économie de l’attention Attention Intention Lieu de la médiation
  65. 65. Économie de l’expression Intention Expression Lieu de la médiation
  66. 66. Du fait de ces médiations, la langue elle-même risque de se transformer.
  67. 67. Première hypothèse (2011) Les technologies du capitalisme linguistique conduiraient à la régularisation de la langue. Plus nous ferons appel aux prothèses linguistiques, laissant les algorithmes corriger et prolonger nos propos, plus cette régularisation serait e$cace.
  68. 68. Mais cette régularisation se base essentiellement sur une analyse statistique des écrits de l’Internet. Or beaucoup de ces écrits ne sont pas des ressources pures, ce sont des écrits déjà in!uencés par des algorithmes.
  69. 69. Il nous fait donc désormais distinguer deux types de ressources linguistiques : (a) les ressources primaires produites par des humains (conversations orales ou écrites, contenus de livres scannés, etc.) (b) les ressources secondaires produites par des machines en général à partir des ressources primaires (traduction automatique, articles écrits par des algorithmes, spam). 
  70. 70. La modi#cation de la syntaxe dans des chaînes de traduction automatique illustre un certain de type de pollution. « La qualité se dégrade petit à petit au fur et à mesure quand on applique des algorithmes de traduction automatique » « Quality degrades gradually as and when we measure applies algorithms to machine translation » « Calidad degrada gradualmente a medida y cuando la medida se aplica algoritmos de traducción automática » « Qualité se dégrade progressivement au fur et à mesure est appliquée algorithmes de traduction automatique »
  71. 71. Les distorsions sémantiques introduites par le ‘Text Spinning’ illustrent un autre type de pollution : « Mr. and Mrs. Dursley, of number four, Privet Drive, were proud to say that they were perfectly normal, thank you very much. They were the last people you'd expect to be involved in anything strange or mysterious, because they just didn't hold with such nonsense. » « Mr. but Mrs. Dursley, of number four, Privet Drive, were glad to declare that they were impeccably standard, thanks much. They were the !nal folks you'd look for to be included in whatever or recondite, resulting from the fact that they simply didn't keep with such gibberish. “
  72. 72. Malheureusement, sans connaître l’origine d’une production, il n’est souvent pas aisé de distinguer entre ressources primaires ou secondaires.
  73. 73. Un humain peut, dans certains cas, faire la di"érence, mais il est di$cile de construire des algorithmes pour faire automatiquement cette distinction.
  74. 74. Au fur et à mesure que la quantité de ressources secondaires devient signi#cative par rapport aux ressources primaires, les modèles statistiques peuvent se modi#er pour intégrer le vocabulaire, les formulations et les tournures des algorithmes.
  75. 75. Ce sont ces tournures qui risquent de nous être proposées sous la forme de suggestions ou de corrections. 
  76. 76. Google voit les ressources secondaires comme un danger, une pollution pour ses modèles.
  77. 77. Pour lutter contre cette « pollution » croissante, Google a modi#é en 2011 son service Google Translate. Google a remplacé son service créateur de ressources secondaires en un service de traduction « on demand » qui garde toujours le texte original de la traduction, pour s’en servir pour la recherche et pour potentiellement améliorer progressivement la traduction proposée au fur et à mesure que les algorithmes de traduction progressent.  cf. Kirti Vashee / Analysis of the Shutdown Announcements of the Google Translate API
  78. 78. Cela ne su$ra pas. Il faut maintenant compter avec l’écriture des machines et tous les hybrides de ce nouvel ordre linguistique.
  79. 79. Sur les 30 meilleurs éditeurs de Wikipedia, les 2/3 sont des bots > R.Stuart Geiger, “The Lives of Bots.” in Wikipedia: A Critical Point of View. 2011 > http://en.wikipedia.org/wiki/Wikipedia:List_of_Wikipedians_by_number_of_recent_edits
  80. 80. D’ici deux ans, une proportion signi#cative des messages sur les réseaux sociaux sera peut- être produite par des bots. > Hwang, Pearce and Nanis (2012) Socialbots: voices from the fronts interactions Volume 19 Issue 2, March + April 2012
  81. 81. Ainsi, textes humains et algorithmiques se mêlent pour proposer une nouvelle forme d’écriture. Et c’est cette nouvelle écriture que d’autres algorithmes analysent pour ensuite structurer nos propres productions linguistiques.
  82. 82. Avec le capitalisme linguistique, la langue elle-même se transforme pour intégrer les biais linguistiques des machines et les contraintes de l’économie linguistique planétaire.
  83. 83. Nous assistons peut-être une nouvelle phase de « grammatisation » de la langue, une nouvelle rétroaction de la technologie et de l’économie sur la langue naturelle.
  84. 84. Dans un temps intermédiaire apparait quelque chose comme une lingua franca, un pidgin ou un créole, dont la syntaxe et le vocabulaire sont liés aux capacités linguistiques des machines et aux valeurs marchandes des mots.
  85. 85. La nouvelle créolisation
  86. 86. Il me semble primordial d’étudier ces nouveaux phénomènes linguistiques.
  87. 87. 1. Modéliser l’évolution de la langue commerciale. Produire les dictionnaires du Googlish et du Bingish.
  88. 88. 2. Modéliser les nouveaux dialectes algorithmiques. Construire des algorithmes pour les reconnaitre.
  89. 89. 3. Détecter et documenter les phénomènes de créolisation.
  90. 90. Cela constitue un axe de nos recherches au DHLAB
  91. 91. frederic.kaplan@ep!.ch twitter:@frederickaplan

×