• J'aime
La question de la langue à l'époque de Google
Prochain SlideShare
Chargement dans... 5
×

La question de la langue à l'époque de Google

  • 22,861 vues
Transféré le

Exposé donné aux Entretiens du Nouveau Monde Industriel 2012

Exposé donné aux Entretiens du Nouveau Monde Industriel 2012

Plus dans : Économie & finance
  • Full Name Full Name Comment goes here.
    Êtes-vous sûr de vouloir
    Votre message apparaîtra ici
  • Bonjour. Aimerais plus d'informations sur la page 83 et les 800 000 ebooks créés par des machines ! - SF ou réel ?
    Êtes-vous sûr de vouloir
    Votre message apparaîtra ici
  • Très bonne vision du contexte et des probématiques actuelles !Merci Frédéric pour ce doc
    Êtes-vous sûr de vouloir
    Votre message apparaîtra ici
Aucun téléchargement

Vues

Total des vues
22,861
Sur Slideshare
0
À partir des ajouts
0
Nombre d'ajouts
57

Actions

Partages
Téléchargements
144
Commentaires
2
J'aime
29

Ajouts 0

No embeds

Signaler un contenu

Signalé comme inapproprié Signaler comme inapproprié
Signaler comme inapproprié

Indiquez la raison pour laquelle vous avez signalé cette présentation comme n'étant pas appropriée.

Annuler
    No notes for slide

Transcript

  • 1. La question de la langue àl’époque de GoogleFrédéric Kaplanfrederic.kaplan@ep!.chtwitter : @frederickaplan
  • 2. Chi"re d’a"aires de Google40 milliards / an (en $)
  • 3. ... simplement en vendantdes mots.
  • 4. 110 millions / jour
  • 5. 4.5 millions / heure
  • 6. 75 000 / min
  • 7. À la #n de cet exposé,Google aura gagné environ2 millions de dollars.
  • 8. L’histoire de Google tient endeux algorithmes :l’un l’a rendu populaire,l’autre l’a rendu riche.
  • 9. L’un a crééune valeur d’usage,l’autreune valeur d’échange.
  • 10. 1L’algorithme qui a rendu Google célèbre
  • 11. Altavista — 1996
  • 12. Google — 1998
  • 13. PageRankL’algorithme qui a permis àGoogle de devenir la ported’entrée du web.
  • 14. Brin et Page travaillent sur leStandford LibraryTechnologies Project
  • 15. Comment classer lesrésultats de recherche pourun mot-clé donné ?
  • 16. HypothèseLes documents les plusimportants sont ceux quisont le plus cités.
  • 17. Mais certaines citationsvalent plus que d’autres.
  • 18. Et comment sait-on qu’undocument est important ?Par le nombre de citations.
  • 19. Une formule récursive.
  • 20. La valeur PageRank d’undocument est liée au nombrede documents qui le citent età leur propre valeurPageRank.
  • 21. Le PageRank est aussi la probabilitéstationnaire dune chaîne de Markov.
  • 22. Brin et Page proposent alorsune analogie.Le web est un ensemble dedocuments. Chaquehyperlien correspond à unecitation.
  • 23. Dans sa version « pure »,Pagerank incarne un certainidéal démocratique.« Dans l’esprit de PageRank ». Dominique Cardon. Exposé Colloque Arc-Info. Nov 2012
  • 24. Mais pour bien fonctionner, ilfaudrait que personne netente d’optimiser sesdocuments en fonction del’algorithme.
  • 25. Mais, évidemment, ce n’estpas le cas.
  • 26. Des algorithmes se sontmassivement développéspour tromper l’algorithme declassement de Google.
  • 27. Ils optimisent les textes etleurs intertextualités pourarriver en premier dans lesrésultats de recherche.
  • 28. Une première guerre«linguistique » a commencé.
  • 29. Mars 2000 : Éclatementde la « Bulle Internet ».
  • 30. Beaucoup de « start-ups »proposant une valeurd’usage, mais pas de valeurd’échange ne résistèrentpas.
  • 31. Google a eu une meilleure idéeque de simplement vendre dela publicité.
  • 32. Brin et Page ont réalisé qu’ilsaccumulaient du capitallinguistique grâce au nombrecroissant d’utilisateurs quis’exprimaient au travers deservices de Google.
  • 33. Il leur su$sait d’exploiter cecapital.
  • 34. 2l’algorithme qui a rendu Google riche
  • 35. Un algorithme qui organiseautomatiquement laspéculation autour des mots apermis de créer le premiermarché linguistique mondial.
  • 36. Le marché linguistique existaitdéjà avant Google.Il était possible depuislongtemps d’acheter certainsmots (Trademarks)> cf. C.Fauré commentant Lombardo sur l’origine antique des Trademarks> http://www.christian-faure.net/2012/01/22/les-savoirs-de-lecriture-en-grece-ancienne-3-marchands-transactions-economiques-ecritures/
  • 37. L’algorithme de Google aélargi et en partie libéralisé cemarché.
  • 38. 1 42 53 6 7 8 9 10
  • 39. Tous les mots peuventdonner lieu à des enchères...
  • 40. L’algorithme classeautomatiquement lesannonces selon un calculen quatre étapes.
  • 41. 1. Enchère sur un mot clé (E)Une entreprise choisit un mot ou uneexpression, par exemple « vacances »et le prix maximum qu’elle serait prêteà payer en cas de clic.Google propose une estimation du montant de l’enchère à proposer pour avoir debonnes chances d’être dans la première page des résultats proposés.Les acheteurs de mots peuvent aussi cibler leur publicité à des dates ou des lieuxspéci#ques.
  • 42. 2. Calcul du score de qualité de lapublicité (Q)Google donne un score à la publicité surune échelle de un à dix.Ce score dépend essentiellement de la pertinence du texte de la publicité par rapport à larequête de l’utilisateur, de la qualité de la page vers laquelle la publicité pointe (qualité deson contenu et rapidité de chargement) et du nombre de clics moyen sur la publicité. Engros, ce score mesure à quel point la publicité « fonctionne ».C’est un point essentiel, car Google ne gagne de l’argent que si les internauteschoisissent e"ectivement de cliquer sur le lien proposé par la publicité.L’algorithme exact qui produit le score de qualité de la publicité reste secret etmodi!able à loisir par Google.
  • 43. 3. Calcul du rang (R)Le Rang est l’Enchère multipliée par leScore. Une publicité ayant un bon scorepeut ainsi compenser une enchère plusfaible et arriver devant.R=E*Q
  • 44. 4. Calcul du prix à payer en cas declic (P)Le prix que paye une entreprise 1 si uninternaute clique sur sa publicité n’estpas le prix de l’enchère, mais le prixde l’enchère 2 juste en dessous de sapropre enchère modulée par la qualitérelative entre cette deuxième enchèreet celle de l’entreprise.Tout tient dans la formule : P1 = E2 * (Q2 / Q1) où P1 est le prix payé par l’entreprise, E2est l’enchère la plus haute en dessous de l’enchère de lentreprise 1, Q1 la qualité del’enchère 1, Q2 la qualité de l’enchère 2.
  • 45. Ce jeu d’enchères est recalculé pourchaque requête de chaque utilisateur— des millions de fois par seconde
  • 46. Cet algorithme génère40 de milliards de dollarspar an.
  • 47. Le marché linguistique ainsicréé par Google est déjàglobal et multilingue.
  • 48. La « Bourse des mots » quilui est associée donne uneindication relativement justedes grands mouvementssémantiques mondiaux.
  • 49. ski orsun screen world cup
  • 50. Google a réussi à étendre ledomaine du capitalisme à lalangue elle-même, àorganiser la ventede « mots » à l’échelleplanétaire.
  • 51. Ces autres projets etinnovations technologiquespeuvent être analysés àtravers ce prisme.
  • 52. Quand Google corrige à lavolée un mot que vous avezmal orthographié, il transformeun matériau sans valeur en uneressource économiquepotentiellement rentable.
  • 53. Quand Google prolonge unephrase que vous avezcommencée à taper, il ramènevotre expression dans ledomaine de la langue qu’il peutexploiter.
  • 54. la langue vivante la langue exploitablecommercialement
  • 55. EnglishGooglish
  • 56. FrançaisGooglais
  • 57. AnglaisBingish
  • 58. Nous nous exprimons chaquejour un peu plus au travers d’unedes interfaces de Google (GMail,Google Docs, Google+, etc.)
  • 59. Nous sommes déjà desmillions chaque jour à écrireet à parler par le biais deGoogle.
  • 60. Les acteurs du capitalismelinguistique doiventdévelopper des relationslinguistiques intimes etdurables avec un grandnombre d’utilisateurs, pourpouvoir modéliser et in!échirla langue.
  • 61. Le capitalisme linguistiquen’est pas une économie del’attention.
  • 62. C’est une économie del’expression.
  • 63. L’objectif n’est tant decapter les regards, maisd’être un médiateur del’écrit.
  • 64. Économie de l’attentionAttention Intention Lieu de la médiation
  • 65. Économie de l’expressionIntention Expression Lieu de la médiation
  • 66. Du fait de ces médiations, lalangue elle-même risque de setransformer.
  • 67. Première hypothèse (2011)Les technologies du capitalisme linguistiqueconduiraient à la régularisation de lalangue.Plus nous ferons appel aux prothèseslinguistiques, laissant les algorithmescorriger et prolonger nos propos, plus cetterégularisation serait e$cace.
  • 68. Mais cette régularisation se baseessentiellement sur une analyse statistiquedes écrits de l’Internet. Or beaucoup de cesécrits ne sont pas des ressources pures, cesont des écrits déjà in!uencés par desalgorithmes.
  • 69. Il nous fait donc désormais distinguer deuxtypes de ressources linguistiques :(a) les ressources primaires produites par deshumains (conversations orales ou écrites,contenus de livres scannés, etc.)(b) les ressources secondaires produites pardes machines en général à partir desressources primaires (traduction automatique,articles écrits par des algorithmes, spam). 
  • 70. La modi#cation de la syntaxe dans deschaînes de traduction automatique illustre uncertain de type de pollution. « La qualité se dégrade petit à petit au fur et à mesure quand on applique des algorithmes de traduction automatique » « Quality degrades gradually as and when we measure applies algorithms to machine translation » « Calidad degrada gradualmente a medida y cuando la medida se aplica algoritmos de traducción automática » « Qualité se dégrade progressivement au fur et à mesure est appliquée algorithmes de traduction automatique »
  • 71. Les distorsions sémantiques introduites par le‘Text Spinning’ illustrent un autre type depollution : « Mr. and Mrs. Dursley, of number four, Privet Drive, were proud to say that they were perfectly normal, thank you very much. They were the last people youd expect to be involved in anything strange or mysterious, because they just didnt hold with such nonsense. » « Mr. but Mrs. Dursley, of number four, Privet Drive, were glad to declare that they were impeccably standard, thanks much. They were the !nal folks youd look for to be included in whatever or recondite, resulting from the fact that they simply didnt keep with such gibberish. “
  • 72. Malheureusement, sansconnaître l’origine d’uneproduction, il n’est souventpas aisé de distinguer entreressources primaires ousecondaires.
  • 73. Un humain peut, dans certainscas, faire la di"érence, mais ilest di$cile de construire desalgorithmes pour faireautomatiquement cettedistinction.
  • 74. Au fur et à mesure que la quantité deressources secondaires devient signi#cativepar rapport aux ressources primaires, lesmodèles statistiques peuvent se modi#er pourintégrer le vocabulaire, les formulations etles tournures des algorithmes.
  • 75. Ce sont ces tournures quirisquent de nous êtreproposées sous la forme desuggestions ou de corrections. 
  • 76. Google voit les ressourcessecondaires comme un danger,une pollution pour sesmodèles.
  • 77. Pour lutter contre cette « pollution »croissante, Google a modi#é en 2011 sonservice Google Translate.Google a remplacé son service créateur de ressourcessecondaires en un service de traduction « on demand » quigarde toujours le texte original de la traduction, pour s’enservir pour la recherche et pour potentiellement améliorerprogressivement la traduction proposée au fur et à mesure queles algorithmes de traduction progressent. cf. Kirti Vashee / Analysis of the Shutdown Announcements of the Google Translate API
  • 78. Cela ne su$ra pas.Il faut maintenant compter avec l’écriture desmachines et tous les hybrides de ce nouvelordre linguistique.
  • 79. Sur les 30 meilleurs éditeurs deWikipedia, les 2/3 sont desbots> R.Stuart Geiger, “The Lives of Bots.” in Wikipedia: A Critical Point of View. 2011> http://en.wikipedia.org/wiki/Wikipedia:List_of_Wikipedians_by_number_of_recent_edits
  • 80. D’ici deux ans, une proportionsigni#cative des messages surles réseaux sociaux sera peut-être produite par des bots.> Hwang, Pearce and Nanis (2012) Socialbots: voices from the fronts interactions Volume 19Issue 2, March + April 2012
  • 81. Ainsi, textes humains etalgorithmiques se mêlent pourproposer une nouvelle formed’écriture. Et c’est cette nouvelleécriture que d’autres algorithmesanalysent pour ensuite structurernos propres productionslinguistiques.
  • 82. Avec le capitalisme linguistique,la langue elle-même setransforme pour intégrer les biaislinguistiques des machines etles contraintes de l’économielinguistique planétaire.
  • 83. Nous assistons peut-être unenouvelle phase de« grammatisation » de lalangue, une nouvelle rétroactionde la technologie et del’économie sur la langue naturelle.
  • 84. Dans un temps intermédiaireapparait quelque chose commeune lingua franca, un pidgin ouun créole, dont la syntaxe et levocabulaire sont liés aux capacitéslinguistiques des machines et auxvaleurs marchandes des mots.
  • 85. La nouvelle créolisation
  • 86. Il me semble primordiald’étudier ces nouveauxphénomènes linguistiques.
  • 87. 1. Modéliser l’évolution de lalangue commerciale. Produireles dictionnaires du Googlishet du Bingish.
  • 88. 2. Modéliser les nouveauxdialectes algorithmiques.Construire des algorithmespour les reconnaitre.
  • 89. 3. Détecter et documenter lesphénomènes de créolisation.
  • 90. Cela constitue un axe de nosrecherches au DHLAB
  • 91. frederic.kaplan@ep!.chtwitter:@frederickaplan