SlideShare une entreprise Scribd logo
1  sur  60
Télécharger pour lire hors ligne
La langue 
comme capital. 
! 
! 
! 
! 
Frédéric Kaplan 
Digital Humanities Laboratory / EPFL / Suisse.
Résumé des 
épisodes 
précédents.
5 
FREDERIC KAPLAN 
Linguistic Capitalism and 
Algorithmic Mediation 
GOOGLE MADE 50 BILLION DOLLARS in revenue in 2012, an 
impressive financial result for a company created less than fifteen year ago.1 
That figure represents about 140 millions dollars per day, 5 million dollars 
per hour. By the time you have finished reading this article (about six 
minutes), Google will have made about 500,000 dollars. What does Google 
actually sell to get such astonishing results? Words. Millions of words. 
The success of Google’s highly original business model is the story of two 
algorithms. The first—pioneering a new way of associating web pages to 
queries based on keywords—has made Google popular. The second— 
assigning a commercial value to those keywords—has made Google rich. 
In 1998, search engines could be used to search for web pages contain-ing 
certain keywords, but they used inefficient and easily hackable ranking 
methods, such as the number of occurrences of a search keyword within
Vincent 
Buntinx 
Dana 
Kianfar
Le capitalisme 
linguistique en 
5 thèses.
Thèse 1 
! 
Le capitalisme linguistique est 
un nouveau régime économique 
caractérisé par la monétisation 
des langues au niveau mondial.
Google réalise 50 milliards de 
dollars par an * simplement en 
organisant la vente des mots à 
l’échelle planétaire. 
! 
* 137 M / jour, 5+ M / heures
ski 
sun screen 
or 
world cup
Thèse 2 
! 
Le capitalisme linguistique n’est 
pas une économie de 
l’attention, mais une 
économie de l’expression.
Économie de l’attention 
Attention Intention 
Lieu de la médiation
Économie de l’expression 
Intention Expression 
Lieu de la médiation
Dans une économie de 
l’expression, il faut développer 
des relations linguistiques intimes 
et durables avec un grand nombre 
d’utilisateurs, pour pouvoir 
modéliser et infléchir la langue.
Nous sommes déjà des millions à 
nous exprimer tous les jours au 
travers des prothèses 
linguistiques de Google : 
Google docs, Gmail, Google+ …
Thèse 3 
! 
Le capitalisme linguistique tend 
à optimiser la langue pour la 
faire entrer dans son domaine 
commercialement exploitable.
Quand Google corrige à la volée 
un mot que vous avez mal 
orthographié, il transforme un 
matériau sans valeur en une 
ressource économique 
potentiellement rentable.
Quand Google prolonge une 
phrase que vous avez 
commencée à taper, il ramène 
votre expression dans le 
domaine de la langue qu’il peut 
exploiter.
la langue vivante 
la langue 
exploitable 
commercialement
L’autocompletion s’est 
aujourd’hui généralisée sur 
presque toutes les interfaces 
de saisie.
Thèse 4 
! 
La langue exploitable 
commercialement est une 
langue prédictible par les 
algorithmes.
La langue prédictible sert non 
seulement à l’autocompletion 
mais aussi à proposer de 
nouveaux services linguistiques 
(traduction automatique, 
écriture automatique)
L’objectif du capitalisme 
linguistique est donc de 
régulariser la langue pour 
maximiser son potentiel 
économique.
Thèse 5 
! 
Dans le capitalisme linguistique, 
la langue est un capital.
Les acteurs du capitalisme 
linguistique tendent à 
engranger un capital fait de 
modèles toujours plus vastes de 
la langue prédictible.
Ce capital se transforme en 
produits et services de 
médiation linguistique qui à leur 
tour génèrent plus de capital 
linguistique.
Parallèlement, par 
l’organisation de la vente des 
mots, le capital linguistique en 
croissance est convertible en 
capital économique.
Capital linguistique de 
langue prédictible 
Extension des 
services de médiation 
linguistique 
Capital linguistique de 
langue prédictible 
plus étendu 
Capital économique Capital économique 
plus étendu
Ce nouveau contexte 
économique et technique est 
susceptible d’être à la base 
d’une transformation 
linguistique majeure.
Il convient de distinguer les 
ressources linguistiques 
primaires produites sans 
médiation algorithmique 
(conversations écrites, contenus 
de livres numérisés, etc.) …
… des resources linguistiques 
secondaires produites comme 
transformations algorithmiques 
de ressources primaires.
Par exemple, les algorithmes de 
traduction automatique 
permettent de transformer le 
capital linguistique d’une langue 
en une autre.
Ils ont une double importance 
économique car ils proposent 
des services linguistiques 
précieux et ils décuplent le 
capital linguistique accumulé.
Mais cette intermédiation 
algorithmique n’est pas sans 
effet.
Pour traduire deux langues 
européennes, l’anglais est 
souvent utilisé comme langue 
pivot.
langue 
source 
langue 
cible 
langue 
pivot
Le biais culturel d’un tel procédé est évidemment 
important. Le Français et l’Italien sont des langues 
relativement proches. 
! 
En comparaison, l’anglais est une langue particulière, 
compacte, idiomatique. 
! 
Projeter vers l’espace anglophone puis reprojeter vers une 
langue cible induit des effets linguistiques et culturels qu’il 
faut étudier.
Dans le cadre du capitalisme linguistique, l’impérialisme 
linguistique de l’anglais a donc des effets beaucoup plus 
subtils que ne le laisseraient penser les approches qui 
n’étudient que la “guerre des langues”. 
! 
Le fait de pivoter par une langue conduit à introduire dans 
les autres langues des logiques linguistiques propres et 
donc insensiblement des modes de pensée spécifiques.
À l’échelle mondiale, c’est un réseau de chaines de 
traduction qui est en train de se mettre en place et qui 
impose parfois, pour traduire une expression d’une langue à 
une autre, de pivoter par une série de langues 
intermédiaires.
Dans d’autres cas, le capital 
linguistique sert à produire des 
contenus textuels inédits.
Show and Tell: A Neural Image Caption Generator 
Oriol Vinyals 
Google 
vinyals@google.com 
Alexander Toshev 
Google 
toshev@google.com 
Samy Bengio 
Google 
bengio@google.com 
Dumitru Erhan 
Google 
dumitru@google.com 
Abstract 
Automatically describing the content of an image is a 
fundamental problem in artificial intelligence that connects 
computer vision and natural language processing. In this 
paper, we present a generative model based on a deep re-current 
architecture that combines recent advances in com-puter 
vision and machine translation and that can be used 
to generate natural sentences describing an image. The 
model is trained to maximize the likelihood of the target de-scription 
sentence given the training image. Experiments 
on several datasets show the accuracy of the model and the 
fluency of the language it learns solely from image descrip-tions. 
Our model is often quite accurate, which we verify 
both qualitatively and quantitatively. For instance, while 
the current state-of-the-art BLEU score (the higher the bet-ter) 
on the Pascal dataset is 25, our approach yields 59, to 
be compared to human performance around 69. We also 
show BLEU score improvements on Flickr30k, from 55 to 
66, and on SBU, from 19 to 27. 
1. Introduction 
Being able to automatically describe the content of an 
image using properly formed English sentences is a very 
A group of people 
shopping at an 
outdoor market. 
! 
There are many 
vegetables at the 
fruit stand. 
Vision! 
Deep CNN 
Language ! 
Generating! 
RNN 
Figure 1. NIC, our model, is based end-to-end on a neural net-work 
consisting of a vision CNN followed by a language gener-ating 
RNN. It generates complete sentences in natural language 
from an input image, as shown on the example above. 
would like to present in this work a single joint model that 
takes an image I as input, and is trained to maximize the 
likelihood p(S|I) of producing a target sequence of words 
S = {S1, S2, . . .} where each word St comes from a given 
dictionary, that describes the image adequately. 
The main inspiration of our work comes from recent ad-vances 
in machine translation, where the task is to transform 
a sentence S written in a source language, into its transla-tion 
T in the target language, by maximizing p(T|S). For 
many years, machine translation was also achieved by a se-ries 
of separate tasks (translating words individually, align-ing 
arXiv:1411.4555v1 [cs.CV] 17 Nov 2014
Ici le capital linguistique génère 
un extension linguistique 
artificielle, avec des expressions 
potentiellement inédites.
Pour juger la pertinence de ces 
expressions, des “armées” de 
juges humains doivent être 
recrutées.
La description systématique des 
images par des algorithmes peut 
être à l’origine d’un tsunami de 
nouvelles tournures 
linguistiques.
De plus en plus souvent, de 
telles ressources secondaires 
sont présentées comme des 
ressources primaires.
lsjbot 
Wikipedia bot 
auteur de 2.7M articles sur 
Wikipedia, 10K par jour
Les algorithmes qui analysent la 
langues ne font pas souvent la 
différence entre ces ressources 
secondaires et les ressources 
primaires.
Les nouvelles formes hybrides 
entrent ainsi dans le capital 
linguistique et seront peut-être 
un jour proposées comme 
suggestions ou corrections.
Nous sommes face à une 
nouvelle forme de “créolisation”.
Une prédiction 
! 
Avec le développement général 
de l’autocompletion, il n’y aura 
plus d’ici 5 ans aucune nouvelle 
ressource primaire.
Scenario 1 
! 
Cette évolution linguistique est globalement acceptée ou 
ignorée. 
! 
La langue predictible et économiquement exploitable 
converge avec la langue naturelle vers un nouveau créole. 
! 
Le capitalisme linguistique se développe et se complexifie 
pour devenir un des secteurs économiques les plus 
importants.
Scenario 2 
! 
Suite à une prise de conscience et pour tenter d’inverser le 
phénomène, la médiation algorithmique est mieux comprise 
et labellisée. 
! 
Des “gisements” de ressources primaires (grandes 
bibliothèques numérisées) sont exploitées pour mieux 
detecter les phénomènes d’hybridation.
Scenario 2 (suite) 
! 
Dans l’objectif de comprendre et maitriser cette évolution, 
une nouvelle linguistique se développe. 
! 
Cette linguistique utilise massivement les algorithmes pour 
mieux comprendre et surveiller l’effet des algorithmes.
Frédéric Kaplan 
frederic.kaplan@epfl.ch 
@frederickaplan 
! 
http://dhlab.epfl.ch

Contenu connexe

En vedette

DH101 2013/2014 course 10 - 3d printing, Javascript data visualization
DH101 2013/2014 course 10 - 3d printing, Javascript data visualization DH101 2013/2014 course 10 - 3d printing, Javascript data visualization
DH101 2013/2014 course 10 - 3d printing, Javascript data visualization Frederic Kaplan
 
Reinventing books, magazines and newspapers in the digital age
Reinventing books, magazines and newspapers in the digital ageReinventing books, magazines and newspapers in the digital age
Reinventing books, magazines and newspapers in the digital ageFrederic Kaplan
 
DH101 2013/2014 course 4 - Digitization techniques 2D and 3D
DH101 2013/2014 course 4 - Digitization techniques 2D and 3D DH101 2013/2014 course 4 - Digitization techniques 2D and 3D
DH101 2013/2014 course 4 - Digitization techniques 2D and 3D Frederic Kaplan
 
DH101 2013/2014 course 5 - Project on Venice / Datafication / Regulated repre...
DH101 2013/2014 course 5 - Project on Venice / Datafication / Regulated repre...DH101 2013/2014 course 5 - Project on Venice / Datafication / Regulated repre...
DH101 2013/2014 course 5 - Project on Venice / Datafication / Regulated repre...Frederic Kaplan
 
DH101 2013/2014 course 9 - Crowdsourcing, crowdfunding, Wikipedia, Open Stree...
DH101 2013/2014 course 9 - Crowdsourcing, crowdfunding, Wikipedia, Open Stree...DH101 2013/2014 course 9 - Crowdsourcing, crowdfunding, Wikipedia, Open Stree...
DH101 2013/2014 course 9 - Crowdsourcing, crowdfunding, Wikipedia, Open Stree...Frederic Kaplan
 
DH101 2013/2014 course1 - Presentation of the course / Collaborative writing ...
DH101 2013/2014 course1 - Presentation of the course / Collaborative writing ...DH101 2013/2014 course1 - Presentation of the course / Collaborative writing ...
DH101 2013/2014 course1 - Presentation of the course / Collaborative writing ...Frederic Kaplan
 
Gestion des données clients et leur exploitation, un enjeu dans la transforma...
Gestion des données clients et leur exploitation, un enjeu dans la transforma...Gestion des données clients et leur exploitation, un enjeu dans la transforma...
Gestion des données clients et leur exploitation, un enjeu dans la transforma...Pitney Bowes
 
Quelles lois sont applicables au hacker? Énormément moins que tu penses. (Bot...
Quelles lois sont applicables au hacker? Énormément moins que tu penses. (Bot...Quelles lois sont applicables au hacker? Énormément moins que tu penses. (Bot...
Quelles lois sont applicables au hacker? Énormément moins que tu penses. (Bot...Hackfest Communication
 
V de endres mateus
V de endres mateusV de endres mateus
V de endres mateusfredimateus
 
Portugal : gestion du patrimoine mondial
Portugal : gestion du patrimoine mondialPortugal : gestion du patrimoine mondial
Portugal : gestion du patrimoine mondialMission Val de Loire
 
080622 Olpc France PréSentation Hsf
080622 Olpc France PréSentation Hsf080622 Olpc France PréSentation Hsf
080622 Olpc France PréSentation HsfDepend
 
Classement 2010 : Ponctualité des compagnies aériennes Low Cost
Classement 2010 : Ponctualité des compagnies aériennes Low CostClassement 2010 : Ponctualité des compagnies aériennes Low Cost
Classement 2010 : Ponctualité des compagnies aériennes Low CostAIRVALID Infos Compagnies Aeriennes
 
Control ficha y campos calculados
Control ficha y campos calculadosControl ficha y campos calculados
Control ficha y campos calculadosIvan Zamora
 
Madrid des Autriches
Madrid des AutrichesMadrid des Autriches
Madrid des Autriches10RLopez
 
BIBLIOTECAS EN PROGRAMACION
BIBLIOTECAS EN PROGRAMACIONBIBLIOTECAS EN PROGRAMACION
BIBLIOTECAS EN PROGRAMACIONUTPL
 
Ppt mortalité-maternelle
Ppt mortalité-maternellePpt mortalité-maternelle
Ppt mortalité-maternelleMemisa Belgium
 

En vedette (20)

DH101 2013/2014 course 10 - 3d printing, Javascript data visualization
DH101 2013/2014 course 10 - 3d printing, Javascript data visualization DH101 2013/2014 course 10 - 3d printing, Javascript data visualization
DH101 2013/2014 course 10 - 3d printing, Javascript data visualization
 
Introduction to XML
Introduction to XMLIntroduction to XML
Introduction to XML
 
Reinventing books, magazines and newspapers in the digital age
Reinventing books, magazines and newspapers in the digital ageReinventing books, magazines and newspapers in the digital age
Reinventing books, magazines and newspapers in the digital age
 
DH101 2013/2014 course 4 - Digitization techniques 2D and 3D
DH101 2013/2014 course 4 - Digitization techniques 2D and 3D DH101 2013/2014 course 4 - Digitization techniques 2D and 3D
DH101 2013/2014 course 4 - Digitization techniques 2D and 3D
 
DH101 2013/2014 course 5 - Project on Venice / Datafication / Regulated repre...
DH101 2013/2014 course 5 - Project on Venice / Datafication / Regulated repre...DH101 2013/2014 course 5 - Project on Venice / Datafication / Regulated repre...
DH101 2013/2014 course 5 - Project on Venice / Datafication / Regulated repre...
 
DH101 2013/2014 course 9 - Crowdsourcing, crowdfunding, Wikipedia, Open Stree...
DH101 2013/2014 course 9 - Crowdsourcing, crowdfunding, Wikipedia, Open Stree...DH101 2013/2014 course 9 - Crowdsourcing, crowdfunding, Wikipedia, Open Stree...
DH101 2013/2014 course 9 - Crowdsourcing, crowdfunding, Wikipedia, Open Stree...
 
DH101 2013/2014 course1 - Presentation of the course / Collaborative writing ...
DH101 2013/2014 course1 - Presentation of the course / Collaborative writing ...DH101 2013/2014 course1 - Presentation of the course / Collaborative writing ...
DH101 2013/2014 course1 - Presentation of the course / Collaborative writing ...
 
Gestion des données clients et leur exploitation, un enjeu dans la transforma...
Gestion des données clients et leur exploitation, un enjeu dans la transforma...Gestion des données clients et leur exploitation, un enjeu dans la transforma...
Gestion des données clients et leur exploitation, un enjeu dans la transforma...
 
Quelles lois sont applicables au hacker? Énormément moins que tu penses. (Bot...
Quelles lois sont applicables au hacker? Énormément moins que tu penses. (Bot...Quelles lois sont applicables au hacker? Énormément moins que tu penses. (Bot...
Quelles lois sont applicables au hacker? Énormément moins que tu penses. (Bot...
 
V de endres mateus
V de endres mateusV de endres mateus
V de endres mateus
 
Portugal : gestion du patrimoine mondial
Portugal : gestion du patrimoine mondialPortugal : gestion du patrimoine mondial
Portugal : gestion du patrimoine mondial
 
3 mars agenda
3 mars agenda3 mars agenda
3 mars agenda
 
Projet Formations Sfsic
Projet Formations SfsicProjet Formations Sfsic
Projet Formations Sfsic
 
Notre ville2
Notre ville2Notre ville2
Notre ville2
 
080622 Olpc France PréSentation Hsf
080622 Olpc France PréSentation Hsf080622 Olpc France PréSentation Hsf
080622 Olpc France PréSentation Hsf
 
Classement 2010 : Ponctualité des compagnies aériennes Low Cost
Classement 2010 : Ponctualité des compagnies aériennes Low CostClassement 2010 : Ponctualité des compagnies aériennes Low Cost
Classement 2010 : Ponctualité des compagnies aériennes Low Cost
 
Control ficha y campos calculados
Control ficha y campos calculadosControl ficha y campos calculados
Control ficha y campos calculados
 
Madrid des Autriches
Madrid des AutrichesMadrid des Autriches
Madrid des Autriches
 
BIBLIOTECAS EN PROGRAMACION
BIBLIOTECAS EN PROGRAMACIONBIBLIOTECAS EN PROGRAMACION
BIBLIOTECAS EN PROGRAMACION
 
Ppt mortalité-maternelle
Ppt mortalité-maternellePpt mortalité-maternelle
Ppt mortalité-maternelle
 

Similaire à La langue comme capital

TraductionPhilosophy. (1).pdf
TraductionPhilosophy. (1).pdfTraductionPhilosophy. (1).pdf
TraductionPhilosophy. (1).pdfssuser1a5f0f
 
Vers des langues de programmation ?
Vers des langues de programmation ?Vers des langues de programmation ?
Vers des langues de programmation ?Nicolas Dubois
 
Annexe 3 logiciels à acheter
Annexe 3 logiciels à acheterAnnexe 3 logiciels à acheter
Annexe 3 logiciels à achetercripietra
 
La pyramide inversée (expliquée en 3 minutes)
La pyramide inversée (expliquée en 3 minutes)La pyramide inversée (expliquée en 3 minutes)
La pyramide inversée (expliquée en 3 minutes)60canards.com
 
Peuplement automatisé d’ontologies par analyse des programmes scolaires
Peuplement automatisé d’ontologies par analyse des programmes scolairesPeuplement automatisé d’ontologies par analyse des programmes scolaires
Peuplement automatisé d’ontologies par analyse des programmes scolairesILOT Project
 
Module Avril
Module AvrilModule Avril
Module AvrilDubreucq
 
Module Avril
Module AvrilModule Avril
Module AvrilDubreucq
 
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...Conférence IC 2009
 
Ouvrez votre logiciel au monde
Ouvrez votre logiciel au mondeOuvrez votre logiciel au monde
Ouvrez votre logiciel au mondePascal Fouque
 
Lali Dugelay : interviews des drigeants qui font l'actu
Lali Dugelay : interviews des drigeants qui font l'actuLali Dugelay : interviews des drigeants qui font l'actu
Lali Dugelay : interviews des drigeants qui font l'actuAGAMI Family Office
 
Résumé de la synthèse détaillée de Sylvain Vacaresse sur sa participation à l...
Résumé de la synthèse détaillée de Sylvain Vacaresse sur sa participation à l...Résumé de la synthèse détaillée de Sylvain Vacaresse sur sa participation à l...
Résumé de la synthèse détaillée de Sylvain Vacaresse sur sa participation à l...sylvieredoc
 
LintercompréHension Pour Se Comprendre Tout De Suite 2010 M2 Fles
LintercompréHension Pour Se Comprendre Tout De Suite 2010 M2 FlesLintercompréHension Pour Se Comprendre Tout De Suite 2010 M2 Fles
LintercompréHension Pour Se Comprendre Tout De Suite 2010 M2 FlesJean-Pierre Chavagne
 
Utilisation et concepts du web 2.0 dans les catalogues de bibliothèques spéci...
Utilisation et concepts du web 2.0 dans les catalogues de bibliothèques spéci...Utilisation et concepts du web 2.0 dans les catalogues de bibliothèques spéci...
Utilisation et concepts du web 2.0 dans les catalogues de bibliothèques spéci...Dujol Lionel
 
Enrichissement de la base de game of words
Enrichissement de la base de game of wordsEnrichissement de la base de game of words
Enrichissement de la base de game of wordsDhifallah OTHMEN
 

Similaire à La langue comme capital (17)

Frédéric Kaplan - ENMI 2012
Frédéric Kaplan - ENMI 2012Frédéric Kaplan - ENMI 2012
Frédéric Kaplan - ENMI 2012
 
TraductionPhilosophy. (1).pdf
TraductionPhilosophy. (1).pdfTraductionPhilosophy. (1).pdf
TraductionPhilosophy. (1).pdf
 
Treacherous Translating Machines
Treacherous Translating MachinesTreacherous Translating Machines
Treacherous Translating Machines
 
Demo day : Textmaster
Demo day : TextmasterDemo day : Textmaster
Demo day : Textmaster
 
Vers des langues de programmation ?
Vers des langues de programmation ?Vers des langues de programmation ?
Vers des langues de programmation ?
 
Annexe 3 logiciels à acheter
Annexe 3 logiciels à acheterAnnexe 3 logiciels à acheter
Annexe 3 logiciels à acheter
 
La pyramide inversée (expliquée en 3 minutes)
La pyramide inversée (expliquée en 3 minutes)La pyramide inversée (expliquée en 3 minutes)
La pyramide inversée (expliquée en 3 minutes)
 
Peuplement automatisé d’ontologies par analyse des programmes scolaires
Peuplement automatisé d’ontologies par analyse des programmes scolairesPeuplement automatisé d’ontologies par analyse des programmes scolaires
Peuplement automatisé d’ontologies par analyse des programmes scolaires
 
Module Avril
Module AvrilModule Avril
Module Avril
 
Module Avril
Module AvrilModule Avril
Module Avril
 
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
 
Ouvrez votre logiciel au monde
Ouvrez votre logiciel au mondeOuvrez votre logiciel au monde
Ouvrez votre logiciel au monde
 
Lali Dugelay : interviews des drigeants qui font l'actu
Lali Dugelay : interviews des drigeants qui font l'actuLali Dugelay : interviews des drigeants qui font l'actu
Lali Dugelay : interviews des drigeants qui font l'actu
 
Résumé de la synthèse détaillée de Sylvain Vacaresse sur sa participation à l...
Résumé de la synthèse détaillée de Sylvain Vacaresse sur sa participation à l...Résumé de la synthèse détaillée de Sylvain Vacaresse sur sa participation à l...
Résumé de la synthèse détaillée de Sylvain Vacaresse sur sa participation à l...
 
LintercompréHension Pour Se Comprendre Tout De Suite 2010 M2 Fles
LintercompréHension Pour Se Comprendre Tout De Suite 2010 M2 FlesLintercompréHension Pour Se Comprendre Tout De Suite 2010 M2 Fles
LintercompréHension Pour Se Comprendre Tout De Suite 2010 M2 Fles
 
Utilisation et concepts du web 2.0 dans les catalogues de bibliothèques spéci...
Utilisation et concepts du web 2.0 dans les catalogues de bibliothèques spéci...Utilisation et concepts du web 2.0 dans les catalogues de bibliothèques spéci...
Utilisation et concepts du web 2.0 dans les catalogues de bibliothèques spéci...
 
Enrichissement de la base de game of words
Enrichissement de la base de game of wordsEnrichissement de la base de game of words
Enrichissement de la base de game of words
 

Plus de Frederic Kaplan

L'historien et l'algorithme : Présentation aux Entretiens du Nouveau Monde In...
L'historien et l'algorithme : Présentation aux Entretiens du Nouveau Monde In...L'historien et l'algorithme : Présentation aux Entretiens du Nouveau Monde In...
L'historien et l'algorithme : Présentation aux Entretiens du Nouveau Monde In...Frederic Kaplan
 
DH101 2013/2014 course 8 - Historical Geographical Information Systems (HGIS)...
DH101 2013/2014 course 8 - Historical Geographical Information Systems (HGIS)...DH101 2013/2014 course 8 - Historical Geographical Information Systems (HGIS)...
DH101 2013/2014 course 8 - Historical Geographical Information Systems (HGIS)...Frederic Kaplan
 
DH101 2013/2014 Projects
DH101 2013/2014 ProjectsDH101 2013/2014 Projects
DH101 2013/2014 ProjectsFrederic Kaplan
 
DH101 2013/2014 course 7 - OCR, Printed text recognition, Handwriting recogni...
DH101 2013/2014 course 7 - OCR, Printed text recognition, Handwriting recogni...DH101 2013/2014 course 7 - OCR, Printed text recognition, Handwriting recogni...
DH101 2013/2014 course 7 - OCR, Printed text recognition, Handwriting recogni...Frederic Kaplan
 
DH101 2013/2014 course 6 - Semantic coding, RDF, CIDOC-CRM
DH101 2013/2014 course 6 - Semantic coding, RDF, CIDOC-CRMDH101 2013/2014 course 6 - Semantic coding, RDF, CIDOC-CRM
DH101 2013/2014 course 6 - Semantic coding, RDF, CIDOC-CRMFrederic Kaplan
 
3d scanning for digital heritage
3d scanning for digital heritage3d scanning for digital heritage
3d scanning for digital heritageFrederic Kaplan
 
Franziska Frey 2 / DHV13
Franziska Frey 2 / DHV13Franziska Frey 2 / DHV13
Franziska Frey 2 / DHV13Frederic Kaplan
 
Franziska Frey 1 / DHV13
Franziska Frey 1 / DHV13Franziska Frey 1 / DHV13
Franziska Frey 1 / DHV13Frederic Kaplan
 
Color and appearance information in 3d models
Color and appearance information in 3d modelsColor and appearance information in 3d models
Color and appearance information in 3d modelsFrederic Kaplan
 
Digital Humanities Venice Fall School: Introduction
Digital Humanities Venice Fall School: IntroductionDigital Humanities Venice Fall School: Introduction
Digital Humanities Venice Fall School: IntroductionFrederic Kaplan
 
DH101 2013/2014 course 3 - Panoramic intensifcation, narrative crise and intr...
DH101 2013/2014 course 3 - Panoramic intensifcation, narrative crise and intr...DH101 2013/2014 course 3 - Panoramic intensifcation, narrative crise and intr...
DH101 2013/2014 course 3 - Panoramic intensifcation, narrative crise and intr...Frederic Kaplan
 
DH101 2013/2014 course 2
DH101 2013/2014 course 2DH101 2013/2014 course 2
DH101 2013/2014 course 2Frederic Kaplan
 
Edition numérique de Jean-Jacques Rousseau
Edition numérique de Jean-Jacques RousseauEdition numérique de Jean-Jacques Rousseau
Edition numérique de Jean-Jacques RousseauFrederic Kaplan
 
Les métamorphoses de la valeur
Les métamorphoses de la valeurLes métamorphoses de la valeur
Les métamorphoses de la valeurFrederic Kaplan
 
Introduction au capitalisme linguistique
Introduction au capitalisme linguistiqueIntroduction au capitalisme linguistique
Introduction au capitalisme linguistiqueFrederic Kaplan
 

Plus de Frederic Kaplan (20)

L'historien et l'algorithme : Présentation aux Entretiens du Nouveau Monde In...
L'historien et l'algorithme : Présentation aux Entretiens du Nouveau Monde In...L'historien et l'algorithme : Présentation aux Entretiens du Nouveau Monde In...
L'historien et l'algorithme : Présentation aux Entretiens du Nouveau Monde In...
 
DH101 2013/2014 course 8 - Historical Geographical Information Systems (HGIS)...
DH101 2013/2014 course 8 - Historical Geographical Information Systems (HGIS)...DH101 2013/2014 course 8 - Historical Geographical Information Systems (HGIS)...
DH101 2013/2014 course 8 - Historical Geographical Information Systems (HGIS)...
 
DH101 2013/2014 Projects
DH101 2013/2014 ProjectsDH101 2013/2014 Projects
DH101 2013/2014 Projects
 
DH101 2013/2014 course 7 - OCR, Printed text recognition, Handwriting recogni...
DH101 2013/2014 course 7 - OCR, Printed text recognition, Handwriting recogni...DH101 2013/2014 course 7 - OCR, Printed text recognition, Handwriting recogni...
DH101 2013/2014 course 7 - OCR, Printed text recognition, Handwriting recogni...
 
DH101 2013/2014 course 6 - Semantic coding, RDF, CIDOC-CRM
DH101 2013/2014 course 6 - Semantic coding, RDF, CIDOC-CRMDH101 2013/2014 course 6 - Semantic coding, RDF, CIDOC-CRM
DH101 2013/2014 course 6 - Semantic coding, RDF, CIDOC-CRM
 
3d scanning for digital heritage
3d scanning for digital heritage3d scanning for digital heritage
3d scanning for digital heritage
 
3d scanning pipeline
3d scanning pipeline3d scanning pipeline
3d scanning pipeline
 
Franziska Frey 2 / DHV13
Franziska Frey 2 / DHV13Franziska Frey 2 / DHV13
Franziska Frey 2 / DHV13
 
Franziska Frey 1 / DHV13
Franziska Frey 1 / DHV13Franziska Frey 1 / DHV13
Franziska Frey 1 / DHV13
 
3d scanning techniques
3d scanning techniques3d scanning techniques
3d scanning techniques
 
Color and appearance information in 3d models
Color and appearance information in 3d modelsColor and appearance information in 3d models
Color and appearance information in 3d models
 
3d from images
3d from images3d from images
3d from images
 
Pellegrini small
Pellegrini smallPellegrini small
Pellegrini small
 
Digital Humanities Venice Fall School: Introduction
Digital Humanities Venice Fall School: IntroductionDigital Humanities Venice Fall School: Introduction
Digital Humanities Venice Fall School: Introduction
 
DH101 2013/2014 course 3 - Panoramic intensifcation, narrative crise and intr...
DH101 2013/2014 course 3 - Panoramic intensifcation, narrative crise and intr...DH101 2013/2014 course 3 - Panoramic intensifcation, narrative crise and intr...
DH101 2013/2014 course 3 - Panoramic intensifcation, narrative crise and intr...
 
DH101 2013/2014 course 2
DH101 2013/2014 course 2DH101 2013/2014 course 2
DH101 2013/2014 course 2
 
Edition numérique de Jean-Jacques Rousseau
Edition numérique de Jean-Jacques RousseauEdition numérique de Jean-Jacques Rousseau
Edition numérique de Jean-Jacques Rousseau
 
QB1 : The story
QB1 : The storyQB1 : The story
QB1 : The story
 
Les métamorphoses de la valeur
Les métamorphoses de la valeurLes métamorphoses de la valeur
Les métamorphoses de la valeur
 
Introduction au capitalisme linguistique
Introduction au capitalisme linguistiqueIntroduction au capitalisme linguistique
Introduction au capitalisme linguistique
 

La langue comme capital

  • 1. La langue comme capital. ! ! ! ! Frédéric Kaplan Digital Humanities Laboratory / EPFL / Suisse.
  • 2. Résumé des épisodes précédents.
  • 3.
  • 4.
  • 5. 5 FREDERIC KAPLAN Linguistic Capitalism and Algorithmic Mediation GOOGLE MADE 50 BILLION DOLLARS in revenue in 2012, an impressive financial result for a company created less than fifteen year ago.1 That figure represents about 140 millions dollars per day, 5 million dollars per hour. By the time you have finished reading this article (about six minutes), Google will have made about 500,000 dollars. What does Google actually sell to get such astonishing results? Words. Millions of words. The success of Google’s highly original business model is the story of two algorithms. The first—pioneering a new way of associating web pages to queries based on keywords—has made Google popular. The second— assigning a commercial value to those keywords—has made Google rich. In 1998, search engines could be used to search for web pages contain-ing certain keywords, but they used inefficient and easily hackable ranking methods, such as the number of occurrences of a search keyword within
  • 8. Thèse 1 ! Le capitalisme linguistique est un nouveau régime économique caractérisé par la monétisation des langues au niveau mondial.
  • 9. Google réalise 50 milliards de dollars par an * simplement en organisant la vente des mots à l’échelle planétaire. ! * 137 M / jour, 5+ M / heures
  • 10. ski sun screen or world cup
  • 11. Thèse 2 ! Le capitalisme linguistique n’est pas une économie de l’attention, mais une économie de l’expression.
  • 12. Économie de l’attention Attention Intention Lieu de la médiation
  • 13. Économie de l’expression Intention Expression Lieu de la médiation
  • 14. Dans une économie de l’expression, il faut développer des relations linguistiques intimes et durables avec un grand nombre d’utilisateurs, pour pouvoir modéliser et infléchir la langue.
  • 15. Nous sommes déjà des millions à nous exprimer tous les jours au travers des prothèses linguistiques de Google : Google docs, Gmail, Google+ …
  • 16. Thèse 3 ! Le capitalisme linguistique tend à optimiser la langue pour la faire entrer dans son domaine commercialement exploitable.
  • 17.
  • 18. Quand Google corrige à la volée un mot que vous avez mal orthographié, il transforme un matériau sans valeur en une ressource économique potentiellement rentable.
  • 19. Quand Google prolonge une phrase que vous avez commencée à taper, il ramène votre expression dans le domaine de la langue qu’il peut exploiter.
  • 20. la langue vivante la langue exploitable commercialement
  • 21. L’autocompletion s’est aujourd’hui généralisée sur presque toutes les interfaces de saisie.
  • 22. Thèse 4 ! La langue exploitable commercialement est une langue prédictible par les algorithmes.
  • 23. La langue prédictible sert non seulement à l’autocompletion mais aussi à proposer de nouveaux services linguistiques (traduction automatique, écriture automatique)
  • 24. L’objectif du capitalisme linguistique est donc de régulariser la langue pour maximiser son potentiel économique.
  • 25. Thèse 5 ! Dans le capitalisme linguistique, la langue est un capital.
  • 26. Les acteurs du capitalisme linguistique tendent à engranger un capital fait de modèles toujours plus vastes de la langue prédictible.
  • 27. Ce capital se transforme en produits et services de médiation linguistique qui à leur tour génèrent plus de capital linguistique.
  • 28. Parallèlement, par l’organisation de la vente des mots, le capital linguistique en croissance est convertible en capital économique.
  • 29. Capital linguistique de langue prédictible Extension des services de médiation linguistique Capital linguistique de langue prédictible plus étendu Capital économique Capital économique plus étendu
  • 30. Ce nouveau contexte économique et technique est susceptible d’être à la base d’une transformation linguistique majeure.
  • 31. Il convient de distinguer les ressources linguistiques primaires produites sans médiation algorithmique (conversations écrites, contenus de livres numérisés, etc.) …
  • 32. … des resources linguistiques secondaires produites comme transformations algorithmiques de ressources primaires.
  • 33. Par exemple, les algorithmes de traduction automatique permettent de transformer le capital linguistique d’une langue en une autre.
  • 34. Ils ont une double importance économique car ils proposent des services linguistiques précieux et ils décuplent le capital linguistique accumulé.
  • 35. Mais cette intermédiation algorithmique n’est pas sans effet.
  • 36.
  • 37. Pour traduire deux langues européennes, l’anglais est souvent utilisé comme langue pivot.
  • 38. langue source langue cible langue pivot
  • 39. Le biais culturel d’un tel procédé est évidemment important. Le Français et l’Italien sont des langues relativement proches. ! En comparaison, l’anglais est une langue particulière, compacte, idiomatique. ! Projeter vers l’espace anglophone puis reprojeter vers une langue cible induit des effets linguistiques et culturels qu’il faut étudier.
  • 40. Dans le cadre du capitalisme linguistique, l’impérialisme linguistique de l’anglais a donc des effets beaucoup plus subtils que ne le laisseraient penser les approches qui n’étudient que la “guerre des langues”. ! Le fait de pivoter par une langue conduit à introduire dans les autres langues des logiques linguistiques propres et donc insensiblement des modes de pensée spécifiques.
  • 41. À l’échelle mondiale, c’est un réseau de chaines de traduction qui est en train de se mettre en place et qui impose parfois, pour traduire une expression d’une langue à une autre, de pivoter par une série de langues intermédiaires.
  • 42. Dans d’autres cas, le capital linguistique sert à produire des contenus textuels inédits.
  • 43. Show and Tell: A Neural Image Caption Generator Oriol Vinyals Google vinyals@google.com Alexander Toshev Google toshev@google.com Samy Bengio Google bengio@google.com Dumitru Erhan Google dumitru@google.com Abstract Automatically describing the content of an image is a fundamental problem in artificial intelligence that connects computer vision and natural language processing. In this paper, we present a generative model based on a deep re-current architecture that combines recent advances in com-puter vision and machine translation and that can be used to generate natural sentences describing an image. The model is trained to maximize the likelihood of the target de-scription sentence given the training image. Experiments on several datasets show the accuracy of the model and the fluency of the language it learns solely from image descrip-tions. Our model is often quite accurate, which we verify both qualitatively and quantitatively. For instance, while the current state-of-the-art BLEU score (the higher the bet-ter) on the Pascal dataset is 25, our approach yields 59, to be compared to human performance around 69. We also show BLEU score improvements on Flickr30k, from 55 to 66, and on SBU, from 19 to 27. 1. Introduction Being able to automatically describe the content of an image using properly formed English sentences is a very A group of people shopping at an outdoor market. ! There are many vegetables at the fruit stand. Vision! Deep CNN Language ! Generating! RNN Figure 1. NIC, our model, is based end-to-end on a neural net-work consisting of a vision CNN followed by a language gener-ating RNN. It generates complete sentences in natural language from an input image, as shown on the example above. would like to present in this work a single joint model that takes an image I as input, and is trained to maximize the likelihood p(S|I) of producing a target sequence of words S = {S1, S2, . . .} where each word St comes from a given dictionary, that describes the image adequately. The main inspiration of our work comes from recent ad-vances in machine translation, where the task is to transform a sentence S written in a source language, into its transla-tion T in the target language, by maximizing p(T|S). For many years, machine translation was also achieved by a se-ries of separate tasks (translating words individually, align-ing arXiv:1411.4555v1 [cs.CV] 17 Nov 2014
  • 44.
  • 45.
  • 46. Ici le capital linguistique génère un extension linguistique artificielle, avec des expressions potentiellement inédites.
  • 47. Pour juger la pertinence de ces expressions, des “armées” de juges humains doivent être recrutées.
  • 48.
  • 49. La description systématique des images par des algorithmes peut être à l’origine d’un tsunami de nouvelles tournures linguistiques.
  • 50. De plus en plus souvent, de telles ressources secondaires sont présentées comme des ressources primaires.
  • 51.
  • 52. lsjbot Wikipedia bot auteur de 2.7M articles sur Wikipedia, 10K par jour
  • 53. Les algorithmes qui analysent la langues ne font pas souvent la différence entre ces ressources secondaires et les ressources primaires.
  • 54. Les nouvelles formes hybrides entrent ainsi dans le capital linguistique et seront peut-être un jour proposées comme suggestions ou corrections.
  • 55. Nous sommes face à une nouvelle forme de “créolisation”.
  • 56. Une prédiction ! Avec le développement général de l’autocompletion, il n’y aura plus d’ici 5 ans aucune nouvelle ressource primaire.
  • 57. Scenario 1 ! Cette évolution linguistique est globalement acceptée ou ignorée. ! La langue predictible et économiquement exploitable converge avec la langue naturelle vers un nouveau créole. ! Le capitalisme linguistique se développe et se complexifie pour devenir un des secteurs économiques les plus importants.
  • 58. Scenario 2 ! Suite à une prise de conscience et pour tenter d’inverser le phénomène, la médiation algorithmique est mieux comprise et labellisée. ! Des “gisements” de ressources primaires (grandes bibliothèques numérisées) sont exploitées pour mieux detecter les phénomènes d’hybridation.
  • 59. Scenario 2 (suite) ! Dans l’objectif de comprendre et maitriser cette évolution, une nouvelle linguistique se développe. ! Cette linguistique utilise massivement les algorithmes pour mieux comprendre et surveiller l’effet des algorithmes.
  • 60. Frédéric Kaplan frederic.kaplan@epfl.ch @frederickaplan ! http://dhlab.epfl.ch