Big Data et Technologies du Langage

7 996 vues

Publié le

Les données massivement accumulées par des sociétés comme Google ont permis des avancées considérables dans le traitement du langage humain par des machines (recherche d'information, traduction automatique, etc.). En quelques années, plus de progrès ont été accomplis que dans le demi-siècle qui a précédé, au risque d'une certaine frustration pour le chercheur qui peut avoir à juste titre l'impression que la compréhension des phénomènes lui échappe. L'exposé décrira ces progrès, ainsi que les défis qui restent à relever et qui peuvent changer la face de l'accès à l'information au cours des décennies à venir.

Par Jean Veronis, Professeur de linguistique et d'informatique à l'Université Aix Marseille, chercheur.

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
7 996
Sur SlideShare
0
Issues des intégrations
0
Intégrations
5 336
Actions
Partages
0
Téléchargements
75
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Big Data et Technologies du Langage

  1. 1. Big Data etTechnologies dulangageJean VéronisCRIP - Assises du Big Data, du Stockage et des Bases de données18 octobre 2012
  2. 2. Qui suis-je ?
  3. 3. Professeur des Universités Coordinateur grands projets de recherche Membre de groupe d’experts internationaux Président de l’ATALA ( 2000-2008) Etats-Unis CNRS Aix-Marseille Université Pages Jaunes France Télécom - Orange Thalès Wikiogroup Ebuzzing consultant ... entrepreneuremail: jean@veronis.frPage perso : http://www.veronis.frBlog : http://blog.veronis.frWikipedia : http://fr.wikipedia.org/wiki/Jean_Véronis
  4. 4. Valoriser 30 ans de recherches typographie, écritures correction orthographiquetraduction automatique dialogue homme-machine synthèse de la parole sémantique ontologies lexiques entités nommées textmining discours politique analyse de l’actu réseaux sociaux influence
  5. 5. Buzzanalytics http://www.trendsboard.com
  6. 6. Technologies dulangage
  7. 7. Le langage est à peu près le seul moyen d’accès à l’information
  8. 8. Mêmes les imageset les vidéos sont indexées par les mots qui les environnent
  9. 9. Le rêve...1968
  10. 10. HAL
  11. 11.  Film d’anticipation réaliste Reflète ce que les scientifiques pensaient possible en 2001 Marvin Minsky (MIT)
  12. 12. La réalité... http://www.sirifunny.com/siri-fail/
  13. 13. Le rêve a commencé en 1946… En 1960 on affirmait que 5 ans plus tard on pourrait se passer de traducteurs humains pour les articles techniques…
  14. 14. Google translate Loin de la qualitéhumaine, mais très gros progrès !
  15. 15. Les progrès de latraduction automatique sont dus à l’approche Big Data de gigantesque réservoir de milliards de mots dans toutes les langues
  16. 16. Méthodologie née vers 1990 Avant le Web... Corpus multilingues « Data-drivenmethods » La Pierre de Rosette
  17. 17. Changement de paradigmeméthodes symboliques méthodes basées sur les donnéeslogique statistiquesapproche rationnelle approche empirique
  18. 18. Ca remonte loin... rationalisme empirismeRené Descartes John Locke
  19. 19. Big data
  20. 20. Big Data Continuité  « data-drivenmethod » Changement d’échelle  années 2000  Web (Google...)  millions de mots → milliards Changement de technologie  stockage (Cloud...)  puissance de calcul (mapreduce, etc.)
  21. 21. Panacée ? Difficultés pratiques  qui a des données ?  Google, Microsoft, Facebook, Twitter, Amazon...  mais les autres chercheurs ?  qui a les moyens techniques (et financiers) ?  Google, Microsoft, Facebook, Twitter, Amazon...  mais lesautres chercheurs ?
  22. 22. Exemple  Projet ngramde Google  Ngrammes issus de Google Books rendus publics  500 milliards de mots  4% des livres jamais publiés sur Terre  plus grand corpus linguistique de tous les temps« cholera » en fr « blog »
  23. 23. Exemple On en fait quoi ?  Très peu d’utilisations concrètes
  24. 24. Panacée ? Difficultés méthodologiques  il ne suffit pas d’avoir les données  il faut :  des théories  des modèles  des outils Cas particulier de la linguistique
  25. 25. tradition scientifique Astronomie Physique (ex: Sky (ex: LHC) Survey) Biologie Big (ex:génome) data etc. tradition littéraire Linguistique
  26. 26. Problèmes Culturel  Séparation lettres / sciences  y compris dans les formations Epistémologique  La linguistique est essentiellement rationaliste  notre raison soit expliquer les règles du langage  nous possédons tous la faculté de langage  ce n’est donc pas un matériau d’observation  l’approche statistique est bannie
  27. 27. Au fond...Les Big Data ne nous mettent-elles pas dans le même inconfort intellectuel que la physique quantique? On observe, on prédit, mais comprend-on vraiment ?
  28. 28. Mais faut-il comprendre ?

×