Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
Chargement dans…3
×
1 sur 28

Big Data et Technologies du Langage

2

Partager

Télécharger pour lire hors ligne

Les données massivement accumulées par des sociétés comme Google ont permis des avancées considérables dans le traitement du langage humain par des machines (recherche d'information, traduction automatique, etc.). En quelques années, plus de progrès ont été accomplis que dans le demi-siècle qui a précédé, au risque d'une certaine frustration pour le chercheur qui peut avoir à juste titre l'impression que la compréhension des phénomènes lui échappe. L'exposé décrira ces progrès, ainsi que les défis qui restent à relever et qui peuvent changer la face de l'accès à l'information au cours des décennies à venir.

Par Jean Veronis, Professeur de linguistique et d'informatique à l'Université Aix Marseille, chercheur.

Big Data et Technologies du Langage

  1. 1. Big Data et Technologies du langage Jean Véronis CRIP - Assises du Big Data, du Stockage et des Bases de données 18 octobre 2012
  2. 2. Qui suis-je ?
  3. 3. Professeur des Universités Coordinateur grands projets de recherche Membre de groupe d’experts internationaux Président de l’ATALA ( 2000-2008) Etats-Unis CNRS Aix-Marseille Université Pages Jaunes France Télécom - Orange Thalès Wikiogroup Ebuzzing consultant ... entrepreneur email: jean@veronis.fr Page perso : http://www.veronis.fr Blog : http://blog.veronis.fr Wikipedia : http://fr.wikipedia.org/wiki/Jean_Véronis
  4. 4. Valoriser 30 ans de recherches typographie, écritures correction orthographique traduction automatique dialogue homme-machine synthèse de la parole sémantique ontologies lexiques entités nommées textmining discours politique analyse de l’actu réseaux sociaux influence
  5. 5. Buzzanalytics http://www.trendsboard.com
  6. 6. Technologies du langage
  7. 7. Le langage est à peu près le seul moyen d’accès à l’information
  8. 8. Mêmes les images et les vidéos sont indexées par les mots qui les environnent
  9. 9. Le rêve... 1968
  10. 10. HAL
  11. 11.  Film d’anticipation réaliste  Reflète ce que les scientifiques pensaient possible en 2001 Marvin Minsky (MIT)
  12. 12. La réalité... http://www.sirifunny.com/siri-fail/
  13. 13. Le rêve a commencé en 1946… En 1960 on affirmait que 5 ans plus tard on pourrait se passer de traducteurs humains pour les articles techniques…
  14. 14. Google translate Loin de la qualité humaine, mais très gros progrès !
  15. 15. Les progrès de la traduction automatique sont dus à l’approche Big Data de gigantesque réservoir de milliards de mots dans toutes les langues
  16. 16. Méthodologie née vers 1990  Avant le Web...  Corpus multilingues  « Data-drivenmethods » La Pierre de Rosette
  17. 17. Changement de paradigme méthodes symboliques méthodes basées sur les données logique statistiques approche rationnelle approche empirique
  18. 18. Ca remonte loin... rationalisme empirisme René Descartes John Locke
  19. 19. Big data
  20. 20. Big Data  Continuité  « data-drivenmethod »  Changement d’échelle  années 2000  Web (Google...)  millions de mots → milliards  Changement de technologie  stockage (Cloud...)  puissance de calcul (mapreduce, etc.)
  21. 21. Panacée ?  Difficultés pratiques  qui a des données ?  Google, Microsoft, Facebook, Twitter, Amazon...  mais les autres chercheurs ?  qui a les moyens techniques (et financiers) ?  Google, Microsoft, Facebook, Twitter, Amazon...  mais lesautres chercheurs ?
  22. 22. Exemple  Projet ngramde Google  Ngrammes issus de Google Books rendus publics  500 milliards de mots  4% des livres jamais publiés sur Terre  plus grand corpus linguistique de tous les temps « cholera » en fr « blog »
  23. 23. Exemple  On en fait quoi ?  Très peu d’utilisations concrètes
  24. 24. Panacée ?  Difficultés méthodologiques  il ne suffit pas d’avoir les données  il faut :  des théories  des modèles  des outils  Cas particulier de la linguistique
  25. 25. tradition scientifique Astronomie Physique (ex: Sky (ex: LHC) Survey) Biologie Big (ex: génome) data etc. tradition littéraire Linguistique
  26. 26. Problèmes  Culturel  Séparation lettres / sciences  y compris dans les formations  Epistémologique  La linguistique est essentiellement rationaliste  notre raison soit expliquer les règles du langage  nous possédons tous la faculté de langage  ce n’est donc pas un matériau d’observation  l’approche statistique est bannie
  27. 27. Au fond... Les Big Data ne nous mettent-elles pas dans le même inconfort intellectuel que la physique quantique? On observe, on prédit, mais comprend-on vraiment ?
  28. 28. Mais faut-il comprendre ?

×