Big Data et
Technologies du
langage
Jean Véronis
CRIP - Assises du Big Data, du Stockage et des Bases de données
18 octobre 2012
Qui suis-je ?
Professeur des Universités
                                                   Coordinateur grands projets de recherche
                                                   Membre de groupe d’experts internationaux
                                                   Président de l’ATALA ( 2000-2008)
       Etats-Unis

                 CNRS
          Aix-Marseille Université                                         Pages Jaunes
                                                                           France Télécom - Orange
                                                                           Thalès
                                                                           Wikiogroup
                                                                           Ebuzzing
                                             consultant                    ...



                                                            entrepreneur




email: jean@veronis.fr
Page perso : http://www.veronis.fr
Blog : http://blog.veronis.fr
Wikipedia : http://fr.wikipedia.org/wiki/Jean_Véronis
Valoriser
                         30 ans de recherches

         typographie, écritures
                                    correction orthographique

traduction automatique            dialogue homme-machine
                                                   synthèse de la parole
  sémantique                 ontologies
                  lexiques                            entités nommées

                                  textmining
                                                      discours politique

             analyse de l’actu
                                               réseaux sociaux
                                  influence
Buzzanalytics




    http://www.trendsboard.com
Technologies du
langage
Le langage est à peu près le seul moyen
        d’accès à l’information
Mêmes les images
et les vidéos sont
 indexées par les
   mots qui les
   environnent
Le rêve...




1968
HAL
 Film d’anticipation réaliste

 Reflète ce que les scientifiques pensaient possible
  en 2001




                 Marvin Minsky (MIT)
La réalité...




                http://www.sirifunny.com/siri-fail/
Le rêve a commencé en 1946…




 En 1960 on affirmait que 5 ans plus tard on pourrait
 se passer de traducteurs humains pour les articles
 techniques…
Google translate




 Loin de la qualité
humaine, mais très
   gros progrès !
Les progrès de la
traduction automatique
  sont dus à l’approche
      Big Data
             de



     gigantesque réservoir
      de milliards de mots
    dans toutes les langues
Méthodologie née vers 1990
 Avant le Web...

 Corpus multilingues

 « Data-drivenmethods »




               La Pierre de Rosette
Changement de paradigme
méthodes symboliques   méthodes basées sur les données




logique                                     statistiques
approche rationnelle              approche empirique
Ca remonte loin...
 rationalisme         empirisme




René Descartes        John Locke
Big data
Big Data

 Continuité
   « data-drivenmethod »

 Changement d’échelle
   années 2000
   Web (Google...)
   millions de mots → milliards

 Changement de technologie
   stockage (Cloud...)
   puissance de calcul (mapreduce, etc.)
Panacée ?
 Difficultés pratiques
   qui a des données ?
     Google, Microsoft, Facebook, Twitter, Amazon...
     mais les autres chercheurs ?
   qui a les moyens techniques (et financiers) ?
     Google, Microsoft, Facebook, Twitter, Amazon...
     mais lesautres chercheurs ?
Exemple
   Projet ngramde Google
      Ngrammes issus de Google Books rendus publics
      500 milliards de mots
      4% des livres jamais publiés sur Terre
      plus grand corpus linguistique de tous les temps
« cholera »


                                                en

                                                          fr


              « blog »
Exemple
 On en fait quoi ?
   Très peu d’utilisations concrètes
Panacée ?
 Difficultés méthodologiques

   il ne suffit pas d’avoir les données

   il faut :
      des théories
      des modèles
      des outils


 Cas particulier de la linguistique
tradition
                         scientifique

            Astronomie                  Physique
              (ex: Sky                  (ex: LHC)
              Survey)




 Biologie                  Big
   (ex:
génome)                   data                        etc.



                                         tradition
                                         littéraire
                         Linguistique
Problèmes

 Culturel
   Séparation lettres / sciences
   y compris dans les formations

 Epistémologique
   La linguistique est essentiellement rationaliste
     notre raison soit expliquer les règles du langage
     nous possédons tous la faculté de langage
        ce n’est donc pas un matériau d’observation
        l’approche statistique est bannie
Au fond...

Les Big Data ne nous mettent-elles pas dans le
      même inconfort intellectuel que la
            physique quantique?




  On observe, on prédit, mais comprend-on
                 vraiment ?
Mais faut-il comprendre ?

Big Data et Technologies du Langage

  • 1.
    Big Data et Technologiesdu langage Jean Véronis CRIP - Assises du Big Data, du Stockage et des Bases de données 18 octobre 2012
  • 2.
  • 3.
    Professeur des Universités Coordinateur grands projets de recherche Membre de groupe d’experts internationaux Président de l’ATALA ( 2000-2008) Etats-Unis CNRS Aix-Marseille Université Pages Jaunes France Télécom - Orange Thalès Wikiogroup Ebuzzing consultant ... entrepreneur email: jean@veronis.fr Page perso : http://www.veronis.fr Blog : http://blog.veronis.fr Wikipedia : http://fr.wikipedia.org/wiki/Jean_Véronis
  • 4.
    Valoriser 30 ans de recherches typographie, écritures correction orthographique traduction automatique dialogue homme-machine synthèse de la parole sémantique ontologies lexiques entités nommées textmining discours politique analyse de l’actu réseaux sociaux influence
  • 5.
    Buzzanalytics http://www.trendsboard.com
  • 6.
  • 7.
    Le langage està peu près le seul moyen d’accès à l’information
  • 8.
    Mêmes les images etles vidéos sont indexées par les mots qui les environnent
  • 9.
  • 10.
  • 11.
     Film d’anticipationréaliste  Reflète ce que les scientifiques pensaient possible en 2001 Marvin Minsky (MIT)
  • 12.
    La réalité... http://www.sirifunny.com/siri-fail/
  • 13.
    Le rêve acommencé en 1946… En 1960 on affirmait que 5 ans plus tard on pourrait se passer de traducteurs humains pour les articles techniques…
  • 14.
    Google translate Loinde la qualité humaine, mais très gros progrès !
  • 15.
    Les progrès dela traduction automatique sont dus à l’approche Big Data de gigantesque réservoir de milliards de mots dans toutes les langues
  • 16.
    Méthodologie née vers1990  Avant le Web...  Corpus multilingues  « Data-drivenmethods » La Pierre de Rosette
  • 17.
    Changement de paradigme méthodessymboliques méthodes basées sur les données logique statistiques approche rationnelle approche empirique
  • 18.
    Ca remonte loin... rationalisme empirisme René Descartes John Locke
  • 19.
  • 20.
    Big Data  Continuité  « data-drivenmethod »  Changement d’échelle  années 2000  Web (Google...)  millions de mots → milliards  Changement de technologie  stockage (Cloud...)  puissance de calcul (mapreduce, etc.)
  • 21.
    Panacée ?  Difficultéspratiques  qui a des données ?  Google, Microsoft, Facebook, Twitter, Amazon...  mais les autres chercheurs ?  qui a les moyens techniques (et financiers) ?  Google, Microsoft, Facebook, Twitter, Amazon...  mais lesautres chercheurs ?
  • 22.
    Exemple Projet ngramde Google  Ngrammes issus de Google Books rendus publics  500 milliards de mots  4% des livres jamais publiés sur Terre  plus grand corpus linguistique de tous les temps « cholera » en fr « blog »
  • 23.
    Exemple  On enfait quoi ?  Très peu d’utilisations concrètes
  • 24.
    Panacée ?  Difficultésméthodologiques  il ne suffit pas d’avoir les données  il faut :  des théories  des modèles  des outils  Cas particulier de la linguistique
  • 25.
    tradition scientifique Astronomie Physique (ex: Sky (ex: LHC) Survey) Biologie Big (ex: génome) data etc. tradition littéraire Linguistique
  • 26.
    Problèmes  Culturel  Séparation lettres / sciences  y compris dans les formations  Epistémologique  La linguistique est essentiellement rationaliste  notre raison soit expliquer les règles du langage  nous possédons tous la faculté de langage  ce n’est donc pas un matériau d’observation  l’approche statistique est bannie
  • 27.
    Au fond... Les BigData ne nous mettent-elles pas dans le même inconfort intellectuel que la physique quantique? On observe, on prédit, mais comprend-on vraiment ?
  • 28.