La textométrie appliquée aux corpus francophones : statut théorique et état méthodologique Erin MacMurray*, Marguerite Leenhardt **SYLED/CLA2T EA2290, UFR ILPGA, Université Sorbonne Nouvelle Paris 3*erin.macmurray@gmail.com                                                    ** marguerite.leenhardt@gmail.com
PlanProblématiqueCadre de la rechercheCorpus et étapes d’analyseAnalyses et résultatsDiscussion et perspectives
Comment articuler corpus et méthodes d’analyses pour l’étude linguistique du français ? Une question abordée par la linguistique …[PERY-WOODLEY 1995] : description linguistique de corpus[HABERT 2005] : outils de TAL pour la linguistique de corpus[PINCEMIN 2008],[RASTIER, 2001],[VALETTE, 2009] : sémantique textuelle, linguistique instrumentéeQue l’on se pose pour répondre aux besoins en recherche industrielleContexte des thèses CIFRE, sur l’apport de la Textométrie aux systèmes de veille économique et à l’analyse des opinionsNécessité de trouver des solutions rapides aux problèmes posésDistinction des différentes tâches pour une intégration fluide dans une chaîne complète de traitementProblématiqueArticulation corpus et méthodes d’analyse1
ProblématiqueObjectifs1Objectifs à long terme :
Recenser les méthodes de calcul implémentées dans les outils existants
Evaluer le retour d’expérience :
utilisation des outils/méthodes sur une variété de corpus français/francophones,
comparaison et inventaire des bonnes pratiques textométriques selon l’analyse visée
Objectifs de cette recherche :
Etude textométrique des articles de recherche en textométrie :
analyse exploratoire des tendances chronologiques (usage des outils, méthodes, domaines d’application)
observation de la stabilité des usages dans la discipline
du point de vue des outils
du point de vue des méthodes de calcul
Proposition d’une modélisation opérationnelle des pratiques textométriquesCadre2Approches émergentistesExploitation de ressources externesLinguistique de corpusTAL robusteAnalyse morphosyntaxiqueDescription de la langueTextométrieAnalyse de phénomènes langagiersDésambiguïsationMéthodes statistiquesMéthodes de collecte                          et d’interprétationObjectifs d’analyse (SHS)Analyse du discours politiqueVeille d’informationFigure 1 –  Position de la Textométrie entre Linguistique de corpus, TAL et SHS
PlanProblématiqueCadre de la rechercheCorpus et méthode
Corpus et méthode3Sélection d’articles JADT  (Journées internationales d'Analyse statistique des Données Textuelles)entre 2000 et 2010travaux textométriques rédigés en français sur des corpus français- inspiré de (FioredistellaIezzi D., 2010)111 articles ; 377 000+ mots ; analyses automatisées avec Lexico3 3/ RÉSULTATS ET DISCUSSION2/ ANALYSE DU CORPUS1/ CORPUS DE TRAVAILMOT (Méthodes et Outils en Textométrie)Sélection des articlesJADTConversion des PDF -> corpusAnalyses manuellesAnalyses textométriquesAnalyse des résultatsPistes pour un programme de recherche étendu Méthodes de calcul
 Outils
 Types de corpus
 Chaîne de traitement ad-hoc
 langage : Python
 utilisation de TIKA (conversion PDF)
 Etat méthodologique
 Statut théorique
 Perspectives de rechercheCorpus et méthode3Table 1 - Principales caractéristiques lexicométriques du corpus d’analyseLe corpus final comporte 377 000+ occurrences.
Le nombre d’articles est plus important à partir de 2004. PlanProblématiqueCadre de la rechercheCorpus et méthodeAnalyses et résultats
Les outilsAnalyses et résultats4   Alceste a de loin le plus d’occurrences                   dans le corpus.
   4 outils  cristallisent 70% des mentions  d’outils du corpus:
Alceste

AFLS-EMM-ML

  • 1.
    La textométrie appliquéeaux corpus francophones : statut théorique et état méthodologique Erin MacMurray*, Marguerite Leenhardt **SYLED/CLA2T EA2290, UFR ILPGA, Université Sorbonne Nouvelle Paris 3*erin.macmurray@gmail.com ** marguerite.leenhardt@gmail.com
  • 2.
    PlanProblématiqueCadre de larechercheCorpus et étapes d’analyseAnalyses et résultatsDiscussion et perspectives
  • 3.
    Comment articuler corpuset méthodes d’analyses pour l’étude linguistique du français ? Une question abordée par la linguistique …[PERY-WOODLEY 1995] : description linguistique de corpus[HABERT 2005] : outils de TAL pour la linguistique de corpus[PINCEMIN 2008],[RASTIER, 2001],[VALETTE, 2009] : sémantique textuelle, linguistique instrumentéeQue l’on se pose pour répondre aux besoins en recherche industrielleContexte des thèses CIFRE, sur l’apport de la Textométrie aux systèmes de veille économique et à l’analyse des opinionsNécessité de trouver des solutions rapides aux problèmes posésDistinction des différentes tâches pour une intégration fluide dans une chaîne complète de traitementProblématiqueArticulation corpus et méthodes d’analyse1
  • 4.
  • 5.
    Recenser les méthodesde calcul implémentées dans les outils existants
  • 6.
    Evaluer le retourd’expérience :
  • 7.
    utilisation des outils/méthodessur une variété de corpus français/francophones,
  • 8.
    comparaison et inventairedes bonnes pratiques textométriques selon l’analyse visée
  • 9.
    Objectifs de cetterecherche :
  • 10.
    Etude textométrique desarticles de recherche en textométrie :
  • 11.
    analyse exploratoire destendances chronologiques (usage des outils, méthodes, domaines d’application)
  • 12.
    observation de lastabilité des usages dans la discipline
  • 13.
    du point devue des outils
  • 14.
    du point devue des méthodes de calcul
  • 15.
    Proposition d’une modélisationopérationnelle des pratiques textométriquesCadre2Approches émergentistesExploitation de ressources externesLinguistique de corpusTAL robusteAnalyse morphosyntaxiqueDescription de la langueTextométrieAnalyse de phénomènes langagiersDésambiguïsationMéthodes statistiquesMéthodes de collecte et d’interprétationObjectifs d’analyse (SHS)Analyse du discours politiqueVeille d’informationFigure 1 – Position de la Textométrie entre Linguistique de corpus, TAL et SHS
  • 16.
    PlanProblématiqueCadre de larechercheCorpus et méthode
  • 17.
    Corpus et méthode3Sélectiond’articles JADT (Journées internationales d'Analyse statistique des Données Textuelles)entre 2000 et 2010travaux textométriques rédigés en français sur des corpus français- inspiré de (FioredistellaIezzi D., 2010)111 articles ; 377 000+ mots ; analyses automatisées avec Lexico3 3/ RÉSULTATS ET DISCUSSION2/ ANALYSE DU CORPUS1/ CORPUS DE TRAVAILMOT (Méthodes et Outils en Textométrie)Sélection des articlesJADTConversion des PDF -> corpusAnalyses manuellesAnalyses textométriquesAnalyse des résultatsPistes pour un programme de recherche étendu Méthodes de calcul
  • 18.
  • 19.
    Types decorpus
  • 20.
    Chaîne detraitement ad-hoc
  • 21.
    langage :Python
  • 22.
    utilisation deTIKA (conversion PDF)
  • 23.
  • 24.
  • 25.
    Perspectives derechercheCorpus et méthode3Table 1 - Principales caractéristiques lexicométriques du corpus d’analyseLe corpus final comporte 377 000+ occurrences.
  • 26.
    Le nombre d’articlesest plus important à partir de 2004. PlanProblématiqueCadre de la rechercheCorpus et méthodeAnalyses et résultats
  • 27.
    Les outilsAnalyses etrésultats4 Alceste a de loin le plus d’occurrences dans le corpus.
  • 28.
    4 outils cristallisent 70% des mentions d’outils du corpus:
  • 29.