AFLS-EMM-ML

La textométrie appliquée aux corpus francophones : statut théorique et état méthodologique Erin MacMurray*, Marguerite Leenhardt **SYLED/CLA2T EA2290, UFR ILPGA, Université Sorbonne Nouvelle Paris 3*erin.macmurray@gmail.com ** marguerite.leenhardt@gmail.com

PlanProblématiqueCadre de la rechercheCorpus et étapes d’analyseAnalyses et résultatsDiscussion et perspectives

Comment articuler corpus et méthodes d’analyses pour l’étude linguistique du français ? Une question abordée par la linguistique …[PERY-WOODLEY 1995] : description linguistique de corpus[HABERT 2005] : outils de TAL pour la linguistique de corpus[PINCEMIN 2008],[RASTIER, 2001],[VALETTE, 2009] : sémantique textuelle, linguistique instrumentéeQue l’on se pose pour répondre aux besoins en recherche industrielleContexte des thèses CIFRE, sur l’apport de la Textométrie aux systèmes de veille économique et à l’analyse des opinionsNécessité de trouver des solutions rapides aux problèmes posésDistinction des différentes tâches pour une intégration fluide dans une chaîne complète de traitementProblématiqueArticulation corpus et méthodes d’analyse1

ProblématiqueObjectifs1Objectifs à long terme :

Recenser les méthodes de calcul implémentées dans les outils existants

Evaluer le retour d’expérience :

utilisation des outils/méthodes sur une variété de corpus français/francophones,

comparaison et inventaire des bonnes pratiques textométriques selon l’analyse visée

Objectifs de cette recherche :

Etude textométrique des articles de recherche en textométrie :

analyse exploratoire des tendances chronologiques (usage des outils, méthodes, domaines d’application)

observation de la stabilité des usages dans la discipline

du point de vue des méthodes de calcul

Proposition d’une modélisation opérationnelle des pratiques textométriquesCadre2Approches émergentistesExploitation de ressources externesLinguistique de corpusTAL robusteAnalyse morphosyntaxiqueDescription de la langueTextométrieAnalyse de phénomènes langagiersDésambiguïsationMéthodes statistiquesMéthodes de collecte et d’interprétationObjectifs d’analyse (SHS)Analyse du discours politiqueVeille d’informationFigure 1 – Position de la Textométrie entre Linguistique de corpus, TAL et SHS

PlanProblématiqueCadre de la rechercheCorpus et méthode

Corpus et méthode3Sélection d’articles JADT (Journées internationales d'Analyse statistique des Données Textuelles)entre 2000 et 2010travaux textométriques rédigés en français sur des corpus français- inspiré de (FioredistellaIezzi D., 2010)111 articles ; 377 000+ mots ; analyses automatisées avec Lexico3 3/ RÉSULTATS ET DISCUSSION2/ ANALYSE DU CORPUS1/ CORPUS DE TRAVAILMOT (Méthodes et Outils en Textométrie)Sélection des articlesJADTConversion des PDF -> corpusAnalyses manuellesAnalyses textométriquesAnalyse des résultatsPistes pour un programme de recherche étendu Méthodes de calcul

utilisation de TIKA (conversion PDF)

Perspectives de rechercheCorpus et méthode3Table 1 - Principales caractéristiques lexicométriques du corpus d’analyseLe corpus final comporte 377 000+ occurrences.

Le nombre d’articles est plus important à partir de 2004. PlanProblématiqueCadre de la rechercheCorpus et méthodeAnalyses et résultats

Les outilsAnalyses et résultats4 Alceste a de loin le plus d’occurrences dans le corpus.

4 outils cristallisent 70% des mentions d’outils du corpus:

AFLS-EMM-ML

Contenu connexe

En vedette

Similaire à AFLS-EMM-ML

Dernier

AFLS-EMM-ML