1. La textométrie appliquée aux corpus francophones : statut théorique et état méthodologique Erin MacMurray*, Marguerite Leenhardt ** SYLED/CLA2T EA2290, UFR ILPGA, Université Sorbonne Nouvelle Paris 3 *erin.macmurray@gmail.com ** marguerite.leenhardt@gmail.com
2. Plan Problématique Cadre de la recherche Corpus et étapes d’analyse Analyses et résultats Discussion et perspectives
3. Comment articuler corpus et méthodes d’analyses pour l’étude linguistique du français ? Une question abordée par la linguistique … [PERY-WOODLEY 1995] : description linguistique de corpus [HABERT 2005] : outils de TAL pour la linguistique de corpus [PINCEMIN 2008],[RASTIER, 2001],[VALETTE, 2009] : sémantique textuelle, linguistique instrumentée Que l’on se pose pour répondre aux besoins en recherche industrielle Contexte des thèses CIFRE, sur l’apport de la Textométrie aux systèmes de veille économique et à l’analyse des opinions Nécessité de trouver des solutions rapides aux problèmes posés Distinction des différentes tâches pour une intégration fluide dans une chaîne complète de traitement Problématique Articulation corpus et méthodes d’analyse 1
34. Différents types d’outils en présence.Outils d’enrichissement linguistique Outils de textométrie Outils de REI (Recherche et Extraction d’Information) Outils métier (veille, terminologie, …) Librairies de fonctions Outils d’alignement TreeTagger est largement utilisé dans la communauté TAL R existe depuis 1997 - peu exploité par la communauté des chercheurs JADT – largement utilisé en TAL Figure 2 – Les mentions des outils dans le corpus MOT
35. Analyses et résultats « outil champignon » : apparaît une seule fois et a été élaboré pour un objectif/besoin spécifique 4 outils qui durent dans le temps Figure 3 – Les mentions d’outils de 2000 à 2010
39. Les AFC sont trop peu exploitées pour être spécifiques des travaux étudiés.
40. La domination des méthodes cooccurrentielles est finalement assez modérée.Figure 5 – Quelques méthodes de calcul au cours du temps – projection de (groupes de) formes sur un graphique de ventilation par année
41. Analyses et résultats 4 Méthodes peu représentées Table 2 – Exemples de méthodes peu représentées dans le corpus MOT
42.
43.
44. Modulo les corpus techniques exploités en terminologie (application métier).Figure 7 – Contextes droits de la forme « corpus » : évolution de 2000 à 2010
45.
46. En somme, pas de réelles tendances stabilisées au cours du temps, ni du point des « corpus », ni des « analyses ».Figure 8 – Contextes droits de la forme « analyse » : évolution de 2000 à 2010
47. Analyses et résultats 4 Articles par session normalisée Figure 9 – Nombre d’articles par session (typologie normalisée des articles)
49. Familles de méthodes textométriques Analyses Corpus Analyses et résultats 4 Modélisation opérationnelle : proposition Analyses thématiques Analyses lexicales Analyses sémantiques Acquisition terminologique Analyse du discours Cooccurrences Type – type Type Littéraire Technique, médical Interaction, discours Presse, discours politique Enquêtes Type – zone Cartes (de sections) Segmentation du texte Spécificités Zone – type Zone AFC Zone – zone Figure 10 – Amorce de modélisation opérationnelle sur l’articulation des méthodes textométriques et des corpus auxquels elles sont appliquées
50.
51. Tous les types de corpus ne sont pas spécifiés ou décrits de façon standardisée
52. Manque d’un retour d’expérience pour déterminer quelles sont les méthodes les plus appropriées pour l’analyse de différents types de corpus Littéraire Technique, médical Interaction, discours Presse, discours politique Enquêtes
53. Outils d’enrichissement linguistique Modélisation des outils Outils de textométrie 4 Outils de REI (Recherche et Extraction d’Information) Outils métier (veille, terminologie, …) Librairies de fonctions Outils d’alignement Approches émergentistes Approches émergentistes Exploitation de ressources externes Linguistique de corpus TAL robuste Cordial Tropes Thématico DTM Textométrie TreeTagger ThemeEditor Coocs Lexico 3 Alceste SATO Hyperbase TreeCloud Objectifs d’analyse (SHS) Astartex BootCat TerminoWeb MEDITE Weblex NeoloSearch TAPoR SRILM TermoStat WordMapper Lexter Sphinx Tétralogie R SplitsTree Figure 11 – Proposition de modélisation des outils de Textométrie identifiés dans le corpus MOT
54. Plan Problématique Cadre de la recherche Corpus et méthode Analyses et résultats Conclusion: limites et perspectives
55. Méthodes de calcul utilisées Méthodes cooccurrentielles et fréquentielles sont plus fréquemment citées que les autres Niveau lexical principalement et un travail sur du texte brut (ou lemmatisé parfois) Cas d’application et outils Outils « tout-terrain » et « outils champignons » : on observe une large variété de cas d’application mais un outil est souvent développé pour aborder un objectif particulier très peu d’outils « tout-terrain » disponibles pour les utilisateurs finaux Analyse du discours privilégiée dans les cas d’application Que dire sur l’articulation des corpus et des méthodes d’analyse ? Intérêt croissant pour la textométrie et l’ADT de la part des SHS Domaine émergent : réflexion « méta-méthodologique », stabilité terminologique Évolution des centres d’intérêt du domaine / de la conférence Certaines notions sont absentes ou peu mobilisées Conclusion 5 Les observations
56. Conclusion 5 Limites et perspectives Un chantier à explorer, pour observer les courants de l’usage de la textométrie Statut théorique : usage justifié de la textométrie sur les textes pour « faire parler les corpus » Etat méthodologique : peu de retours d’expérience sur les applications métier Les limites de l’utilisation de la textométrie pour cette étude Approche empirique qui doit être complétée pour observer de façon satisfaisante les stabilités méthodologiques initialement recherchées dans le corpus MOT : du point de vue chronologique la couverture de la langue visée (ajouter d’autres langues) Foisonnement terminologique important Travail de standardisation nécessaire afin de pouvoir observer des tendances émergentes Développements futurs Comparatif complet et approfondi des différents outils Extension du corpus incluant des articles dans d’autres langues
57. Benzécri, J-P., (1973) L’analyse des données, 2 vol., Paris, Dunod. Blanche-Benveniste, C., (1997) Approches de la langue parlée en français, Paris, Ophrys.Cori M., Léon J., (2002) « La constitution du TAL, Etude historique des dénominations et des concepts », Traitement Automatique des Langues, Vol. 43, n° 3, p. 21-55. FioredistellaIezzi D. (2010) « Topic connections and clustering in textmining: an analysis of the JADT network », JADT 2010 International Conference on StatisticalAnalysis of Textual Data Habert B., (2005) Instruments et ressources éléctroniques pour le français, Paris, Orphys.Habert B., Nazarenko A., Salem A. (1997). Linguistiques de corpus, Paris, Armand-Colin.Lebart L., Salem A., (1994) Statistiques textuelles, Paris, Dunod.Muller C., (1998) Initiation à la statistique linguistique, Paris, Larousse. Péry-Woodley M-P. (1995). « Quels corpus pour quels traitements automatiques ? », Traitement Automatique des Langues 36, 1-2 : 213-232.Pincemin B., (2008) « Modélisation textométrique des textes », in Actes des 9èmes Journées d’analyse statistiques des données textuelles, Lyon. Rastier, F. (2001) Arts et sciences du texte, Paris, PUF.Valette, M., (2009) « Pour une science des textes instrumentée», Revue Texto!Söze-Duval, (2008), « Pour une textométrie opérationnelle », travaux du GADT (Groupe d’Analyse des Données Textuelles) Revue Lexicométrica et actes JADT : (consultés le 04/03/2011) http://lexicometrica.univ-paris3.fr/ Références
58. Merci de votre attention ! Erin MacMurray*, Marguerite Leenhardt ** SYLED/CLA2T EA2290, UFR ILPGA, Université Sorbonne Nouvelle Paris 3 *erin.macmurray@gmail.com ** marguerite.leenhardt@gmail.com
59. Corpus et méthode (2/3) 3 Problèmes De constitution Les documents PDF en entrée ne sont pas homogènes. Les méta-informations ne sont pas toujours renseignées. D’analyse On se limite, dans un premier temps, à l’analyse des résumés, mots-clés et du corps de l’article. Solutions La finalisation et la validation du corpus sont faites manuellement. Nous faisons un ajout manuel à partir des programmes de JADT. On couple une analyse manuelle à des calculs textométriques.