La textométrie appliquée aux corpus francophones : statut théorique et état méthodologique <br />Erin MacMurray*, Margueri...
Plan<br />Problématique<br />Cadre de la recherche<br />Corpus et étapes d’analyse<br />Analyses et résultats<br />Discuss...
Comment articuler corpus et méthodes d’analyses pour l’étude linguistique du français ? <br />Une question abordée par la ...
Problématique<br />Objectifs<br />1<br /><ul><li>Objectifs à long terme :
Recenser les méthodes de calcul implémentées dans les outils existants
Evaluer le retour d’expérience :
utilisation des outils/méthodes sur une variété de corpus français/francophones,
comparaison et inventaire des bonnes pratiques textométriques selon l’analyse visée
Objectifs de cette recherche :
Etude textométrique des articles de recherche en textométrie :
analyse exploratoire des tendances chronologiques (usage des outils, méthodes, domaines d’application)
observation de la stabilité des usages dans la discipline
du point de vue des outils
du point de vue des méthodes de calcul
Proposition d’une modélisation opérationnelle des pratiques textométriques</li></li></ul><li>Cadre<br />2<br />Approches é...
Plan<br />Problématique<br />Cadre de la recherche<br />Corpus et méthode<br />
Corpus et méthode<br />3<br />Sélection d’articles JADT  (Journées internationales d'Analyse statistique des Données Textu...
 Outils
 Types de corpus
 Chaîne de traitement ad-hoc
 langage : Python
 utilisation de TIKA (conversion PDF)
 Etat méthodologique
 Statut théorique
 Perspectives de recherche</li></li></ul><li>Corpus et méthode<br />3<br />Table 1 - Principales caractéristiques lexicomé...
Le nombre d’articles est plus important à partir de 2004. </li></li></ul><li>Plan<br />Problématique<br />Cadre de la rech...
Les outils<br />Analyses et résultats<br />4<br /><ul><li>   Alceste a de loin le plus d’occurrences                   dan...
   4 outils  cristallisent 70% des mentions  d’outils du corpus:
Alceste
Prochain SlideShare
Chargement dans…5
×

AFLS-EMM-ML

535 vues

Publié le

Situating Textometry in general text analytics field of research.

Publié dans : Formation
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
535
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

AFLS-EMM-ML

  1. 1. La textométrie appliquée aux corpus francophones : statut théorique et état méthodologique <br />Erin MacMurray*, Marguerite Leenhardt **<br />SYLED/CLA2T EA2290, UFR ILPGA, Université Sorbonne Nouvelle Paris 3<br />*erin.macmurray@gmail.com ** marguerite.leenhardt@gmail.com<br />
  2. 2. Plan<br />Problématique<br />Cadre de la recherche<br />Corpus et étapes d’analyse<br />Analyses et résultats<br />Discussion et perspectives<br />
  3. 3. Comment articuler corpus et méthodes d’analyses pour l’étude linguistique du français ? <br />Une question abordée par la linguistique …<br />[PERY-WOODLEY 1995] : description linguistique de corpus<br />[HABERT 2005] : outils de TAL pour la linguistique de corpus<br />[PINCEMIN 2008],[RASTIER, 2001],[VALETTE, 2009] : sémantique textuelle, linguistique instrumentée<br />Que l’on se pose pour répondre aux besoins en recherche industrielle<br />Contexte des thèses CIFRE, sur l’apport de la Textométrie aux systèmes de veille économique et à l’analyse des opinions<br />Nécessité de trouver des solutions rapides aux problèmes posés<br />Distinction des différentes tâches pour une intégration fluide dans une chaîne complète de traitement<br />Problématique<br />Articulation corpus et méthodes d’analyse<br />1<br />
  4. 4. Problématique<br />Objectifs<br />1<br /><ul><li>Objectifs à long terme :
  5. 5. Recenser les méthodes de calcul implémentées dans les outils existants
  6. 6. Evaluer le retour d’expérience :
  7. 7. utilisation des outils/méthodes sur une variété de corpus français/francophones,
  8. 8. comparaison et inventaire des bonnes pratiques textométriques selon l’analyse visée
  9. 9. Objectifs de cette recherche :
  10. 10. Etude textométrique des articles de recherche en textométrie :
  11. 11. analyse exploratoire des tendances chronologiques (usage des outils, méthodes, domaines d’application)
  12. 12. observation de la stabilité des usages dans la discipline
  13. 13. du point de vue des outils
  14. 14. du point de vue des méthodes de calcul
  15. 15. Proposition d’une modélisation opérationnelle des pratiques textométriques</li></li></ul><li>Cadre<br />2<br />Approches émergentistes<br />Exploitation de ressources externes<br />Linguistique de corpus<br />TAL robuste<br />Analyse morphosyntaxique<br />Description de la langue<br />Textométrie<br />Analyse de phénomènes langagiers<br />Désambiguïsation<br />Méthodes statistiques<br />Méthodes de collecte et d’interprétation<br />Objectifs d’analyse (SHS)<br />Analyse du discours politique<br />Veille d’information<br />Figure 1 – Position de la Textométrie entre Linguistique de corpus, TAL et SHS<br />
  16. 16. Plan<br />Problématique<br />Cadre de la recherche<br />Corpus et méthode<br />
  17. 17. Corpus et méthode<br />3<br />Sélection d’articles JADT (Journées internationales d'Analyse statistique des Données Textuelles)<br />entre 2000 et 2010<br />travaux textométriques rédigés en français sur des corpus français- inspiré de (FioredistellaIezzi D., 2010)<br />111 articles ; 377 000+ mots ; analyses automatisées avec Lexico3 <br />3/ RÉSULTATS ET DISCUSSION<br />2/ ANALYSE DU CORPUS<br />1/ CORPUS DE TRAVAIL<br />MOT (Méthodes et Outils en Textométrie)<br />Sélection des articles<br />JADT<br />Conversion des PDF -> corpus<br />Analyses manuelles<br />Analyses textométriques<br />Analyse des résultats<br />Pistes pour un programme de recherche étendu<br /><ul><li> Méthodes de calcul
  18. 18. Outils
  19. 19. Types de corpus
  20. 20. Chaîne de traitement ad-hoc
  21. 21. langage : Python
  22. 22. utilisation de TIKA (conversion PDF)
  23. 23. Etat méthodologique
  24. 24. Statut théorique
  25. 25. Perspectives de recherche</li></li></ul><li>Corpus et méthode<br />3<br />Table 1 - Principales caractéristiques lexicométriques du corpus d’analyse<br /><ul><li>Le corpus final comporte 377 000+ occurrences.
  26. 26. Le nombre d’articles est plus important à partir de 2004. </li></li></ul><li>Plan<br />Problématique<br />Cadre de la recherche<br />Corpus et méthode<br />Analyses et résultats<br />
  27. 27. Les outils<br />Analyses et résultats<br />4<br /><ul><li> Alceste a de loin le plus d’occurrences dans le corpus.
  28. 28. 4 outils cristallisent 70% des mentions d’outils du corpus:
  29. 29. Alceste
  30. 30. Lexico 3
  31. 31. Hyperbase
  32. 32. SATO
  33. 33. Présents sur l’ensemble des années JADT.
  34. 34. Différents types d’outils en présence.</li></ul>Outils d’enrichissement linguistique<br />Outils de textométrie<br />Outils de REI (Recherche et Extraction d’Information)<br />Outils métier (veille, terminologie, …)<br />Librairies de fonctions<br />Outils d’alignement<br />TreeTagger est largement utilisé dans la communauté TAL<br />R existe depuis 1997 - peu exploité par la communauté des chercheurs JADT – largement utilisé en TAL<br />Figure 2 – Les mentions des outils dans le corpus MOT<br />
  35. 35. Analyses et résultats<br />« outil champignon » :<br />apparaît une seule fois et a été élaboré pour un objectif/besoin spécifique<br />4 outils qui durent dans le temps<br />Figure 3 – Les mentions d’outils de 2000 à 2010<br />
  36. 36. Les méthodes de calcul<br />Après les outils…<br />
  37. 37. Les Méthodes( fréquences absolues)<br />Analyses et résultats<br />4<br />Figure 4 – Quelques méthodes de calcul au cours du temps – projection de (groupes de) formes sur un graphique de ventilation par année <br /><ul><li>Présence dominante des méthodes cooccurrentielles.
  38. 38. Les méthodes fréquentielles semblent disparaître au profit de la méthode des spécificités.</li></li></ul><li>Les Méthodes(spécificités)<br />Analyses et résultats<br />4<br /><ul><li>Les spécificités apportent de la nuance.
  39. 39. Les AFC sont trop peu exploitées pour être spécifiques des travaux étudiés.
  40. 40. La domination des méthodes cooccurrentielles est finalement assez modérée.</li></ul>Figure 5 – Quelques méthodes de calcul au cours du temps – projection de (groupes de) formes sur un graphique de ventilation par année <br />
  41. 41. Analyses et résultats<br />4<br />Méthodes peu représentées <br />Table 2 – Exemples de méthodes peu représentées dans le corpus MOT<br />
  42. 42. Analyses et résultats<br />4<br />Articles par outil et méthode<br />Figure 6 – Nombre d’articles par outil et méthode<br /><ul><li>Analyse de la co-présence du nom de l’outil et de la méthode, à l’échelle du paragraphe</li></li></ul><li>Corpus, analyses Et domaines d’application<br />Après les méthodes …<br />
  43. 43. Types de corpus<br />(segments répétés)<br />Analyses et résultats<br />4<br /><ul><li>Les corpus sont décrits de façon peu spécifique, le plus souvent sans être liés à un domaine d’application.
  44. 44. Modulo les corpus techniques exploités en terminologie (application métier).</li></ul>Figure 7 – Contextes droits de la forme « corpus » : évolution de 2000 à 2010 <br />
  45. 45. Types d’analyse<br />(segments répétés)<br />Analyses et résultats<br />4<br /><ul><li>Les travaux spécifient peu la nature des analyses mises en œuvre pour l’étude des corpus.
  46. 46. En somme, pas de réelles tendances stabilisées au cours du temps, ni du point des « corpus », ni des « analyses ».</li></ul>Figure 8 – Contextes droits de la forme « analyse » : évolution de 2000 à 2010 <br />
  47. 47. Analyses et résultats<br />4<br />Articles par session normalisée<br />Figure 9 – Nombre d’articles par session (typologie normalisée des articles) <br />
  48. 48. Proposition de modélisation opérationnelle<br />Enfin …<br />
  49. 49. Familles de méthodes <br />textométriques <br />Analyses<br />Corpus<br />Analyses et résultats<br />4<br />Modélisation opérationnelle : proposition<br />Analyses thématiques<br />Analyses lexicales<br />Analyses sémantiques<br />Acquisition terminologique<br />Analyse du discours<br />Cooccurrences<br />Type – type<br />Type <br />Littéraire<br />Technique, médical <br />Interaction, discours<br />Presse, discours politique<br />Enquêtes<br />Type – zone<br />Cartes (de sections)<br />Segmentation du texte<br />Spécificités <br />Zone – type<br />Zone<br />AFC<br />Zone – zone <br />Figure 10 – Amorce de modélisation opérationnelle sur l’articulation des méthodes textométriques <br />et des corpus auxquels elles sont appliquées<br />
  50. 50. Analyses<br />Corpus<br />Analyses et résultats<br />4<br />Modélisation opérationnelle : limites<br />Analyses thématiques<br />Analyses lexicales<br />Analyses sémantiques<br />Acquisition terminologique<br />Analyse du discours<br />Limites :<br /><ul><li>Tous les types d’analyse possibles ne sont pas représentés
  51. 51. Tous les types de corpus ne sont pas spécifiés ou décrits de façon standardisée
  52. 52. Manque d’un retour d’expérience pour déterminer quelles sont les méthodes les plus appropriées pour l’analyse de différents types de corpus </li></ul>Littéraire<br />Technique, médical <br />Interaction, discours<br />Presse, discours politique<br />Enquêtes<br />
  53. 53. Outils d’enrichissement linguistique<br />Modélisation des outils<br />Outils de textométrie<br />4<br />Outils de REI (Recherche et Extraction d’Information)<br />Outils métier (veille, terminologie, …)<br />Librairies de fonctions<br />Outils d’alignement<br />Approches émergentistes<br />Approches émergentistes<br />Exploitation de ressources externes<br />Linguistique de corpus<br />TAL robuste<br />Cordial<br />Tropes<br />Thématico<br />DTM<br />Textométrie<br />TreeTagger<br />ThemeEditor<br />Coocs<br />Lexico 3<br />Alceste<br />SATO<br />Hyperbase<br />TreeCloud<br />Objectifs d’analyse (SHS)<br />Astartex<br />BootCat<br />TerminoWeb<br />MEDITE<br />Weblex<br />NeoloSearch<br />TAPoR<br />SRILM<br />TermoStat<br />WordMapper<br />Lexter<br />Sphinx<br />Tétralogie<br />R<br />SplitsTree<br />Figure 11 – Proposition de modélisation des outils de Textométrie identifiés dans le corpus MOT<br />
  54. 54. Plan<br />Problématique<br />Cadre de la recherche<br />Corpus et méthode<br />Analyses et résultats<br />Conclusion: limites et perspectives<br />
  55. 55. Méthodes de calcul utilisées<br />Méthodes cooccurrentielles et fréquentielles sont plus fréquemment citées que les autres<br />Niveau lexical principalement et un travail sur du texte brut (ou lemmatisé parfois)<br />Cas d’application et outils<br />Outils « tout-terrain » et « outils champignons » : <br />on observe une large variété de cas d’application mais un outil est souvent développé pour aborder un objectif particulier<br />très peu d’outils « tout-terrain » disponibles pour les utilisateurs finaux <br />Analyse du discours privilégiée dans les cas d’application<br />Que dire sur l’articulation des corpus et des méthodes d’analyse ? <br />Intérêt croissant pour la textométrie et l’ADT de la part des SHS<br />Domaine émergent : réflexion « méta-méthodologique », stabilité terminologique<br />Évolution des centres d’intérêt du domaine / de la conférence<br />Certaines notions sont absentes ou peu mobilisées<br />Conclusion<br />5<br />Les observations <br />
  56. 56. Conclusion<br />5<br />Limites et perspectives<br />Un chantier à explorer, pour observer les courants de l’usage de la textométrie <br />Statut théorique : usage justifié de la textométrie sur les textes pour « faire parler les corpus »<br />Etat méthodologique : peu de retours d’expérience sur les applications métier <br />Les limites de l’utilisation de la textométrie pour cette étude<br />Approche empirique qui doit être complétée pour observer de façon satisfaisante les stabilités méthodologiques initialement recherchées dans le corpus MOT :<br />du point de vue chronologique<br />la couverture de la langue visée (ajouter d’autres langues)<br />Foisonnement terminologique important <br />Travail de standardisation nécessaire afin de pouvoir observer des tendances émergentes<br />Développements futurs<br />Comparatif complet et approfondi des différents outils<br />Extension du corpus incluant des articles dans d’autres langues<br />
  57. 57. Benzécri, J-P., (1973) L’analyse des données, 2 vol., Paris, Dunod. Blanche-Benveniste, C., (1997) Approches de la langue parlée en français, Paris, Ophrys.Cori M., Léon J., (2002) « La constitution du TAL, Etude historique des dénominations et des concepts », Traitement Automatique des Langues, Vol. 43, n° 3, p. 21-55. FioredistellaIezzi D. (2010) « Topic connections and clustering in textmining: an analysis of the JADT network », JADT 2010 International Conference on StatisticalAnalysis of Textual Data<br />Habert B., (2005) Instruments et ressources éléctroniques pour le français, Paris, Orphys.Habert B., Nazarenko A., Salem A. (1997). Linguistiques de corpus, Paris, Armand-Colin.Lebart L., Salem A., (1994) Statistiques textuelles, Paris, Dunod.Muller C., (1998) Initiation à la statistique linguistique, Paris, Larousse. Péry-Woodley M-P. (1995). « Quels corpus pour quels traitements automatiques ? », Traitement Automatique des Langues 36, 1-2 : 213-232.Pincemin B., (2008) « Modélisation textométrique des textes », in Actes des 9èmes Journées d’analyse statistiques des données textuelles, Lyon. Rastier, F. (2001) Arts et sciences du texte, Paris, PUF.Valette, M., (2009) « Pour une science des textes instrumentée», Revue Texto!Söze-Duval, (2008), « Pour une textométrie opérationnelle », travaux du GADT (Groupe d’Analyse des Données Textuelles)<br />Revue Lexicométrica et actes JADT : (consultés le 04/03/2011) http://lexicometrica.univ-paris3.fr/<br />Références<br />
  58. 58. Merci de votre attention !<br />Erin MacMurray*, Marguerite Leenhardt **<br />SYLED/CLA2T EA2290, UFR ILPGA, Université Sorbonne Nouvelle Paris 3<br />*erin.macmurray@gmail.com ** marguerite.leenhardt@gmail.com<br />
  59. 59. Corpus et méthode (2/3)<br />3<br />Problèmes <br />De constitution<br />Les documents PDF en entrée ne sont pas homogènes.<br />Les méta-informations ne sont pas toujours renseignées.<br />D’analyse<br />On se limite, dans un premier temps, à l’analyse des résumés, mots-clés et du corps de l’article.<br />Solutions<br />La finalisation et la validation du corpus sont faites manuellement.<br />Nous faisons un ajout manuel à partir des programmes de JADT.<br />On couple une analyse manuelle à des calculs textométriques.<br />

×