SlideShare une entreprise Scribd logo
1  sur  29
La textométrie appliquée aux corpus francophones : statut théorique et état méthodologique  Erin MacMurray*, Marguerite Leenhardt ** SYLED/CLA2T EA2290, UFR ILPGA, Université Sorbonne Nouvelle Paris 3 *erin.macmurray@gmail.com                                                    ** marguerite.leenhardt@gmail.com
Plan Problématique Cadre de la recherche Corpus et étapes d’analyse Analyses et résultats Discussion et perspectives
Comment articuler corpus et méthodes d’analyses pour l’étude linguistique du français ?  Une question abordée par la linguistique … [PERY-WOODLEY 1995] : description linguistique de corpus [HABERT 2005] : outils de TAL pour la linguistique de corpus [PINCEMIN 2008],[RASTIER, 2001],[VALETTE, 2009] : sémantique textuelle, linguistique instrumentée Que l’on se pose pour répondre aux besoins en recherche industrielle Contexte des thèses CIFRE, sur l’apport de la Textométrie aux systèmes de veille économique et à l’analyse des opinions Nécessité de trouver des solutions rapides aux problèmes posés Distinction des différentes tâches pour une intégration fluide dans une chaîne complète de traitement Problématique Articulation corpus et méthodes d’analyse 1
Problématique Objectifs 1 ,[object Object]
Recenser les méthodes de calcul implémentées dans les outils existants
Evaluer le retour d’expérience :
utilisation des outils/méthodes sur une variété de corpus français/francophones,
comparaison et inventaire des bonnes pratiques textométriques selon l’analyse visée
Objectifs de cette recherche :
Etude textométrique des articles de recherche en textométrie :
analyse exploratoire des tendances chronologiques (usage des outils, méthodes, domaines d’application)
observation de la stabilité des usages dans la discipline
du point de vue des outils
du point de vue des méthodes de calcul
Proposition d’une modélisation opérationnelle des pratiques textométriques,[object Object]
Plan Problématique Cadre de la recherche Corpus et méthode
Corpus et méthode 3 Sélection d’articles JADT  (Journées internationales d'Analyse statistique des Données Textuelles) entre 2000 et 2010 travaux textométriques rédigés en français sur des corpus français- inspiré de (FioredistellaIezzi D., 2010) 111 articles ; 377 000+ mots ; analyses automatisées avec Lexico3  3/ RÉSULTATS ET DISCUSSION 2/ ANALYSE DU CORPUS 1/ CORPUS DE TRAVAIL MOT (Méthodes et Outils en Textométrie) Sélection des articles JADT Conversion des PDF -> corpus Analyses manuelles Analyses textométriques Analyse des résultats Pistes pour un programme de recherche étendu ,[object Object]
 Outils
 Types de corpus
 Chaîne de traitement ad-hoc
 langage : Python
 utilisation de TIKA (conversion PDF)
 Etat méthodologique
 Statut théorique
 Perspectives de recherche,[object Object]
Le nombre d’articles est plus important à partir de 2004. ,[object Object]
Les outils Analyses et résultats 4 ,[object Object]
   4 outils  cristallisent 70% des mentions  d’outils du corpus:
Alceste

Contenu connexe

En vedette

Projet ticTOCs: Service de sommaires de revues
Projet ticTOCs: Service de sommaires de revuesProjet ticTOCs: Service de sommaires de revues
Projet ticTOCs: Service de sommaires de revues
Santiago Chumbe
 
Diverses images, animaux, curiosités
Diverses images, animaux, curiositésDiverses images, animaux, curiosités
Diverses images, animaux, curiosités
Martin Gagnon
 
Una historia de bootstraping desde 2008 - Theevnt 2011
Una historia de bootstraping desde 2008 - Theevnt 2011Una historia de bootstraping desde 2008 - Theevnt 2011
Una historia de bootstraping desde 2008 - Theevnt 2011
Jobsket
 
Lejournaldesindignes1
Lejournaldesindignes1Lejournaldesindignes1
Lejournaldesindignes1
WKTL-Agency
 
Leccion 05 ii_2011
Leccion 05 ii_2011Leccion 05 ii_2011
Leccion 05 ii_2011
Ricardo
 

En vedette (20)

Projet ticTOCs: Service de sommaires de revues
Projet ticTOCs: Service de sommaires de revuesProjet ticTOCs: Service de sommaires de revues
Projet ticTOCs: Service de sommaires de revues
 
Diverses images, animaux, curiosités
Diverses images, animaux, curiositésDiverses images, animaux, curiosités
Diverses images, animaux, curiosités
 
La marca territorial y las Rel. Públicas
La marca territorial y las Rel. PúblicasLa marca territorial y las Rel. Públicas
La marca territorial y las Rel. Públicas
 
Una historia de bootstraping desde 2008 - Theevnt 2011
Una historia de bootstraping desde 2008 - Theevnt 2011Una historia de bootstraping desde 2008 - Theevnt 2011
Una historia de bootstraping desde 2008 - Theevnt 2011
 
Lejournaldesindignes1
Lejournaldesindignes1Lejournaldesindignes1
Lejournaldesindignes1
 
Leccion 05 ii_2011
Leccion 05 ii_2011Leccion 05 ii_2011
Leccion 05 ii_2011
 
Mythbustersprésentation
MythbustersprésentationMythbustersprésentation
Mythbustersprésentation
 
Trabajo final expresion oral y escrita John Garcia
Trabajo final expresion oral y escrita John GarciaTrabajo final expresion oral y escrita John Garcia
Trabajo final expresion oral y escrita John Garcia
 
Polonia ( Carmen Abad )
Polonia ( Carmen Abad )Polonia ( Carmen Abad )
Polonia ( Carmen Abad )
 
Rapport annuel 2009
Rapport annuel  2009Rapport annuel  2009
Rapport annuel 2009
 
PATIOS DE SEVILLA
PATIOS DE SEVILLAPATIOS DE SEVILLA
PATIOS DE SEVILLA
 
Désinstallez Happy2Save – Une solution complète de menace enlèvement
Désinstallez Happy2Save – Une solution complète de menace enlèvementDésinstallez Happy2Save – Une solution complète de menace enlèvement
Désinstallez Happy2Save – Une solution complète de menace enlèvement
 
Lecturas jurídicas número 17
Lecturas jurídicas número 17Lecturas jurídicas número 17
Lecturas jurídicas número 17
 
Shopping list
Shopping listShopping list
Shopping list
 
Tawacovoiturage - organisateurs
Tawacovoiturage - organisateursTawacovoiturage - organisateurs
Tawacovoiturage - organisateurs
 
Bilan des expérimentations
Bilan des expérimentationsBilan des expérimentations
Bilan des expérimentations
 
Ppt final (1)
Ppt final  (1)Ppt final  (1)
Ppt final (1)
 
Foros patyvillalpando (1)
Foros patyvillalpando (1)Foros patyvillalpando (1)
Foros patyvillalpando (1)
 
El Social Trip #sienteteruel ha producido 104.399.751 impactos en Twitter
El Social Trip #sienteteruel ha producido 104.399.751 impactos en TwitterEl Social Trip #sienteteruel ha producido 104.399.751 impactos en Twitter
El Social Trip #sienteteruel ha producido 104.399.751 impactos en Twitter
 
Slideshare netiquette
Slideshare netiquetteSlideshare netiquette
Slideshare netiquette
 

Similaire à AFLS-EMM-ML

Le traitement des données
Le traitement des donnéesLe traitement des données
Le traitement des données
Najlaa Zouaoui
 
Rédaction scientifique en ergothérapie
Rédaction scientifique en ergothérapieRédaction scientifique en ergothérapie
Rédaction scientifique en ergothérapie
University of Montreal
 
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
M@rsouin
 

Similaire à AFLS-EMM-ML (20)

Sp6 Yann Nicolas
Sp6 Yann NicolasSp6 Yann Nicolas
Sp6 Yann Nicolas
 
Définition des besoins et des spécifications du milieu documentaire
Définition des besoins et des spécifications du milieu documentaireDéfinition des besoins et des spécifications du milieu documentaire
Définition des besoins et des spécifications du milieu documentaire
 
Thesaurus à la recherche
Thesaurus à la rechercheThesaurus à la recherche
Thesaurus à la recherche
 
Le traitement des données
Le traitement des donnéesLe traitement des données
Le traitement des données
 
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
 
Vsst 2010 le_semiopole_26102010
Vsst 2010 le_semiopole_26102010Vsst 2010 le_semiopole_26102010
Vsst 2010 le_semiopole_26102010
 
Conseil rédaction
Conseil rédactionConseil rédaction
Conseil rédaction
 
les techniques TALN
les techniques TALNles techniques TALN
les techniques TALN
 
Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus
Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurusPresentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus
Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus
 
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
 
Ardrasoft ba-ba des métadonnées
Ardrasoft   ba-ba des métadonnéesArdrasoft   ba-ba des métadonnées
Ardrasoft ba-ba des métadonnées
 
Rédaction scientifique en ergothérapie
Rédaction scientifique en ergothérapieRédaction scientifique en ergothérapie
Rédaction scientifique en ergothérapie
 
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
 
Méthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeMéthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatisée
 
Adbs 5 à 7 : une nouvelle norme pour le thesaurus
Adbs 5 à 7 : une nouvelle norme pour le thesaurusAdbs 5 à 7 : une nouvelle norme pour le thesaurus
Adbs 5 à 7 : une nouvelle norme pour le thesaurus
 
L’Ingénierie des corpus : Méthodes, outils et aspects normatifs
L’Ingénierie des corpus : Méthodes, outils et aspects normatifs L’Ingénierie des corpus : Méthodes, outils et aspects normatifs
L’Ingénierie des corpus : Méthodes, outils et aspects normatifs
 
Métadonnées de thèse
Métadonnées de thèseMétadonnées de thèse
Métadonnées de thèse
 
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
 
F.Chateauraynaud : de Prospero à Marloweb
F.Chateauraynaud : de Prospero à MarlowebF.Chateauraynaud : de Prospero à Marloweb
F.Chateauraynaud : de Prospero à Marloweb
 
Chapitre 1.pptx initiation a la recherche documentaire et terminologique
Chapitre 1.pptx  initiation a la recherche documentaire et terminologiqueChapitre 1.pptx  initiation a la recherche documentaire et terminologique
Chapitre 1.pptx initiation a la recherche documentaire et terminologique
 

Dernier

Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
ikospam0
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
AmgdoulHatim
 

Dernier (20)

La mondialisation avantages et inconvénients
La mondialisation avantages et inconvénientsLa mondialisation avantages et inconvénients
La mondialisation avantages et inconvénients
 
Cours Généralités sur les systèmes informatiques
Cours Généralités sur les systèmes informatiquesCours Généralités sur les systèmes informatiques
Cours Généralités sur les systèmes informatiques
 
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptx
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaire
 
STRATEGIE_D’APPRENTISSAGE flee_DU_FLE.pdf
STRATEGIE_D’APPRENTISSAGE flee_DU_FLE.pdfSTRATEGIE_D’APPRENTISSAGE flee_DU_FLE.pdf
STRATEGIE_D’APPRENTISSAGE flee_DU_FLE.pdf
 
les_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhkles_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhk
 
658708519-Power-Point-Management-Interculturel.pdf
658708519-Power-Point-Management-Interculturel.pdf658708519-Power-Point-Management-Interculturel.pdf
658708519-Power-Point-Management-Interculturel.pdf
 
L'expression du but : fiche et exercices niveau C1 FLE
L'expression du but : fiche et exercices  niveau C1 FLEL'expression du but : fiche et exercices  niveau C1 FLE
L'expression du but : fiche et exercices niveau C1 FLE
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
 
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptxIntégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
 
Formation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptxFormation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptx
 
Neuvaine de la Pentecôte avec des textes de saint Jean Eudes
Neuvaine de la Pentecôte avec des textes de saint Jean EudesNeuvaine de la Pentecôte avec des textes de saint Jean Eudes
Neuvaine de la Pentecôte avec des textes de saint Jean Eudes
 
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANKRAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
 
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
 
Télécommunication et transport .pdfcours
Télécommunication et transport .pdfcoursTélécommunication et transport .pdfcours
Télécommunication et transport .pdfcours
 
Les roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxLes roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptx
 
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetFormation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
 

AFLS-EMM-ML

  • 1. La textométrie appliquée aux corpus francophones : statut théorique et état méthodologique Erin MacMurray*, Marguerite Leenhardt ** SYLED/CLA2T EA2290, UFR ILPGA, Université Sorbonne Nouvelle Paris 3 *erin.macmurray@gmail.com ** marguerite.leenhardt@gmail.com
  • 2. Plan Problématique Cadre de la recherche Corpus et étapes d’analyse Analyses et résultats Discussion et perspectives
  • 3. Comment articuler corpus et méthodes d’analyses pour l’étude linguistique du français ? Une question abordée par la linguistique … [PERY-WOODLEY 1995] : description linguistique de corpus [HABERT 2005] : outils de TAL pour la linguistique de corpus [PINCEMIN 2008],[RASTIER, 2001],[VALETTE, 2009] : sémantique textuelle, linguistique instrumentée Que l’on se pose pour répondre aux besoins en recherche industrielle Contexte des thèses CIFRE, sur l’apport de la Textométrie aux systèmes de veille économique et à l’analyse des opinions Nécessité de trouver des solutions rapides aux problèmes posés Distinction des différentes tâches pour une intégration fluide dans une chaîne complète de traitement Problématique Articulation corpus et méthodes d’analyse 1
  • 4.
  • 5. Recenser les méthodes de calcul implémentées dans les outils existants
  • 6. Evaluer le retour d’expérience :
  • 7. utilisation des outils/méthodes sur une variété de corpus français/francophones,
  • 8. comparaison et inventaire des bonnes pratiques textométriques selon l’analyse visée
  • 9. Objectifs de cette recherche :
  • 10. Etude textométrique des articles de recherche en textométrie :
  • 11. analyse exploratoire des tendances chronologiques (usage des outils, méthodes, domaines d’application)
  • 12. observation de la stabilité des usages dans la discipline
  • 13. du point de vue des outils
  • 14. du point de vue des méthodes de calcul
  • 15.
  • 16. Plan Problématique Cadre de la recherche Corpus et méthode
  • 17.
  • 19. Types de corpus
  • 20. Chaîne de traitement ad-hoc
  • 21. langage : Python
  • 22. utilisation de TIKA (conversion PDF)
  • 25.
  • 26.
  • 27.
  • 28. 4 outils cristallisent 70% des mentions d’outils du corpus:
  • 32. SATO
  • 33. Présents sur l’ensemble des années JADT.
  • 34. Différents types d’outils en présence.Outils d’enrichissement linguistique Outils de textométrie Outils de REI (Recherche et Extraction d’Information) Outils métier (veille, terminologie, …) Librairies de fonctions Outils d’alignement TreeTagger est largement utilisé dans la communauté TAL R existe depuis 1997 - peu exploité par la communauté des chercheurs JADT – largement utilisé en TAL Figure 2 – Les mentions des outils dans le corpus MOT
  • 35. Analyses et résultats « outil champignon » : apparaît une seule fois et a été élaboré pour un objectif/besoin spécifique 4 outils qui durent dans le temps Figure 3 – Les mentions d’outils de 2000 à 2010
  • 36. Les méthodes de calcul Après les outils…
  • 37.
  • 38.
  • 39. Les AFC sont trop peu exploitées pour être spécifiques des travaux étudiés.
  • 40. La domination des méthodes cooccurrentielles est finalement assez modérée.Figure 5 – Quelques méthodes de calcul au cours du temps – projection de (groupes de) formes sur un graphique de ventilation par année
  • 41. Analyses et résultats 4 Méthodes peu représentées Table 2 – Exemples de méthodes peu représentées dans le corpus MOT
  • 42.
  • 43.
  • 44. Modulo les corpus techniques exploités en terminologie (application métier).Figure 7 – Contextes droits de la forme « corpus » : évolution de 2000 à 2010
  • 45.
  • 46. En somme, pas de réelles tendances stabilisées au cours du temps, ni du point des « corpus », ni des « analyses ».Figure 8 – Contextes droits de la forme « analyse » : évolution de 2000 à 2010
  • 47. Analyses et résultats 4 Articles par session normalisée Figure 9 – Nombre d’articles par session (typologie normalisée des articles)
  • 48. Proposition de modélisation opérationnelle Enfin …
  • 49. Familles de méthodes textométriques Analyses Corpus Analyses et résultats 4 Modélisation opérationnelle : proposition Analyses thématiques Analyses lexicales Analyses sémantiques Acquisition terminologique Analyse du discours Cooccurrences Type – type Type Littéraire Technique, médical Interaction, discours Presse, discours politique Enquêtes Type – zone Cartes (de sections) Segmentation du texte Spécificités Zone – type Zone AFC Zone – zone Figure 10 – Amorce de modélisation opérationnelle sur l’articulation des méthodes textométriques et des corpus auxquels elles sont appliquées
  • 50.
  • 51. Tous les types de corpus ne sont pas spécifiés ou décrits de façon standardisée
  • 52. Manque d’un retour d’expérience pour déterminer quelles sont les méthodes les plus appropriées pour l’analyse de différents types de corpus Littéraire Technique, médical Interaction, discours Presse, discours politique Enquêtes
  • 53. Outils d’enrichissement linguistique Modélisation des outils Outils de textométrie 4 Outils de REI (Recherche et Extraction d’Information) Outils métier (veille, terminologie, …) Librairies de fonctions Outils d’alignement Approches émergentistes Approches émergentistes Exploitation de ressources externes Linguistique de corpus TAL robuste Cordial Tropes Thématico DTM Textométrie TreeTagger ThemeEditor Coocs Lexico 3 Alceste SATO Hyperbase TreeCloud Objectifs d’analyse (SHS) Astartex BootCat TerminoWeb MEDITE Weblex NeoloSearch TAPoR SRILM TermoStat WordMapper Lexter Sphinx Tétralogie R SplitsTree Figure 11 – Proposition de modélisation des outils de Textométrie identifiés dans le corpus MOT
  • 54. Plan Problématique Cadre de la recherche Corpus et méthode Analyses et résultats Conclusion: limites et perspectives
  • 55. Méthodes de calcul utilisées Méthodes cooccurrentielles et fréquentielles sont plus fréquemment citées que les autres Niveau lexical principalement et un travail sur du texte brut (ou lemmatisé parfois) Cas d’application et outils Outils « tout-terrain » et « outils champignons » : on observe une large variété de cas d’application mais un outil est souvent développé pour aborder un objectif particulier très peu d’outils « tout-terrain » disponibles pour les utilisateurs finaux Analyse du discours privilégiée dans les cas d’application Que dire sur l’articulation des corpus et des méthodes d’analyse ? Intérêt croissant pour la textométrie et l’ADT de la part des SHS Domaine émergent : réflexion « méta-méthodologique », stabilité terminologique Évolution des centres d’intérêt du domaine / de la conférence Certaines notions sont absentes ou peu mobilisées Conclusion 5 Les observations
  • 56. Conclusion 5 Limites et perspectives Un chantier à explorer, pour observer les courants de l’usage de la textométrie Statut théorique : usage justifié de la textométrie sur les textes pour « faire parler les corpus » Etat méthodologique : peu de retours d’expérience sur les applications métier Les limites de l’utilisation de la textométrie pour cette étude Approche empirique qui doit être complétée pour observer de façon satisfaisante les stabilités méthodologiques initialement recherchées dans le corpus MOT : du point de vue chronologique la couverture de la langue visée (ajouter d’autres langues) Foisonnement terminologique important Travail de standardisation nécessaire afin de pouvoir observer des tendances émergentes Développements futurs Comparatif complet et approfondi des différents outils Extension du corpus incluant des articles dans d’autres langues
  • 57. Benzécri, J-P., (1973) L’analyse des données, 2 vol., Paris, Dunod. Blanche-Benveniste, C., (1997) Approches de la langue parlée en français, Paris, Ophrys.Cori M., Léon J., (2002) « La constitution du TAL, Etude historique des dénominations et des concepts », Traitement Automatique des Langues, Vol. 43, n° 3, p. 21-55. FioredistellaIezzi D. (2010) « Topic connections and clustering in textmining: an analysis of the JADT network », JADT 2010 International Conference on StatisticalAnalysis of Textual Data Habert B., (2005) Instruments et ressources éléctroniques pour le français, Paris, Orphys.Habert B., Nazarenko A., Salem A. (1997). Linguistiques de corpus, Paris, Armand-Colin.Lebart L., Salem A., (1994) Statistiques textuelles, Paris, Dunod.Muller C., (1998) Initiation à la statistique linguistique, Paris, Larousse. Péry-Woodley M-P. (1995). « Quels corpus pour quels traitements automatiques ? », Traitement Automatique des Langues 36, 1-2 : 213-232.Pincemin B., (2008) « Modélisation textométrique des textes », in Actes des 9èmes Journées d’analyse statistiques des données textuelles, Lyon. Rastier, F. (2001) Arts et sciences du texte, Paris, PUF.Valette, M., (2009) « Pour une science des textes instrumentée», Revue Texto!Söze-Duval, (2008), « Pour une textométrie opérationnelle », travaux du GADT (Groupe d’Analyse des Données Textuelles) Revue Lexicométrica et actes JADT : (consultés le 04/03/2011) http://lexicometrica.univ-paris3.fr/ Références
  • 58. Merci de votre attention ! Erin MacMurray*, Marguerite Leenhardt ** SYLED/CLA2T EA2290, UFR ILPGA, Université Sorbonne Nouvelle Paris 3 *erin.macmurray@gmail.com ** marguerite.leenhardt@gmail.com
  • 59. Corpus et méthode (2/3) 3 Problèmes De constitution Les documents PDF en entrée ne sont pas homogènes. Les méta-informations ne sont pas toujours renseignées. D’analyse On se limite, dans un premier temps, à l’analyse des résumés, mots-clés et du corps de l’article. Solutions La finalisation et la validation du corpus sont faites manuellement. Nous faisons un ajout manuel à partir des programmes de JADT. On couple une analyse manuelle à des calculs textométriques.