SlideShare une entreprise Scribd logo
1  sur  29
La textométrie appliquée aux corpus francophones : statut théorique et état méthodologique  Erin MacMurray*, Marguerite Leenhardt ** SYLED/CLA2T EA2290, UFR ILPGA, Université Sorbonne Nouvelle Paris 3 *erin.macmurray@gmail.com                                                    ** marguerite.leenhardt@gmail.com
Plan Problématique Cadre de la recherche Corpus et étapes d’analyse Analyses et résultats Discussion et perspectives
Comment articuler corpus et méthodes d’analyses pour l’étude linguistique du français ?  Une question abordée par la linguistique … [PERY-WOODLEY 1995] : description linguistique de corpus [HABERT 2005] : outils de TAL pour la linguistique de corpus [PINCEMIN 2008],[RASTIER, 2001],[VALETTE, 2009] : sémantique textuelle, linguistique instrumentée Que l’on se pose pour répondre aux besoins en recherche industrielle Contexte des thèses CIFRE, sur l’apport de la Textométrie aux systèmes de veille économique et à l’analyse des opinions Nécessité de trouver des solutions rapides aux problèmes posés Distinction des différentes tâches pour une intégration fluide dans une chaîne complète de traitement Problématique Articulation corpus et méthodes d’analyse 1
Problématique Objectifs 1 ,[object Object]
Recenser les méthodes de calcul implémentées dans les outils existants
Evaluer le retour d’expérience :
utilisation des outils/méthodes sur une variété de corpus français/francophones,
comparaison et inventaire des bonnes pratiques textométriques selon l’analyse visée
Objectifs de cette recherche :
Etude textométrique des articles de recherche en textométrie :
analyse exploratoire des tendances chronologiques (usage des outils, méthodes, domaines d’application)
observation de la stabilité des usages dans la discipline
du point de vue des outils
du point de vue des méthodes de calcul
Proposition d’une modélisation opérationnelle des pratiques textométriques,[object Object]
Plan Problématique Cadre de la recherche Corpus et méthode
Corpus et méthode 3 Sélection d’articles JADT  (Journées internationales d'Analyse statistique des Données Textuelles) entre 2000 et 2010 travaux textométriques rédigés en français sur des corpus français- inspiré de (FioredistellaIezzi D., 2010) 111 articles ; 377 000+ mots ; analyses automatisées avec Lexico3  3/ RÉSULTATS ET DISCUSSION 2/ ANALYSE DU CORPUS 1/ CORPUS DE TRAVAIL MOT (Méthodes et Outils en Textométrie) Sélection des articles JADT Conversion des PDF -> corpus Analyses manuelles Analyses textométriques Analyse des résultats Pistes pour un programme de recherche étendu ,[object Object]
 Outils
 Types de corpus
 Chaîne de traitement ad-hoc
 langage : Python
 utilisation de TIKA (conversion PDF)
 Etat méthodologique
 Statut théorique
 Perspectives de recherche,[object Object]
Le nombre d’articles est plus important à partir de 2004. ,[object Object]
Les outils Analyses et résultats 4 ,[object Object]
   4 outils  cristallisent 70% des mentions  d’outils du corpus:
Alceste

Contenu connexe

En vedette

Projet ticTOCs: Service de sommaires de revues
Projet ticTOCs: Service de sommaires de revuesProjet ticTOCs: Service de sommaires de revues
Projet ticTOCs: Service de sommaires de revuesSantiago Chumbe
 
Diverses images, animaux, curiosités
Diverses images, animaux, curiositésDiverses images, animaux, curiosités
Diverses images, animaux, curiositésMartin Gagnon
 
La marca territorial y las Rel. Públicas
La marca territorial y las Rel. PúblicasLa marca territorial y las Rel. Públicas
La marca territorial y las Rel. PúblicasMarianelaRomero13
 
Una historia de bootstraping desde 2008 - Theevnt 2011
Una historia de bootstraping desde 2008 - Theevnt 2011Una historia de bootstraping desde 2008 - Theevnt 2011
Una historia de bootstraping desde 2008 - Theevnt 2011Jobsket
 
Lejournaldesindignes1
Lejournaldesindignes1Lejournaldesindignes1
Lejournaldesindignes1WKTL-Agency
 
Leccion 05 ii_2011
Leccion 05 ii_2011Leccion 05 ii_2011
Leccion 05 ii_2011Ricardo
 
Trabajo final expresion oral y escrita John Garcia
Trabajo final expresion oral y escrita John GarciaTrabajo final expresion oral y escrita John Garcia
Trabajo final expresion oral y escrita John Garciajohn garcia
 
Polonia ( Carmen Abad )
Polonia ( Carmen Abad )Polonia ( Carmen Abad )
Polonia ( Carmen Abad )silvia cabrera
 
Désinstallez Happy2Save – Une solution complète de menace enlèvement
Désinstallez Happy2Save – Une solution complète de menace enlèvementDésinstallez Happy2Save – Une solution complète de menace enlèvement
Désinstallez Happy2Save – Une solution complète de menace enlèvement101scorphio105
 
Tawacovoiturage - organisateurs
Tawacovoiturage - organisateursTawacovoiturage - organisateurs
Tawacovoiturage - organisateursLoic Moncany
 
Bilan des expérimentations
Bilan des expérimentationsBilan des expérimentations
Bilan des expérimentationsidemocratic
 
El Social Trip #sienteteruel ha producido 104.399.751 impactos en Twitter
El Social Trip #sienteteruel ha producido 104.399.751 impactos en TwitterEl Social Trip #sienteteruel ha producido 104.399.751 impactos en Twitter
El Social Trip #sienteteruel ha producido 104.399.751 impactos en TwitterCarmen Urbano
 

En vedette (20)

Projet ticTOCs: Service de sommaires de revues
Projet ticTOCs: Service de sommaires de revuesProjet ticTOCs: Service de sommaires de revues
Projet ticTOCs: Service de sommaires de revues
 
Diverses images, animaux, curiosités
Diverses images, animaux, curiositésDiverses images, animaux, curiosités
Diverses images, animaux, curiosités
 
La marca territorial y las Rel. Públicas
La marca territorial y las Rel. PúblicasLa marca territorial y las Rel. Públicas
La marca territorial y las Rel. Públicas
 
Una historia de bootstraping desde 2008 - Theevnt 2011
Una historia de bootstraping desde 2008 - Theevnt 2011Una historia de bootstraping desde 2008 - Theevnt 2011
Una historia de bootstraping desde 2008 - Theevnt 2011
 
Lejournaldesindignes1
Lejournaldesindignes1Lejournaldesindignes1
Lejournaldesindignes1
 
Leccion 05 ii_2011
Leccion 05 ii_2011Leccion 05 ii_2011
Leccion 05 ii_2011
 
Mythbustersprésentation
MythbustersprésentationMythbustersprésentation
Mythbustersprésentation
 
Trabajo final expresion oral y escrita John Garcia
Trabajo final expresion oral y escrita John GarciaTrabajo final expresion oral y escrita John Garcia
Trabajo final expresion oral y escrita John Garcia
 
Polonia ( Carmen Abad )
Polonia ( Carmen Abad )Polonia ( Carmen Abad )
Polonia ( Carmen Abad )
 
Rapport annuel 2009
Rapport annuel  2009Rapport annuel  2009
Rapport annuel 2009
 
PATIOS DE SEVILLA
PATIOS DE SEVILLAPATIOS DE SEVILLA
PATIOS DE SEVILLA
 
Désinstallez Happy2Save – Une solution complète de menace enlèvement
Désinstallez Happy2Save – Une solution complète de menace enlèvementDésinstallez Happy2Save – Une solution complète de menace enlèvement
Désinstallez Happy2Save – Une solution complète de menace enlèvement
 
Lecturas jurídicas número 17
Lecturas jurídicas número 17Lecturas jurídicas número 17
Lecturas jurídicas número 17
 
Shopping list
Shopping listShopping list
Shopping list
 
Tawacovoiturage - organisateurs
Tawacovoiturage - organisateursTawacovoiturage - organisateurs
Tawacovoiturage - organisateurs
 
Bilan des expérimentations
Bilan des expérimentationsBilan des expérimentations
Bilan des expérimentations
 
Ppt final (1)
Ppt final  (1)Ppt final  (1)
Ppt final (1)
 
Foros patyvillalpando (1)
Foros patyvillalpando (1)Foros patyvillalpando (1)
Foros patyvillalpando (1)
 
El Social Trip #sienteteruel ha producido 104.399.751 impactos en Twitter
El Social Trip #sienteteruel ha producido 104.399.751 impactos en TwitterEl Social Trip #sienteteruel ha producido 104.399.751 impactos en Twitter
El Social Trip #sienteteruel ha producido 104.399.751 impactos en Twitter
 
Slideshare netiquette
Slideshare netiquetteSlideshare netiquette
Slideshare netiquette
 

Similaire à AFLS-EMM-ML

Sp6 Yann Nicolas
Sp6 Yann NicolasSp6 Yann Nicolas
Sp6 Yann Nicolasent12701
 
Définition des besoins et des spécifications du milieu documentaire
Définition des besoins et des spécifications du milieu documentaireDéfinition des besoins et des spécifications du milieu documentaire
Définition des besoins et des spécifications du milieu documentairefolkthes
 
Thesaurus à la recherche
Thesaurus à la rechercheThesaurus à la recherche
Thesaurus à la rechercheSylvie Dalbin
 
Le traitement des données
Le traitement des donnéesLe traitement des données
Le traitement des donnéesNajlaa Zouaoui
 
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...Lesticetlart Invisu
 
Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus
Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurusPresentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus
Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurusSylvie Dalbin
 
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)Sylvie Dalbin
 
Ardrasoft ba-ba des métadonnées
Ardrasoft   ba-ba des métadonnéesArdrasoft   ba-ba des métadonnées
Ardrasoft ba-ba des métadonnéesPhilippe Lebas
 
Rédaction scientifique en ergothérapie
Rédaction scientifique en ergothérapieRédaction scientifique en ergothérapie
Rédaction scientifique en ergothérapieUniversity of Montreal
 
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...Stéphane Vial
 
Méthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeMéthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeSCD Paris-Sorbonne
 
Adbs 5 à 7 : une nouvelle norme pour le thesaurus
Adbs 5 à 7 : une nouvelle norme pour le thesaurusAdbs 5 à 7 : une nouvelle norme pour le thesaurus
Adbs 5 à 7 : une nouvelle norme pour le thesaurus2helene
 
L’Ingénierie des corpus : Méthodes, outils et aspects normatifs
L’Ingénierie des corpus : Méthodes, outils et aspects normatifs L’Ingénierie des corpus : Méthodes, outils et aspects normatifs
L’Ingénierie des corpus : Méthodes, outils et aspects normatifs Mokhtar Ben Henda
 
Métadonnées de thèse
Métadonnées de thèseMétadonnées de thèse
Métadonnées de thèseY. Nicolas
 
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...M@rsouin
 
F.Chateauraynaud : de Prospero à Marloweb
F.Chateauraynaud : de Prospero à MarlowebF.Chateauraynaud : de Prospero à Marloweb
F.Chateauraynaud : de Prospero à MarlowebOpenEdition
 
Chapitre 1.pptx initiation a la recherche documentaire et terminologique
Chapitre 1.pptx  initiation a la recherche documentaire et terminologiqueChapitre 1.pptx  initiation a la recherche documentaire et terminologique
Chapitre 1.pptx initiation a la recherche documentaire et terminologiqueJoseCotes7
 

Similaire à AFLS-EMM-ML (20)

Sp6 Yann Nicolas
Sp6 Yann NicolasSp6 Yann Nicolas
Sp6 Yann Nicolas
 
Définition des besoins et des spécifications du milieu documentaire
Définition des besoins et des spécifications du milieu documentaireDéfinition des besoins et des spécifications du milieu documentaire
Définition des besoins et des spécifications du milieu documentaire
 
Thesaurus à la recherche
Thesaurus à la rechercheThesaurus à la recherche
Thesaurus à la recherche
 
Le traitement des données
Le traitement des donnéesLe traitement des données
Le traitement des données
 
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
 
Vsst 2010 le_semiopole_26102010
Vsst 2010 le_semiopole_26102010Vsst 2010 le_semiopole_26102010
Vsst 2010 le_semiopole_26102010
 
Conseil rédaction
Conseil rédactionConseil rédaction
Conseil rédaction
 
les techniques TALN
les techniques TALNles techniques TALN
les techniques TALN
 
Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus
Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurusPresentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus
Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus
 
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
 
Ardrasoft ba-ba des métadonnées
Ardrasoft   ba-ba des métadonnéesArdrasoft   ba-ba des métadonnées
Ardrasoft ba-ba des métadonnées
 
Rédaction scientifique en ergothérapie
Rédaction scientifique en ergothérapieRédaction scientifique en ergothérapie
Rédaction scientifique en ergothérapie
 
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
 
Méthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeMéthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatisée
 
Adbs 5 à 7 : une nouvelle norme pour le thesaurus
Adbs 5 à 7 : une nouvelle norme pour le thesaurusAdbs 5 à 7 : une nouvelle norme pour le thesaurus
Adbs 5 à 7 : une nouvelle norme pour le thesaurus
 
L’Ingénierie des corpus : Méthodes, outils et aspects normatifs
L’Ingénierie des corpus : Méthodes, outils et aspects normatifs L’Ingénierie des corpus : Méthodes, outils et aspects normatifs
L’Ingénierie des corpus : Méthodes, outils et aspects normatifs
 
Métadonnées de thèse
Métadonnées de thèseMétadonnées de thèse
Métadonnées de thèse
 
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
 
F.Chateauraynaud : de Prospero à Marloweb
F.Chateauraynaud : de Prospero à MarlowebF.Chateauraynaud : de Prospero à Marloweb
F.Chateauraynaud : de Prospero à Marloweb
 
Chapitre 1.pptx initiation a la recherche documentaire et terminologique
Chapitre 1.pptx  initiation a la recherche documentaire et terminologiqueChapitre 1.pptx  initiation a la recherche documentaire et terminologique
Chapitre 1.pptx initiation a la recherche documentaire et terminologique
 

Dernier

systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertChristianMbip
 
Grammaire pour les élèves de la 6ème.doc
Grammaire pour les élèves de la  6ème.docGrammaire pour les élèves de la  6ème.doc
Grammaire pour les élèves de la 6ème.docKarimKhrifech
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptxSAID MASHATE
 
présentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteurprésentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteurdinaelchaine
 
Présentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptxPrésentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptxpopzair
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.Txaruka
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxssusercbaa22
 
Cours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptxCours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptxlamourfrantz
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...M2i Formation
 
Formation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipFormation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipM2i Formation
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprisesMajdaKtiri2
 
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptssusercbaa22
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film françaisTxaruka
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxssuserbd075f
 
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdfMICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdfssuser40e112
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...Faga1939
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.Franck Apolis
 
MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptssusercbaa22
 

Dernier (20)

systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expert
 
Grammaire pour les élèves de la 6ème.doc
Grammaire pour les élèves de la  6ème.docGrammaire pour les élèves de la  6ème.doc
Grammaire pour les élèves de la 6ème.doc
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
 
présentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteurprésentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteur
 
Présentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptxPrésentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptx
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
 
Cours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptxCours-irrigation_et_drainage_cours1.pptx
Cours-irrigation_et_drainage_cours1.pptx
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
 
Formation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipFormation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadership
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprises
 
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
 
Pâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie PelletierPâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie Pelletier
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
 
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdfMICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.
 
MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.ppt
 
Evaluación Alumnos de Ecole Victor Hugo
Evaluación Alumnos de Ecole  Victor HugoEvaluación Alumnos de Ecole  Victor Hugo
Evaluación Alumnos de Ecole Victor Hugo
 

AFLS-EMM-ML

  • 1. La textométrie appliquée aux corpus francophones : statut théorique et état méthodologique Erin MacMurray*, Marguerite Leenhardt ** SYLED/CLA2T EA2290, UFR ILPGA, Université Sorbonne Nouvelle Paris 3 *erin.macmurray@gmail.com ** marguerite.leenhardt@gmail.com
  • 2. Plan Problématique Cadre de la recherche Corpus et étapes d’analyse Analyses et résultats Discussion et perspectives
  • 3. Comment articuler corpus et méthodes d’analyses pour l’étude linguistique du français ? Une question abordée par la linguistique … [PERY-WOODLEY 1995] : description linguistique de corpus [HABERT 2005] : outils de TAL pour la linguistique de corpus [PINCEMIN 2008],[RASTIER, 2001],[VALETTE, 2009] : sémantique textuelle, linguistique instrumentée Que l’on se pose pour répondre aux besoins en recherche industrielle Contexte des thèses CIFRE, sur l’apport de la Textométrie aux systèmes de veille économique et à l’analyse des opinions Nécessité de trouver des solutions rapides aux problèmes posés Distinction des différentes tâches pour une intégration fluide dans une chaîne complète de traitement Problématique Articulation corpus et méthodes d’analyse 1
  • 4.
  • 5. Recenser les méthodes de calcul implémentées dans les outils existants
  • 6. Evaluer le retour d’expérience :
  • 7. utilisation des outils/méthodes sur une variété de corpus français/francophones,
  • 8. comparaison et inventaire des bonnes pratiques textométriques selon l’analyse visée
  • 9. Objectifs de cette recherche :
  • 10. Etude textométrique des articles de recherche en textométrie :
  • 11. analyse exploratoire des tendances chronologiques (usage des outils, méthodes, domaines d’application)
  • 12. observation de la stabilité des usages dans la discipline
  • 13. du point de vue des outils
  • 14. du point de vue des méthodes de calcul
  • 15.
  • 16. Plan Problématique Cadre de la recherche Corpus et méthode
  • 17.
  • 19. Types de corpus
  • 20. Chaîne de traitement ad-hoc
  • 21. langage : Python
  • 22. utilisation de TIKA (conversion PDF)
  • 25.
  • 26.
  • 27.
  • 28. 4 outils cristallisent 70% des mentions d’outils du corpus:
  • 32. SATO
  • 33. Présents sur l’ensemble des années JADT.
  • 34. Différents types d’outils en présence.Outils d’enrichissement linguistique Outils de textométrie Outils de REI (Recherche et Extraction d’Information) Outils métier (veille, terminologie, …) Librairies de fonctions Outils d’alignement TreeTagger est largement utilisé dans la communauté TAL R existe depuis 1997 - peu exploité par la communauté des chercheurs JADT – largement utilisé en TAL Figure 2 – Les mentions des outils dans le corpus MOT
  • 35. Analyses et résultats « outil champignon » : apparaît une seule fois et a été élaboré pour un objectif/besoin spécifique 4 outils qui durent dans le temps Figure 3 – Les mentions d’outils de 2000 à 2010
  • 36. Les méthodes de calcul Après les outils…
  • 37.
  • 38.
  • 39. Les AFC sont trop peu exploitées pour être spécifiques des travaux étudiés.
  • 40. La domination des méthodes cooccurrentielles est finalement assez modérée.Figure 5 – Quelques méthodes de calcul au cours du temps – projection de (groupes de) formes sur un graphique de ventilation par année
  • 41. Analyses et résultats 4 Méthodes peu représentées Table 2 – Exemples de méthodes peu représentées dans le corpus MOT
  • 42.
  • 43.
  • 44. Modulo les corpus techniques exploités en terminologie (application métier).Figure 7 – Contextes droits de la forme « corpus » : évolution de 2000 à 2010
  • 45.
  • 46. En somme, pas de réelles tendances stabilisées au cours du temps, ni du point des « corpus », ni des « analyses ».Figure 8 – Contextes droits de la forme « analyse » : évolution de 2000 à 2010
  • 47. Analyses et résultats 4 Articles par session normalisée Figure 9 – Nombre d’articles par session (typologie normalisée des articles)
  • 48. Proposition de modélisation opérationnelle Enfin …
  • 49. Familles de méthodes textométriques Analyses Corpus Analyses et résultats 4 Modélisation opérationnelle : proposition Analyses thématiques Analyses lexicales Analyses sémantiques Acquisition terminologique Analyse du discours Cooccurrences Type – type Type Littéraire Technique, médical Interaction, discours Presse, discours politique Enquêtes Type – zone Cartes (de sections) Segmentation du texte Spécificités Zone – type Zone AFC Zone – zone Figure 10 – Amorce de modélisation opérationnelle sur l’articulation des méthodes textométriques et des corpus auxquels elles sont appliquées
  • 50.
  • 51. Tous les types de corpus ne sont pas spécifiés ou décrits de façon standardisée
  • 52. Manque d’un retour d’expérience pour déterminer quelles sont les méthodes les plus appropriées pour l’analyse de différents types de corpus Littéraire Technique, médical Interaction, discours Presse, discours politique Enquêtes
  • 53. Outils d’enrichissement linguistique Modélisation des outils Outils de textométrie 4 Outils de REI (Recherche et Extraction d’Information) Outils métier (veille, terminologie, …) Librairies de fonctions Outils d’alignement Approches émergentistes Approches émergentistes Exploitation de ressources externes Linguistique de corpus TAL robuste Cordial Tropes Thématico DTM Textométrie TreeTagger ThemeEditor Coocs Lexico 3 Alceste SATO Hyperbase TreeCloud Objectifs d’analyse (SHS) Astartex BootCat TerminoWeb MEDITE Weblex NeoloSearch TAPoR SRILM TermoStat WordMapper Lexter Sphinx Tétralogie R SplitsTree Figure 11 – Proposition de modélisation des outils de Textométrie identifiés dans le corpus MOT
  • 54. Plan Problématique Cadre de la recherche Corpus et méthode Analyses et résultats Conclusion: limites et perspectives
  • 55. Méthodes de calcul utilisées Méthodes cooccurrentielles et fréquentielles sont plus fréquemment citées que les autres Niveau lexical principalement et un travail sur du texte brut (ou lemmatisé parfois) Cas d’application et outils Outils « tout-terrain » et « outils champignons » : on observe une large variété de cas d’application mais un outil est souvent développé pour aborder un objectif particulier très peu d’outils « tout-terrain » disponibles pour les utilisateurs finaux Analyse du discours privilégiée dans les cas d’application Que dire sur l’articulation des corpus et des méthodes d’analyse ? Intérêt croissant pour la textométrie et l’ADT de la part des SHS Domaine émergent : réflexion « méta-méthodologique », stabilité terminologique Évolution des centres d’intérêt du domaine / de la conférence Certaines notions sont absentes ou peu mobilisées Conclusion 5 Les observations
  • 56. Conclusion 5 Limites et perspectives Un chantier à explorer, pour observer les courants de l’usage de la textométrie Statut théorique : usage justifié de la textométrie sur les textes pour « faire parler les corpus » Etat méthodologique : peu de retours d’expérience sur les applications métier Les limites de l’utilisation de la textométrie pour cette étude Approche empirique qui doit être complétée pour observer de façon satisfaisante les stabilités méthodologiques initialement recherchées dans le corpus MOT : du point de vue chronologique la couverture de la langue visée (ajouter d’autres langues) Foisonnement terminologique important Travail de standardisation nécessaire afin de pouvoir observer des tendances émergentes Développements futurs Comparatif complet et approfondi des différents outils Extension du corpus incluant des articles dans d’autres langues
  • 57. Benzécri, J-P., (1973) L’analyse des données, 2 vol., Paris, Dunod. Blanche-Benveniste, C., (1997) Approches de la langue parlée en français, Paris, Ophrys.Cori M., Léon J., (2002) « La constitution du TAL, Etude historique des dénominations et des concepts », Traitement Automatique des Langues, Vol. 43, n° 3, p. 21-55. FioredistellaIezzi D. (2010) « Topic connections and clustering in textmining: an analysis of the JADT network », JADT 2010 International Conference on StatisticalAnalysis of Textual Data Habert B., (2005) Instruments et ressources éléctroniques pour le français, Paris, Orphys.Habert B., Nazarenko A., Salem A. (1997). Linguistiques de corpus, Paris, Armand-Colin.Lebart L., Salem A., (1994) Statistiques textuelles, Paris, Dunod.Muller C., (1998) Initiation à la statistique linguistique, Paris, Larousse. Péry-Woodley M-P. (1995). « Quels corpus pour quels traitements automatiques ? », Traitement Automatique des Langues 36, 1-2 : 213-232.Pincemin B., (2008) « Modélisation textométrique des textes », in Actes des 9èmes Journées d’analyse statistiques des données textuelles, Lyon. Rastier, F. (2001) Arts et sciences du texte, Paris, PUF.Valette, M., (2009) « Pour une science des textes instrumentée», Revue Texto!Söze-Duval, (2008), « Pour une textométrie opérationnelle », travaux du GADT (Groupe d’Analyse des Données Textuelles) Revue Lexicométrica et actes JADT : (consultés le 04/03/2011) http://lexicometrica.univ-paris3.fr/ Références
  • 58. Merci de votre attention ! Erin MacMurray*, Marguerite Leenhardt ** SYLED/CLA2T EA2290, UFR ILPGA, Université Sorbonne Nouvelle Paris 3 *erin.macmurray@gmail.com ** marguerite.leenhardt@gmail.com
  • 59. Corpus et méthode (2/3) 3 Problèmes De constitution Les documents PDF en entrée ne sont pas homogènes. Les méta-informations ne sont pas toujours renseignées. D’analyse On se limite, dans un premier temps, à l’analyse des résumés, mots-clés et du corps de l’article. Solutions La finalisation et la validation du corpus sont faites manuellement. Nous faisons un ajout manuel à partir des programmes de JADT. On couple une analyse manuelle à des calculs textométriques.