Approche, traitement et visualisation de la compr´hensibilit´ de textes en allemand      e          e            GREYC – S...
Plan de l’expos´               e  1   Pr´sentation du sujet        e  2   ´      Etat des lieux  3   Hypoth`ses de recherc...
IntroductionQui suis-je ?Titulaire d’un master d’´tudes germaniques.                        eM´moire de M2 d´j` sous la di...
IntroductionUne interface de visualisation d´j` finalis´e                                ea        ele corpus de discours p...
Introduction   EnjeuxIntroduction : quelques enjeux du sujet    Assistance ` la compr´hension, accessibilit´              ...
Introduction   EnjeuxLes statistiques textuelles d’AmazonDepuis l’´t´ 2011, Amazon propose des statistiques sur certains d...
Introduction   EnjeuxLes statistiques textuelles d’Amazon : br`ve explication                                         e   ...
Introduction   EnjeuxInterview de Sabine Ludwig : un autre point de vue´Ecrivain et traductrice vivant ` Berlin.          ...
Introduction   EnjeuxUn exemple lisible, et pourtant... – Heidi  Da hingen seine Kleider drin und auf einem Gestell lagen ...
´                         Etat de la recherche´Etat de la recherche – le choix des mots    Complexit´ (lexicale, syntaxiqu...
´                         Etat de la rechercheApproche       taliste       ou ax´e sur la visualisation                   ...
´                                       Etat de la recherche´Etat de la recherche en TAL  1   corpus linguistics / armchai...
Hypoth`ses de recherche                            e                   Une analyse de surface1`re hypoth`se : un survol du...
Hypoth`ses de recherche                           e                   Le primat de l’annotation2`me hypoth`se : le primat ...
Hypoth`ses de recherche                            e                   Transparence3`me hypoth`se : la transparence des pr...
M´thode                                 e        Crit`res et instruments                                              eInt...
M´thode                                e        Crit`res et instruments                                             ePrinc...
M´thode                                e        CorpusCorpus de travail→ Un probl`me allemand : en raison d’une l´gislatio...
M´thode                                e        CorpusD´monstration eToute premi`re version d’un prototype...           eC...
M´thode                                  e        CorpusAm´liorations envisag´es  e                  e  1   Info-bulles  2...
M´thode                                e        CorpusProfils   Enfants (limites d’ˆge ?)                      a   Apprenan...
M´thode                                 e        CorpusValidation→ Une ´tude sur un panel (pr´vue fin 2012)      e         ...
ConclusionConclusionProbl`mes ` r´soudre     e    a e    La compr´hensibilit´, pour quoi et pour qui ?            e       ...
ConclusionInformationsContact : adrien.barbaresi@ens-lyon.frBlog : http://perso.ens-lyon.fr/adrien.barbaresi/blog/Twitter ...
Prochain SlideShare
Chargement dans…5
×

Approche, traitement et visualisation de la compréhensibilité de textes en allemand

632 vues

Publié le

Exposé présenté au séminaire I3 du GREYC le 10 avril 2012 (https://www.greyc.fr/node/1609).
La compréhensibilité de textes regroupe différents phénomènes dont il s'agit de modéliser le rapport. Mon travail de thèse (en cours) vise d'une part une réflexion sur les approches linguistiques et techniques de cette notion et d'autre part le développement d'un prototype qui effectue un balayage des textes et les annote.
Ce traitement en surface est effectué suivant une liste de critères lexicaux, syntaxiques ou sémantiques qui représentent parfois des approximations de logiques plus élaborées. Au-delà d'une mesure à proprement parler, il s'agit de fournir une image « raisonnable » de la compréhensibilité qui s'appuie sur un marquage local et un affichage des difficultés suivant différents profils.

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
632
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Approche, traitement et visualisation de la compréhensibilité de textes en allemand

  1. 1. Approche, traitement et visualisation de la compr´hensibilit´ de textes en allemand e e GREYC – S´minaire I3 e Adrien Barbaresi ICAR / ENS Lyon 10 avril 2012 1 / 24
  2. 2. Plan de l’expos´ e 1 Pr´sentation du sujet e 2 ´ Etat des lieux 3 Hypoth`ses de recherche e 4 M´thode et outils e 5 Aper¸u de la visualisation c 6 Conclusion 2 / 24
  3. 3. IntroductionQui suis-je ?Titulaire d’un master d’´tudes germaniques. eM´moire de M2 d´j` sous la direction de Benoˆ Habert, occasion d’une e ea ıtmise ` niveau en linguistique informatique. aTh`se en cours sous la direction de Benoˆ Habert (ENS Lyon) et de e ıtHenning Lobin (Universit¨t Gießen – Allemagne). Inscrit en sciences du alangage en France et en linguistique informatique en Allemagne.Travail sur l’allemand, ´largissement envisag´ ` l’anglais et au fran¸ais. e ea c→ Pr´senter l’´tat de mes recherches tant qu’il est encore temps de faire e edes modifications... 3 / 24
  4. 4. IntroductionUne interface de visualisation d´j` finalis´e ea ele corpus de discours politiques allemandsPoster pr´sent´ ` la section linguistique informatique de la conf´rence e ea eannuelle de la DGfS, Francfort, 6-9 mars 2012.Diagrammes et export du texte au format XHTML.CSS et Javascript pour l’affichage, contenu statique (pages pr´g´n´r´es). e e eeRessource accessible en ligne :http://purl.org/corpus/german-speeches 4 / 24
  5. 5. Introduction EnjeuxIntroduction : quelques enjeux du sujet Assistance ` la compr´hension, accessibilit´ a e e Outillage de la langue Th`me interdisciplinaire, diff´rentes traditions e e (impact sur la terminologie employ´e) eQuelques applications existantes : Amazon (cf diapositives suivantes) Duolingo 5 / 24
  6. 6. Introduction EnjeuxLes statistiques textuelles d’AmazonDepuis l’´t´ 2011, Amazon propose des statistiques sur certains de ses eelivres.Astrid Lindgren, William Faulkner,Pippi Longstocking The Sound and The Fury 6 / 24
  7. 7. Introduction EnjeuxLes statistiques textuelles d’Amazon : br`ve explication e Les formules de lisibilit´ employ´es mesurent la longueur des mots et e e des phrases. ‘A word is considered “complex” if it has three or more syllables’ ⇒ Schwarzenegger est-il un mot si difficile ` comprendre ? a Certains chiffres correspondent normalement aux diff´rents niveaux du e syst`me scolaire am´ricain. e ePour plus d’informations : Book Lies : Readability is Impossible to Measure A note on Amazon’s text readability stats (sur mon blog) 7 / 24
  8. 8. Introduction EnjeuxInterview de Sabine Ludwig : un autre point de vue´Ecrivain et traductrice vivant ` Berlin. aElle est contre toute forme de simplification. Dans les ann´es 70, une tradition d’´criture a vu le jour, selon laquelle e e le contenu comme la forme doivent ˆtre ´pur´s et lisibles. e e e Ce sont les parents et les grand-parents qui d´cident de l’achat d’un e livre, ce dernier doit avant tout avoir l’air int´ressant. Or, tout ce qui e achet´ n’est pas lu, loin de l`. e a Il est important que les enfants comprennent l’atmosph`re d’un livre, e pas forc´ment tous les mots. e La lisibilit´ est ` rapprocher d’une mani`re de conduire le lecteur et e a e de donner un rythme au texte. 8 / 24
  9. 9. Introduction EnjeuxUn exemple lisible, et pourtant... – Heidi Da hingen seine Kleider drin und auf einem Gestell lagen ein paarHemden, Str¨mpfe und T¨cher und auf einem anderen einige Teller und u uTassen und Gl¨ser und auf dem obersten ein rundes Brot und ger¨uchertes a aFleisch und K¨se, denn in dem Kasten war alles enthalten, was der a ¨Alm-Ohi besaß und zu seinem Lebensunterhalt gebrauchte. Als nun dieser Punkt der H¨he erreicht war, nahm Peter seinen Sack ab ound legte ihn sorgf¨ltig in eine kleine Vertiefung des Bodens hinein, denn ader Wind kam manchmal in starken St¨ßen dahergefahren, und den kannte oPeter und wollte seine kostbare Habe nicht den Berg hinunterrollen sehen ;dann streckte er sich lang und breit auf den sonnigen Weideboden hin,denn er musste sich nun von der Anstrengung des Steigens erholen.Phrases tir´es de Heidis Lehr- und Wanderjahre, de Johanna Spyri (1880) e(Source : http://gutenberg.spiegel.de/buch/5611/1) 9 / 24
  10. 10. ´ Etat de la recherche´Etat de la recherche – le choix des mots Complexit´ (lexicale, syntaxique ou linguistique) e Lisibilit´ (versant cognitif, formules) e Compr´hensibilit´ e e 10 / 24
  11. 11. ´ Etat de la rechercheApproche taliste ou ax´e sur la visualisation eSujet largement r´pandu, en particulier concernant l’anglais : ateliers ` e aLREC et NAACL. Recherche en informatique, Recherche en TAL visualisation Approche centr´e sur des e Adaptation de techniques de techniques de rep´rage et des e visualisation courante ` cet objet a m´triques d’´valuation e e de recherche. (cf diapositive suivante). Exemple de D. Keim , D. Oelke et al. ` Constance. a Voir aussi Karmakar & Zhu. 11 / 24
  12. 12. ´ Etat de la recherche´Etat de la recherche en TAL 1 corpus linguistics / armchair linguistics 2 Formules de lisibilit´ e 3 La tendance → intelligence artificielle, apprentissage artificiel 4 D’une part des cat´gories plus d´taill´es, d’autre part des processus e e e de d´tection plus complexes e 5 Complexit´ globale / locale e Over the last ten years, work on readability deployed sophisticated NLP techniques [...] to capture more complex linguistic features and used statistical machine learning to build readability assessment tools. [...] Yet, besides lexical and syntactic complexity features there are other important factors, such as the structure of the text, the definition of discourse topic, discourse cohesion and coherence and so on F. Dell’Orletta et al., ”READ–IT : Assessing Readability of Italian Texts with a View to Text Simplification”, in Proceedings of the 2nd Workshop on Speech and Language Processing for Assistive Technologies, Edinburgh, 2011, p. 74. 12 / 24
  13. 13. Hypoth`ses de recherche e Une analyse de surface1`re hypoth`se : un survol du texte en surface e e→ L’analyse de surface donne des r´sultats satisfaisants. L’op´ration doit e esimuler un premier survol du texte. Avant tout une approche ` base de r`gles. a e Une perspective linguistique sur les ph´nom`nes (et non directement e e op´ratoire ou quantitative). e Utiliser plutˆt peu de ressources (surtout par manque de temps) o mˆme si des analyses plus complexes au niveau s´mantique et e e discursif pourraient apporter de meilleurs r´sultats. e 13 / 24
  14. 14. Hypoth`ses de recherche e Le primat de l’annotation2`me hypoth`se : le primat de l’annotation e e→ D’abord annoter et ensuite classer. Annotation au format XML ` plusieurs niveaux, en essayant de se a conformer aux standards de la TEI. Permet une analyse multidimensionnelle, de mˆme que l’´tablissement e e de profils. Le marquage du texte peut ˆtre le support d’une visualisation. e 14 / 24
  15. 15. Hypoth`ses de recherche e Transparence3`me hypoth`se : la transparence des processus e e→ D’une boˆ noire ` une boˆ transparente . ıte a ıteCorpus et outils doivent ˆtre rendus disponibles ` la fin. e a Reproductibilit´ existante mais limit´e dans le temps des r´sultats e e e (outils plus ou moins stabilis´s). e La (re)publication des corpus est un sujet ` part enti`re... a e Le travail sur des corpus transmissibles doit ˆtre privil´gi´. e e e Architecture modulaire des programmes de traitement : meilleure adaptation, plusieurs variantes possibles. Toutes les lignes de code pr´sentables seront publi´es sous une licence e e open-source. 15 / 24
  16. 16. M´thode e Crit`res et instruments eInt´grer et associer diff´rents instruments e eChaˆ de traitement ıne 1 D´coupage en tokens → scripts Perl e 2 Etiquetage morpho-syntaxique → TreeTagger/RFTagger 3 Analyse de surface → automates ` ´tats finis ae 4 Texte annot´ → base de donn´es SQLite e e 5 Mesures → scripts Perl 6 Export → base de donn´es SQLite et fichier XML eOutils ` l’´tude a e Reconnaissance d’entit´s nomm´es e e Chaˆ ınes lexicales et/ou r´seaux lexicaux, ontologies e Textom´trie (TXM, http://txm.sourceforge.net) e Statistiques (R) 16 / 24
  17. 17. M´thode e Crit`res et instruments ePrincipaux crit`res de mesure eMorphologie et lexique longueur (en syllabes et caract`res), r´partition des e e mots diff´rents, comparaison avec des listes de mots e (fr´quence, n´ologismes) e e Syntaxe Propositions subordonn´es, rection et compl´mentation des e e verbes, composition des groupes nominaux, r´partition des e pronoms S´mantique Densit´ conceptuelle, noms propres, polys´mie e e eDiscours et texte r´partition des connecteurs, segmentation th´matique, e e coh´sion et coh´rence, style e e 17 / 24
  18. 18. M´thode e CorpusCorpus de travail→ Un probl`me allemand : en raison d’une l´gislation abondante et e erestrictive concernant le droit d’auteur, rares sont les corpus librementdisponibles.Corpus crawl´s e et paires comparables Geo et Geolino ´tude comparative e Die Zeit et Die Bild-Zeitung (´ventuellement) e comparaison possible des th`mes et des rubriques. e Discours politiques allemands (environ 3500) Pr´sidence, Chancellerie et Affaires ´trang`res e e e http ://purl.org/corpus/german-speeches HanisauLand : Centre f´d´ral d’´ducation civique e e e (600 d´finitions sous licence CC BY-NC-ND) e 18 / 24
  19. 19. M´thode e CorpusD´monstration eToute premi`re version d’un prototype... eConversion du format de repr´sentation interne (SQLite) ` la e avisualisation (pages XHTML)´Elements ` afficher : noms de classes CSS, modifi´es ` la vol´e par a e a eJavascriptOptions pr´sent´es : r´glage du contraste + deux correctifs pour l’instant. e e e⇒ Apport de la visualisation pour l’analyse des ph´nom`nes e e exemple des mots-cl´s. e 19 / 24
  20. 20. M´thode e CorpusAm´liorations envisag´es e e 1 Info-bulles 2 Zoom avant et arri`re sur le texte e 3 Plus de crit`res s´lectionnables, profils e e 20 / 24
  21. 21. M´thode e CorpusProfils Enfants (limites d’ˆge ?) a Apprenants d’une langue ´trang`re e e Adultes, langue maternelle (Formation, CSP ?) Troisi`me, ou plutˆt quatri`me ˆge e o e a 21 / 24
  22. 22. M´thode e CorpusValidation→ Une ´tude sur un panel (pr´vue fin 2012) e e Questionnaires et marquage de passages (en ligne) Renseignements sur les participants ´ Etablir et tester la validit´ des profils e 22 / 24
  23. 23. ConclusionConclusionProbl`mes ` r´soudre e a e La compr´hensibilit´, pour quoi et pour qui ? e e Combien d’indicateurs sont n´cessaires ? e Comment les pond´rer ? e Quel(s) public(s) prendre en compte ? Comment repr´senter clairement les r´sultats ? e e 23 / 24
  24. 24. ConclusionInformationsContact : adrien.barbaresi@ens-lyon.frBlog : http://perso.ens-lyon.fr/adrien.barbaresi/blog/Twitter : adbarbaresiAssociation de doctorants de l’ENS Lyon (ENth`Se) eRessources pour les jeunes chercheurshttp://enthese.ens-lyon.frDocument sous licence CC BY-SA 24 / 24

×