Exposé présenté au séminaire I3 du GREYC le 10 avril 2012 (https://www.greyc.fr/node/1609).
La compréhensibilité de textes regroupe différents phénomènes dont il s'agit de modéliser le rapport. Mon travail de thèse (en cours) vise d'une part une réflexion sur les approches linguistiques et techniques de cette notion et d'autre part le développement d'un prototype qui effectue un balayage des textes et les annote.
Ce traitement en surface est effectué suivant une liste de critères lexicaux, syntaxiques ou sémantiques qui représentent parfois des approximations de logiques plus élaborées. Au-delà d'une mesure à proprement parler, il s'agit de fournir une image « raisonnable » de la compréhensibilité qui s'appuie sur un marquage local et un affichage des difficultés suivant différents profils.
Google Apps : quels enjeux pour les organisations ? Mémoire fin d'étude SKEMA...
Approche, traitement et visualisation de la compréhensibilité de textes en allemand
1. Approche, traitement et visualisation de la
compr´hensibilit´ de textes en allemand
e e
GREYC – S´minaire I3
e
Adrien Barbaresi
ICAR / ENS Lyon
10 avril 2012
1 / 24
2. Plan de l’expos´
e
1 Pr´sentation du sujet
e
2 ´
Etat des lieux
3 Hypoth`ses de recherche
e
4 M´thode et outils
e
5 Aper¸u de la visualisation
c
6 Conclusion
2 / 24
3. Introduction
Qui suis-je ?
Titulaire d’un master d’´tudes germaniques.
e
M´moire de M2 d´j` sous la direction de Benoˆ Habert, occasion d’une
e ea ıt
mise ` niveau en linguistique informatique.
a
Th`se en cours sous la direction de Benoˆ Habert (ENS Lyon) et de
e ıt
Henning Lobin (Universit¨t Gießen – Allemagne). Inscrit en sciences du
a
langage en France et en linguistique informatique en Allemagne.
Travail sur l’allemand, ´largissement envisag´ ` l’anglais et au fran¸ais.
e ea c
→ Pr´senter l’´tat de mes recherches tant qu’il est encore temps de faire
e e
des modifications...
3 / 24
4. Introduction
Une interface de visualisation d´j` finalis´e
ea e
le corpus de discours politiques allemands
Poster pr´sent´ ` la section linguistique informatique de la conf´rence
e ea e
annuelle de la DGfS, Francfort, 6-9 mars 2012.
Diagrammes et export du texte au format XHTML.
CSS et Javascript pour l’affichage, contenu statique (pages pr´g´n´r´es).
e e ee
Ressource accessible en ligne :
http://purl.org/corpus/german-speeches
4 / 24
5. Introduction Enjeux
Introduction : quelques enjeux du sujet
Assistance ` la compr´hension, accessibilit´
a e e
Outillage de la langue
Th`me interdisciplinaire, diff´rentes traditions
e e
(impact sur la terminologie employ´e)
e
Quelques applications existantes :
Amazon (cf diapositives suivantes)
Duolingo
5 / 24
6. Introduction Enjeux
Les statistiques textuelles d’Amazon
Depuis l’´t´ 2011, Amazon propose des statistiques sur certains de ses
ee
livres.
Astrid Lindgren, William Faulkner,
Pippi Longstocking The Sound and The Fury
6 / 24
7. Introduction Enjeux
Les statistiques textuelles d’Amazon : br`ve explication
e
Les formules de lisibilit´ employ´es mesurent la longueur des mots et
e e
des phrases.
‘A word is considered “complex” if it has three or more syllables’
⇒ Schwarzenegger est-il un mot si difficile ` comprendre ?
a
Certains chiffres correspondent normalement aux diff´rents niveaux du
e
syst`me scolaire am´ricain.
e e
Pour plus d’informations :
Book Lies : Readability is Impossible to Measure
A note on Amazon’s text readability stats (sur mon blog)
7 / 24
8. Introduction Enjeux
Interview de Sabine Ludwig : un autre point de vue
´
Ecrivain et traductrice vivant ` Berlin.
a
Elle est contre toute forme de simplification.
Dans les ann´es 70, une tradition d’´criture a vu le jour, selon laquelle
e e
le contenu comme la forme doivent ˆtre ´pur´s et lisibles.
e e e
Ce sont les parents et les grand-parents qui d´cident de l’achat d’un
e
livre, ce dernier doit avant tout avoir l’air int´ressant. Or, tout ce qui
e
achet´ n’est pas lu, loin de l`.
e a
Il est important que les enfants comprennent l’atmosph`re d’un livre,
e
pas forc´ment tous les mots.
e
La lisibilit´ est ` rapprocher d’une mani`re de conduire le lecteur et
e a e
de donner un rythme au texte.
8 / 24
9. Introduction Enjeux
Un exemple lisible, et pourtant... – Heidi
Da hingen seine Kleider drin und auf einem Gestell lagen ein paar
Hemden, Str¨mpfe und T¨cher und auf einem anderen einige Teller und
u u
Tassen und Gl¨ser und auf dem obersten ein rundes Brot und ger¨uchertes
a a
Fleisch und K¨se, denn in dem Kasten war alles enthalten, was der
a
¨
Alm-Ohi besaß und zu seinem Lebensunterhalt gebrauchte.
Als nun dieser Punkt der H¨he erreicht war, nahm Peter seinen Sack ab
o
und legte ihn sorgf¨ltig in eine kleine Vertiefung des Bodens hinein, denn
a
der Wind kam manchmal in starken St¨ßen dahergefahren, und den kannte
o
Peter und wollte seine kostbare Habe nicht den Berg hinunterrollen sehen ;
dann streckte er sich lang und breit auf den sonnigen Weideboden hin,
denn er musste sich nun von der Anstrengung des Steigens erholen.
Phrases tir´es de Heidis Lehr- und Wanderjahre, de Johanna Spyri (1880)
e
(Source : http://gutenberg.spiegel.de/buch/5611/1)
9 / 24
10. ´
Etat de la recherche
´
Etat de la recherche – le choix des mots
Complexit´ (lexicale, syntaxique ou linguistique)
e
Lisibilit´ (versant cognitif, formules)
e
Compr´hensibilit´
e e
10 / 24
11. ´
Etat de la recherche
Approche taliste ou ax´e sur la visualisation
e
Sujet largement r´pandu, en particulier concernant l’anglais : ateliers `
e a
LREC et NAACL.
Recherche en informatique,
Recherche en TAL visualisation
Approche centr´e sur des
e Adaptation de techniques de
techniques de rep´rage et des
e visualisation courante ` cet objet
a
m´triques d’´valuation
e e de recherche.
(cf diapositive suivante). Exemple de D. Keim , D. Oelke
et al. ` Constance.
a
Voir aussi Karmakar & Zhu.
11 / 24
12. ´
Etat de la recherche
´
Etat de la recherche en TAL
1 corpus linguistics / armchair linguistics
2 Formules de lisibilit´
e
3 La tendance → intelligence artificielle, apprentissage artificiel
4 D’une part des cat´gories plus d´taill´es, d’autre part des processus
e e e
de d´tection plus complexes
e
5 Complexit´ globale / locale
e
Over the last ten years, work on readability deployed sophisticated
NLP techniques [...] to capture more complex linguistic features and
used statistical machine learning to build readability assessment tools.
[...] Yet, besides lexical and syntactic complexity features there are
other important factors, such as the structure of the text, the definition
of discourse topic, discourse cohesion and coherence and so on
F. Dell’Orletta et al., ”READ–IT : Assessing Readability of Italian Texts with a View to Text Simplification”, in
Proceedings of the 2nd Workshop on Speech and Language Processing for Assistive Technologies, Edinburgh,
2011, p. 74.
12 / 24
13. Hypoth`ses de recherche
e Une analyse de surface
1`re hypoth`se : un survol du texte en surface
e e
→ L’analyse de surface donne des r´sultats satisfaisants. L’op´ration doit
e e
simuler un premier survol du texte.
Avant tout une approche ` base de r`gles.
a e
Une perspective linguistique sur les ph´nom`nes (et non directement
e e
op´ratoire ou quantitative).
e
Utiliser plutˆt peu de ressources (surtout par manque de temps)
o
mˆme si des analyses plus complexes au niveau s´mantique et
e e
discursif pourraient apporter de meilleurs r´sultats.
e
13 / 24
14. Hypoth`ses de recherche
e Le primat de l’annotation
2`me hypoth`se : le primat de l’annotation
e e
→ D’abord annoter et ensuite classer.
Annotation au format XML ` plusieurs niveaux, en essayant de se
a
conformer aux standards de la TEI.
Permet une analyse multidimensionnelle, de mˆme que l’´tablissement
e e
de profils.
Le marquage du texte peut ˆtre le support d’une visualisation.
e
14 / 24
15. Hypoth`ses de recherche
e Transparence
3`me hypoth`se : la transparence des processus
e e
→ D’une boˆ noire ` une boˆ transparente .
ıte a ıte
Corpus et outils doivent ˆtre rendus disponibles ` la fin.
e a
Reproductibilit´ existante mais limit´e dans le temps des r´sultats
e e e
(outils plus ou moins stabilis´s).
e
La (re)publication des corpus est un sujet ` part enti`re...
a e
Le travail sur des corpus transmissibles doit ˆtre privil´gi´.
e e e
Architecture modulaire des programmes de traitement : meilleure
adaptation, plusieurs variantes possibles.
Toutes les lignes de code pr´sentables seront publi´es sous une licence
e e
open-source.
15 / 24
16. M´thode
e Crit`res et instruments
e
Int´grer et associer diff´rents instruments
e e
Chaˆ de traitement
ıne
1 D´coupage en tokens → scripts Perl
e
2 Etiquetage morpho-syntaxique → TreeTagger/RFTagger
3 Analyse de surface → automates ` ´tats finis
ae
4 Texte annot´ → base de donn´es SQLite
e e
5 Mesures → scripts Perl
6 Export → base de donn´es SQLite et fichier XML
e
Outils ` l’´tude
a e
Reconnaissance d’entit´s nomm´es
e e
Chaˆ
ınes lexicales et/ou r´seaux lexicaux, ontologies
e
Textom´trie (TXM, http://txm.sourceforge.net)
e
Statistiques (R)
16 / 24
17. M´thode
e Crit`res et instruments
e
Principaux crit`res de mesure
e
Morphologie et lexique longueur (en syllabes et caract`res), r´partition des
e e
mots diff´rents, comparaison avec des listes de mots
e
(fr´quence, n´ologismes)
e e
Syntaxe Propositions subordonn´es, rection et compl´mentation des
e e
verbes, composition des groupes nominaux, r´partition des
e
pronoms
S´mantique Densit´ conceptuelle, noms propres, polys´mie
e e e
Discours et texte r´partition des connecteurs, segmentation th´matique,
e e
coh´sion et coh´rence, style
e e
17 / 24
18. M´thode
e Corpus
Corpus de travail
→ Un probl`me allemand : en raison d’une l´gislation abondante et
e e
restrictive concernant le droit d’auteur, rares sont les corpus librement
disponibles.
Corpus crawl´s
e et paires comparables
Geo et Geolino
´tude comparative
e
Die Zeit et Die Bild-Zeitung (´ventuellement)
e
comparaison possible des th`mes et des rubriques.
e
Discours politiques allemands (environ 3500)
Pr´sidence, Chancellerie et Affaires ´trang`res
e e e
http ://purl.org/corpus/german-speeches
HanisauLand : Centre f´d´ral d’´ducation civique
e e e
(600 d´finitions sous licence CC BY-NC-ND)
e
18 / 24
19. M´thode
e Corpus
D´monstration
e
Toute premi`re version d’un prototype...
e
Conversion du format de repr´sentation interne (SQLite) ` la
e a
visualisation (pages XHTML)
´
Elements ` afficher : noms de classes CSS, modifi´es ` la vol´e par
a e a e
Javascript
Options pr´sent´es : r´glage du contraste + deux correctifs pour l’instant.
e e e
⇒ Apport de la visualisation pour l’analyse des ph´nom`nes
e e
exemple des mots-cl´s.
e
19 / 24
20. M´thode
e Corpus
Am´liorations envisag´es
e e
1 Info-bulles
2 Zoom avant et arri`re sur le texte
e
3 Plus de crit`res s´lectionnables, profils
e e
20 / 24
21. M´thode
e Corpus
Profils
Enfants (limites d’ˆge ?)
a
Apprenants d’une langue ´trang`re
e e
Adultes, langue maternelle (Formation, CSP ?)
Troisi`me, ou plutˆt quatri`me ˆge
e o e a
21 / 24
22. M´thode
e Corpus
Validation
→ Une ´tude sur un panel (pr´vue fin 2012)
e e
Questionnaires et marquage de passages
(en ligne)
Renseignements sur les participants
´
Etablir et tester la validit´ des profils
e
22 / 24
23. Conclusion
Conclusion
Probl`mes ` r´soudre
e a e
La compr´hensibilit´, pour quoi et pour qui ?
e e
Combien d’indicateurs sont n´cessaires ?
e
Comment les pond´rer ?
e
Quel(s) public(s) prendre en compte ?
Comment repr´senter clairement les r´sultats ?
e e
23 / 24
24. Conclusion
Informations
Contact : adrien.barbaresi@ens-lyon.fr
Blog : http://perso.ens-lyon.fr/adrien.barbaresi/blog/
Twitter : adbarbaresi
Association de doctorants de l’ENS Lyon (ENth`Se)
e
Ressources pour les jeunes chercheurs
http://enthese.ens-lyon.fr
Document sous licence CC BY-SA
24 / 24