Memoire presentation v1_1

Automated Analysis of L2 French Writing
a preliminary study
Nicholas Parslow1
Maitre de stage: Eric de la Clergerie
UFR Linguistique
Université Paris 7, Paris Diderot
26 juin 2015
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 1 / 38

Outline
1 Introduction
2 Outils ICALL : Intelligent Computer-Assisted Language Learning
3 Corpus d’apprenants (L2 français)
4 Langue L2 : traitement et métriques
5 Conclusions et Perspective

Motivations
ICALL, français, évaluation automatique
L2 : langue non-native
CEFR
ICALL : ‘Intelligent Computer-Assisted Language Learning’
CAF : Complexity, Accuracy, Fluency
Pourquoi automatique ?
Eﬃcacité
Objectivité
Granularité
Suivie de progrès

évaluation oﬃcielle du français
Diplôme d’études en langue française (DELF) A1-B2
Diplôme approfondi en langue française (DALF) C1-C2
exemples de tâches à l’écrit :
écrire une carte postale (A1)
raconter une histoire de sa vie, écrire une brève lettre d’invitation, de
remerciement etc. (A2)
exprimer une opinion personnelle (B1)
écrire une opinion formelle/argumentée (B2)
synthèse de 3 documents (1000 mots C1, 2000 mots C2)

Outline
1 Introduction
Évaluation automatique de textes en anglais
Outils ICALL en français

Outils d’évaluation automatique en anglais
Réseaux Bayésiens/Neurones/Sémantiques, LSA, analyse bigramme/RST,
psycholinguistique
besoin de 100-500 essais pour l’entraînement
critique : dépendance forte envers la longueur du texte

ICALL en français : Direkt Proﬁl
parse en chunks, > 31 variables, classiﬁcation grossière F-score ≈ 0.70

Outline
1 Introduction
Corpus
pre-traitements

Corpus L2
CEFLE :
A1-B2 suédois + natif
tâche : narrative
200 textes, 150k mots
CHY-FLE : (merci à Freiderikos Valetopoulos)
B1-C1 chypriote, grec, mélangés
tâches : descriptions + essais
300 textes, 100k mots
FipsOrtho :
L1 et genres diverses
2468 erreurs annotées avec corrections (27 types d’erreurs)
362 mini-textes, 15k mots
corrections plutôt locales

pré-traitements
CHY-FLE
normalisation de noms de ﬁchiers, enlèvement de doublants
normalisation d’encodage
rattachement de lignes coupées à 990 caractères
normalisation de caractères non-reconnus, mots illisibles.
FipsOrtho
normalisation d’encodage
reconstruction d’entrées originales et corrigées qui ont été mélangées
addition des erreurs annotées mais pas corrigées et vice-versa
correction des fautes d’orthographe dans les corrections

Outline
1 Introduction
SxPipe et orthographe
Vocabulaire
Syntaxe : MElt et FRMG
Cohésion-Sémantique : Word2Vec

sxpipe : Segmentation en phrase et tokenisation
segmentation en phrases
tokenisation
correcteur d’orthographe (pour mots inconnus par rapport au Leﬀf)
reconnaissance de mots étrangers

sxpipe : Segmentation en phrase et tokenisation
segmentation en phrases
tokenisation
correcteur d’orthographe (pour mots inconnus par rapport au Leﬀf)
reconnaissance de mots étrangers
variable corr*
no. Phrases 0.10
no. Mots 0.56
lett. par mot 0.50
syll.s par mot 0.51
11 variables y compris : écart-types, no. paragraphes etc.

sxpipe orthographe sur le corpus FipsOrtho
Faute(s) bien Exemple(bien) mal ignoré Exemple(mal/ig)
Diacritique 111 enormes 35 78 a (à)
Emprunt 10 garden 22 48 las (les)
Omission + 30 conduir 40 48 coleur(couleur)
Séparation 17 parce-que 10 23 bien-tôt
Phonétique 12 receuillis 19 38 tem (thème)
...
...
total 215 (33%) 153 275 (24% et 43%)

Faute(s) bien Exemple(bien) mal ignoré Exemple(mal/ig)
Diacritique 111 enormes 35 78 a (à)
Emprunt 10 garden 22 48 las (les)
Omission + 30 conduir 40 48 coleur(couleur)
Séparation 17 parce-que 10 23 bien-tôt
Phonétique 12 receuillis 19 38 tem (thème)
...
...
total 215 (33%) 153 275 (24% et 43%)
variable corr*
corrections ortho-
graphiques par mot
-0.65

Vocabulaire : Mesures intrinsèques : Diversité Lexicale
Type-Token Ratio
TTR =
|V |
N
vocd-D
TTR(N) =
D
N
1 + 2
N
D
1
2
− 1
HD-D : HyperGeometric Distribution calculation of D
HD-D =
wordformi
(1 − HyperGeom(0, 42, ni , N))
MTLD : Measure of Textual Lexical Diversity
long. moyenne d’une séquence pour que le TTR tombe en dessous de 0.71

Vocabulaire : Mesures extrinsèques : Sophistication lexicale
‘qualité’ de mot ≈ fréquence en corpus L1
PLex
échantillons de 10 mots
compte no. de mots diﬃciles
Pr(X = k) =
λke−λ
k!
S
prendre la couverture en fonction de
bins de fréquence
C(x) =
log(x)
log(S)
× 100

Vocabulaire Résultats
variable corr* corr(l)
HD-D 0.58 0.41
VOCD 0.44 0.38
MTLD 0.24 0.21

Vocabulaire Résultats
variable corr* corr(l)
HD-D 0.58 0.41
VOCD 0.44 0.38
MTLD 0.24 0.21
variable corr*
PLex 0.17
S -0.38
V 0-1k 0.35
V 3-4k 0.19
V 4-8k 0.31
V 8k+ -0.26
V autre -0.55
12 variables

Grammaire : Étapes d’acquisition
Phrase Nominale (NUO) → Inﬁnitive (IUO) → Fini (FUO)
Temps non-marqué → présent → passé → conditionel/futur →
plus-que-parfait/subjonctif
Négation nég + ¯S, ¯NP etc. → nég + V / V + nég → ne ...
rien/jamais → rien/personne ne . . .
Pronoms SVOPr → S aux OPr V → S OPr aux V → y, en
Subordination parataxe → qui/quand/parce que → si → dont, gérondif
Déterminants φ → de le, au le → du, des, aux
(Schlyter 2003)

Parsing : FRMG
TAG fondée sur Metagrammaire de 368 arbres
corrections grammaticales possibles en cas d’échec
(relâchement de contraintes)
mode robuste
large couverture (97% sur FTB)

FRMG sur le Corpus FipsOrtho : reconstruction d’arbres
version corrigée
ok corrected robust
N Pr Re N Pr Re N Pr Re
orig.
ok 666.0 0.97 0.97 3.0 0.91 0.82 -
corr. 110 0.95 0.94 2.0 1.0 1.0 -
rob. 191 0.89 0.92 1.0 0.85 1.0 26.0 0.94 0.95
parmi les ok/ok :
228 phrases originales et corrigées identiques
449 mêmes arbres dans les deux cas

FRMG sur le Corpus FipsOrtho : reconstruction d’arbres
version corrigée
ok corrected robust
N Pr Re N Pr Re N Pr Re
orig.
ok 666.0 0.97 0.97 3.0 0.91 0.82 -
corr. 110 0.95 0.94 2.0 1.0 1.0 -
rob. 191 0.89 0.92 1.0 0.85 1.0 26.0 0.94 0.95

FRMG corrections
(Bonnes Corrections) main error tag(s)
MOR AGR other
type de correction
dans frmg
aux. inf. 7 1 0
subject-verb agreement 2 12 2
N2 agreement2 - 47 -
subject-aux. agreement 1 3 -
adjective agreement - 8 -
modal participle 3 - -
297 corrections dont 145 dans la même position qu’une faute annotée dont
86 bien
59 faux-positives : la plupart ‘light-verb’ et ‘optional arguments’

Erreurs non-rattrapées par FRMG

Résultats FRMG
variable corr*
poid par mot 0.76
parsé sans corr. 0.56
diversité des arbres 0.36
variable corr*
aux. verbes par VP 0.23
% VP complexes 0.43
rélatives par sent. 0.46
21 variables (types de temps/mode/clause etc.)

MElt : Maximum-Entropy Lexicon-enriched tagger
modèle de Markov MaxEnt
28 étiquettes
fort en mots non-vus lors de l’entraînement
97.75% précision sur FTB

Cohésion-Sémantique : Word2Vec
Cohésion :
un mauvais choix lexical peut diminuer la cohésion
l’écriture en L2 a souvent une structure plus linéaire
variable corr*
mot-mot 0.46
phrase-phrase 0.28
phrase-texte 0.26
5 variables (mais beaucoup plus possibles)

Classiﬁcation (Préliminaire)
classiﬁcation
vrai A1 A2 B1 B2 Natif
A1 21 3 0 0 0
A2 13 21 7 1 0
B1 3 13 20 6 0
B2 0 2 7 31 2
Native 1 1 0 4 24
48 variables (Naif Bayes)

Classification (Préliminaire)
classification
A1 21 3 0 0 0
A2 13 21 7 1 0
B1 3 13 20 6 0
B2 0 2 7 31 2
Native 1 1 0 4 24
48 variables (Naif Bayes)
classification
A1 19 4 1 0 0
A2 3 22 16 1 0
B1 1 12 18 8 3
B2 0 1 7 29 5
Native 0 0 6 4 20
avec les arbres (Réseau Bayésien)

Outline
1 Introduction

Difficultés et Perspectives
Corpus
Détection des bugs
Segmentation en phrase
Correcteur d’orthographe :
Intégrant un modèle de langue / fréquence des mots
Réprioritisation : prefixe/suffixe, _ETR
Ajout d’information langue maternelle/anglais
Additions morphologiques
Phonétique L2 adaptations
Sortie non-déterministe
Parser FRMG
Étape correcteur grammaticale (modèle de langue) avant/après
un langage pour déclarer les règles de correction
Parsing plus restreint et plus strict
probabilités

Hierarchie d’élements linguistiques (réseau Bayésien)
Intégrer FRMG + MElt dans LightSide
Construction d’interface web :
estimation de niveau
corrections
suggestions
collection de corpus
Conclusions :
la chaîne de traitement marche mieux qu’attendue
on peut extraire des variables pertinentes
avec plus de précision et variables, une classiﬁcation eﬃcace semble
possible

For Further Reading I
S. Jarvis & M. Daller.
Vocabulary knowledge : human ratings and automated measures
John Benjamins B.V., 2013
M. Shermis & J. Burstein
Handbook of Automated Essay Evaluation : Current Applications and
New Directions
Routledge, 2013
S. Schlyter.
Stades de développement en français L2, 2003

more MElt
µ = 0.87, σ = 0.20 µ = 0.96, σ = 0.12

Exemples d’erreurs non-rattrapées
Description Exemple N
Accord des noms propres Athènes était trop chaud 3
d’autres fautes dans la
même syntagme
... qui viennent sinstaller ... (sans
apostrophe)
11
coordination et ellipsis ... la Chappelle de Michalangelo, in-
teressant.
4
parsé sans problème avec
faute de catégorie
Mais n’oublies pas de mettre un jean
...
2
‘que’ /‘qui’ confusion ... l’anglais qui je peux enseigner ... 6
Accord oblige une autre
forme du nom
... de nos jour ... 6
Ensemble de fautes dans
la phrase entière
Premier surprise il y a femmes que se
trouvent en charge executifs, quelques
femmes ont été President comme en
Bolivie “Lidia Gueiler".
18

Exemples de fautes d’orthographe non-rattrapés
enfans → ‘encans’ and famillie → ‘faillie’ : suggest incorporating word
frequency into the edit distance.
respet → ‘re-speth’ and example → ‘ex-ample’ : suggest a
de-prioritisation of preﬁx/suﬃx analysis
tourists → ‘touriste’ and stikers → ‘stokers’ : suggest including
perhaps an L1 parameter or an English word lookup.
plussieurs → ‘_ETR’ and échôppes → → ‘_ETR’ suggest a
de-prioritisation of the foreign word recogniser.
apart → ‘appart’ (instead of ‘à part’) and connetre → ‘contre’
(instead of ‘connaître’) suggests use of the context (via for example a
language model, or tagger)

exemples d’erreurs non-rattrapés (Verbaux)
Description Exemple ignoré corr.,
jeté
non-corr.
parse éch.
TPS : temps Quand j’étais petite,
j’ai beaucoup aimé ...
19 1 2
MOR : orthographe ... qu’ils soyent ... 4 0 0
MOR : parti-
cipe/inﬁnitive pour
adjectifs
la crème glacée em-
poisoner
0 4 2
AUX : être/avoir
confusion/absent
Le temps devenu gla-
çant.
0 3 1
LEX, MOD, SUP :
lexical diﬃcultés
Le projet ... s’exprime
par
7 0 3
mal-annotée Asfaltées 0 0 1

FreeText
Parseur Génerativiste, robuste, correction interactive
FipsOrtho : correcteur orthographique pour L2 français
distance d’édition interne au mot
après premier essai de parsing
alphacode
phonétique
fausse combinaison de morphème(s)

Faute(s) Exemple(c) Exemple(o) bien mal ignoré total
DIA enormes a (à) 79 16 51 146
EMP garden las (les) 9 19 44 72
DIA + scéne sur (sûr) 32 19 19 70
OMI + conduir coleur(couleur) 12 28 22 62
OMI developement recontrerai 18 12 26 56
SEP parce-que bien-tôt 17 10 23 50
PHO + receuillis tem (thème) 11 12 19 42
INS ﬁnallement chooses(choses) 17 8 10 35
PHO chére terres-neuves 1 7 19 27
PHG + royaune travillie 9 12 4 25
HPO - en (un) 0 0 15 15
SPC pour quoi il’s (ils) 4 2 6 12
EMP + studes professionales 1 3 4 8
PHG soyent historic 1 4 3 8
SUB cigareltes lieus 1 1 4 6
other acceuiller sons(sont) 3 0 6 9

Grammaire : L2 v L1
Par rapport à celles de L1, les phrases de L2 :
sont plus courtes
continent moins de modiﬁcateurs (propositionnels, adverbiales)
ont plus de prépositions mal-choisis
ont des excès de ‘et’, ‘mais’ et ‘parce que’, et une sous-utilisation de
connecteurs plus compliqués

Taux de succès en Parsing : corpus FipsOrtho
version manuellement corrigée
ok corrected robust
N m.e.s. N m.e.s. N m.e.s.
original
ok 666 1.5 3.0 4.7 0 -
corrected 110 3.7 2.0 1.5 0 -
robust 191 3.8 1.0 9 26 3.8
m.e.s = mean errors per sentence
parmi les ok/ok :
228 phrases originales et corrigées identiques
449 mêmes arbres dans les deux cas

Outils ICALL en anglais
Project Essay Grader (PEG) : traits + régression
Intelligent Essay Assessor (IEA) : LSA thématiquement entraîné
Intellimetric : 400 traits, selectionné selon la tâche
E-Rater : variables NLP, de bigrammes à RST, utilisé pour TOEFL
BETSY : réseau bayésien
Markit : parse en chunks + mapping vers dictionnaire des synonymes
LightSide : open source, non-spécifique
Bookette : réseau de neurones
Lexile : système fondé sur des mesures de difficulté de lecture
Coh-Metrix : LSA, difficulté de mot psycholinguistique (>200 traits)
autres : CRASE, Autoscore . . .

Memoire presentation v1_1

Recommandé

Recommandé

Contenu connexe

Similaire à Memoire presentation v1_1

Similaire à Memoire presentation v1_1 (11)

Memoire presentation v1_1