SlideShare une entreprise Scribd logo
1  sur  46
Télécharger pour lire hors ligne
Automated Analysis of L2 French Writing
a preliminary study
Nicholas Parslow1
Maitre de stage: Eric de la Clergerie
UFR Linguistique
Université Paris 7, Paris Diderot
26 juin 2015
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 1 / 38
Outline
1 Introduction
2 Outils ICALL : Intelligent Computer-Assisted Language Learning
3 Corpus d’apprenants (L2 français)
4 Langue L2 : traitement et métriques
5 Conclusions et Perspective
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 2 / 38
Motivations
ICALL, français, évaluation automatique
L2 : langue non-native
CEFR
ICALL : ‘Intelligent Computer-Assisted Language Learning’
CAF : Complexity, Accuracy, Fluency
Pourquoi automatique ?
Efficacité
Objectivité
Granularité
Suivie de progrès
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 3 / 38
évaluation officielle du français
Diplôme d’études en langue française (DELF) A1-B2
Diplôme approfondi en langue française (DALF) C1-C2
exemples de tâches à l’écrit :
écrire une carte postale (A1)
raconter une histoire de sa vie, écrire une brève lettre d’invitation, de
remerciement etc. (A2)
exprimer une opinion personnelle (B1)
écrire une opinion formelle/argumentée (B2)
synthèse de 3 documents (1000 mots C1, 2000 mots C2)
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 4 / 38
Outline
1 Introduction
2 Outils ICALL : Intelligent Computer-Assisted Language Learning
Évaluation automatique de textes en anglais
Outils ICALL en français
3 Corpus d’apprenants (L2 français)
4 Langue L2 : traitement et métriques
5 Conclusions et Perspective
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 5 / 38
Outils d’évaluation automatique en anglais
Réseaux Bayésiens/Neurones/Sémantiques, LSA, analyse bigramme/RST,
psycholinguistique
besoin de 100-500 essais pour l’entraînement
critique : dépendance forte envers la longueur du texte
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 6 / 38
ICALL en français : Direkt Profil
parse en chunks, > 31 variables, classification grossière F-score ≈ 0.70
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 7 / 38
Outline
1 Introduction
2 Outils ICALL : Intelligent Computer-Assisted Language Learning
3 Corpus d’apprenants (L2 français)
Corpus
pre-traitements
4 Langue L2 : traitement et métriques
5 Conclusions et Perspective
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 8 / 38
Corpus L2
CEFLE :
A1-B2 suédois + natif
tâche : narrative
200 textes, 150k mots
CHY-FLE : (merci à Freiderikos Valetopoulos)
B1-C1 chypriote, grec, mélangés
tâches : descriptions + essais
300 textes, 100k mots
FipsOrtho :
L1 et genres diverses
2468 erreurs annotées avec corrections (27 types d’erreurs)
362 mini-textes, 15k mots
corrections plutôt locales
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 9 / 38
pré-traitements
CHY-FLE
normalisation de noms de fichiers, enlèvement de doublants
normalisation d’encodage
rattachement de lignes coupées à 990 caractères
normalisation de caractères non-reconnus, mots illisibles.
FipsOrtho
normalisation d’encodage
reconstruction d’entrées originales et corrigées qui ont été mélangées
addition des erreurs annotées mais pas corrigées et vice-versa
correction des fautes d’orthographe dans les corrections
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 10 / 38
Outline
1 Introduction
2 Outils ICALL : Intelligent Computer-Assisted Language Learning
3 Corpus d’apprenants (L2 français)
4 Langue L2 : traitement et métriques
SxPipe et orthographe
Vocabulaire
Syntaxe : MElt et FRMG
Cohésion-Sémantique : Word2Vec
5 Conclusions et Perspective
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 11 / 38
sxpipe : Segmentation en phrase et tokenisation
segmentation en phrases
tokenisation
correcteur d’orthographe (pour mots inconnus par rapport au Lefff)
reconnaissance de mots étrangers
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 12 / 38
sxpipe : Segmentation en phrase et tokenisation
segmentation en phrases
tokenisation
correcteur d’orthographe (pour mots inconnus par rapport au Lefff)
reconnaissance de mots étrangers
variable corr*
no. Phrases 0.10
no. Mots 0.56
lett. par mot 0.50
syll.s par mot 0.51
11 variables y compris : écart-types, no. paragraphes etc.
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 12 / 38
sxpipe orthographe sur le corpus FipsOrtho
Faute(s) bien Exemple(bien) mal ignoré Exemple(mal/ig)
Diacritique 111 enormes 35 78 a (à)
Emprunt 10 garden 22 48 las (les)
Omission + 30 conduir 40 48 coleur(couleur)
Séparation 17 parce-que 10 23 bien-tôt
Phonétique 12 receuillis 19 38 tem (thème)
...
...
total 215 (33%) 153 275 (24% et 43%)
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 13 / 38
sxpipe orthographe sur le corpus FipsOrtho
Faute(s) bien Exemple(bien) mal ignoré Exemple(mal/ig)
Diacritique 111 enormes 35 78 a (à)
Emprunt 10 garden 22 48 las (les)
Omission + 30 conduir 40 48 coleur(couleur)
Séparation 17 parce-que 10 23 bien-tôt
Phonétique 12 receuillis 19 38 tem (thème)
...
...
total 215 (33%) 153 275 (24% et 43%)
variable corr*
corrections ortho-
graphiques par mot
-0.65
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 13 / 38
Vocabulaire : Mesures intrinsèques : Diversité Lexicale
Type-Token Ratio
TTR =
|V |
N
vocd-D
TTR(N) =
D
N
1 + 2
N
D
1
2
− 1
HD-D : HyperGeometric Distribution calculation of D
HD-D =
wordformi
(1 − HyperGeom(0, 42, ni , N))
MTLD : Measure of Textual Lexical Diversity
long. moyenne d’une séquence pour que le TTR tombe en dessous de 0.71
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 14 / 38
Vocabulaire : Mesures extrinsèques : Sophistication lexicale
‘qualité’ de mot ≈ fréquence en corpus L1
PLex
échantillons de 10 mots
compte no. de mots difficiles
Pr(X = k) =
λke−λ
k!
S
prendre la couverture en fonction de
bins de fréquence
C(x) =
log(x)
log(S)
× 100
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 15 / 38
Vocabulaire Résultats
variable corr* corr(l)
HD-D 0.58 0.41
VOCD 0.44 0.38
MTLD 0.24 0.21
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 16 / 38
Vocabulaire Résultats
variable corr* corr(l)
HD-D 0.58 0.41
VOCD 0.44 0.38
MTLD 0.24 0.21
variable corr*
PLex 0.17
S -0.38
V 0-1k 0.35
V 3-4k 0.19
V 4-8k 0.31
V 8k+ -0.26
V autre -0.55
12 variables
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 16 / 38
Vocabulaire Résultats
variable corr* corr(l)
HD-D 0.58 0.41
VOCD 0.44 0.38
MTLD 0.24 0.21
variable corr*
PLex 0.17
S -0.38
V 0-1k 0.35
V 3-4k 0.19
V 4-8k 0.31
V 8k+ -0.26
V autre -0.55
12 variables
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 16 / 38
Grammaire : Étapes d’acquisition
Phrase Nominale (NUO) → Infinitive (IUO) → Fini (FUO)
Temps non-marqué → présent → passé → conditionel/futur →
plus-que-parfait/subjonctif
Négation nég + ¯S, ¯NP etc. → nég + V / V + nég → ne ...
rien/jamais → rien/personne ne . . .
Pronoms SVOPr → S aux OPr V → S OPr aux V → y, en
Subordination parataxe → qui/quand/parce que → si → dont, gérondif
Déterminants φ → de le, au le → du, des, aux
(Schlyter 2003)
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 17 / 38
Grammaire : Étapes d’acquisition
Phrase Nominale (NUO) → Infinitive (IUO) → Fini (FUO)
Temps non-marqué → présent → passé → conditionel/futur →
plus-que-parfait/subjonctif
Négation nég + ¯S, ¯NP etc. → nég + V / V + nég → ne ...
rien/jamais → rien/personne ne . . .
Pronoms SVOPr → S aux OPr V → S OPr aux V → y, en
Subordination parataxe → qui/quand/parce que → si → dont, gérondif
Déterminants φ → de le, au le → du, des, aux
(Schlyter 2003)
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 17 / 38
Parsing : FRMG
TAG fondée sur Metagrammaire de 368 arbres
corrections grammaticales possibles en cas d’échec
(relâchement de contraintes)
mode robuste
large couverture (97% sur FTB)
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 18 / 38
FRMG sur le Corpus FipsOrtho : reconstruction d’arbres
version corrigée
ok corrected robust
N Pr Re N Pr Re N Pr Re
orig.
ok 666.0 0.97 0.97 3.0 0.91 0.82 -
corr. 110 0.95 0.94 2.0 1.0 1.0 -
rob. 191 0.89 0.92 1.0 0.85 1.0 26.0 0.94 0.95
parmi les ok/ok :
228 phrases originales et corrigées identiques
449 mêmes arbres dans les deux cas
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 19 / 38
FRMG sur le Corpus FipsOrtho : reconstruction d’arbres
version corrigée
ok corrected robust
N Pr Re N Pr Re N Pr Re
orig.
ok 666.0 0.97 0.97 3.0 0.91 0.82 -
corr. 110 0.95 0.94 2.0 1.0 1.0 -
rob. 191 0.89 0.92 1.0 0.85 1.0 26.0 0.94 0.95
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 19 / 38
FRMG corrections
(Bonnes Corrections) main error tag(s)
MOR AGR other
type de correction
dans frmg
aux. inf. 7 1 0
subject-verb agreement 2 12 2
N2 agreement2 - 47 -
subject-aux. agreement 1 3 -
adjective agreement - 8 -
modal participle 3 - -
297 corrections dont 145 dans la même position qu’une faute annotée dont
86 bien
59 faux-positives : la plupart ‘light-verb’ et ‘optional arguments’
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 20 / 38
Erreurs non-rattrapées par FRMG
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 21 / 38
Résultats FRMG
variable corr*
poid par mot 0.76
parsé sans corr. 0.56
diversité des arbres 0.36
variable corr*
aux. verbes par VP 0.23
% VP complexes 0.43
rélatives par sent. 0.46
21 variables (types de temps/mode/clause etc.)
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 22 / 38
MElt : Maximum-Entropy Lexicon-enriched tagger
modèle de Markov MaxEnt
28 étiquettes
fort en mots non-vus lors de l’entraînement
97.75% précision sur FTB
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 23 / 38
MElt : Maximum-Entropy Lexicon-enriched tagger
modèle de Markov MaxEnt
28 étiquettes
fort en mots non-vus lors de l’entraînement
97.75% précision sur FTB
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 23 / 38
Cohésion-Sémantique : Word2Vec
Cohésion :
un mauvais choix lexical peut diminuer la cohésion
l’écriture en L2 a souvent une structure plus linéaire
variable corr*
mot-mot 0.46
phrase-phrase 0.28
phrase-texte 0.26
5 variables (mais beaucoup plus possibles)
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 24 / 38
Classification (Préliminaire)
classification
vrai A1 A2 B1 B2 Natif
A1 21 3 0 0 0
A2 13 21 7 1 0
B1 3 13 20 6 0
B2 0 2 7 31 2
Native 1 1 0 4 24
48 variables (Naif Bayes)
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 25 / 38
Classification (Préliminaire)
classification
vrai A1 A2 B1 B2 Natif
A1 21 3 0 0 0
A2 13 21 7 1 0
B1 3 13 20 6 0
B2 0 2 7 31 2
Native 1 1 0 4 24
48 variables (Naif Bayes)
classification
vrai A1 A2 B1 B2 Natif
A1 19 4 1 0 0
A2 3 22 16 1 0
B1 1 12 18 8 3
B2 0 1 7 29 5
Native 0 0 6 4 20
avec les arbres (Réseau Bayésien)
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 25 / 38
Outline
1 Introduction
2 Outils ICALL : Intelligent Computer-Assisted Language Learning
3 Corpus d’apprenants (L2 français)
4 Langue L2 : traitement et métriques
5 Conclusions et Perspective
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 26 / 38
Difficultés et Perspectives
Corpus
Détection des bugs
Segmentation en phrase
Correcteur d’orthographe :
Intégrant un modèle de langue / fréquence des mots
Réprioritisation : prefixe/suffixe, _ETR
Ajout d’information langue maternelle/anglais
Additions morphologiques
Phonétique L2 adaptations
Sortie non-déterministe
Parser FRMG
Étape correcteur grammaticale (modèle de langue) avant/après
un langage pour déclarer les règles de correction
Parsing plus restreint et plus strict
probabilités
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 27 / 38
Hierarchie d’élements linguistiques (réseau Bayésien)
Intégrer FRMG + MElt dans LightSide
Construction d’interface web :
estimation de niveau
corrections
suggestions
collection de corpus
Conclusions :
la chaîne de traitement marche mieux qu’attendue
on peut extraire des variables pertinentes
avec plus de précision et variables, une classification efficace semble
possible
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 28 / 38
For Further Reading I
S. Jarvis & M. Daller.
Vocabulary knowledge : human ratings and automated measures
John Benjamins B.V., 2013
M. Shermis & J. Burstein
Handbook of Automated Essay Evaluation : Current Applications and
New Directions
Routledge, 2013
S. Schlyter.
Stades de développement en français L2, 2003
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 29 / 38
more MElt
µ = 0.87, σ = 0.20 µ = 0.96, σ = 0.12
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 30 / 38
Exemples d’erreurs non-rattrapées
Description Exemple N
Accord des noms propres Athènes était trop chaud 3
d’autres fautes dans la
même syntagme
... qui viennent sinstaller ... (sans
apostrophe)
11
coordination et ellipsis ... la Chappelle de Michalangelo, in-
teressant.
4
parsé sans problème avec
faute de catégorie
Mais n’oublies pas de mettre un jean
...
2
‘que’ /‘qui’ confusion ... l’anglais qui je peux enseigner ... 6
Accord oblige une autre
forme du nom
... de nos jour ... 6
Ensemble de fautes dans
la phrase entière
Premier surprise il y a femmes que se
trouvent en charge executifs, quelques
femmes ont été President comme en
Bolivie “Lidia Gueiler".
18
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 31 / 38
Exemples de fautes d’orthographe non-rattrapés
enfans → ‘encans’ and famillie → ‘faillie’ : suggest incorporating word
frequency into the edit distance.
respet → ‘re-speth’ and example → ‘ex-ample’ : suggest a
de-prioritisation of prefix/suffix analysis
tourists → ‘touriste’ and stikers → ‘stokers’ : suggest including
perhaps an L1 parameter or an English word lookup.
plussieurs → ‘_ETR’ and échôppes → → ‘_ETR’ suggest a
de-prioritisation of the foreign word recogniser.
apart → ‘appart’ (instead of ‘à part’) and connetre → ‘contre’
(instead of ‘connaître’) suggests use of the context (via for example a
language model, or tagger)
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 32 / 38
exemples d’erreurs non-rattrapés (Verbaux)
Description Exemple ignoré corr.,
jeté
non-corr.
parse éch.
TPS : temps Quand j’étais petite,
j’ai beaucoup aimé ...
19 1 2
MOR : orthographe ... qu’ils soyent ... 4 0 0
MOR : parti-
cipe/infinitive pour
adjectifs
la crème glacée em-
poisoner
0 4 2
AUX : être/avoir
confusion/absent
Le temps devenu gla-
çant.
0 3 1
LEX, MOD, SUP :
lexical difficultés
Le projet ... s’exprime
par
7 0 3
mal-annotée Asfaltées 0 0 1
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 33 / 38
FreeText
Parseur Génerativiste, robuste, correction interactive
FipsOrtho : correcteur orthographique pour L2 français
distance d’édition interne au mot
après premier essai de parsing
alphacode
phonétique
fausse combinaison de morphème(s)
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 34 / 38
sxpipe orthographe sur le corpus FipsOrtho
Faute(s) Exemple(c) Exemple(o) bien mal ignoré total
DIA enormes a (à) 79 16 51 146
EMP garden las (les) 9 19 44 72
DIA + scéne sur (sûr) 32 19 19 70
OMI + conduir coleur(couleur) 12 28 22 62
OMI developement recontrerai 18 12 26 56
SEP parce-que bien-tôt 17 10 23 50
PHO + receuillis tem (thème) 11 12 19 42
INS finallement chooses(choses) 17 8 10 35
PHO chére terres-neuves 1 7 19 27
PHG + royaune travillie 9 12 4 25
HPO - en (un) 0 0 15 15
SPC pour quoi il’s (ils) 4 2 6 12
EMP + studes professionales 1 3 4 8
PHG soyent historic 1 4 3 8
SUB cigareltes lieus 1 1 4 6
other acceuiller sons(sont) 3 0 6 9
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 35 / 38
Grammaire : L2 v L1
Par rapport à celles de L1, les phrases de L2 :
sont plus courtes
continent moins de modificateurs (propositionnels, adverbiales)
ont plus de prépositions mal-choisis
ont des excès de ‘et’, ‘mais’ et ‘parce que’, et une sous-utilisation de
connecteurs plus compliqués
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 36 / 38
Taux de succès en Parsing : corpus FipsOrtho
version manuellement corrigée
ok corrected robust
N m.e.s. N m.e.s. N m.e.s.
original
ok 666 1.5 3.0 4.7 0 -
corrected 110 3.7 2.0 1.5 0 -
robust 191 3.8 1.0 9 26 3.8
m.e.s = mean errors per sentence
parmi les ok/ok :
228 phrases originales et corrigées identiques
449 mêmes arbres dans les deux cas
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 37 / 38
Outils ICALL en anglais
Project Essay Grader (PEG) : traits + régression
Intelligent Essay Assessor (IEA) : LSA thématiquement entraîné
Intellimetric : 400 traits, selectionné selon la tâche
E-Rater : variables NLP, de bigrammes à RST, utilisé pour TOEFL
BETSY : réseau bayésien
Markit : parse en chunks + mapping vers dictionnaire des synonymes
LightSide : open source, non-spécifique
Bookette : réseau de neurones
Lexile : système fondé sur des mesures de difficulté de lecture
Coh-Metrix : LSA, difficulté de mot psycholinguistique (>200 traits)
autres : CRASE, Autoscore . . .
Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 38 / 38

Contenu connexe

Similaire à Memoire presentation v1_1

4-Recherche d'information.pdf
4-Recherche d'information.pdf4-Recherche d'information.pdf
4-Recherche d'information.pdfRihabBENLAMINE
 
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...JUSTINDAVONDAMBAT
 
Combinaison d'informations de sous-mots et de modèles de langue pour la Reche...
Combinaison d'informations de sous-mots et de modèles de langue pour la Reche...Combinaison d'informations de sous-mots et de modèles de langue pour la Reche...
Combinaison d'informations de sous-mots et de modèles de langue pour la Reche...CORIA-TALN 2018
 
Intégrer un podcast dans son cours - Pourquoi et comment ?
Intégrer un podcast dans son cours - Pourquoi et comment ? Intégrer un podcast dans son cours - Pourquoi et comment ?
Intégrer un podcast dans son cours - Pourquoi et comment ? SylvianeBachy
 
Une palette mathématique pour appréhender le langage
Une palette mathématique pour appréhender le langageUne palette mathématique pour appréhender le langage
Une palette mathématique pour appréhender le langageEric De la Clergerie
 
Algo vol.2 sujets
Algo vol.2   sujetsAlgo vol.2   sujets
Algo vol.2 sujetschrisdilane
 
Traitement Automatique Langade Naturel -TP1.pdf
Traitement Automatique Langade Naturel -TP1.pdfTraitement Automatique Langade Naturel -TP1.pdf
Traitement Automatique Langade Naturel -TP1.pdfjkebbab
 
la complexité des algorithmes en toute simplicité
la complexité des algorithmes en toute simplicitéla complexité des algorithmes en toute simplicité
la complexité des algorithmes en toute simplicitéSana REFAI
 

Similaire à Memoire presentation v1_1 (11)

4-Recherche d'information.pdf
4-Recherche d'information.pdf4-Recherche d'information.pdf
4-Recherche d'information.pdf
 
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
 
Combinaison d'informations de sous-mots et de modèles de langue pour la Reche...
Combinaison d'informations de sous-mots et de modèles de langue pour la Reche...Combinaison d'informations de sous-mots et de modèles de langue pour la Reche...
Combinaison d'informations de sous-mots et de modèles de langue pour la Reche...
 
Intégrer un podcast dans son cours - Pourquoi et comment ?
Intégrer un podcast dans son cours - Pourquoi et comment ? Intégrer un podcast dans son cours - Pourquoi et comment ?
Intégrer un podcast dans son cours - Pourquoi et comment ?
 
Une palette mathématique pour appréhender le langage
Une palette mathématique pour appréhender le langageUne palette mathématique pour appréhender le langage
Une palette mathématique pour appréhender le langage
 
R´evision d’ontologies fond´ee sur tableaux.doc
R´evision d’ontologies fond´ee sur tableaux.docR´evision d’ontologies fond´ee sur tableaux.doc
R´evision d’ontologies fond´ee sur tableaux.doc
 
Algo vol.2 sujets
Algo vol.2   sujetsAlgo vol.2   sujets
Algo vol.2 sujets
 
Traitement Automatique Langade Naturel -TP1.pdf
Traitement Automatique Langade Naturel -TP1.pdfTraitement Automatique Langade Naturel -TP1.pdf
Traitement Automatique Langade Naturel -TP1.pdf
 
Python
PythonPython
Python
 
la complexité des algorithmes en toute simplicité
la complexité des algorithmes en toute simplicitéla complexité des algorithmes en toute simplicité
la complexité des algorithmes en toute simplicité
 
4sci ap(2)
4sci ap(2)4sci ap(2)
4sci ap(2)
 

Memoire presentation v1_1

  • 1. Automated Analysis of L2 French Writing a preliminary study Nicholas Parslow1 Maitre de stage: Eric de la Clergerie UFR Linguistique Université Paris 7, Paris Diderot 26 juin 2015 Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 1 / 38
  • 2. Outline 1 Introduction 2 Outils ICALL : Intelligent Computer-Assisted Language Learning 3 Corpus d’apprenants (L2 français) 4 Langue L2 : traitement et métriques 5 Conclusions et Perspective Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 2 / 38
  • 3. Motivations ICALL, français, évaluation automatique L2 : langue non-native CEFR ICALL : ‘Intelligent Computer-Assisted Language Learning’ CAF : Complexity, Accuracy, Fluency Pourquoi automatique ? Efficacité Objectivité Granularité Suivie de progrès Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 3 / 38
  • 4. évaluation officielle du français Diplôme d’études en langue française (DELF) A1-B2 Diplôme approfondi en langue française (DALF) C1-C2 exemples de tâches à l’écrit : écrire une carte postale (A1) raconter une histoire de sa vie, écrire une brève lettre d’invitation, de remerciement etc. (A2) exprimer une opinion personnelle (B1) écrire une opinion formelle/argumentée (B2) synthèse de 3 documents (1000 mots C1, 2000 mots C2) Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 4 / 38
  • 5. Outline 1 Introduction 2 Outils ICALL : Intelligent Computer-Assisted Language Learning Évaluation automatique de textes en anglais Outils ICALL en français 3 Corpus d’apprenants (L2 français) 4 Langue L2 : traitement et métriques 5 Conclusions et Perspective Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 5 / 38
  • 6. Outils d’évaluation automatique en anglais Réseaux Bayésiens/Neurones/Sémantiques, LSA, analyse bigramme/RST, psycholinguistique besoin de 100-500 essais pour l’entraînement critique : dépendance forte envers la longueur du texte Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 6 / 38
  • 7. ICALL en français : Direkt Profil parse en chunks, > 31 variables, classification grossière F-score ≈ 0.70 Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 7 / 38
  • 8. Outline 1 Introduction 2 Outils ICALL : Intelligent Computer-Assisted Language Learning 3 Corpus d’apprenants (L2 français) Corpus pre-traitements 4 Langue L2 : traitement et métriques 5 Conclusions et Perspective Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 8 / 38
  • 9. Corpus L2 CEFLE : A1-B2 suédois + natif tâche : narrative 200 textes, 150k mots CHY-FLE : (merci à Freiderikos Valetopoulos) B1-C1 chypriote, grec, mélangés tâches : descriptions + essais 300 textes, 100k mots FipsOrtho : L1 et genres diverses 2468 erreurs annotées avec corrections (27 types d’erreurs) 362 mini-textes, 15k mots corrections plutôt locales Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 9 / 38
  • 10. pré-traitements CHY-FLE normalisation de noms de fichiers, enlèvement de doublants normalisation d’encodage rattachement de lignes coupées à 990 caractères normalisation de caractères non-reconnus, mots illisibles. FipsOrtho normalisation d’encodage reconstruction d’entrées originales et corrigées qui ont été mélangées addition des erreurs annotées mais pas corrigées et vice-versa correction des fautes d’orthographe dans les corrections Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 10 / 38
  • 11. Outline 1 Introduction 2 Outils ICALL : Intelligent Computer-Assisted Language Learning 3 Corpus d’apprenants (L2 français) 4 Langue L2 : traitement et métriques SxPipe et orthographe Vocabulaire Syntaxe : MElt et FRMG Cohésion-Sémantique : Word2Vec 5 Conclusions et Perspective Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 11 / 38
  • 12. sxpipe : Segmentation en phrase et tokenisation segmentation en phrases tokenisation correcteur d’orthographe (pour mots inconnus par rapport au Lefff) reconnaissance de mots étrangers Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 12 / 38
  • 13. sxpipe : Segmentation en phrase et tokenisation segmentation en phrases tokenisation correcteur d’orthographe (pour mots inconnus par rapport au Lefff) reconnaissance de mots étrangers variable corr* no. Phrases 0.10 no. Mots 0.56 lett. par mot 0.50 syll.s par mot 0.51 11 variables y compris : écart-types, no. paragraphes etc. Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 12 / 38
  • 14. sxpipe orthographe sur le corpus FipsOrtho Faute(s) bien Exemple(bien) mal ignoré Exemple(mal/ig) Diacritique 111 enormes 35 78 a (à) Emprunt 10 garden 22 48 las (les) Omission + 30 conduir 40 48 coleur(couleur) Séparation 17 parce-que 10 23 bien-tôt Phonétique 12 receuillis 19 38 tem (thème) ... ... total 215 (33%) 153 275 (24% et 43%) Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 13 / 38
  • 15. sxpipe orthographe sur le corpus FipsOrtho Faute(s) bien Exemple(bien) mal ignoré Exemple(mal/ig) Diacritique 111 enormes 35 78 a (à) Emprunt 10 garden 22 48 las (les) Omission + 30 conduir 40 48 coleur(couleur) Séparation 17 parce-que 10 23 bien-tôt Phonétique 12 receuillis 19 38 tem (thème) ... ... total 215 (33%) 153 275 (24% et 43%) variable corr* corrections ortho- graphiques par mot -0.65 Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 13 / 38
  • 16. Vocabulaire : Mesures intrinsèques : Diversité Lexicale Type-Token Ratio TTR = |V | N vocd-D TTR(N) = D N 1 + 2 N D 1 2 − 1 HD-D : HyperGeometric Distribution calculation of D HD-D = wordformi (1 − HyperGeom(0, 42, ni , N)) MTLD : Measure of Textual Lexical Diversity long. moyenne d’une séquence pour que le TTR tombe en dessous de 0.71 Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 14 / 38
  • 17. Vocabulaire : Mesures extrinsèques : Sophistication lexicale ‘qualité’ de mot ≈ fréquence en corpus L1 PLex échantillons de 10 mots compte no. de mots difficiles Pr(X = k) = λke−λ k! S prendre la couverture en fonction de bins de fréquence C(x) = log(x) log(S) × 100 Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 15 / 38
  • 18. Vocabulaire Résultats variable corr* corr(l) HD-D 0.58 0.41 VOCD 0.44 0.38 MTLD 0.24 0.21 Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 16 / 38
  • 19. Vocabulaire Résultats variable corr* corr(l) HD-D 0.58 0.41 VOCD 0.44 0.38 MTLD 0.24 0.21 variable corr* PLex 0.17 S -0.38 V 0-1k 0.35 V 3-4k 0.19 V 4-8k 0.31 V 8k+ -0.26 V autre -0.55 12 variables Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 16 / 38
  • 20. Vocabulaire Résultats variable corr* corr(l) HD-D 0.58 0.41 VOCD 0.44 0.38 MTLD 0.24 0.21 variable corr* PLex 0.17 S -0.38 V 0-1k 0.35 V 3-4k 0.19 V 4-8k 0.31 V 8k+ -0.26 V autre -0.55 12 variables Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 16 / 38
  • 21. Grammaire : Étapes d’acquisition Phrase Nominale (NUO) → Infinitive (IUO) → Fini (FUO) Temps non-marqué → présent → passé → conditionel/futur → plus-que-parfait/subjonctif Négation nég + ¯S, ¯NP etc. → nég + V / V + nég → ne ... rien/jamais → rien/personne ne . . . Pronoms SVOPr → S aux OPr V → S OPr aux V → y, en Subordination parataxe → qui/quand/parce que → si → dont, gérondif Déterminants φ → de le, au le → du, des, aux (Schlyter 2003) Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 17 / 38
  • 22. Grammaire : Étapes d’acquisition Phrase Nominale (NUO) → Infinitive (IUO) → Fini (FUO) Temps non-marqué → présent → passé → conditionel/futur → plus-que-parfait/subjonctif Négation nég + ¯S, ¯NP etc. → nég + V / V + nég → ne ... rien/jamais → rien/personne ne . . . Pronoms SVOPr → S aux OPr V → S OPr aux V → y, en Subordination parataxe → qui/quand/parce que → si → dont, gérondif Déterminants φ → de le, au le → du, des, aux (Schlyter 2003) Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 17 / 38
  • 23. Parsing : FRMG TAG fondée sur Metagrammaire de 368 arbres corrections grammaticales possibles en cas d’échec (relâchement de contraintes) mode robuste large couverture (97% sur FTB) Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 18 / 38
  • 24. FRMG sur le Corpus FipsOrtho : reconstruction d’arbres version corrigée ok corrected robust N Pr Re N Pr Re N Pr Re orig. ok 666.0 0.97 0.97 3.0 0.91 0.82 - corr. 110 0.95 0.94 2.0 1.0 1.0 - rob. 191 0.89 0.92 1.0 0.85 1.0 26.0 0.94 0.95 parmi les ok/ok : 228 phrases originales et corrigées identiques 449 mêmes arbres dans les deux cas Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 19 / 38
  • 25. FRMG sur le Corpus FipsOrtho : reconstruction d’arbres version corrigée ok corrected robust N Pr Re N Pr Re N Pr Re orig. ok 666.0 0.97 0.97 3.0 0.91 0.82 - corr. 110 0.95 0.94 2.0 1.0 1.0 - rob. 191 0.89 0.92 1.0 0.85 1.0 26.0 0.94 0.95 Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 19 / 38
  • 26. FRMG corrections (Bonnes Corrections) main error tag(s) MOR AGR other type de correction dans frmg aux. inf. 7 1 0 subject-verb agreement 2 12 2 N2 agreement2 - 47 - subject-aux. agreement 1 3 - adjective agreement - 8 - modal participle 3 - - 297 corrections dont 145 dans la même position qu’une faute annotée dont 86 bien 59 faux-positives : la plupart ‘light-verb’ et ‘optional arguments’ Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 20 / 38
  • 27. Erreurs non-rattrapées par FRMG Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 21 / 38
  • 28. Résultats FRMG variable corr* poid par mot 0.76 parsé sans corr. 0.56 diversité des arbres 0.36 variable corr* aux. verbes par VP 0.23 % VP complexes 0.43 rélatives par sent. 0.46 21 variables (types de temps/mode/clause etc.) Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 22 / 38
  • 29. MElt : Maximum-Entropy Lexicon-enriched tagger modèle de Markov MaxEnt 28 étiquettes fort en mots non-vus lors de l’entraînement 97.75% précision sur FTB Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 23 / 38
  • 30. MElt : Maximum-Entropy Lexicon-enriched tagger modèle de Markov MaxEnt 28 étiquettes fort en mots non-vus lors de l’entraînement 97.75% précision sur FTB Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 23 / 38
  • 31. Cohésion-Sémantique : Word2Vec Cohésion : un mauvais choix lexical peut diminuer la cohésion l’écriture en L2 a souvent une structure plus linéaire variable corr* mot-mot 0.46 phrase-phrase 0.28 phrase-texte 0.26 5 variables (mais beaucoup plus possibles) Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 24 / 38
  • 32. Classification (Préliminaire) classification vrai A1 A2 B1 B2 Natif A1 21 3 0 0 0 A2 13 21 7 1 0 B1 3 13 20 6 0 B2 0 2 7 31 2 Native 1 1 0 4 24 48 variables (Naif Bayes) Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 25 / 38
  • 33. Classification (Préliminaire) classification vrai A1 A2 B1 B2 Natif A1 21 3 0 0 0 A2 13 21 7 1 0 B1 3 13 20 6 0 B2 0 2 7 31 2 Native 1 1 0 4 24 48 variables (Naif Bayes) classification vrai A1 A2 B1 B2 Natif A1 19 4 1 0 0 A2 3 22 16 1 0 B1 1 12 18 8 3 B2 0 1 7 29 5 Native 0 0 6 4 20 avec les arbres (Réseau Bayésien) Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 25 / 38
  • 34. Outline 1 Introduction 2 Outils ICALL : Intelligent Computer-Assisted Language Learning 3 Corpus d’apprenants (L2 français) 4 Langue L2 : traitement et métriques 5 Conclusions et Perspective Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 26 / 38
  • 35. Difficultés et Perspectives Corpus Détection des bugs Segmentation en phrase Correcteur d’orthographe : Intégrant un modèle de langue / fréquence des mots Réprioritisation : prefixe/suffixe, _ETR Ajout d’information langue maternelle/anglais Additions morphologiques Phonétique L2 adaptations Sortie non-déterministe Parser FRMG Étape correcteur grammaticale (modèle de langue) avant/après un langage pour déclarer les règles de correction Parsing plus restreint et plus strict probabilités Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 27 / 38
  • 36. Hierarchie d’élements linguistiques (réseau Bayésien) Intégrer FRMG + MElt dans LightSide Construction d’interface web : estimation de niveau corrections suggestions collection de corpus Conclusions : la chaîne de traitement marche mieux qu’attendue on peut extraire des variables pertinentes avec plus de précision et variables, une classification efficace semble possible Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 28 / 38
  • 37. For Further Reading I S. Jarvis & M. Daller. Vocabulary knowledge : human ratings and automated measures John Benjamins B.V., 2013 M. Shermis & J. Burstein Handbook of Automated Essay Evaluation : Current Applications and New Directions Routledge, 2013 S. Schlyter. Stades de développement en français L2, 2003 Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 29 / 38
  • 38. more MElt µ = 0.87, σ = 0.20 µ = 0.96, σ = 0.12 Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 30 / 38
  • 39. Exemples d’erreurs non-rattrapées Description Exemple N Accord des noms propres Athènes était trop chaud 3 d’autres fautes dans la même syntagme ... qui viennent sinstaller ... (sans apostrophe) 11 coordination et ellipsis ... la Chappelle de Michalangelo, in- teressant. 4 parsé sans problème avec faute de catégorie Mais n’oublies pas de mettre un jean ... 2 ‘que’ /‘qui’ confusion ... l’anglais qui je peux enseigner ... 6 Accord oblige une autre forme du nom ... de nos jour ... 6 Ensemble de fautes dans la phrase entière Premier surprise il y a femmes que se trouvent en charge executifs, quelques femmes ont été President comme en Bolivie “Lidia Gueiler". 18 Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 31 / 38
  • 40. Exemples de fautes d’orthographe non-rattrapés enfans → ‘encans’ and famillie → ‘faillie’ : suggest incorporating word frequency into the edit distance. respet → ‘re-speth’ and example → ‘ex-ample’ : suggest a de-prioritisation of prefix/suffix analysis tourists → ‘touriste’ and stikers → ‘stokers’ : suggest including perhaps an L1 parameter or an English word lookup. plussieurs → ‘_ETR’ and échôppes → → ‘_ETR’ suggest a de-prioritisation of the foreign word recogniser. apart → ‘appart’ (instead of ‘à part’) and connetre → ‘contre’ (instead of ‘connaître’) suggests use of the context (via for example a language model, or tagger) Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 32 / 38
  • 41. exemples d’erreurs non-rattrapés (Verbaux) Description Exemple ignoré corr., jeté non-corr. parse éch. TPS : temps Quand j’étais petite, j’ai beaucoup aimé ... 19 1 2 MOR : orthographe ... qu’ils soyent ... 4 0 0 MOR : parti- cipe/infinitive pour adjectifs la crème glacée em- poisoner 0 4 2 AUX : être/avoir confusion/absent Le temps devenu gla- çant. 0 3 1 LEX, MOD, SUP : lexical difficultés Le projet ... s’exprime par 7 0 3 mal-annotée Asfaltées 0 0 1 Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 33 / 38
  • 42. FreeText Parseur Génerativiste, robuste, correction interactive FipsOrtho : correcteur orthographique pour L2 français distance d’édition interne au mot après premier essai de parsing alphacode phonétique fausse combinaison de morphème(s) Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 34 / 38
  • 43. sxpipe orthographe sur le corpus FipsOrtho Faute(s) Exemple(c) Exemple(o) bien mal ignoré total DIA enormes a (à) 79 16 51 146 EMP garden las (les) 9 19 44 72 DIA + scéne sur (sûr) 32 19 19 70 OMI + conduir coleur(couleur) 12 28 22 62 OMI developement recontrerai 18 12 26 56 SEP parce-que bien-tôt 17 10 23 50 PHO + receuillis tem (thème) 11 12 19 42 INS finallement chooses(choses) 17 8 10 35 PHO chére terres-neuves 1 7 19 27 PHG + royaune travillie 9 12 4 25 HPO - en (un) 0 0 15 15 SPC pour quoi il’s (ils) 4 2 6 12 EMP + studes professionales 1 3 4 8 PHG soyent historic 1 4 3 8 SUB cigareltes lieus 1 1 4 6 other acceuiller sons(sont) 3 0 6 9 Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 35 / 38
  • 44. Grammaire : L2 v L1 Par rapport à celles de L1, les phrases de L2 : sont plus courtes continent moins de modificateurs (propositionnels, adverbiales) ont plus de prépositions mal-choisis ont des excès de ‘et’, ‘mais’ et ‘parce que’, et une sous-utilisation de connecteurs plus compliqués Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 36 / 38
  • 45. Taux de succès en Parsing : corpus FipsOrtho version manuellement corrigée ok corrected robust N m.e.s. N m.e.s. N m.e.s. original ok 666 1.5 3.0 4.7 0 - corrected 110 3.7 2.0 1.5 0 - robust 191 3.8 1.0 9 26 3.8 m.e.s = mean errors per sentence parmi les ok/ok : 228 phrases originales et corrigées identiques 449 mêmes arbres dans les deux cas Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 37 / 38
  • 46. Outils ICALL en anglais Project Essay Grader (PEG) : traits + régression Intelligent Essay Assessor (IEA) : LSA thématiquement entraîné Intellimetric : 400 traits, selectionné selon la tâche E-Rater : variables NLP, de bigrammes à RST, utilisé pour TOEFL BETSY : réseau bayésien Markit : parse en chunks + mapping vers dictionnaire des synonymes LightSide : open source, non-spécifique Bookette : réseau de neurones Lexile : système fondé sur des mesures de difficulté de lecture Coh-Metrix : LSA, difficulté de mot psycholinguistique (>200 traits) autres : CRASE, Autoscore . . . Nicholas Parslow (Université Paris 7) Automated Analysis of L2 French Writing 26 juin 2015 38 / 38