L'annotation est une tâche cruciale pour le développement et l'évaluation de systèmes TAL. Entre notions de validité et de fiabilité de l'annotation, il est nécessaire de faire un choix conscient des métriques (Kappa, Pi, Alpha, etc.) à utiliser. Dans cette continuité, un focus est fait sur une approche unifiant mesure d'accord et alignement (Mathet and Widlöcher, 2011).
Pour tout commentaire, correction, amélioration : prénom.nom /dot/ irit.fr (Jean-Philippe Fauconnier)
1. Métriques pour l’évaluation de l’Annotation
Jean-Philippe Fauconnier
Institut de Recherche en Informatique de Toulouse
Équipe MELODI
25 novembre 2013
Jean-Philippe Fauconnier
Métriques pour l’Annotation
1 / 71
2. Introduction
1. Annotation au sens Linguistique et TAL
Annotation de corpus
Annotation : une méta-donnée sur du texte (Pustejovsky et Stubbs, 2012)
(...) it is not enough to simply provide a computer with a large
amount of data and expect it to learn to speak—the data has
to be prepared in such a way that the computer can more
easily find patterns and inferences. This is usually done by
adding relevant metadata to a dataset. Any metadata tag used
to mark up elements of the dataset is called an annotation
over the input.
Corpus annoté : ensemble de textes annotés (Pustejovsky et Stubbs, 2012)
Datasets of natural language are referred to as corpora, and a
single set of data annotated with the same specification is
called an annotated corpus.
Jean-Philippe Fauconnier
Métriques pour l’Annotation
2 / 71
3. Introduction
2. Pourquoi annoter ? (Rosset, 2013)
• Évaluer un modèle théorique (Péry-Woodley, et al., 2009)
• Développer/Évaluer un système TAL (Afantenos et al., 2010)
• Observer des phénomènes (Pascual, 1995 ; Rebeyrolle, 2009)
3. Cadre pour l’annotation
• Corpus
Pré-annoté ou non
• Annotateurs (≥2)
Étudiants, chercheurs, experts, etc.
• Guide d’annotation
Description de la tâche et rédaction itérative
• Schéma d’annotation
Conventions pour représenter l’annotation
• Outils
MAE (Stubbs, 2011), Glozz (Widlöcher et Mathet, 2009 ; 2012), etc.
Jean-Philippe Fauconnier
Métriques pour l’Annotation
3 / 71
4. Introduction
4. Pourquoi bien annoter ?
• Risque de silence pour les approche symboliques
• Risque de bruit dans les tâches en ML
• Faire des hypothèses et les éprouver empiriquement
• Assurer la reproductibilité de ces expériences
Constitution d’un corpus // méthodologie expérimentale (stat.)
→ Relation entre var. indépendantes et dépendantes
→ Diminuer les variables cachées (confounding factors)
→ Corpus et annotateurs "représentatifs"
→ Objectif : dégager des liens causalité
Cependant
• Mais en réalité, beaucoup de facteurs interviennent
• Et peut-on réellement considérer un annotateur comme un processus
aléatoire et indépendant ?
D’où un réel besoin d’évaluer.
Jean-Philippe Fauconnier
Métriques pour l’Annotation
4 / 71
5. Introduction
5. Évaluer pour :
-
Qualité du corpus
Qualité des annotations
Estimateurs stat. pour un phénomène
Produire un alignement consistant
6. Qu’est-ce qu’on évalue ?
-
Le corpus ?
Les annotateurs ?
Le guide d’annotation ?
Le schéma d’annotation ?
7. Et comment ?
- Tests d’hypothèse ?
- Corrélation intra-classes ?
- Coefficients d’accord ?
Jean-Philippe Fauconnier
Métriques pour l’Annotation
5 / 71
6. Introduction
Validity vs. Reliability :
Notions reprises de l’Analyse de Contenu (Krippendorf, 2004), où les chercheurs
visent à diminuer les biais, et adaptées au TAL (Artstein et Peosio, 2008).
1. Validity :
Vérifier la validité du schéma d’annotation.
• Les catégories définies sont-elles correctes ?
• Est-ce qu’il s’agit de la vérité ?
• Validity ← Reliability
2. Reliability :
Vérifier la fiabilité de la tâche d’annotation
• Stability :
Accord intra-annotateur
• Reproductibility :
Accord inter-annotateurs
• Accuracy :
Comparaison à un "gold standard"
Jean-Philippe Fauconnier
Métriques pour l’Annotation
6 / 71
7. Introduction
Et après l’évaluation de la validité/fiabilité ?
⇒ Question de l’alignement
Comment choisir l’annotation finale ?
- Un annotateur expert ?
- Un vote majoritaire ?
- Discussion entre annotateurs ?
→ Dépendances entre annotateurs ?
→ Mise à mal de la situation expérimentale ?
Dans les prochaines sections :
- Section 1 : Retour sur les coefficients d’accord
- Section 2 : Une approche unifiée pour l’accord et l’alignement
- Section 3 : Corpus LARAt - Un cas concret
Jean-Philippe Fauconnier
Métriques pour l’Annotation
7 / 71
8. 1
Coefficients pour l’accord
Nécessité d’une mesure du hasard
2 annotateurs : s, π et κ
Multiples-annotateurs : multi-π, multi-k
Métriques pondérées : α, kw et αk
Interprétation
2
Une approche holiste et unifiée
3
Corpus LARAt : un cas concret
Jean-Philippe Fauconnier
Métriques pour l’Annotation
8 / 71
9. Coefficients pour l’accord
Nécessité d’une mesure du hasard
Les coefficients d’accord (Artstein & Peosio, 2008)
- forment une famille de métriques
- mesurent l’accord entre codeurs
- sont contraints dans un intervalle [-1,1]
accord = 1 accord parfait
accord = 0 aucun accord
accord = -1 désaccord parfait
Pourquoi les coefficients d’accord ?
Il existe d’autres métriques/tests.
- Accord observé
- Test d’hypothèse du χ2
- Coefficients de corrélation
Jean-Philippe Fauconnier
Métriques pour l’Annotation
9 / 71
10. Coefficients pour l’accord
Nécessité d’une mesure du hasard : Accord observé
Accord Observé
Ao est la plus simple mesure pour l’accord
(1) Dénombrer les items i où les codeurs c sont en accord
(2) Accord = quand à un item i est assigné une même catégorie k
(3) Diviser par le nombre N d’items pour obtenir un pourcentage.
A2
isA instOf Synon Multi Total
isA
20
5
25
10
15
25
instOf
A1
Synon
15
10
25
Multi
5
20
25
Total
25
25
25
25
100
Ao =
Jean-Philippe Fauconnier
1
N
nk =
k∈K
60
= 0, 60
100
Métriques pour l’Annotation
10 / 71
11. Coefficients pour l’accord
Nécessité d’une mesure du hasard : Accord observé
Accord Observé
- Ao rentre dans le calcul de tous les coefficients
- Cependant Ao seul n’est pas suffisant
- Le facteur de "chance" est ignoré
- → impossibilité de comparer les études
Deux facteurs :
Variation de ces deux facteurs d’une étude à l’autre.
- Le nombre K de catégories (Scott, 1955)
- Distribution des items i (Di Eugenio et Glass, 2004)
Jean-Philippe Fauconnier
Métriques pour l’Annotation
11 / 71
12. Coefficients pour l’accord
Nécessité d’une mesure du hasard : Accord observé
(Scott, 1955)
"[percentage agreement] is biased in favor of dimensions with a
small number of categories."
k1
k2
Total
k1
1/4
1/2
k2
1/4
1/2
k1
k2
k3
Total
k1
1/9
1/3
k2
1/9
1/3
k3
1/9
1/3
K =2
Total
1/2
1/2
1
Jean-Philippe Fauconnier
Par "chance" : 1/4 des i
dans chaque cellule
Ao = 1/2
Total
1/3
1/3
1/3
1
K =3
Par "chance" : 1/9 des i
dans chaque cellule
Ao = 1/3
Métriques pour l’Annotation
12 / 71
13. Coefficients pour l’accord
Nécessité d’une mesure du hasard : Accord observé
(Arstein & Peosio, 2008)
"(...) we expect a higher percentage agreement when one category
is much more common than the other."
Supposons la distribution suivante :
- 95 % des i d’un domaine sont k1
- 5 % des i d’un domaine sont k2
k1
k2
Total
k1
0,95
0,95
k2
0,05
0,05
Jean-Philippe Fauconnier
Total
0,95
0,05
1
• Par "chance" : (0, 95)2
des i classés en k1 et
(0, 05)2 classés en k2 .
• Par "chance" :
Ao = (0, 95)2 + (0, 05)2
= 90,5 %
Métriques pour l’Annotation
13 / 71
14. Coefficients pour l’accord
Nécessité d’une mesure du hasard : Test du Chi-2
Un test statistique pour l’accord ?
- Tests d’hypothèses évaluent une hypothèse statistiquement
- Ces tests produisent une p-value qui permet de rejeter ou
accepter une hypothèse selon un risque alpha (souvent à 0,05)
Test du Chi-2
- Le χ2 teste l’indépendance entre deux V.A X et Y
- Sous H0 : X et Y sont indépendants
- Sous H1 : X et Y ont une "relation"
- Comparaison des distributions de X et Y pour choisir l’hypothèse
- Cependant, (Cohen, 1960) montre que le χ2 mesure l’association
et non l’accord.
Jean-Philippe Fauconnier
Métriques pour l’Annotation
14 / 71
15. Coefficients pour l’accord
Nécessité d’une mesure du hasard : Test du Chi-2
Test du χ2 de Pearson
isA
instOf
Synon
Multi
Total
isA
20
instOf
Synon
10
15
15
10
25
25
isA
isA
instOf
Synon
Multi
Total
5
25
instOf
Synon
10
15
15
10
25
25
Multi
5
25
25
Jean-Philippe Fauconnier
20
25
Multi
25
25
Total
25
25
25
25
100
Total
25
25
25
25
100
Ao = 0,60
X 2 = 140
p-value < 0,01
→ Accord
Ao = 0,20
X 2 = 204
p-value < 0,01
→ Désaccord
Métriques pour l’Annotation
15 / 71
16. Coefficients pour l’accord
Nécessité d’une mesure du hasard : Coefficients de corrélation
Coefficients de corrélation r et rs
- mesurent la corrélation entre une V.A X et Y
- prennent une valeur entre [-1,1]
- Cependant, mesurent l’existence d’une relation et non l’accord
Supposons l’exemple suivant :
- Deux expériences avec chacune 2 codeurs et 5 items
- À chaque item est attribué une valeur entre [1,5] (rating)
Item
a
b
c
d
e
Jean-Philippe Fauconnier
Exp1
A1 A2
1
1
2
2
3
3
4
4
5
5
Exp2
A1 A2
1
2
2
4
3
6
4
8
5
10
Métriques pour l’Annotation
16 / 71
17. Coefficients pour l’accord
Nécessité d’une mesure du hasard : Coefficients de corrélation
Existence d’une relation affine
r =
Ao = 1
→ Accord
Jean-Philippe Fauconnier
σx,y
=1
σx σy
Ao = -1
→ Désaccord
Métriques pour l’Annotation
17 / 71
18. Coefficients pour l’accord
Nécessité d’une mesure du hasard
Nécessiter d’une correction par la chance
- Ao ne suffit pas
- χ2 , r et rs ne sont pas adaptés
- il est nécessaire de prendre en compte la "chance" avec laquelle
les annotateurs auraient pu tomber d’accord.
Accord attendu
- Ae une mesure pour estimer le "hasard"
- Une formule qui corrige Ao
- Mesure corrigée de ce que serait l’accord "réel" sous l’effet du hasard.
- Si Ao élevé, mais que Ae l’est aussi 0
- Si Ao moyen, mais que Ae est bas, → 1
Ao − Ae
1 − Ae
Jean-Philippe Fauconnier
Métriques pour l’Annotation
18 / 71
19. 1
Coefficients pour l’accord
Nécessité d’une mesure du hasard
2 annotateurs : s, π et κ
Multiples-annotateurs : multi-π, multi-k
Métriques pondérées : α, kw et αk
Interprétation
2
Une approche holiste et unifiée
3
Corpus LARAt : un cas concret
Jean-Philippe Fauconnier
Métriques pour l’Annotation
19 / 71
20. Coefficients pour l’accord
2 annotateurs : S, Pi et Kappa
Comment estimer le hasard pour 2 annotateurs ?
- L’estimation de Ae diffère dans les métriques :
- S (Bennett et al., 1954)
- π (Scott, 1955)
- κ (Cohen, 1960)
- Mais la formule reste identique :
S, π, κ =
Jean-Philippe Fauconnier
Ao − Ae
1 − Ae
Métriques pour l’Annotation
20 / 71
21. Coefficients pour l’accord
2 annotateurs : S, Pi et Kappa
Comment calculer Ae ?
Situation expérimentale avec des annotateurs indépendants
Implique :
• Indépendance entre deux événements (d’annotation)
• Ainsi, si A et B, deux événements, sont indépendants :
P(A ∩ B) = P(A).P(B)
(*) L’hypothèse d’indépendance est très controversée (cf. John Uebersax)
Ae : la somme des produits sur toutes les catégories k :
AS , Aπ , Aκ =
e
e
e
P(kc1 ).P(kc2 )
k∈K
Jean-Philippe Fauconnier
Métriques pour l’Annotation
21 / 71
22. Coefficients pour l’accord
2 annotateurs : S, Pi et Kappa
Comment calculer
k∈K
P(kc1 ).P(kc2 ) ?
C’est dans l’estimation du hasard que S, π, κ diffèrent :
- S = Distribution uniforme
1
Pas de distinction p(k) = k
As =
e
1 1
k∈K k . k
- π = Une seule distribution
ˆ
Distinction des catégories p (k) =
Aπ =
e
k∈K
1
= k.( k )2 =
nk
2N
ˆ
ˆ
P(k).P(k) =
- κ = Distributions individuelles
Distinction des catégories et des codeurs
Aκ =
e
k∈K
Jean-Philippe Fauconnier
1
k
nk 2
k∈K ( 2N )
nc1 k
N
nc1 k nc2 k
k∈K N . N
ˆ
p (k|ci ) =
ˆ
ˆ
P(k|ci ).P(k|ci ) =
Métriques pour l’Annotation
22 / 71
23. Coefficients pour l’accord
2 annotateurs : comparaison
Comparaison des métriques
Pour Ao fixé à 0,60
isA
instOf
Synon
Multi
Total
isA
instOf
Synon
Multi
Total
isA
20
Synon
10
15
5
25
instOf
15
10
25
25
isA
20
10
10
instOf
10
10
Synon
10
40
20
Multi
5
20
25
Multi
10
Jean-Philippe Fauconnier
20
20
20
Total
25
25
25
25
100
Total
40
20
20
20
100
S = 0,467
π = 0,467
κ = 0,467
S = 0,467
π = 0,444
κ = 0,444
Métriques pour l’Annotation
23 / 71
24. Coefficients pour l’accord
2 annotateurs : comparaison
Comparaison des métriques
Pour Ao fixé à 0,60
isA
instOf
Synon
Multi
Total
isA
20
20
instOf
5
10
5
Synon
5
5
10
20
20
Multi
10
5
5
20
40
Total
40
20
20
20
100
S = 0,467
π = 0,460
κ = 0,474
"Paradoxe" du Kappa
Le κ augmente lorsque les distributions des annotateurs divergent
et, inversement, pénalise les distributions similaires.
Jean-Philippe Fauconnier
Métriques pour l’Annotation
24 / 71
25. 1
Coefficients pour l’accord
Nécessité d’une mesure du hasard
2 annotateurs : s, π et κ
Multiples-annotateurs : multi-π, multi-k
Métriques pondérées : α, kw et αk
Interprétation
2
Une approche holiste et unifiée
3
Corpus LARAt : un cas concret
Jean-Philippe Fauconnier
Métriques pour l’Annotation
25 / 71
26. Coefficients pour l’accord
Multiples annotateurs : multi-Pi et multi-kappa
Multi-π et Multi-k
- Métriques π et κ ont leur généralisation à de multiples codeurs
- π (Scott, 1955) ⇒ k de Fleiss (Fleiss, 1971), appelé multi-π
- κ (Cohen, 1960)⇒ k de (Davies et Fleiss, 1982), appelé multi-κ
"Accident" terminologique
En TAL :
• Proposition d’un "kappa" (Carletta, 1996)
• issu du K (Siegel et Castellan, 1988)
• lui-même issu du κ de Fleiss (Fleiss, 1971)
• Et le κ de Fleiss est une généralisation du π (Scott, 1955)
Jean-Philippe Fauconnier
Métriques pour l’Annotation
26 / 71
27. Coefficients pour l’accord
Multiples annotateurs : multi-Pi et multi-kappa
Principe
- Utilisation de tables d’accord
- Impossibilité d’utiliser des tables de contingence
- Divergences :
- Distribution seule : multi-π
- Distributions individuelles : multi-κ
Item
i1
i2
.
.
iN
Total
isA
1
3
instOf
0
1
Synon
2
0
Multi
1
0
0
60 (0,4)
4
15 (0,1)
0
30 (0,2)
0
45 (0,3)
Jean-Philippe Fauconnier
Métriques pour l’Annotation
27 / 71
28. 1
Coefficients pour l’accord
Nécessité d’une mesure du hasard
2 annotateurs : s, π et κ
Multiples-annotateurs : multi-π, multi-k
Métriques pondérées : α, kw et αk
Interprétation
2
Une approche holiste et unifiée
3
Corpus LARAt : un cas concret
Jean-Philippe Fauconnier
Métriques pour l’Annotation
28 / 71
29. Coefficients pour l’accord
Coefficient cube
Coefficient cube (Artstein et Peosio, 2008)
- Classification des coefficients selon 3 axes
Jean-Philippe Fauconnier
Métriques pour l’Annotation
29 / 71
30. Coefficients pour l’accord
Métriques pondérées
Métriques pondérées
- α (Krippendorf, 1980)
- κw (Cohen, 1968)
- αk (Artstein et Peosio, 2008)
Principe
• Utilisation d’une fonction de distance δ
• Mesurer le désaccord Do
De
-
Do
De
Do
De
Do
De
= 0 accord parfait
= 1 aucun accord
> 1 désaccord systématique
• Que l’on soustrait à 1 pour la comparaison entre coefficients
Do
1−
De
Jean-Philippe Fauconnier
Métriques pour l’Annotation
30 / 71
31. Coefficients pour l’accord
Métriques pondérées : fonction de distance
Fonction de distance δ
- Donner des coûts différents aux erreurs
- Utilisation d’une matrice de distance entre les catégories
- Permet de définir une distance pour plusieurs types de variables :
nominale, ordinale, rating, ratio
δki ,kj = (ki − kj )2 =
0
si ki = kj
0 < x ≤ 1 si ki = kj
- Croissance quadratique pour pénaliser les écarts
- La matrice de distance doit être symétrique
isA
instOf
Synon
Multi
Jean-Philippe Fauconnier
isA
0
0.5
1
1
instOf
0.5
0
1
1
Synon
1
1
0
1
Multi
1
1
1
0
Métriques pour l’Annotation
31 / 71
32. Coefficients pour l’accord
Métriques pondérées : alpha de krippendorf
α (Krippendorf, 1980)
- Multiples codeurs et types de variables
- Autorise les annotations manquantes
- Reste significatif avec de petits échantillons (Krippendorf, 2004)
- S’apparente au test ANOVA
Test ANOVA (Analysis of Variance)
- Le test ANOVA teste si deux V.A X et Y proviennent de la
même population
- Sous H0 : X et Y < même population
- Sous H1 : X et Y ne proviennent pas de la même population
- Comparaison des variances de X et Y pour choisir l’hypothèse
- Dans l’α :
- Faible variance
0 Accord
- Variance limitée 1 Aucun accord
- Variance élevée > 1 Désaccord
Jean-Philippe Fauconnier
Métriques pour l’Annotation
32 / 71
33. 1
Coefficients pour l’accord
Nécessité d’une mesure du hasard
2 annotateurs : s, π et κ
Multiples-annotateurs : multi-π, multi-k
Métriques pondérées : α, kw et αk
Interprétation
2
Une approche holiste et unifiée
3
Corpus LARAt : un cas concret
Jean-Philippe Fauconnier
Métriques pour l’Annotation
33 / 71
35. Coefficients pour l’accord
Interprétation des coefficients d’accord : biais et prévalence
Biais : le "paradoxe du k"
- Le k paraît récompenser les distributions qui diffèrent
- (Di Eugenio et Glass, 2004) : utiliser le κ en discours où les
distributions diffèrent, π/α quand les distributions sont similaires.
- (Artstein et Peosio, 2008) : bien qu’il y ait divergence pour un Ao
fixé, dans la pratique Ao et Ae sont dépendants (car issus des
mêmes données).
isA
instOf
Synon
Multi
Total
isA
20
20
instOf
5
10
5
Synon
5
5
10
20
20
Jean-Philippe Fauconnier
Multi
10
5
5
20
40
Total
40
20
20
20
100
S = 0,467
π = 0,460
κ = 0,474
Métriques pour l’Annotation
35 / 71
36. Coefficients pour l’accord
Interprétation des coefficients d’accord : biais et prévalence
Prévalence :
- La distribution des items tend à diminuer le coefficient.
- (Artstein et Peosio, 2008) : les coefficients corrigés par une
mesure de hasard sont sensibles à l’accord sur les catégories rares.
isA
Multi
Total
isA
0,90
0
0,90
Multi
0,05
0,05
0,10
Jean-Philippe Fauconnier
Total
0,95
0,05
1
• Ak = 0,95
o
• Ak = 0,86
e
• k
= 0,63
Métriques pour l’Annotation
36 / 71
37. Coefficients pour l’accord
Interprétation des coefficients d’accord
Quels coefficients pour quelle évaluation ?
(Artstein et Peosio, 2008)
1. Validité du schéma d’annotation
- Les coefficients à distributions individuelles k, kw et αk
reflètent mieux le travail individuel des annotateurs.
Les annotateurs ont-ils bien compris ?
Le schéma reflète-t-il la réalité/vérité ?
Le guide d’annotation est-il pertinent ?
2. Fiabilité de la tâche d’annotation
- Les coefficients à simple distribution π, multi-π, α
diminuent la variance et permettent la généralisation.
La tâche est-elle reproductible ?
L’annotation est-elle cohérente ?
Les résultats tirés de ce corpus sont fiables ?
Jean-Philippe Fauconnier
Métriques pour l’Annotation
37 / 71
38. 1
Coefficients pour l’accord
2
Une approche holiste et unifiée
Une approche holiste et unifiée
Le désaccord comme créateur de désordre
Alignement
Alignement idéal et mesure d’accord
3
Corpus LARAt : un cas concret
Jean-Philippe Fauconnier
Métriques pour l’Annotation
38 / 71
39. Une approche holiste et unifiée
Problématique : Accord et Alignement
Accord sur des unités non-prédéfinies
- Les coef. fonctionnent pour les cas où les unités sont prédéfinies
(e.g : PosTag, annotation syntaxique, etc.)
- Comment estimer l’accord avec des unités qui "pavent" le texte ?
(e.g : REN, chaînes anaphoriques, Discours, etc.)
Jean-Philippe Fauconnier
Métriques pour l’Annotation
39 / 71
40. Une approche holiste et unifiée
Problématique : Accord et Alignement
Accord sur des unités non-prédéfinies
- F-Mesure :
- Une annotation est considérée comme annotation de référence
- Une moy. harmonique est effectuée entre le rappel et la précision
- Moy. sur le corpus (micro-avg) ou sur chaque doc./cat. (macro-avg)
- Pour codeurs>2 , on préférera l’exactitude
Présent
Absent
precision =
Présent
TP
FP
TP
TP + FP
F (β) = (1 + β 2 )
TPci ,cj
N.C
c∈C
(micro-avg)
Absent
FN
TN
recall =
TP
TP + FN
precision.recall
β 2 .precision + recall
- Alternative : adaptation de α (voir Krippendorf, 2004)
Jean-Philippe Fauconnier
Métriques pour l’Annotation
40 / 71
41. Une approche holiste et unifiée
Problématique : Accord et Alignement
Accord sur des unités non-prédéfinies
- Comment définir un TP ?
À partir de quel écart est-on prêt à dire que 2 unités ayant une
position légèrement différente (chez c1 , c2 et c3 ) désignent bien
le même phénomène ?
Problème de l’alignement
- Le choix d’une métrique d’accord ne résout pas l’alignement :
Comment choisir la position finale ?
Comment choisir la catégorie finale ?
Comment produire un alignement consistant ?
Jean-Philippe Fauconnier
Métriques pour l’Annotation
41 / 71
42. Une approche holiste et unifiée
(Mathet, 2011)
Une approche holiste et unifiée (Mathet et Widlöcher, 2011)
- unifiée : définit l’accord et l’alignement en utilisant la position et
la catégorisation des items
- holiste : prend en compte tous les items pour l’alignement final
Principes :
- accord et alignement = tâches inter-dépendantes
- Meilleur alignement = alignement qui minimise le désordre
- Meilleur accord = valeur de désordre
Jean-Philippe Fauconnier
Métriques pour l’Annotation
42 / 71
43. 1
Coefficients pour l’accord
2
Une approche holiste et unifiée
Une approche holiste et unifiée
Le désaccord comme créateur de désordre
Alignement
Alignement idéal et mesure d’accord
3
Corpus LARAt : un cas concret
Jean-Philippe Fauconnier
Métriques pour l’Annotation
43 / 71
44. Une approche holiste et unifiée
Le désaccord comme créateur de désordre
Désaccord = Désordre
- Hypothèse : Pour c codeurs, même si position et catégorisation
diffèrent, elles devraient en grande partie converger (dans le cas
contraire, tâche = échec).
- Idée : calculer le désordre pour estimer le désaccord
- Accord parfait : les unités i ont les mêmes bornes et catégories
- Désaccord : les unités i n’ont pas les mêmes bornes et catégories
- Combien de transformations entre accord parfait et désaccord ?
Transformations
1. déplacement de bornes de début et de fin
2. requalification de catégories
3. suppression d’unités
Jean-Philippe Fauconnier
Métriques pour l’Annotation
44 / 71
45. Une approche holiste et unifiée
Le désaccord comme créateur de désordre
Fonction de Dissimilarité d
- La fonction de dissimilarité d s’apparente à la fonction δkrippendorf
- Différence : elle s’applique directement aux items i (et non aux k)
diu ,iv =
0
si iu = iv
0 < x si iu = iv
- Différence : elle est appliquée à la position et la catégorisation
• dpos mesure la distance dans le texte
• dcat mesure la distance entre catégories
Jean-Philippe Fauconnier
Métriques pour l’Annotation
45 / 71
46. Une approche holiste et unifiée
Le désaccord comme créateur de désordre
Dissimilarité positionnelle
- Soit start(i) et end (i) pour l’indice de début et de fin de l’item i
dans le texte
2
|start(iu ) − start(iv )| + |end (iu ) − end (iu )|
dpos iu ,iv =
(end(iu )−start(iu ))+(start(iv )+end(iv ))
2
• Croissance quadratique pour pénaliser les écarts importants
• |start(iu ) − start(iv )| + |end (iu ) − end (iu )|
Somme des écarts absolus pour deux items
•
(end(iu )−start(iu ))+(end(iv )+start(iv ))
2
Moyenne des unités. Permet le passage à des échelles différentes.
Jean-Philippe Fauconnier
Métriques pour l’Annotation
46 / 71
47. Une approche holiste et unifiée
Le désaccord comme créateur de désordre
Dissimilarité catégorielle
- Deux fonctions :
- dcat : dissimilarité entre deux unités
- distcat : différence entre les catégories dans la matrice symétrique
- où dcat est :
dcat
iu ,iv
= distcat (kiu , kiv ).∆∅
- où distcat retourne la valeur dans la matrice :
isA
instOf
Synon
Multi
Jean-Philippe Fauconnier
isA
0
0.5
1
1
instOf
0.5
0
1
1
Synon
1
1
0
1
Multi
1
1
1
0
Métriques pour l’Annotation
47 / 71
48. Une approche holiste et unifiée
Le désaccord comme créateur de désordre
Dissimilarité combinée
- dcombi est une combinaison linéaire de dpos et dcat
dcombi
iu ,iv
= a.dpos (iu , iv ) + b.dcat (iu , iv )
- où si a = 0, 5 et b = 0, 5, un poids égal est donné aux deux
dissimilarités :
dcombi
iu ,iv
Jean-Philippe Fauconnier
=
dpos (iu , iv ) + dcat (iu , iv )
2
Métriques pour l’Annotation
48 / 71
49. 1
Coefficients pour l’accord
2
Une approche holiste et unifiée
Une approche holiste et unifiée
Le désaccord comme créateur de désordre
Alignement
Alignement idéal et mesure d’accord
3
Corpus LARAt : un cas concret
Jean-Philippe Fauconnier
Métriques pour l’Annotation
49 / 71
50. Une approche holiste et unifiée
Alignement
Distinction entre alignement unitaire et alignement
.
- a = un alignement unitaire entre deux unités
- ¯ = un ensemble d’alignements unitaires pour un jeu d’annotation
a
Alignement unitaire
.
- a, un n-uplet, avec n compris dans l’intervalle [1, C ]
.
- a contient, au plus, une unité de chaque annotateur
Alignement
c1
c2
1
( i1 , i∅ )
1
2
( i1 , i1 )
( ... , ... )
1
2
( i3 , i12 )
→ alignement vide avec unité fictive i∅
→ vrai alignement
→ "faux" alignement
Nombre d’alignements unitaires générables : (
Jean-Philippe Fauconnier
c∈C
Nc ) − 1
Métriques pour l’Annotation
50 / 71
51. Une approche holiste et unifiée
Alignement et Entropie
Alignement et Entropie
Entropie dans le sens de désordre (et non de (Shannon, 1948))
Alignement unitaire :
- Idée : mesurer le désordre d’un alignement unitaire en utilisant
une fonction de dissimilarité
- On mesure l’"entropie" d’un alignement unitaire, pour une dx
donnée, en faisant la moyenne de ses dissimilarités.
. .
e(a) =
1
n
2
dx (iu , iv )
.
iu ,iv ∈a
Intuition
Au plus un alignement unitaire aura de grandes distances entre ses
unités, au plus il aura de "désordre", c’est-à-dire d’entropie au sens
de (Mathet, 2011).
Jean-Philippe Fauconnier
Métriques pour l’Annotation
51 / 71
52. Une approche holiste et unifiée
Alignement et Entropie
Alignement et Entropie
Entropie dans le sens de désordre (et non de (Shannon, 1948))
Alignement :
- On mesure l’"entropie" d’un alignement en faisant la moyenne de
.
l’entropie de chacun de ses alignements unitaires a
1
¯a
e (¯) =
|¯|
a
|¯|
a
. .
e(a)
i=1
- Ici, la moyenne est considérée afin d’éviter, dans le cas de
comparaison entre deux jeux, l’un avec doublons et l’autre sans,
qu’il y ait une différence d’entropie.
Jean-Philippe Fauconnier
Métriques pour l’Annotation
52 / 71
53. 1
Coefficients pour l’accord
2
Une approche holiste et unifiée
Une approche holiste et unifiée
Le désaccord comme créateur de désordre
Alignement
Alignement idéal et mesure d’accord
3
Corpus LARAt : un cas concret
Jean-Philippe Fauconnier
Métriques pour l’Annotation
53 / 71
54. Une approche holiste et unifiée
Alignement idéal et mesure d’accord
Alignement idéal :
- ˆ est l’alignement ¯ qui minimise l’entropie pour tous les
a
a
.
alignements unitaires a possibles pour un jeu d’annotations j.
Mesure d’accord
- Pour un jeu d’annotations j et un corpus c (textes nus) :
ealeatoire (c) − e(j)
ealeatoire (c)
- où ealeatoire est une estimation du "hasard" (cf. section 1), c-à-d
de ce que pourrait être l’entropie pour un corpus donné.
accord (j) =
Interprétation
• Si accord (j) = 1, accord parfait et entropie nulle.
• Si accord (j) ≤ 0, aucun accord.
Jean-Philippe Fauconnier
Métriques pour l’Annotation
54 / 71
55. Une approche holiste et unifiée
Alignement idée et mesure d’accord
Ainsi :
- le choix de l’alignement idéal se fait sur base de l’entropie
- réciproquement, la mesure d’accord se fait sur base de
l’alignement idéal.
Dans la pratique :
.
- Réduction de l’espace de recherche en enlevant les a improbables
- Algorithme d’approximation pour une solution approchée de ˆ
a
- Nécessité, cependant, de définir un ∆∅ pour chaque campagne
Jean-Philippe Fauconnier
Métriques pour l’Annotation
55 / 71
56. 1
Coefficients pour l’accord
2
Une approche holiste et unifiée
3
Corpus LARAt : un cas concret
Cadre
Retour sur la tâche d’annotation
Exploitation
Jean-Philippe Fauconnier
Métriques pour l’Annotation
56 / 71
57. Corpus LARAt
Cadre
Une campagne d’annotation
- Objectif : Annoter des structures énumératives selon une
typologie multi-dimensionnelle avec plusieurs axes.
- Corpus :
- 249 documents de Wikipédia (< GEONTO)
- 87 documents de Annodis
- Un guide d’annotation
- 2 annotateurs étudiants
Outil :
- Les SE sont objets discursifs où la mise en forme du texte est
nécessaire pour l’annotation en texte.
- Les outils tels que Callisto, MMAX2, Glozz ne conviennent pas.
- Nécessité d’un outil adapté :
Développement de LARAt
Jean-Philippe Fauconnier
Métriques pour l’Annotation
57 / 71
59. Corpus LARAt
Retour sur la tâche d’annotation
Des distributions différentes pour les annotateurs :
- Annotateur 1 sur Axe Sémantique
Jean-Philippe Fauconnier
Métriques pour l’Annotation
59 / 71
60. Corpus LARAt
Retour sur la tâche d’annotation
Des distributions différentes pour les annotateurs :
- Annotateur 2 sur Axe Sémantique
Jean-Philippe Fauconnier
Métriques pour l’Annotation
60 / 71
61. Corpus LARAt
Retour sur la tâche d’annotation
Distributions différentes au niveau du nombre d’items :
- Les classes InstanceOf et isA : grand nombre d’items + outliers
Jean-Philippe Fauconnier
Métriques pour l’Annotation
61 / 71
62. Corpus LARAt
Exploitation
Exploitation :
1. Nécessité de définir un alignement pour calculer les accords
2. Calculer des coef. à distributions individuelles pour évaluer la
typologie (k)
3. calculer des coef. à distribution simple pour évaluer le
corpus/tâche (α)
1. Alignement par le positionnement
- Les multiples axes empêchent une approche unifiée
- Alternative : estimer les paramètres de distance
- qui nécessite d’annoter un petit set d’annotations ..
Jean-Philippe Fauconnier
Métriques pour l’Annotation
62 / 71
63. Corpus LARAt
Exploitation : alignement par le positionnement
Génération d’alignements unitaires
- Sous-ensemble restreint du corpus (env. 300 annot.)
- Objectif : estimer des seuils sur diff − start et diff − end
Jean-Philippe Fauconnier
Métriques pour l’Annotation
63 / 71
64. Corpus LARAt
Exploitation : alignement par le positionnement
Annotation semi-automatique des alignements "réels"
Jean-Philippe Fauconnier
Métriques pour l’Annotation
64 / 71
65. Corpus LARAt
Exploitation : alignement par le positionnement
Estimation d’une frontière de décision
- Par Support Vector Machine (SVM)
Jean-Philippe Fauconnier
Métriques pour l’Annotation
65 / 71
66. Corpus LARAt
Exploitation : alignement par le positionnement
Estimation d’une frontière de décision
- Par régression logistique (ici sur la seule variable diff − start)
- Moyennement efficace mais modèle moins "boîte noire"
Jean-Philippe Fauconnier
Métriques pour l’Annotation
66 / 71
67. Conclusion
L’annotation
- est à la base de la majorité des systèmes TAL
- est un sujet non clos :
-
L’annotation multi-labels
Le seuil d’accord humain et les performances en ML
Les annotateurs réellement "aléatoires" sous A. Mechanical Turk
etc.
Accord et Alignement :
- ne sont pas des problèmes indépendants
- il existe de nombreuses métriques :
- Nécessité d’un choix conscient
- Et d’intervalles de confiance ?
Jean-Philippe Fauconnier
Métriques pour l’Annotation
67 / 71
68. Références
• S. Afantenos, P. Denis, P. Muller, and L. Danlos, "Learning recursive
segments for discourse parsing," in Proc. Proceedings of 7th Language
Resources and Evaluation Conference (LREC 2010), 2010.
• R. Artstein and M. Poesio, "Inter-coder agreement for computational
linguistics," Computational Linguistics, vol. 34, iss. 4, pp. 555-596, 2008.
• E. M. Bennett, R. Alpert, and A. Goldstein, "Communications through
limited-response questioning," Public Opinion Quarterly, vol. 18, iss. 3, pp.
303-308, 1954.
• Y. Bestgen, "Quels indices pour mesurer l’efficacité en segmentation
thématique ?," in Proc. Actes de la 16e Conférence sur le Traitement
Automatique des Langues Naturelles (TALN 2009), 2009.
• J. Carletta, "Assessing agreement on classification tasks : the kappa
statistic," Computational linguistics, vol. 22, iss. 2, pp. 249-254, 1996.
• J. Cohen and others, "A coefficient of agreement for nominal scales,"
Educational and psychological measurement, vol. 20, iss. 1, pp. 37-46, 1960.
• J. Cohen, "Weighted kappa : Nominal scale agreement provision for scaled
disagreement or partial credit.," Psychological bulletin, vol. 70, iss. 4, p.
213, 1968.
• B. Di Eugenio and M. Glass, "The kappa statistic : A second look,"
Computational linguistics, vol. 30, iss. 1, pp. 95-101, 2004.
Jean-Philippe Fauconnier
Métriques pour l’Annotation
68 / 71
69. Références
• J. L. Fleiss, "Measuring nominal scale agreement among many raters.,"
Psychological bulletin, vol. 76, iss. 5, p. 378, 1971.
• Fort, K., Corpus Linguistics : Inter-Annotator Agreements, INIST, 2011.
• A. M. Green, "Kappa statistics for multiple raters using categorical
classifications," in Proc. Proceedings of the 22nd annual SAS User Group
International conference, 1997, pp. 1110-1115.
• C. Grouin, S. Rosset, P. Zweigenbaum, K. Fort, O. Galibert, and L.
Quintard, "Proposal for an extension of traditional named entities : From
guidelines to evaluation, an overview," in Proc. Proceedings of the 5th
Linguistic Annotation Workshop, 2011, pp. 92-100.
• K. Krippendorff, Content analysis : An introduction to its methodology,
Sage Publications, 1980.
• K. Krippendorff, "On the reliability of unitizing continuous data,"
Sociological Methodology, pp. 47-76, 1995.
• K. Krippendorff, "Measuring the reliability of qualitative text analysis data,"
Quality & Quantity, vol. 38, pp. 787-800, 2004.
• R. J. Landis and G. G. Koch, "The measurement of observer agreement for
categorical data," biometrics, pp. 159-174, 1977.
Jean-Philippe Fauconnier
Métriques pour l’Annotation
69 / 71
70. Références
• Y. Mathet and A. Widlöcher, "Une approche holiste et unifiée de
l’alignement et de la mesure d’accord inter-annotateurs," in Proc. Actes de
la 18e Conférence sur le Traitement Automatique des Langues Naturelles
(TALN 2011), 2011.
• C. Müller and M. Strube, "Multi-level annotation of linguistic data with
MMAX2," , Braun, S., Kohn, K., and Mukherjee, J., Eds., Frankfurt a.M.,
Germany : Peter Lang, 2006, pp. 197-214.
• E. Pascual and M. P. Pery-Woodley, "La définition dans le texte," Textes de
type consigne–Perception, action, cognition, pp. 65-88, 1995.
• M. Péry-Woodley, N. Asher, P. Enjalbert, F. Benamara, M. Bras, C. Fabre,
S. Ferrari, L. Ho-Dac, A. Le Draoulec, Y. Mathet, and others, "ANNODIS :
une approche outillée de l’annotation de structures discursives," in Proc.
Actes de la 16e Conférence sur le Traitement Automatique des Langues
Naturelles (TALN 2009), 2009.
• J. Pustejovsky and A. Stubbs, Natural language annotation for machine
learning, O’Reilly, 2012.
• J. Rebeyrolle, M. P. Jacques, M. P. Péry-Woodley, and others, "Titres et
intertitres dans l’organisation du discours 1," Journal of French Language
Studies, vol. 19, iss. 2, p. 269, 2009.
Jean-Philippe Fauconnier
Métriques pour l’Annotation
70 / 71
71. Références
• Rosset, S., Accords inter-annotateurs dans une campagne d’annotation : de
la théorie à la pratique, CLEE-ERSS, 2013.
• W. A. Scott, "Reliability of content analysis : The case of nominal scale
coding.," Public opinion quarterly, 1955.
• S. Siegel and J. N. Castellan, Nonparametric Statistics for the Behavioral
Sciences, McGraw-HiU Book Company, N. Y., Ed., , 1988, vol. 2nd edition.
• C. E. Shannon, "A mathematical theory of communication," The Bell
System Technical Journal„ vol. 27, iss. 1, pp. 379-423, 1948.
• A. Stubbs, "MAE and MAI : Lightweight Annotation and Adjudication
Tools," in Proc. Proceedings of the 5th Linguistic Annotation Workshop,
Association of Computational Linguistics, Portland, 2011.
• A. Widlöcher and Y. Mathet, "La plate-forme Glozz : environnement
d’annotation et d’exploration de corpus," in Proc. Actes de la 16e
Conférence sur le Traitement Automatique des Langues Naturelles (TALN
2009), 2009.
• A. Widlöcher and Y. Mathet, "The Glozz platform : a corpus annotation
and mining tool," in Proc. Proceedings of the 2012 ACM symposium on
Document engineering, 2012, pp. 171-180.
Jean-Philippe Fauconnier
Métriques pour l’Annotation
71 / 71