Métriques pour l’évaluation de l’Annotation
Jean-Philippe Fauconnier

Institut de Recherche en Informatique de Toulouse
Équipe MELODI

25 novembre 2013

Jean-Philippe Fauconnier

Métriques pour l’Annotation

1 / 71
Introduction
1. Annotation au sens Linguistique et TAL
Annotation de corpus
Annotation : une méta-donnée sur du texte (Pustejovsky et Stubbs, 2012)
(...) it is not enough to simply provide a computer with a large
amount of data and expect it to learn to speak—the data has
to be prepared in such a way that the computer can more
easily find patterns and inferences. This is usually done by
adding relevant metadata to a dataset. Any metadata tag used
to mark up elements of the dataset is called an annotation
over the input.
Corpus annoté : ensemble de textes annotés (Pustejovsky et Stubbs, 2012)
Datasets of natural language are referred to as corpora, and a
single set of data annotated with the same specification is
called an annotated corpus.

Jean-Philippe Fauconnier

Métriques pour l’Annotation

2 / 71
Introduction
2. Pourquoi annoter ? (Rosset, 2013)
• Évaluer un modèle théorique (Péry-Woodley, et al., 2009)
• Développer/Évaluer un système TAL (Afantenos et al., 2010)
• Observer des phénomènes (Pascual, 1995 ; Rebeyrolle, 2009)
3. Cadre pour l’annotation
• Corpus
Pré-annoté ou non
• Annotateurs (≥2)
Étudiants, chercheurs, experts, etc.
• Guide d’annotation
Description de la tâche et rédaction itérative
• Schéma d’annotation
Conventions pour représenter l’annotation
• Outils
MAE (Stubbs, 2011), Glozz (Widlöcher et Mathet, 2009 ; 2012), etc.
Jean-Philippe Fauconnier

Métriques pour l’Annotation

3 / 71
Introduction
4. Pourquoi bien annoter ?
• Risque de silence pour les approche symboliques
• Risque de bruit dans les tâches en ML
• Faire des hypothèses et les éprouver empiriquement
• Assurer la reproductibilité de ces expériences
Constitution d’un corpus // méthodologie expérimentale (stat.)
→ Relation entre var. indépendantes et dépendantes
→ Diminuer les variables cachées (confounding factors)
→ Corpus et annotateurs "représentatifs"
→ Objectif : dégager des liens causalité
Cependant
• Mais en réalité, beaucoup de facteurs interviennent
• Et peut-on réellement considérer un annotateur comme un processus
aléatoire et indépendant ?

D’où un réel besoin d’évaluer.
Jean-Philippe Fauconnier

Métriques pour l’Annotation

4 / 71
Introduction
5. Évaluer pour :
-

Qualité du corpus
Qualité des annotations
Estimateurs stat. pour un phénomène
Produire un alignement consistant

6. Qu’est-ce qu’on évalue ?
-

Le corpus ?
Les annotateurs ?
Le guide d’annotation ?
Le schéma d’annotation ?

7. Et comment ?
- Tests d’hypothèse ?
- Corrélation intra-classes ?
- Coefficients d’accord ?
Jean-Philippe Fauconnier

Métriques pour l’Annotation

5 / 71
Introduction
Validity vs. Reliability :
Notions reprises de l’Analyse de Contenu (Krippendorf, 2004), où les chercheurs
visent à diminuer les biais, et adaptées au TAL (Artstein et Peosio, 2008).

1. Validity :
Vérifier la validité du schéma d’annotation.
• Les catégories définies sont-elles correctes ?
• Est-ce qu’il s’agit de la vérité ?
• Validity ← Reliability

2. Reliability :
Vérifier la fiabilité de la tâche d’annotation
• Stability :
Accord intra-annotateur
• Reproductibility :
Accord inter-annotateurs
• Accuracy :
Comparaison à un "gold standard"
Jean-Philippe Fauconnier

Métriques pour l’Annotation

6 / 71
Introduction
Et après l’évaluation de la validité/fiabilité ?
⇒ Question de l’alignement
Comment choisir l’annotation finale ?
- Un annotateur expert ?
- Un vote majoritaire ?
- Discussion entre annotateurs ?
→ Dépendances entre annotateurs ?
→ Mise à mal de la situation expérimentale ?

Dans les prochaines sections :
- Section 1 : Retour sur les coefficients d’accord
- Section 2 : Une approche unifiée pour l’accord et l’alignement
- Section 3 : Corpus LARAt - Un cas concret

Jean-Philippe Fauconnier

Métriques pour l’Annotation

7 / 71
1

Coefficients pour l’accord
Nécessité d’une mesure du hasard
2 annotateurs : s, π et κ
Multiples-annotateurs : multi-π, multi-k
Métriques pondérées : α, kw et αk
Interprétation

2

Une approche holiste et unifiée

3

Corpus LARAt : un cas concret

Jean-Philippe Fauconnier

Métriques pour l’Annotation

8 / 71
Coefficients pour l’accord
Nécessité d’une mesure du hasard

Les coefficients d’accord (Artstein & Peosio, 2008)
- forment une famille de métriques
- mesurent l’accord entre codeurs
- sont contraints dans un intervalle [-1,1]
accord = 1 accord parfait
accord = 0 aucun accord
accord = -1 désaccord parfait
Pourquoi les coefficients d’accord ?
Il existe d’autres métriques/tests.
- Accord observé
- Test d’hypothèse du χ2
- Coefficients de corrélation
Jean-Philippe Fauconnier

Métriques pour l’Annotation

9 / 71
Coefficients pour l’accord
Nécessité d’une mesure du hasard : Accord observé

Accord Observé
Ao est la plus simple mesure pour l’accord
(1) Dénombrer les items i où les codeurs c sont en accord
(2) Accord = quand à un item i est assigné une même catégorie k
(3) Diviser par le nombre N d’items pour obtenir un pourcentage.
A2
isA instOf Synon Multi Total
isA
20
5
25
10
15
25
instOf
A1
Synon
15
10
25
Multi
5
20
25
Total
25
25
25
25
100
Ao =
Jean-Philippe Fauconnier

1
N

nk =
k∈K

60
= 0, 60
100
Métriques pour l’Annotation

10 / 71
Coefficients pour l’accord
Nécessité d’une mesure du hasard : Accord observé

Accord Observé
- Ao rentre dans le calcul de tous les coefficients
- Cependant Ao seul n’est pas suffisant
- Le facteur de "chance" est ignoré
- → impossibilité de comparer les études
Deux facteurs :
Variation de ces deux facteurs d’une étude à l’autre.
- Le nombre K de catégories (Scott, 1955)
- Distribution des items i (Di Eugenio et Glass, 2004)

Jean-Philippe Fauconnier

Métriques pour l’Annotation

11 / 71
Coefficients pour l’accord
Nécessité d’une mesure du hasard : Accord observé

(Scott, 1955)
"[percentage agreement] is biased in favor of dimensions with a
small number of categories."

k1
k2
Total

k1
1/4
1/2

k2
1/4
1/2

k1
k2
k3
Total

k1
1/9
1/3

k2
1/9
1/3

k3
1/9
1/3

K =2

Total
1/2
1/2
1

Jean-Philippe Fauconnier

Par "chance" : 1/4 des i
dans chaque cellule
Ao = 1/2
Total
1/3
1/3
1/3
1

K =3
Par "chance" : 1/9 des i
dans chaque cellule
Ao = 1/3
Métriques pour l’Annotation

12 / 71
Coefficients pour l’accord
Nécessité d’une mesure du hasard : Accord observé

(Arstein & Peosio, 2008)
"(...) we expect a higher percentage agreement when one category
is much more common than the other."
Supposons la distribution suivante :
- 95 % des i d’un domaine sont k1
- 5 % des i d’un domaine sont k2

k1
k2
Total

k1
0,95
0,95

k2
0,05
0,05

Jean-Philippe Fauconnier

Total
0,95
0,05
1

• Par "chance" : (0, 95)2
des i classés en k1 et
(0, 05)2 classés en k2 .
• Par "chance" :
Ao = (0, 95)2 + (0, 05)2
= 90,5 %
Métriques pour l’Annotation

13 / 71
Coefficients pour l’accord
Nécessité d’une mesure du hasard : Test du Chi-2

Un test statistique pour l’accord ?
- Tests d’hypothèses évaluent une hypothèse statistiquement
- Ces tests produisent une p-value qui permet de rejeter ou
accepter une hypothèse selon un risque alpha (souvent à 0,05)
Test du Chi-2
- Le χ2 teste l’indépendance entre deux V.A X et Y
- Sous H0 : X et Y sont indépendants
- Sous H1 : X et Y ont une "relation"

- Comparaison des distributions de X et Y pour choisir l’hypothèse
- Cependant, (Cohen, 1960) montre que le χ2 mesure l’association
et non l’accord.

Jean-Philippe Fauconnier

Métriques pour l’Annotation

14 / 71
Coefficients pour l’accord
Nécessité d’une mesure du hasard : Test du Chi-2

Test du χ2 de Pearson

isA
instOf
Synon
Multi
Total

isA
20

instOf

Synon

10
15

15
10

25

25

isA
isA
instOf
Synon
Multi
Total

5
25

instOf

Synon

10
15

15
10

25

25

Multi
5

25
25

Jean-Philippe Fauconnier

20
25
Multi
25

25

Total
25
25
25
25
100
Total
25
25
25
25
100

Ao = 0,60
X 2 = 140
p-value < 0,01
→ Accord

Ao = 0,20
X 2 = 204
p-value < 0,01
→ Désaccord

Métriques pour l’Annotation

15 / 71
Coefficients pour l’accord
Nécessité d’une mesure du hasard : Coefficients de corrélation

Coefficients de corrélation r et rs
- mesurent la corrélation entre une V.A X et Y
- prennent une valeur entre [-1,1]
- Cependant, mesurent l’existence d’une relation et non l’accord
Supposons l’exemple suivant :
- Deux expériences avec chacune 2 codeurs et 5 items
- À chaque item est attribué une valeur entre [1,5] (rating)
Item
a
b
c
d
e
Jean-Philippe Fauconnier

Exp1
A1 A2
1
1
2
2
3
3
4
4
5
5

Exp2
A1 A2
1
2
2
4
3
6
4
8
5
10
Métriques pour l’Annotation

16 / 71
Coefficients pour l’accord
Nécessité d’une mesure du hasard : Coefficients de corrélation

Existence d’une relation affine

r =
Ao = 1
→ Accord
Jean-Philippe Fauconnier

σx,y
=1
σx σy
Ao = -1
→ Désaccord
Métriques pour l’Annotation

17 / 71
Coefficients pour l’accord
Nécessité d’une mesure du hasard

Nécessiter d’une correction par la chance
- Ao ne suffit pas
- χ2 , r et rs ne sont pas adaptés
- il est nécessaire de prendre en compte la "chance" avec laquelle
les annotateurs auraient pu tomber d’accord.
Accord attendu
- Ae une mesure pour estimer le "hasard"
- Une formule qui corrige Ao
- Mesure corrigée de ce que serait l’accord "réel" sous l’effet du hasard.
- Si Ao élevé, mais que Ae l’est aussi 0
- Si Ao moyen, mais que Ae est bas, → 1

Ao − Ae
1 − Ae
Jean-Philippe Fauconnier

Métriques pour l’Annotation

18 / 71
1

Coefficients pour l’accord
Nécessité d’une mesure du hasard
2 annotateurs : s, π et κ
Multiples-annotateurs : multi-π, multi-k
Métriques pondérées : α, kw et αk
Interprétation

2

Une approche holiste et unifiée

3

Corpus LARAt : un cas concret

Jean-Philippe Fauconnier

Métriques pour l’Annotation

19 / 71
Coefficients pour l’accord
2 annotateurs : S, Pi et Kappa

Comment estimer le hasard pour 2 annotateurs ?
- L’estimation de Ae diffère dans les métriques :
- S (Bennett et al., 1954)
- π (Scott, 1955)
- κ (Cohen, 1960)

- Mais la formule reste identique :

S, π, κ =

Jean-Philippe Fauconnier

Ao − Ae
1 − Ae
Métriques pour l’Annotation

20 / 71
Coefficients pour l’accord
2 annotateurs : S, Pi et Kappa

Comment calculer Ae ?
Situation expérimentale avec des annotateurs indépendants
Implique :
• Indépendance entre deux événements (d’annotation)
• Ainsi, si A et B, deux événements, sont indépendants :

P(A ∩ B) = P(A).P(B)
(*) L’hypothèse d’indépendance est très controversée (cf. John Uebersax)

Ae : la somme des produits sur toutes les catégories k :

AS , Aπ , Aκ =
e
e
e

P(kc1 ).P(kc2 )
k∈K

Jean-Philippe Fauconnier

Métriques pour l’Annotation

21 / 71
Coefficients pour l’accord
2 annotateurs : S, Pi et Kappa

Comment calculer

k∈K

P(kc1 ).P(kc2 ) ?

C’est dans l’estimation du hasard que S, π, κ diffèrent :

- S = Distribution uniforme
1
Pas de distinction p(k) = k
As =
e

1 1
k∈K k . k

- π = Une seule distribution
ˆ
Distinction des catégories p (k) =
Aπ =
e

k∈K

1
= k.( k )2 =

nk
2N

ˆ
ˆ
P(k).P(k) =

- κ = Distributions individuelles
Distinction des catégories et des codeurs

Aκ =
e

k∈K

Jean-Philippe Fauconnier

1
k

nk 2
k∈K ( 2N )
nc1 k
N
nc1 k nc2 k
k∈K N . N

ˆ
p (k|ci ) =

ˆ
ˆ
P(k|ci ).P(k|ci ) =

Métriques pour l’Annotation

22 / 71
Coefficients pour l’accord
2 annotateurs : comparaison

Comparaison des métriques
Pour Ao fixé à 0,60
isA
instOf
Synon
Multi
Total

isA
instOf
Synon
Multi
Total

isA
20

Synon

10
15
5
25

instOf

15
10

25

25

isA
20
10
10

instOf
10
10

Synon
10

40

20

Multi
5

20
25
Multi

10

Jean-Philippe Fauconnier

20

20
20

Total
25
25
25
25
100
Total
40
20
20
20
100

S = 0,467
π = 0,467
κ = 0,467

S = 0,467
π = 0,444
κ = 0,444

Métriques pour l’Annotation

23 / 71
Coefficients pour l’accord
2 annotateurs : comparaison

Comparaison des métriques
Pour Ao fixé à 0,60

isA
instOf
Synon
Multi
Total

isA
20

20

instOf
5
10
5

Synon
5
5
10

20

20

Multi
10
5
5
20
40

Total
40
20
20
20
100

S = 0,467
π = 0,460
κ = 0,474

"Paradoxe" du Kappa
Le κ augmente lorsque les distributions des annotateurs divergent
et, inversement, pénalise les distributions similaires.
Jean-Philippe Fauconnier

Métriques pour l’Annotation

24 / 71
1

Coefficients pour l’accord
Nécessité d’une mesure du hasard
2 annotateurs : s, π et κ
Multiples-annotateurs : multi-π, multi-k
Métriques pondérées : α, kw et αk
Interprétation

2

Une approche holiste et unifiée

3

Corpus LARAt : un cas concret

Jean-Philippe Fauconnier

Métriques pour l’Annotation

25 / 71
Coefficients pour l’accord
Multiples annotateurs : multi-Pi et multi-kappa

Multi-π et Multi-k
- Métriques π et κ ont leur généralisation à de multiples codeurs
- π (Scott, 1955) ⇒ k de Fleiss (Fleiss, 1971), appelé multi-π
- κ (Cohen, 1960)⇒ k de (Davies et Fleiss, 1982), appelé multi-κ

"Accident" terminologique
En TAL :
• Proposition d’un "kappa" (Carletta, 1996)
• issu du K (Siegel et Castellan, 1988)
• lui-même issu du κ de Fleiss (Fleiss, 1971)
• Et le κ de Fleiss est une généralisation du π (Scott, 1955)
Jean-Philippe Fauconnier

Métriques pour l’Annotation

26 / 71
Coefficients pour l’accord
Multiples annotateurs : multi-Pi et multi-kappa

Principe
- Utilisation de tables d’accord
- Impossibilité d’utiliser des tables de contingence
- Divergences :
- Distribution seule : multi-π
- Distributions individuelles : multi-κ

Item
i1
i2
.
.
iN
Total

isA
1
3

instOf
0
1

Synon
2
0

Multi
1
0

0
60 (0,4)

4
15 (0,1)

0
30 (0,2)

0
45 (0,3)

Jean-Philippe Fauconnier

Métriques pour l’Annotation

27 / 71
1

Coefficients pour l’accord
Nécessité d’une mesure du hasard
2 annotateurs : s, π et κ
Multiples-annotateurs : multi-π, multi-k
Métriques pondérées : α, kw et αk
Interprétation

2

Une approche holiste et unifiée

3

Corpus LARAt : un cas concret

Jean-Philippe Fauconnier

Métriques pour l’Annotation

28 / 71
Coefficients pour l’accord
Coefficient cube

Coefficient cube (Artstein et Peosio, 2008)
- Classification des coefficients selon 3 axes

Jean-Philippe Fauconnier

Métriques pour l’Annotation

29 / 71
Coefficients pour l’accord
Métriques pondérées

Métriques pondérées
- α (Krippendorf, 1980)
- κw (Cohen, 1968)
- αk (Artstein et Peosio, 2008)
Principe
• Utilisation d’une fonction de distance δ
• Mesurer le désaccord Do
De
-

Do
De
Do
De
Do
De

= 0 accord parfait
= 1 aucun accord
> 1 désaccord systématique

• Que l’on soustrait à 1 pour la comparaison entre coefficients
Do
1−
De
Jean-Philippe Fauconnier

Métriques pour l’Annotation

30 / 71
Coefficients pour l’accord
Métriques pondérées : fonction de distance

Fonction de distance δ
- Donner des coûts différents aux erreurs
- Utilisation d’une matrice de distance entre les catégories
- Permet de définir une distance pour plusieurs types de variables :
nominale, ordinale, rating, ratio
δki ,kj = (ki − kj )2 =

0
si ki = kj
0 < x ≤ 1 si ki = kj

- Croissance quadratique pour pénaliser les écarts
- La matrice de distance doit être symétrique
isA
instOf
Synon
Multi
Jean-Philippe Fauconnier

isA
0
0.5
1
1

instOf
0.5
0
1
1

Synon
1
1
0
1

Multi
1
1
1
0

Métriques pour l’Annotation

31 / 71
Coefficients pour l’accord
Métriques pondérées : alpha de krippendorf

α (Krippendorf, 1980)
- Multiples codeurs et types de variables
- Autorise les annotations manquantes
- Reste significatif avec de petits échantillons (Krippendorf, 2004)
- S’apparente au test ANOVA
Test ANOVA (Analysis of Variance)
- Le test ANOVA teste si deux V.A X et Y proviennent de la
même population
- Sous H0 : X et Y < même population
- Sous H1 : X et Y ne proviennent pas de la même population

- Comparaison des variances de X et Y pour choisir l’hypothèse
- Dans l’α :
- Faible variance
0 Accord
- Variance limitée 1 Aucun accord
- Variance élevée > 1 Désaccord
Jean-Philippe Fauconnier

Métriques pour l’Annotation

32 / 71
1

Coefficients pour l’accord
Nécessité d’une mesure du hasard
2 annotateurs : s, π et κ
Multiples-annotateurs : multi-π, multi-k
Métriques pondérées : α, kw et αk
Interprétation

2

Une approche holiste et unifiée

3

Corpus LARAt : un cas concret

Jean-Philippe Fauconnier

Métriques pour l’Annotation

33 / 71
Coefficients pour l’accord
Interprétation des coefficients d’accord

Échelle d’interprétation (Fort, 2011 ; Rosset, 2013)
- (Landis & Koch, 1977)
0,00-0,20 0,21 - 0,40
mauvais
médiocre

0,41 - 0,60
moyen

- (Krippendorf, 1980)
0,00 - 0,67
0,67 - 0,80
incohérence aucune décision
- (Green, 1997)
0,00 - 0,40 0,40 - 0,75
faible
moyen
Jean-Philippe Fauconnier

0,61 - 0,80
bon

0,81 - 1,00
excellent

0,81 - 1,00
cohérence

0,75 - 1,00
élevé
Métriques pour l’Annotation

34 / 71
Coefficients pour l’accord
Interprétation des coefficients d’accord : biais et prévalence

Biais : le "paradoxe du k"
- Le k paraît récompenser les distributions qui diffèrent
- (Di Eugenio et Glass, 2004) : utiliser le κ en discours où les
distributions diffèrent, π/α quand les distributions sont similaires.
- (Artstein et Peosio, 2008) : bien qu’il y ait divergence pour un Ao
fixé, dans la pratique Ao et Ae sont dépendants (car issus des
mêmes données).

isA
instOf
Synon
Multi
Total

isA
20

20

instOf
5
10
5

Synon
5
5
10

20

20

Jean-Philippe Fauconnier

Multi
10
5
5
20
40

Total
40
20
20
20
100

S = 0,467
π = 0,460
κ = 0,474

Métriques pour l’Annotation

35 / 71
Coefficients pour l’accord
Interprétation des coefficients d’accord : biais et prévalence

Prévalence :
- La distribution des items tend à diminuer le coefficient.
- (Artstein et Peosio, 2008) : les coefficients corrigés par une
mesure de hasard sont sensibles à l’accord sur les catégories rares.

isA
Multi
Total

isA
0,90
0
0,90

Multi
0,05
0,05
0,10

Jean-Philippe Fauconnier

Total
0,95
0,05
1

• Ak = 0,95
o
• Ak = 0,86
e
• k

= 0,63

Métriques pour l’Annotation

36 / 71
Coefficients pour l’accord
Interprétation des coefficients d’accord

Quels coefficients pour quelle évaluation ?
(Artstein et Peosio, 2008)

1. Validité du schéma d’annotation
- Les coefficients à distributions individuelles k, kw et αk
reflètent mieux le travail individuel des annotateurs.
Les annotateurs ont-ils bien compris ?
Le schéma reflète-t-il la réalité/vérité ?
Le guide d’annotation est-il pertinent ?

2. Fiabilité de la tâche d’annotation
- Les coefficients à simple distribution π, multi-π, α
diminuent la variance et permettent la généralisation.
La tâche est-elle reproductible ?
L’annotation est-elle cohérente ?
Les résultats tirés de ce corpus sont fiables ?
Jean-Philippe Fauconnier

Métriques pour l’Annotation

37 / 71
1

Coefficients pour l’accord

2

Une approche holiste et unifiée
Une approche holiste et unifiée
Le désaccord comme créateur de désordre
Alignement
Alignement idéal et mesure d’accord

3

Corpus LARAt : un cas concret

Jean-Philippe Fauconnier

Métriques pour l’Annotation

38 / 71
Une approche holiste et unifiée
Problématique : Accord et Alignement

Accord sur des unités non-prédéfinies
- Les coef. fonctionnent pour les cas où les unités sont prédéfinies
(e.g : PosTag, annotation syntaxique, etc.)

- Comment estimer l’accord avec des unités qui "pavent" le texte ?
(e.g : REN, chaînes anaphoriques, Discours, etc.)

Jean-Philippe Fauconnier

Métriques pour l’Annotation

39 / 71
Une approche holiste et unifiée
Problématique : Accord et Alignement

Accord sur des unités non-prédéfinies
- F-Mesure :
- Une annotation est considérée comme annotation de référence
- Une moy. harmonique est effectuée entre le rappel et la précision
- Moy. sur le corpus (micro-avg) ou sur chaque doc./cat. (macro-avg)
- Pour codeurs>2 , on préférera l’exactitude

Présent
Absent
precision =

Présent
TP
FP

TP
TP + FP

F (β) = (1 + β 2 )

TPci ,cj
N.C

c∈C

(micro-avg)

Absent
FN
TN
recall =

TP
TP + FN

precision.recall
β 2 .precision + recall

- Alternative : adaptation de α (voir Krippendorf, 2004)
Jean-Philippe Fauconnier

Métriques pour l’Annotation

40 / 71
Une approche holiste et unifiée
Problématique : Accord et Alignement

Accord sur des unités non-prédéfinies
- Comment définir un TP ?
À partir de quel écart est-on prêt à dire que 2 unités ayant une
position légèrement différente (chez c1 , c2 et c3 ) désignent bien
le même phénomène ?

Problème de l’alignement
- Le choix d’une métrique d’accord ne résout pas l’alignement :
Comment choisir la position finale ?
Comment choisir la catégorie finale ?
Comment produire un alignement consistant ?
Jean-Philippe Fauconnier

Métriques pour l’Annotation

41 / 71
Une approche holiste et unifiée
(Mathet, 2011)

Une approche holiste et unifiée (Mathet et Widlöcher, 2011)
- unifiée : définit l’accord et l’alignement en utilisant la position et
la catégorisation des items
- holiste : prend en compte tous les items pour l’alignement final
Principes :
- accord et alignement = tâches inter-dépendantes
- Meilleur alignement = alignement qui minimise le désordre
- Meilleur accord = valeur de désordre

Jean-Philippe Fauconnier

Métriques pour l’Annotation

42 / 71
1

Coefficients pour l’accord

2

Une approche holiste et unifiée
Une approche holiste et unifiée
Le désaccord comme créateur de désordre
Alignement
Alignement idéal et mesure d’accord

3

Corpus LARAt : un cas concret

Jean-Philippe Fauconnier

Métriques pour l’Annotation

43 / 71
Une approche holiste et unifiée
Le désaccord comme créateur de désordre

Désaccord = Désordre
- Hypothèse : Pour c codeurs, même si position et catégorisation
diffèrent, elles devraient en grande partie converger (dans le cas
contraire, tâche = échec).
- Idée : calculer le désordre pour estimer le désaccord
- Accord parfait : les unités i ont les mêmes bornes et catégories
- Désaccord : les unités i n’ont pas les mêmes bornes et catégories

- Combien de transformations entre accord parfait et désaccord ?
Transformations
1. déplacement de bornes de début et de fin
2. requalification de catégories
3. suppression d’unités
Jean-Philippe Fauconnier

Métriques pour l’Annotation

44 / 71
Une approche holiste et unifiée
Le désaccord comme créateur de désordre

Fonction de Dissimilarité d
- La fonction de dissimilarité d s’apparente à la fonction δkrippendorf
- Différence : elle s’applique directement aux items i (et non aux k)

diu ,iv =

0
si iu = iv
0 < x si iu = iv

- Différence : elle est appliquée à la position et la catégorisation
• dpos mesure la distance dans le texte
• dcat mesure la distance entre catégories

Jean-Philippe Fauconnier

Métriques pour l’Annotation

45 / 71
Une approche holiste et unifiée
Le désaccord comme créateur de désordre

Dissimilarité positionnelle
- Soit start(i) et end (i) pour l’indice de début et de fin de l’item i
dans le texte

2
|start(iu ) − start(iv )| + |end (iu ) − end (iu )| 
dpos iu ,iv = 
(end(iu )−start(iu ))+(start(iv )+end(iv ))
2

• Croissance quadratique pour pénaliser les écarts importants
• |start(iu ) − start(iv )| + |end (iu ) − end (iu )|
Somme des écarts absolus pour deux items
•

(end(iu )−start(iu ))+(end(iv )+start(iv ))
2

Moyenne des unités. Permet le passage à des échelles différentes.

Jean-Philippe Fauconnier

Métriques pour l’Annotation

46 / 71
Une approche holiste et unifiée
Le désaccord comme créateur de désordre

Dissimilarité catégorielle
- Deux fonctions :
- dcat : dissimilarité entre deux unités
- distcat : différence entre les catégories dans la matrice symétrique

- où dcat est :
dcat

iu ,iv

= distcat (kiu , kiv ).∆∅

- où distcat retourne la valeur dans la matrice :
isA
instOf
Synon
Multi
Jean-Philippe Fauconnier

isA
0
0.5
1
1

instOf
0.5
0
1
1

Synon
1
1
0
1

Multi
1
1
1
0

Métriques pour l’Annotation

47 / 71
Une approche holiste et unifiée
Le désaccord comme créateur de désordre

Dissimilarité combinée
- dcombi est une combinaison linéaire de dpos et dcat

dcombi

iu ,iv

= a.dpos (iu , iv ) + b.dcat (iu , iv )

- où si a = 0, 5 et b = 0, 5, un poids égal est donné aux deux
dissimilarités :

dcombi

iu ,iv

Jean-Philippe Fauconnier

=

dpos (iu , iv ) + dcat (iu , iv )
2

Métriques pour l’Annotation

48 / 71
1

Coefficients pour l’accord

2

Une approche holiste et unifiée
Une approche holiste et unifiée
Le désaccord comme créateur de désordre
Alignement
Alignement idéal et mesure d’accord

3

Corpus LARAt : un cas concret

Jean-Philippe Fauconnier

Métriques pour l’Annotation

49 / 71
Une approche holiste et unifiée
Alignement

Distinction entre alignement unitaire et alignement
.

- a = un alignement unitaire entre deux unités
- ¯ = un ensemble d’alignements unitaires pour un jeu d’annotation
a
Alignement unitaire
.

- a, un n-uplet, avec n compris dans l’intervalle [1, C ]
.
- a contient, au plus, une unité de chaque annotateur
Alignement
c1
c2
1
( i1 , i∅ )
1
2
( i1 , i1 )
( ... , ... )
1
2
( i3 , i12 )

→ alignement vide avec unité fictive i∅
→ vrai alignement
→ "faux" alignement

Nombre d’alignements unitaires générables : (
Jean-Philippe Fauconnier

c∈C

Nc ) − 1

Métriques pour l’Annotation

50 / 71
Une approche holiste et unifiée
Alignement et Entropie

Alignement et Entropie
Entropie dans le sens de désordre (et non de (Shannon, 1948))

Alignement unitaire :
- Idée : mesurer le désordre d’un alignement unitaire en utilisant
une fonction de dissimilarité
- On mesure l’"entropie" d’un alignement unitaire, pour une dx
donnée, en faisant la moyenne de ses dissimilarités.
. .

e(a) =

1
n
2

dx (iu , iv )
.

iu ,iv ∈a

Intuition
Au plus un alignement unitaire aura de grandes distances entre ses
unités, au plus il aura de "désordre", c’est-à-dire d’entropie au sens
de (Mathet, 2011).
Jean-Philippe Fauconnier

Métriques pour l’Annotation

51 / 71
Une approche holiste et unifiée
Alignement et Entropie

Alignement et Entropie
Entropie dans le sens de désordre (et non de (Shannon, 1948))

Alignement :
- On mesure l’"entropie" d’un alignement en faisant la moyenne de
.
l’entropie de chacun de ses alignements unitaires a
1
¯a
e (¯) =
|¯|
a

|¯|
a
. .

e(a)
i=1

- Ici, la moyenne est considérée afin d’éviter, dans le cas de
comparaison entre deux jeux, l’un avec doublons et l’autre sans,
qu’il y ait une différence d’entropie.
Jean-Philippe Fauconnier

Métriques pour l’Annotation

52 / 71
1

Coefficients pour l’accord

2

Une approche holiste et unifiée
Une approche holiste et unifiée
Le désaccord comme créateur de désordre
Alignement
Alignement idéal et mesure d’accord

3

Corpus LARAt : un cas concret

Jean-Philippe Fauconnier

Métriques pour l’Annotation

53 / 71
Une approche holiste et unifiée
Alignement idéal et mesure d’accord

Alignement idéal :
- ˆ est l’alignement ¯ qui minimise l’entropie pour tous les
a
a
.
alignements unitaires a possibles pour un jeu d’annotations j.
Mesure d’accord
- Pour un jeu d’annotations j et un corpus c (textes nus) :
ealeatoire (c) − e(j)
ealeatoire (c)
- où ealeatoire est une estimation du "hasard" (cf. section 1), c-à-d
de ce que pourrait être l’entropie pour un corpus donné.
accord (j) =

Interprétation
• Si accord (j) = 1, accord parfait et entropie nulle.
• Si accord (j) ≤ 0, aucun accord.
Jean-Philippe Fauconnier

Métriques pour l’Annotation

54 / 71
Une approche holiste et unifiée
Alignement idée et mesure d’accord

Ainsi :
- le choix de l’alignement idéal se fait sur base de l’entropie
- réciproquement, la mesure d’accord se fait sur base de
l’alignement idéal.

Dans la pratique :
.

- Réduction de l’espace de recherche en enlevant les a improbables
- Algorithme d’approximation pour une solution approchée de ˆ
a
- Nécessité, cependant, de définir un ∆∅ pour chaque campagne
Jean-Philippe Fauconnier

Métriques pour l’Annotation

55 / 71
1

Coefficients pour l’accord

2

Une approche holiste et unifiée

3

Corpus LARAt : un cas concret
Cadre
Retour sur la tâche d’annotation
Exploitation

Jean-Philippe Fauconnier

Métriques pour l’Annotation

56 / 71
Corpus LARAt
Cadre

Une campagne d’annotation
- Objectif : Annoter des structures énumératives selon une
typologie multi-dimensionnelle avec plusieurs axes.
- Corpus :
- 249 documents de Wikipédia (< GEONTO)
- 87 documents de Annodis

- Un guide d’annotation
- 2 annotateurs étudiants
Outil :
- Les SE sont objets discursifs où la mise en forme du texte est
nécessaire pour l’annotation en texte.
- Les outils tels que Callisto, MMAX2, Glozz ne conviennent pas.
- Nécessité d’un outil adapté :
Développement de LARAt
Jean-Philippe Fauconnier

Métriques pour l’Annotation

57 / 71
Corpus LARAt
Cadre

Interface de LARAt
Jean-Philippe Fauconnier

Métriques pour l’Annotation

58 / 71
Corpus LARAt
Retour sur la tâche d’annotation

Des distributions différentes pour les annotateurs :
- Annotateur 1 sur Axe Sémantique

Jean-Philippe Fauconnier

Métriques pour l’Annotation

59 / 71
Corpus LARAt
Retour sur la tâche d’annotation

Des distributions différentes pour les annotateurs :
- Annotateur 2 sur Axe Sémantique

Jean-Philippe Fauconnier

Métriques pour l’Annotation

60 / 71
Corpus LARAt
Retour sur la tâche d’annotation

Distributions différentes au niveau du nombre d’items :
- Les classes InstanceOf et isA : grand nombre d’items + outliers

Jean-Philippe Fauconnier

Métriques pour l’Annotation

61 / 71
Corpus LARAt
Exploitation

Exploitation :
1. Nécessité de définir un alignement pour calculer les accords
2. Calculer des coef. à distributions individuelles pour évaluer la
typologie (k)
3. calculer des coef. à distribution simple pour évaluer le
corpus/tâche (α)
1. Alignement par le positionnement
- Les multiples axes empêchent une approche unifiée
- Alternative : estimer les paramètres de distance
- qui nécessite d’annoter un petit set d’annotations ..

Jean-Philippe Fauconnier

Métriques pour l’Annotation

62 / 71
Corpus LARAt
Exploitation : alignement par le positionnement

Génération d’alignements unitaires
- Sous-ensemble restreint du corpus (env. 300 annot.)
- Objectif : estimer des seuils sur diff − start et diff − end

Jean-Philippe Fauconnier

Métriques pour l’Annotation

63 / 71
Corpus LARAt
Exploitation : alignement par le positionnement

Annotation semi-automatique des alignements "réels"

Jean-Philippe Fauconnier

Métriques pour l’Annotation

64 / 71
Corpus LARAt
Exploitation : alignement par le positionnement

Estimation d’une frontière de décision
- Par Support Vector Machine (SVM)

Jean-Philippe Fauconnier

Métriques pour l’Annotation

65 / 71
Corpus LARAt
Exploitation : alignement par le positionnement

Estimation d’une frontière de décision
- Par régression logistique (ici sur la seule variable diff − start)
- Moyennement efficace mais modèle moins "boîte noire"

Jean-Philippe Fauconnier

Métriques pour l’Annotation

66 / 71
Conclusion
L’annotation
- est à la base de la majorité des systèmes TAL
- est un sujet non clos :
-

L’annotation multi-labels
Le seuil d’accord humain et les performances en ML
Les annotateurs réellement "aléatoires" sous A. Mechanical Turk
etc.

Accord et Alignement :
- ne sont pas des problèmes indépendants
- il existe de nombreuses métriques :
- Nécessité d’un choix conscient
- Et d’intervalles de confiance ?

Jean-Philippe Fauconnier

Métriques pour l’Annotation

67 / 71
Références
• S. Afantenos, P. Denis, P. Muller, and L. Danlos, "Learning recursive
segments for discourse parsing," in Proc. Proceedings of 7th Language
Resources and Evaluation Conference (LREC 2010), 2010.
• R. Artstein and M. Poesio, "Inter-coder agreement for computational
linguistics," Computational Linguistics, vol. 34, iss. 4, pp. 555-596, 2008.
• E. M. Bennett, R. Alpert, and A. Goldstein, "Communications through
limited-response questioning," Public Opinion Quarterly, vol. 18, iss. 3, pp.
303-308, 1954.
• Y. Bestgen, "Quels indices pour mesurer l’efficacité en segmentation
thématique ?," in Proc. Actes de la 16e Conférence sur le Traitement
Automatique des Langues Naturelles (TALN 2009), 2009.
• J. Carletta, "Assessing agreement on classification tasks : the kappa
statistic," Computational linguistics, vol. 22, iss. 2, pp. 249-254, 1996.
• J. Cohen and others, "A coefficient of agreement for nominal scales,"
Educational and psychological measurement, vol. 20, iss. 1, pp. 37-46, 1960.
• J. Cohen, "Weighted kappa : Nominal scale agreement provision for scaled
disagreement or partial credit.," Psychological bulletin, vol. 70, iss. 4, p.
213, 1968.
• B. Di Eugenio and M. Glass, "The kappa statistic : A second look,"
Computational linguistics, vol. 30, iss. 1, pp. 95-101, 2004.
Jean-Philippe Fauconnier

Métriques pour l’Annotation

68 / 71
Références
• J. L. Fleiss, "Measuring nominal scale agreement among many raters.,"
Psychological bulletin, vol. 76, iss. 5, p. 378, 1971.
• Fort, K., Corpus Linguistics : Inter-Annotator Agreements, INIST, 2011.
• A. M. Green, "Kappa statistics for multiple raters using categorical
classifications," in Proc. Proceedings of the 22nd annual SAS User Group
International conference, 1997, pp. 1110-1115.
• C. Grouin, S. Rosset, P. Zweigenbaum, K. Fort, O. Galibert, and L.
Quintard, "Proposal for an extension of traditional named entities : From
guidelines to evaluation, an overview," in Proc. Proceedings of the 5th
Linguistic Annotation Workshop, 2011, pp. 92-100.
• K. Krippendorff, Content analysis : An introduction to its methodology,
Sage Publications, 1980.
• K. Krippendorff, "On the reliability of unitizing continuous data,"
Sociological Methodology, pp. 47-76, 1995.
• K. Krippendorff, "Measuring the reliability of qualitative text analysis data,"
Quality & Quantity, vol. 38, pp. 787-800, 2004.
• R. J. Landis and G. G. Koch, "The measurement of observer agreement for
categorical data," biometrics, pp. 159-174, 1977.
Jean-Philippe Fauconnier

Métriques pour l’Annotation

69 / 71
Références
• Y. Mathet and A. Widlöcher, "Une approche holiste et unifiée de
l’alignement et de la mesure d’accord inter-annotateurs," in Proc. Actes de
la 18e Conférence sur le Traitement Automatique des Langues Naturelles
(TALN 2011), 2011.
• C. Müller and M. Strube, "Multi-level annotation of linguistic data with
MMAX2," , Braun, S., Kohn, K., and Mukherjee, J., Eds., Frankfurt a.M.,
Germany : Peter Lang, 2006, pp. 197-214.
• E. Pascual and M. P. Pery-Woodley, "La définition dans le texte," Textes de
type consigne–Perception, action, cognition, pp. 65-88, 1995.
• M. Péry-Woodley, N. Asher, P. Enjalbert, F. Benamara, M. Bras, C. Fabre,
S. Ferrari, L. Ho-Dac, A. Le Draoulec, Y. Mathet, and others, "ANNODIS :
une approche outillée de l’annotation de structures discursives," in Proc.
Actes de la 16e Conférence sur le Traitement Automatique des Langues
Naturelles (TALN 2009), 2009.
• J. Pustejovsky and A. Stubbs, Natural language annotation for machine
learning, O’Reilly, 2012.
• J. Rebeyrolle, M. P. Jacques, M. P. Péry-Woodley, and others, "Titres et
intertitres dans l’organisation du discours 1," Journal of French Language
Studies, vol. 19, iss. 2, p. 269, 2009.
Jean-Philippe Fauconnier

Métriques pour l’Annotation

70 / 71
Références
• Rosset, S., Accords inter-annotateurs dans une campagne d’annotation : de
la théorie à la pratique, CLEE-ERSS, 2013.
• W. A. Scott, "Reliability of content analysis : The case of nominal scale
coding.," Public opinion quarterly, 1955.
• S. Siegel and J. N. Castellan, Nonparametric Statistics for the Behavioral
Sciences, McGraw-HiU Book Company, N. Y., Ed., , 1988, vol. 2nd edition.
• C. E. Shannon, "A mathematical theory of communication," The Bell
System Technical Journal„ vol. 27, iss. 1, pp. 379-423, 1948.
• A. Stubbs, "MAE and MAI : Lightweight Annotation and Adjudication
Tools," in Proc. Proceedings of the 5th Linguistic Annotation Workshop,
Association of Computational Linguistics, Portland, 2011.
• A. Widlöcher and Y. Mathet, "La plate-forme Glozz : environnement
d’annotation et d’exploration de corpus," in Proc. Actes de la 16e
Conférence sur le Traitement Automatique des Langues Naturelles (TALN
2009), 2009.
• A. Widlöcher and Y. Mathet, "The Glozz platform : a corpus annotation
and mining tool," in Proc. Proceedings of the 2012 ACM symposium on
Document engineering, 2012, pp. 171-180.

Jean-Philippe Fauconnier

Métriques pour l’Annotation

71 / 71

Métriques pour l'évaluation de l'Annotation

  • 1.
    Métriques pour l’évaluationde l’Annotation Jean-Philippe Fauconnier Institut de Recherche en Informatique de Toulouse Équipe MELODI 25 novembre 2013 Jean-Philippe Fauconnier Métriques pour l’Annotation 1 / 71
  • 2.
    Introduction 1. Annotation ausens Linguistique et TAL Annotation de corpus Annotation : une méta-donnée sur du texte (Pustejovsky et Stubbs, 2012) (...) it is not enough to simply provide a computer with a large amount of data and expect it to learn to speak—the data has to be prepared in such a way that the computer can more easily find patterns and inferences. This is usually done by adding relevant metadata to a dataset. Any metadata tag used to mark up elements of the dataset is called an annotation over the input. Corpus annoté : ensemble de textes annotés (Pustejovsky et Stubbs, 2012) Datasets of natural language are referred to as corpora, and a single set of data annotated with the same specification is called an annotated corpus. Jean-Philippe Fauconnier Métriques pour l’Annotation 2 / 71
  • 3.
    Introduction 2. Pourquoi annoter? (Rosset, 2013) • Évaluer un modèle théorique (Péry-Woodley, et al., 2009) • Développer/Évaluer un système TAL (Afantenos et al., 2010) • Observer des phénomènes (Pascual, 1995 ; Rebeyrolle, 2009) 3. Cadre pour l’annotation • Corpus Pré-annoté ou non • Annotateurs (≥2) Étudiants, chercheurs, experts, etc. • Guide d’annotation Description de la tâche et rédaction itérative • Schéma d’annotation Conventions pour représenter l’annotation • Outils MAE (Stubbs, 2011), Glozz (Widlöcher et Mathet, 2009 ; 2012), etc. Jean-Philippe Fauconnier Métriques pour l’Annotation 3 / 71
  • 4.
    Introduction 4. Pourquoi bienannoter ? • Risque de silence pour les approche symboliques • Risque de bruit dans les tâches en ML • Faire des hypothèses et les éprouver empiriquement • Assurer la reproductibilité de ces expériences Constitution d’un corpus // méthodologie expérimentale (stat.) → Relation entre var. indépendantes et dépendantes → Diminuer les variables cachées (confounding factors) → Corpus et annotateurs "représentatifs" → Objectif : dégager des liens causalité Cependant • Mais en réalité, beaucoup de facteurs interviennent • Et peut-on réellement considérer un annotateur comme un processus aléatoire et indépendant ? D’où un réel besoin d’évaluer. Jean-Philippe Fauconnier Métriques pour l’Annotation 4 / 71
  • 5.
    Introduction 5. Évaluer pour: - Qualité du corpus Qualité des annotations Estimateurs stat. pour un phénomène Produire un alignement consistant 6. Qu’est-ce qu’on évalue ? - Le corpus ? Les annotateurs ? Le guide d’annotation ? Le schéma d’annotation ? 7. Et comment ? - Tests d’hypothèse ? - Corrélation intra-classes ? - Coefficients d’accord ? Jean-Philippe Fauconnier Métriques pour l’Annotation 5 / 71
  • 6.
    Introduction Validity vs. Reliability: Notions reprises de l’Analyse de Contenu (Krippendorf, 2004), où les chercheurs visent à diminuer les biais, et adaptées au TAL (Artstein et Peosio, 2008). 1. Validity : Vérifier la validité du schéma d’annotation. • Les catégories définies sont-elles correctes ? • Est-ce qu’il s’agit de la vérité ? • Validity ← Reliability 2. Reliability : Vérifier la fiabilité de la tâche d’annotation • Stability : Accord intra-annotateur • Reproductibility : Accord inter-annotateurs • Accuracy : Comparaison à un "gold standard" Jean-Philippe Fauconnier Métriques pour l’Annotation 6 / 71
  • 7.
    Introduction Et après l’évaluationde la validité/fiabilité ? ⇒ Question de l’alignement Comment choisir l’annotation finale ? - Un annotateur expert ? - Un vote majoritaire ? - Discussion entre annotateurs ? → Dépendances entre annotateurs ? → Mise à mal de la situation expérimentale ? Dans les prochaines sections : - Section 1 : Retour sur les coefficients d’accord - Section 2 : Une approche unifiée pour l’accord et l’alignement - Section 3 : Corpus LARAt - Un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 7 / 71
  • 8.
    1 Coefficients pour l’accord Nécessitéd’une mesure du hasard 2 annotateurs : s, π et κ Multiples-annotateurs : multi-π, multi-k Métriques pondérées : α, kw et αk Interprétation 2 Une approche holiste et unifiée 3 Corpus LARAt : un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 8 / 71
  • 9.
    Coefficients pour l’accord Nécessitéd’une mesure du hasard Les coefficients d’accord (Artstein & Peosio, 2008) - forment une famille de métriques - mesurent l’accord entre codeurs - sont contraints dans un intervalle [-1,1] accord = 1 accord parfait accord = 0 aucun accord accord = -1 désaccord parfait Pourquoi les coefficients d’accord ? Il existe d’autres métriques/tests. - Accord observé - Test d’hypothèse du χ2 - Coefficients de corrélation Jean-Philippe Fauconnier Métriques pour l’Annotation 9 / 71
  • 10.
    Coefficients pour l’accord Nécessitéd’une mesure du hasard : Accord observé Accord Observé Ao est la plus simple mesure pour l’accord (1) Dénombrer les items i où les codeurs c sont en accord (2) Accord = quand à un item i est assigné une même catégorie k (3) Diviser par le nombre N d’items pour obtenir un pourcentage. A2 isA instOf Synon Multi Total isA 20 5 25 10 15 25 instOf A1 Synon 15 10 25 Multi 5 20 25 Total 25 25 25 25 100 Ao = Jean-Philippe Fauconnier 1 N nk = k∈K 60 = 0, 60 100 Métriques pour l’Annotation 10 / 71
  • 11.
    Coefficients pour l’accord Nécessitéd’une mesure du hasard : Accord observé Accord Observé - Ao rentre dans le calcul de tous les coefficients - Cependant Ao seul n’est pas suffisant - Le facteur de "chance" est ignoré - → impossibilité de comparer les études Deux facteurs : Variation de ces deux facteurs d’une étude à l’autre. - Le nombre K de catégories (Scott, 1955) - Distribution des items i (Di Eugenio et Glass, 2004) Jean-Philippe Fauconnier Métriques pour l’Annotation 11 / 71
  • 12.
    Coefficients pour l’accord Nécessitéd’une mesure du hasard : Accord observé (Scott, 1955) "[percentage agreement] is biased in favor of dimensions with a small number of categories." k1 k2 Total k1 1/4 1/2 k2 1/4 1/2 k1 k2 k3 Total k1 1/9 1/3 k2 1/9 1/3 k3 1/9 1/3 K =2 Total 1/2 1/2 1 Jean-Philippe Fauconnier Par "chance" : 1/4 des i dans chaque cellule Ao = 1/2 Total 1/3 1/3 1/3 1 K =3 Par "chance" : 1/9 des i dans chaque cellule Ao = 1/3 Métriques pour l’Annotation 12 / 71
  • 13.
    Coefficients pour l’accord Nécessitéd’une mesure du hasard : Accord observé (Arstein & Peosio, 2008) "(...) we expect a higher percentage agreement when one category is much more common than the other." Supposons la distribution suivante : - 95 % des i d’un domaine sont k1 - 5 % des i d’un domaine sont k2 k1 k2 Total k1 0,95 0,95 k2 0,05 0,05 Jean-Philippe Fauconnier Total 0,95 0,05 1 • Par "chance" : (0, 95)2 des i classés en k1 et (0, 05)2 classés en k2 . • Par "chance" : Ao = (0, 95)2 + (0, 05)2 = 90,5 % Métriques pour l’Annotation 13 / 71
  • 14.
    Coefficients pour l’accord Nécessitéd’une mesure du hasard : Test du Chi-2 Un test statistique pour l’accord ? - Tests d’hypothèses évaluent une hypothèse statistiquement - Ces tests produisent une p-value qui permet de rejeter ou accepter une hypothèse selon un risque alpha (souvent à 0,05) Test du Chi-2 - Le χ2 teste l’indépendance entre deux V.A X et Y - Sous H0 : X et Y sont indépendants - Sous H1 : X et Y ont une "relation" - Comparaison des distributions de X et Y pour choisir l’hypothèse - Cependant, (Cohen, 1960) montre que le χ2 mesure l’association et non l’accord. Jean-Philippe Fauconnier Métriques pour l’Annotation 14 / 71
  • 15.
    Coefficients pour l’accord Nécessitéd’une mesure du hasard : Test du Chi-2 Test du χ2 de Pearson isA instOf Synon Multi Total isA 20 instOf Synon 10 15 15 10 25 25 isA isA instOf Synon Multi Total 5 25 instOf Synon 10 15 15 10 25 25 Multi 5 25 25 Jean-Philippe Fauconnier 20 25 Multi 25 25 Total 25 25 25 25 100 Total 25 25 25 25 100 Ao = 0,60 X 2 = 140 p-value < 0,01 → Accord Ao = 0,20 X 2 = 204 p-value < 0,01 → Désaccord Métriques pour l’Annotation 15 / 71
  • 16.
    Coefficients pour l’accord Nécessitéd’une mesure du hasard : Coefficients de corrélation Coefficients de corrélation r et rs - mesurent la corrélation entre une V.A X et Y - prennent une valeur entre [-1,1] - Cependant, mesurent l’existence d’une relation et non l’accord Supposons l’exemple suivant : - Deux expériences avec chacune 2 codeurs et 5 items - À chaque item est attribué une valeur entre [1,5] (rating) Item a b c d e Jean-Philippe Fauconnier Exp1 A1 A2 1 1 2 2 3 3 4 4 5 5 Exp2 A1 A2 1 2 2 4 3 6 4 8 5 10 Métriques pour l’Annotation 16 / 71
  • 17.
    Coefficients pour l’accord Nécessitéd’une mesure du hasard : Coefficients de corrélation Existence d’une relation affine r = Ao = 1 → Accord Jean-Philippe Fauconnier σx,y =1 σx σy Ao = -1 → Désaccord Métriques pour l’Annotation 17 / 71
  • 18.
    Coefficients pour l’accord Nécessitéd’une mesure du hasard Nécessiter d’une correction par la chance - Ao ne suffit pas - χ2 , r et rs ne sont pas adaptés - il est nécessaire de prendre en compte la "chance" avec laquelle les annotateurs auraient pu tomber d’accord. Accord attendu - Ae une mesure pour estimer le "hasard" - Une formule qui corrige Ao - Mesure corrigée de ce que serait l’accord "réel" sous l’effet du hasard. - Si Ao élevé, mais que Ae l’est aussi 0 - Si Ao moyen, mais que Ae est bas, → 1 Ao − Ae 1 − Ae Jean-Philippe Fauconnier Métriques pour l’Annotation 18 / 71
  • 19.
    1 Coefficients pour l’accord Nécessitéd’une mesure du hasard 2 annotateurs : s, π et κ Multiples-annotateurs : multi-π, multi-k Métriques pondérées : α, kw et αk Interprétation 2 Une approche holiste et unifiée 3 Corpus LARAt : un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 19 / 71
  • 20.
    Coefficients pour l’accord 2annotateurs : S, Pi et Kappa Comment estimer le hasard pour 2 annotateurs ? - L’estimation de Ae diffère dans les métriques : - S (Bennett et al., 1954) - π (Scott, 1955) - κ (Cohen, 1960) - Mais la formule reste identique : S, π, κ = Jean-Philippe Fauconnier Ao − Ae 1 − Ae Métriques pour l’Annotation 20 / 71
  • 21.
    Coefficients pour l’accord 2annotateurs : S, Pi et Kappa Comment calculer Ae ? Situation expérimentale avec des annotateurs indépendants Implique : • Indépendance entre deux événements (d’annotation) • Ainsi, si A et B, deux événements, sont indépendants : P(A ∩ B) = P(A).P(B) (*) L’hypothèse d’indépendance est très controversée (cf. John Uebersax) Ae : la somme des produits sur toutes les catégories k : AS , Aπ , Aκ = e e e P(kc1 ).P(kc2 ) k∈K Jean-Philippe Fauconnier Métriques pour l’Annotation 21 / 71
  • 22.
    Coefficients pour l’accord 2annotateurs : S, Pi et Kappa Comment calculer k∈K P(kc1 ).P(kc2 ) ? C’est dans l’estimation du hasard que S, π, κ diffèrent : - S = Distribution uniforme 1 Pas de distinction p(k) = k As = e 1 1 k∈K k . k - π = Une seule distribution ˆ Distinction des catégories p (k) = Aπ = e k∈K 1 = k.( k )2 = nk 2N ˆ ˆ P(k).P(k) = - κ = Distributions individuelles Distinction des catégories et des codeurs Aκ = e k∈K Jean-Philippe Fauconnier 1 k nk 2 k∈K ( 2N ) nc1 k N nc1 k nc2 k k∈K N . N ˆ p (k|ci ) = ˆ ˆ P(k|ci ).P(k|ci ) = Métriques pour l’Annotation 22 / 71
  • 23.
    Coefficients pour l’accord 2annotateurs : comparaison Comparaison des métriques Pour Ao fixé à 0,60 isA instOf Synon Multi Total isA instOf Synon Multi Total isA 20 Synon 10 15 5 25 instOf 15 10 25 25 isA 20 10 10 instOf 10 10 Synon 10 40 20 Multi 5 20 25 Multi 10 Jean-Philippe Fauconnier 20 20 20 Total 25 25 25 25 100 Total 40 20 20 20 100 S = 0,467 π = 0,467 κ = 0,467 S = 0,467 π = 0,444 κ = 0,444 Métriques pour l’Annotation 23 / 71
  • 24.
    Coefficients pour l’accord 2annotateurs : comparaison Comparaison des métriques Pour Ao fixé à 0,60 isA instOf Synon Multi Total isA 20 20 instOf 5 10 5 Synon 5 5 10 20 20 Multi 10 5 5 20 40 Total 40 20 20 20 100 S = 0,467 π = 0,460 κ = 0,474 "Paradoxe" du Kappa Le κ augmente lorsque les distributions des annotateurs divergent et, inversement, pénalise les distributions similaires. Jean-Philippe Fauconnier Métriques pour l’Annotation 24 / 71
  • 25.
    1 Coefficients pour l’accord Nécessitéd’une mesure du hasard 2 annotateurs : s, π et κ Multiples-annotateurs : multi-π, multi-k Métriques pondérées : α, kw et αk Interprétation 2 Une approche holiste et unifiée 3 Corpus LARAt : un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 25 / 71
  • 26.
    Coefficients pour l’accord Multiplesannotateurs : multi-Pi et multi-kappa Multi-π et Multi-k - Métriques π et κ ont leur généralisation à de multiples codeurs - π (Scott, 1955) ⇒ k de Fleiss (Fleiss, 1971), appelé multi-π - κ (Cohen, 1960)⇒ k de (Davies et Fleiss, 1982), appelé multi-κ "Accident" terminologique En TAL : • Proposition d’un "kappa" (Carletta, 1996) • issu du K (Siegel et Castellan, 1988) • lui-même issu du κ de Fleiss (Fleiss, 1971) • Et le κ de Fleiss est une généralisation du π (Scott, 1955) Jean-Philippe Fauconnier Métriques pour l’Annotation 26 / 71
  • 27.
    Coefficients pour l’accord Multiplesannotateurs : multi-Pi et multi-kappa Principe - Utilisation de tables d’accord - Impossibilité d’utiliser des tables de contingence - Divergences : - Distribution seule : multi-π - Distributions individuelles : multi-κ Item i1 i2 . . iN Total isA 1 3 instOf 0 1 Synon 2 0 Multi 1 0 0 60 (0,4) 4 15 (0,1) 0 30 (0,2) 0 45 (0,3) Jean-Philippe Fauconnier Métriques pour l’Annotation 27 / 71
  • 28.
    1 Coefficients pour l’accord Nécessitéd’une mesure du hasard 2 annotateurs : s, π et κ Multiples-annotateurs : multi-π, multi-k Métriques pondérées : α, kw et αk Interprétation 2 Une approche holiste et unifiée 3 Corpus LARAt : un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 28 / 71
  • 29.
    Coefficients pour l’accord Coefficientcube Coefficient cube (Artstein et Peosio, 2008) - Classification des coefficients selon 3 axes Jean-Philippe Fauconnier Métriques pour l’Annotation 29 / 71
  • 30.
    Coefficients pour l’accord Métriquespondérées Métriques pondérées - α (Krippendorf, 1980) - κw (Cohen, 1968) - αk (Artstein et Peosio, 2008) Principe • Utilisation d’une fonction de distance δ • Mesurer le désaccord Do De - Do De Do De Do De = 0 accord parfait = 1 aucun accord > 1 désaccord systématique • Que l’on soustrait à 1 pour la comparaison entre coefficients Do 1− De Jean-Philippe Fauconnier Métriques pour l’Annotation 30 / 71
  • 31.
    Coefficients pour l’accord Métriquespondérées : fonction de distance Fonction de distance δ - Donner des coûts différents aux erreurs - Utilisation d’une matrice de distance entre les catégories - Permet de définir une distance pour plusieurs types de variables : nominale, ordinale, rating, ratio δki ,kj = (ki − kj )2 = 0 si ki = kj 0 < x ≤ 1 si ki = kj - Croissance quadratique pour pénaliser les écarts - La matrice de distance doit être symétrique isA instOf Synon Multi Jean-Philippe Fauconnier isA 0 0.5 1 1 instOf 0.5 0 1 1 Synon 1 1 0 1 Multi 1 1 1 0 Métriques pour l’Annotation 31 / 71
  • 32.
    Coefficients pour l’accord Métriquespondérées : alpha de krippendorf α (Krippendorf, 1980) - Multiples codeurs et types de variables - Autorise les annotations manquantes - Reste significatif avec de petits échantillons (Krippendorf, 2004) - S’apparente au test ANOVA Test ANOVA (Analysis of Variance) - Le test ANOVA teste si deux V.A X et Y proviennent de la même population - Sous H0 : X et Y < même population - Sous H1 : X et Y ne proviennent pas de la même population - Comparaison des variances de X et Y pour choisir l’hypothèse - Dans l’α : - Faible variance 0 Accord - Variance limitée 1 Aucun accord - Variance élevée > 1 Désaccord Jean-Philippe Fauconnier Métriques pour l’Annotation 32 / 71
  • 33.
    1 Coefficients pour l’accord Nécessitéd’une mesure du hasard 2 annotateurs : s, π et κ Multiples-annotateurs : multi-π, multi-k Métriques pondérées : α, kw et αk Interprétation 2 Une approche holiste et unifiée 3 Corpus LARAt : un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 33 / 71
  • 34.
    Coefficients pour l’accord Interprétationdes coefficients d’accord Échelle d’interprétation (Fort, 2011 ; Rosset, 2013) - (Landis & Koch, 1977) 0,00-0,20 0,21 - 0,40 mauvais médiocre 0,41 - 0,60 moyen - (Krippendorf, 1980) 0,00 - 0,67 0,67 - 0,80 incohérence aucune décision - (Green, 1997) 0,00 - 0,40 0,40 - 0,75 faible moyen Jean-Philippe Fauconnier 0,61 - 0,80 bon 0,81 - 1,00 excellent 0,81 - 1,00 cohérence 0,75 - 1,00 élevé Métriques pour l’Annotation 34 / 71
  • 35.
    Coefficients pour l’accord Interprétationdes coefficients d’accord : biais et prévalence Biais : le "paradoxe du k" - Le k paraît récompenser les distributions qui diffèrent - (Di Eugenio et Glass, 2004) : utiliser le κ en discours où les distributions diffèrent, π/α quand les distributions sont similaires. - (Artstein et Peosio, 2008) : bien qu’il y ait divergence pour un Ao fixé, dans la pratique Ao et Ae sont dépendants (car issus des mêmes données). isA instOf Synon Multi Total isA 20 20 instOf 5 10 5 Synon 5 5 10 20 20 Jean-Philippe Fauconnier Multi 10 5 5 20 40 Total 40 20 20 20 100 S = 0,467 π = 0,460 κ = 0,474 Métriques pour l’Annotation 35 / 71
  • 36.
    Coefficients pour l’accord Interprétationdes coefficients d’accord : biais et prévalence Prévalence : - La distribution des items tend à diminuer le coefficient. - (Artstein et Peosio, 2008) : les coefficients corrigés par une mesure de hasard sont sensibles à l’accord sur les catégories rares. isA Multi Total isA 0,90 0 0,90 Multi 0,05 0,05 0,10 Jean-Philippe Fauconnier Total 0,95 0,05 1 • Ak = 0,95 o • Ak = 0,86 e • k = 0,63 Métriques pour l’Annotation 36 / 71
  • 37.
    Coefficients pour l’accord Interprétationdes coefficients d’accord Quels coefficients pour quelle évaluation ? (Artstein et Peosio, 2008) 1. Validité du schéma d’annotation - Les coefficients à distributions individuelles k, kw et αk reflètent mieux le travail individuel des annotateurs. Les annotateurs ont-ils bien compris ? Le schéma reflète-t-il la réalité/vérité ? Le guide d’annotation est-il pertinent ? 2. Fiabilité de la tâche d’annotation - Les coefficients à simple distribution π, multi-π, α diminuent la variance et permettent la généralisation. La tâche est-elle reproductible ? L’annotation est-elle cohérente ? Les résultats tirés de ce corpus sont fiables ? Jean-Philippe Fauconnier Métriques pour l’Annotation 37 / 71
  • 38.
    1 Coefficients pour l’accord 2 Uneapproche holiste et unifiée Une approche holiste et unifiée Le désaccord comme créateur de désordre Alignement Alignement idéal et mesure d’accord 3 Corpus LARAt : un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 38 / 71
  • 39.
    Une approche holisteet unifiée Problématique : Accord et Alignement Accord sur des unités non-prédéfinies - Les coef. fonctionnent pour les cas où les unités sont prédéfinies (e.g : PosTag, annotation syntaxique, etc.) - Comment estimer l’accord avec des unités qui "pavent" le texte ? (e.g : REN, chaînes anaphoriques, Discours, etc.) Jean-Philippe Fauconnier Métriques pour l’Annotation 39 / 71
  • 40.
    Une approche holisteet unifiée Problématique : Accord et Alignement Accord sur des unités non-prédéfinies - F-Mesure : - Une annotation est considérée comme annotation de référence - Une moy. harmonique est effectuée entre le rappel et la précision - Moy. sur le corpus (micro-avg) ou sur chaque doc./cat. (macro-avg) - Pour codeurs>2 , on préférera l’exactitude Présent Absent precision = Présent TP FP TP TP + FP F (β) = (1 + β 2 ) TPci ,cj N.C c∈C (micro-avg) Absent FN TN recall = TP TP + FN precision.recall β 2 .precision + recall - Alternative : adaptation de α (voir Krippendorf, 2004) Jean-Philippe Fauconnier Métriques pour l’Annotation 40 / 71
  • 41.
    Une approche holisteet unifiée Problématique : Accord et Alignement Accord sur des unités non-prédéfinies - Comment définir un TP ? À partir de quel écart est-on prêt à dire que 2 unités ayant une position légèrement différente (chez c1 , c2 et c3 ) désignent bien le même phénomène ? Problème de l’alignement - Le choix d’une métrique d’accord ne résout pas l’alignement : Comment choisir la position finale ? Comment choisir la catégorie finale ? Comment produire un alignement consistant ? Jean-Philippe Fauconnier Métriques pour l’Annotation 41 / 71
  • 42.
    Une approche holisteet unifiée (Mathet, 2011) Une approche holiste et unifiée (Mathet et Widlöcher, 2011) - unifiée : définit l’accord et l’alignement en utilisant la position et la catégorisation des items - holiste : prend en compte tous les items pour l’alignement final Principes : - accord et alignement = tâches inter-dépendantes - Meilleur alignement = alignement qui minimise le désordre - Meilleur accord = valeur de désordre Jean-Philippe Fauconnier Métriques pour l’Annotation 42 / 71
  • 43.
    1 Coefficients pour l’accord 2 Uneapproche holiste et unifiée Une approche holiste et unifiée Le désaccord comme créateur de désordre Alignement Alignement idéal et mesure d’accord 3 Corpus LARAt : un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 43 / 71
  • 44.
    Une approche holisteet unifiée Le désaccord comme créateur de désordre Désaccord = Désordre - Hypothèse : Pour c codeurs, même si position et catégorisation diffèrent, elles devraient en grande partie converger (dans le cas contraire, tâche = échec). - Idée : calculer le désordre pour estimer le désaccord - Accord parfait : les unités i ont les mêmes bornes et catégories - Désaccord : les unités i n’ont pas les mêmes bornes et catégories - Combien de transformations entre accord parfait et désaccord ? Transformations 1. déplacement de bornes de début et de fin 2. requalification de catégories 3. suppression d’unités Jean-Philippe Fauconnier Métriques pour l’Annotation 44 / 71
  • 45.
    Une approche holisteet unifiée Le désaccord comme créateur de désordre Fonction de Dissimilarité d - La fonction de dissimilarité d s’apparente à la fonction δkrippendorf - Différence : elle s’applique directement aux items i (et non aux k) diu ,iv = 0 si iu = iv 0 < x si iu = iv - Différence : elle est appliquée à la position et la catégorisation • dpos mesure la distance dans le texte • dcat mesure la distance entre catégories Jean-Philippe Fauconnier Métriques pour l’Annotation 45 / 71
  • 46.
    Une approche holisteet unifiée Le désaccord comme créateur de désordre Dissimilarité positionnelle - Soit start(i) et end (i) pour l’indice de début et de fin de l’item i dans le texte  2 |start(iu ) − start(iv )| + |end (iu ) − end (iu )|  dpos iu ,iv =  (end(iu )−start(iu ))+(start(iv )+end(iv )) 2 • Croissance quadratique pour pénaliser les écarts importants • |start(iu ) − start(iv )| + |end (iu ) − end (iu )| Somme des écarts absolus pour deux items • (end(iu )−start(iu ))+(end(iv )+start(iv )) 2 Moyenne des unités. Permet le passage à des échelles différentes. Jean-Philippe Fauconnier Métriques pour l’Annotation 46 / 71
  • 47.
    Une approche holisteet unifiée Le désaccord comme créateur de désordre Dissimilarité catégorielle - Deux fonctions : - dcat : dissimilarité entre deux unités - distcat : différence entre les catégories dans la matrice symétrique - où dcat est : dcat iu ,iv = distcat (kiu , kiv ).∆∅ - où distcat retourne la valeur dans la matrice : isA instOf Synon Multi Jean-Philippe Fauconnier isA 0 0.5 1 1 instOf 0.5 0 1 1 Synon 1 1 0 1 Multi 1 1 1 0 Métriques pour l’Annotation 47 / 71
  • 48.
    Une approche holisteet unifiée Le désaccord comme créateur de désordre Dissimilarité combinée - dcombi est une combinaison linéaire de dpos et dcat dcombi iu ,iv = a.dpos (iu , iv ) + b.dcat (iu , iv ) - où si a = 0, 5 et b = 0, 5, un poids égal est donné aux deux dissimilarités : dcombi iu ,iv Jean-Philippe Fauconnier = dpos (iu , iv ) + dcat (iu , iv ) 2 Métriques pour l’Annotation 48 / 71
  • 49.
    1 Coefficients pour l’accord 2 Uneapproche holiste et unifiée Une approche holiste et unifiée Le désaccord comme créateur de désordre Alignement Alignement idéal et mesure d’accord 3 Corpus LARAt : un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 49 / 71
  • 50.
    Une approche holisteet unifiée Alignement Distinction entre alignement unitaire et alignement . - a = un alignement unitaire entre deux unités - ¯ = un ensemble d’alignements unitaires pour un jeu d’annotation a Alignement unitaire . - a, un n-uplet, avec n compris dans l’intervalle [1, C ] . - a contient, au plus, une unité de chaque annotateur Alignement c1 c2 1 ( i1 , i∅ ) 1 2 ( i1 , i1 ) ( ... , ... ) 1 2 ( i3 , i12 ) → alignement vide avec unité fictive i∅ → vrai alignement → "faux" alignement Nombre d’alignements unitaires générables : ( Jean-Philippe Fauconnier c∈C Nc ) − 1 Métriques pour l’Annotation 50 / 71
  • 51.
    Une approche holisteet unifiée Alignement et Entropie Alignement et Entropie Entropie dans le sens de désordre (et non de (Shannon, 1948)) Alignement unitaire : - Idée : mesurer le désordre d’un alignement unitaire en utilisant une fonction de dissimilarité - On mesure l’"entropie" d’un alignement unitaire, pour une dx donnée, en faisant la moyenne de ses dissimilarités. . . e(a) = 1 n 2 dx (iu , iv ) . iu ,iv ∈a Intuition Au plus un alignement unitaire aura de grandes distances entre ses unités, au plus il aura de "désordre", c’est-à-dire d’entropie au sens de (Mathet, 2011). Jean-Philippe Fauconnier Métriques pour l’Annotation 51 / 71
  • 52.
    Une approche holisteet unifiée Alignement et Entropie Alignement et Entropie Entropie dans le sens de désordre (et non de (Shannon, 1948)) Alignement : - On mesure l’"entropie" d’un alignement en faisant la moyenne de . l’entropie de chacun de ses alignements unitaires a 1 ¯a e (¯) = |¯| a |¯| a . . e(a) i=1 - Ici, la moyenne est considérée afin d’éviter, dans le cas de comparaison entre deux jeux, l’un avec doublons et l’autre sans, qu’il y ait une différence d’entropie. Jean-Philippe Fauconnier Métriques pour l’Annotation 52 / 71
  • 53.
    1 Coefficients pour l’accord 2 Uneapproche holiste et unifiée Une approche holiste et unifiée Le désaccord comme créateur de désordre Alignement Alignement idéal et mesure d’accord 3 Corpus LARAt : un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 53 / 71
  • 54.
    Une approche holisteet unifiée Alignement idéal et mesure d’accord Alignement idéal : - ˆ est l’alignement ¯ qui minimise l’entropie pour tous les a a . alignements unitaires a possibles pour un jeu d’annotations j. Mesure d’accord - Pour un jeu d’annotations j et un corpus c (textes nus) : ealeatoire (c) − e(j) ealeatoire (c) - où ealeatoire est une estimation du "hasard" (cf. section 1), c-à-d de ce que pourrait être l’entropie pour un corpus donné. accord (j) = Interprétation • Si accord (j) = 1, accord parfait et entropie nulle. • Si accord (j) ≤ 0, aucun accord. Jean-Philippe Fauconnier Métriques pour l’Annotation 54 / 71
  • 55.
    Une approche holisteet unifiée Alignement idée et mesure d’accord Ainsi : - le choix de l’alignement idéal se fait sur base de l’entropie - réciproquement, la mesure d’accord se fait sur base de l’alignement idéal. Dans la pratique : . - Réduction de l’espace de recherche en enlevant les a improbables - Algorithme d’approximation pour une solution approchée de ˆ a - Nécessité, cependant, de définir un ∆∅ pour chaque campagne Jean-Philippe Fauconnier Métriques pour l’Annotation 55 / 71
  • 56.
    1 Coefficients pour l’accord 2 Uneapproche holiste et unifiée 3 Corpus LARAt : un cas concret Cadre Retour sur la tâche d’annotation Exploitation Jean-Philippe Fauconnier Métriques pour l’Annotation 56 / 71
  • 57.
    Corpus LARAt Cadre Une campagned’annotation - Objectif : Annoter des structures énumératives selon une typologie multi-dimensionnelle avec plusieurs axes. - Corpus : - 249 documents de Wikipédia (< GEONTO) - 87 documents de Annodis - Un guide d’annotation - 2 annotateurs étudiants Outil : - Les SE sont objets discursifs où la mise en forme du texte est nécessaire pour l’annotation en texte. - Les outils tels que Callisto, MMAX2, Glozz ne conviennent pas. - Nécessité d’un outil adapté : Développement de LARAt Jean-Philippe Fauconnier Métriques pour l’Annotation 57 / 71
  • 58.
    Corpus LARAt Cadre Interface deLARAt Jean-Philippe Fauconnier Métriques pour l’Annotation 58 / 71
  • 59.
    Corpus LARAt Retour surla tâche d’annotation Des distributions différentes pour les annotateurs : - Annotateur 1 sur Axe Sémantique Jean-Philippe Fauconnier Métriques pour l’Annotation 59 / 71
  • 60.
    Corpus LARAt Retour surla tâche d’annotation Des distributions différentes pour les annotateurs : - Annotateur 2 sur Axe Sémantique Jean-Philippe Fauconnier Métriques pour l’Annotation 60 / 71
  • 61.
    Corpus LARAt Retour surla tâche d’annotation Distributions différentes au niveau du nombre d’items : - Les classes InstanceOf et isA : grand nombre d’items + outliers Jean-Philippe Fauconnier Métriques pour l’Annotation 61 / 71
  • 62.
    Corpus LARAt Exploitation Exploitation : 1.Nécessité de définir un alignement pour calculer les accords 2. Calculer des coef. à distributions individuelles pour évaluer la typologie (k) 3. calculer des coef. à distribution simple pour évaluer le corpus/tâche (α) 1. Alignement par le positionnement - Les multiples axes empêchent une approche unifiée - Alternative : estimer les paramètres de distance - qui nécessite d’annoter un petit set d’annotations .. Jean-Philippe Fauconnier Métriques pour l’Annotation 62 / 71
  • 63.
    Corpus LARAt Exploitation :alignement par le positionnement Génération d’alignements unitaires - Sous-ensemble restreint du corpus (env. 300 annot.) - Objectif : estimer des seuils sur diff − start et diff − end Jean-Philippe Fauconnier Métriques pour l’Annotation 63 / 71
  • 64.
    Corpus LARAt Exploitation :alignement par le positionnement Annotation semi-automatique des alignements "réels" Jean-Philippe Fauconnier Métriques pour l’Annotation 64 / 71
  • 65.
    Corpus LARAt Exploitation :alignement par le positionnement Estimation d’une frontière de décision - Par Support Vector Machine (SVM) Jean-Philippe Fauconnier Métriques pour l’Annotation 65 / 71
  • 66.
    Corpus LARAt Exploitation :alignement par le positionnement Estimation d’une frontière de décision - Par régression logistique (ici sur la seule variable diff − start) - Moyennement efficace mais modèle moins "boîte noire" Jean-Philippe Fauconnier Métriques pour l’Annotation 66 / 71
  • 67.
    Conclusion L’annotation - est àla base de la majorité des systèmes TAL - est un sujet non clos : - L’annotation multi-labels Le seuil d’accord humain et les performances en ML Les annotateurs réellement "aléatoires" sous A. Mechanical Turk etc. Accord et Alignement : - ne sont pas des problèmes indépendants - il existe de nombreuses métriques : - Nécessité d’un choix conscient - Et d’intervalles de confiance ? Jean-Philippe Fauconnier Métriques pour l’Annotation 67 / 71
  • 68.
    Références • S. Afantenos,P. Denis, P. Muller, and L. Danlos, "Learning recursive segments for discourse parsing," in Proc. Proceedings of 7th Language Resources and Evaluation Conference (LREC 2010), 2010. • R. Artstein and M. Poesio, "Inter-coder agreement for computational linguistics," Computational Linguistics, vol. 34, iss. 4, pp. 555-596, 2008. • E. M. Bennett, R. Alpert, and A. Goldstein, "Communications through limited-response questioning," Public Opinion Quarterly, vol. 18, iss. 3, pp. 303-308, 1954. • Y. Bestgen, "Quels indices pour mesurer l’efficacité en segmentation thématique ?," in Proc. Actes de la 16e Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2009), 2009. • J. Carletta, "Assessing agreement on classification tasks : the kappa statistic," Computational linguistics, vol. 22, iss. 2, pp. 249-254, 1996. • J. Cohen and others, "A coefficient of agreement for nominal scales," Educational and psychological measurement, vol. 20, iss. 1, pp. 37-46, 1960. • J. Cohen, "Weighted kappa : Nominal scale agreement provision for scaled disagreement or partial credit.," Psychological bulletin, vol. 70, iss. 4, p. 213, 1968. • B. Di Eugenio and M. Glass, "The kappa statistic : A second look," Computational linguistics, vol. 30, iss. 1, pp. 95-101, 2004. Jean-Philippe Fauconnier Métriques pour l’Annotation 68 / 71
  • 69.
    Références • J. L.Fleiss, "Measuring nominal scale agreement among many raters.," Psychological bulletin, vol. 76, iss. 5, p. 378, 1971. • Fort, K., Corpus Linguistics : Inter-Annotator Agreements, INIST, 2011. • A. M. Green, "Kappa statistics for multiple raters using categorical classifications," in Proc. Proceedings of the 22nd annual SAS User Group International conference, 1997, pp. 1110-1115. • C. Grouin, S. Rosset, P. Zweigenbaum, K. Fort, O. Galibert, and L. Quintard, "Proposal for an extension of traditional named entities : From guidelines to evaluation, an overview," in Proc. Proceedings of the 5th Linguistic Annotation Workshop, 2011, pp. 92-100. • K. Krippendorff, Content analysis : An introduction to its methodology, Sage Publications, 1980. • K. Krippendorff, "On the reliability of unitizing continuous data," Sociological Methodology, pp. 47-76, 1995. • K. Krippendorff, "Measuring the reliability of qualitative text analysis data," Quality & Quantity, vol. 38, pp. 787-800, 2004. • R. J. Landis and G. G. Koch, "The measurement of observer agreement for categorical data," biometrics, pp. 159-174, 1977. Jean-Philippe Fauconnier Métriques pour l’Annotation 69 / 71
  • 70.
    Références • Y. Mathetand A. Widlöcher, "Une approche holiste et unifiée de l’alignement et de la mesure d’accord inter-annotateurs," in Proc. Actes de la 18e Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2011), 2011. • C. Müller and M. Strube, "Multi-level annotation of linguistic data with MMAX2," , Braun, S., Kohn, K., and Mukherjee, J., Eds., Frankfurt a.M., Germany : Peter Lang, 2006, pp. 197-214. • E. Pascual and M. P. Pery-Woodley, "La définition dans le texte," Textes de type consigne–Perception, action, cognition, pp. 65-88, 1995. • M. Péry-Woodley, N. Asher, P. Enjalbert, F. Benamara, M. Bras, C. Fabre, S. Ferrari, L. Ho-Dac, A. Le Draoulec, Y. Mathet, and others, "ANNODIS : une approche outillée de l’annotation de structures discursives," in Proc. Actes de la 16e Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2009), 2009. • J. Pustejovsky and A. Stubbs, Natural language annotation for machine learning, O’Reilly, 2012. • J. Rebeyrolle, M. P. Jacques, M. P. Péry-Woodley, and others, "Titres et intertitres dans l’organisation du discours 1," Journal of French Language Studies, vol. 19, iss. 2, p. 269, 2009. Jean-Philippe Fauconnier Métriques pour l’Annotation 70 / 71
  • 71.
    Références • Rosset, S.,Accords inter-annotateurs dans une campagne d’annotation : de la théorie à la pratique, CLEE-ERSS, 2013. • W. A. Scott, "Reliability of content analysis : The case of nominal scale coding.," Public opinion quarterly, 1955. • S. Siegel and J. N. Castellan, Nonparametric Statistics for the Behavioral Sciences, McGraw-HiU Book Company, N. Y., Ed., , 1988, vol. 2nd edition. • C. E. Shannon, "A mathematical theory of communication," The Bell System Technical Journal„ vol. 27, iss. 1, pp. 379-423, 1948. • A. Stubbs, "MAE and MAI : Lightweight Annotation and Adjudication Tools," in Proc. Proceedings of the 5th Linguistic Annotation Workshop, Association of Computational Linguistics, Portland, 2011. • A. Widlöcher and Y. Mathet, "La plate-forme Glozz : environnement d’annotation et d’exploration de corpus," in Proc. Actes de la 16e Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2009), 2009. • A. Widlöcher and Y. Mathet, "The Glozz platform : a corpus annotation and mining tool," in Proc. Proceedings of the 2012 ACM symposium on Document engineering, 2012, pp. 171-180. Jean-Philippe Fauconnier Métriques pour l’Annotation 71 / 71