20150916How Far are We from Fully Automatic High Quality Grammatical Error Correction?

How Far are We from Fully
Automatic High Quality
Grammatical Error Correction?
文献紹介2015年９月１６日
髙橋寛治

文献について
• Christopher Bryant, Hwee Tou Ng
• Proceedings of the 53rd Annual Meeting of the
Association for Computational Linguistics and the 7th
International Joint Conference on Natural Language
Processing, pages 697–707, Beijing, China, July 26-31,
2015.

概要
• 文法誤り訂正においてアノテータ間での一致がどれくらいか調
査
• 複数の正解があるタスクではあまり有益ではない
• 学生５０人のエッセイのデータセットを構築
• １０人のアノテータによる正解データを付与
• 新しい評価手法を提案
• 人とシステムのパフォーマンスの比に基づいて

はじめに
• 近年文法誤り訂正の関心は増加している
• CoNLLのShared Task
• 複数の研究(Dale and Kilgariff 2011; Ng et al., 2013)
• しかしながら、様々な手法の比較が難しい
• 一般的にはゴールドデータとの比較
• 母語話者一人によるアノテーション
• 何人かによって作られたデータと比較
• クラウドソーシングを利用(Madnani et al.,2011; Pavlick et
al.,2014)

はじめに
• データセットを作成して簡単に実験
• 1対９の人対人で評価すると最大70%のスコア（F0.5）
• 予想に反したので、より効果的な評価手法を検討

文法誤り訂正におけるアノテータ間での
同意（IAA）
• Cohenのκ係数がよく使われる
• 判断結果の信頼性を問うもの。偶然による一致を考慮
• 0.61~0.80：実質的に一致
• 200個の前置詞を補う問題を母語話者に問う
• Κ係数は0.7だった
• 母語話者の書いた文から前置詞を復元するタスクだったが、実際の学
習者の文の前置詞の復元はノイズがある
• 200文が正しいかどうかを問う(Rozovskaya and Roth 2010)
• 3人の評価者で行った結果、κ値は0.16, 0.4, 0.23
• 評価は慎重に行わなければいけない

SMTにおけるアノテータ間の同意
• アノテータによる偏りを最小化する取り組み(Snover et al.,
2006; Madnani et al ., 2008)
• 言語を横断すると、κ値は0.4より大きくならない(Bojar et
al.,2014)
• なぜ、SMTでは値が低いか？
• 例：”had go”
• “go”->”gone”か、”had go”->”had gone”のエラーと見るか
• 間違いの分類の曖昧性が問題を引き起こす
• 自分自身と比較してもκ値は0.6

アノテータの偏り
• はじめに小規模の実験を行う
• 10人のアノテータによる、少数の文の訂正
• 人によって全く異なる
• 一番大きな変化は能動態から受動態に変化させたこと
文法誤り訂正のタスクにおいて、別の評価手法が必要

データの収集
• 英語非母語話者の大学生２５人のエッセイ
• ２つのトピックについて記述してもらう（エッセイ５０本）
• 大体同じ内容、同じ品質のものが集まる
• アノテート
• CoNLL2014の形式に揃える
• １０人のアノテータ（イギリス英語ネイティブ）
• ２人：CoNLL-2014のオフィシャルアノテータ
• ７人：クラウドソーシング
• １人：著者の１人

アノテータ数の与える影響の調査
• CoNLL-2014のShared taskで確認
• 文レベルで評価する
• 誤り、提案、正例
• F0.5を使用
• 適合率が再現率の２倍として計算される
• システムとそれぞれのアノテータとペアワイズ法で比較する
• 組み合わせ技法の一つ

CoNLLトップのシステムと比較

すべての組み合わせ
• 人対人の比較
• Aはすべてのアノテータ、XはAに属するアノテータ
• Fはスコア（アノテータを3:7に分けて計算）
• 一般化して利用。F0.5の平均スコアを導出

アノテータ数とシステムの比較
CoNLL-‐2014トップは73%の精度を叩きだした

エッセイで部分的に見てみると
AMUとCUUIの結果が逆転する

結論
• １０人でアノテートした結果、従来のアノテータ間の同意の指
標は文法誤り訂正には向いていないことがわかった
• アノテータの増加は評価に影響を与える
• 今後の研究ではこれを参考にすることができる
• 人 vs 人でも、100%にはならない
• データセットをつくりました

20150916How Far are We from Fully Automatic High Quality Grammatical Error Correction?

Recommandé

Recommandé

Contenu connexe

Plus de Kanji Takahashi

Plus de Kanji Takahashi (20)

Dernier

Dernier (7)

20150916How Far are We from Fully Automatic High Quality Grammatical Error Correction?