2. ▪ ACL2020 概要
▪ ACL2020 Best Paper群の紹介
▪ Best Paper
▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]
▪ Best Paper (Honorable mention)
▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation
Metrics [Mathur+]
▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]
AGENDA
3. ▪ ACL2020 概要
▪ ACL2020 Best Paper群の紹介
▪ Best Paper
▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]
▪ Best Paper (Honorable mention)
▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation
Metrics [Mathur+]
▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]
AGENDA
5. ACL2020 概要: 分野毎の論文数(submission)
Information Extraction, Text Mining
Machine Learning
Machine Translation
Dialogue and Interactive Systems
Generation
Question Answering
Sentiment Analysis, Argument Mining
Word-level Semantics
Applications
Resources and Evaluation
Multidisciplinary, AC COI
Sentience-level Semantics
Tagging, Chunking, Syntax, Parsing
Social Media
Summarization
Document Analysis
Multilinguality
Textual Inference, Other Areas of Semantics
Discourse and Pragmatics
Phonology, Morphology, Word Segmentation
2019 2020
Machine Learning for NLP
Dialogue and Interactive Systems
Machine Translation
Information Extraction
NLP Application
Generation
Question Answering
Resources and Evaluation
Summarization
Computational Social Science and Social Media
Semantics: Sentence Level
Interpretability and Analysis of Models for NLP
Semantics: Lexical
Information Retrieval and Text Mining
Language Grounding to Vision, Robotics and Beyond
Theme
Cognitive Modeling and Psycholinguistics
Speech and Multimodality
Syntax: Tagging, Chunking and Parsing
Multidisciplinary and Area Chair COI
Discourse and Pragmatics
Phonology, Morphology and Word Segmentation
Ethics and NLP
Sentiment Analysis, Stylistic Analysis,
and Argument Mining
Semantics: Textual Inference and Other Areas
of Semantics
Theory and Formalism in NLP (Linguistic and
Mathematical)
Vision, Robotics,Multimodal Grounding,
Speech
Linguistic Theories, Cognitive,
Psycholinguistics
: New
: 200+ submissions
6. ▪ ACL2020 概要
▪ ACL2020 Best Paper群の紹介
▪ Best Paper
▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]
▪ Best Paper (Honorable mention)
▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation
Metrics [Mathur+]
▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]
AGENDA
18. ▪ NLP専門家に対するユーザ調査(実験結果)
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
[Ribeiro+]
CheckList利用者 vs 非利用者:
● Capabilityの観点で、多様な観点で試験を実施
● 結果として約3倍のBug(template利用者)
を発見
→ CheckList利用の有用性を示唆
19. ▪ NLP専門家に対するユーザ調査(実験結果)
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
[Ribeiro+]
template利用者 vs 非利用者:
● Capabilityの観点では同等の試験を実施
● テスト数はtemplate利用者が大きく上回り、
結果としてより多くのバグを発見
→ CheckList利用の有用性を示唆
20. ▪ ACL2020 概要
▪ ACL2020 Best Paper群の紹介
▪ Best Paper
▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]
▪ Best Paper (Honorable mention)
▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation
Evaluation Metrics [Mathur+]
▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]
AGENDA
21. ▪ 機械翻訳(MT)における既存の評価指標の問題点を指摘
▪ 現在のメトリクスの評価手法が、外れ値に弱いことを指摘
▪ 事実上の標準メトリックであるBLEUが必ずしも人間の評価と相関して
いるわけではないことを指摘
▪ MTのパフォーマンスが向上したと言える、メトリクス向上の閾値
の決め方にも言及
Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [Mathur+]
22. ▪ 従来のMT品質の評価方法自体の評価方法
▪ DA (Direct Assessment) と評価法(e.g. BLEU)とのPearson Rで評価
▪ DA: WMT2019で構築されたMTシステムの出力に対して、アノテータが
100段階の評価を付けた上で、アノテータ毎に標準化して平均を取る
▪ どの言語の翻訳タスクに対しても、BLEUは高い相関を持つという結果
▪ 現在も事実上標準の評価指標として用いられている
Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [Mathur+]
I have a pen. ペンを持つ。
ペンを持っています。
原文 MT
Human annotation
DA (Direct Assessment)
50
0 100
BLEU: 28
23. ▪ Pearson R
▪ 基本的には誤差が少ない場合に高い値を示す
▪ 外れ値が存在する場合に高い値を示してしまうことも知られている
▪ 外れ値(少数の品質の悪いMTシステムに対するデータ)を除外すると、
相関係数が大きく変わるものも存在
▪ → メトリック評価時は外れ値を除外しましょう
Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [Mathur+]
外れ値除外無し
外れ値除外有り
24. ▪ 2つのMTシステムペアに対するスコア差を比較
▪ BLEU: 3~5 point 差がある事例の1/4は、DAでは優位な差が無い
▪ 近年のMT研究のBLEU差の多くは 1-2 point 程度の差であり、真の品質
を評価できていない可能性がある
▪ 下図のような各メトリクスとDAの関係性を考慮した上でMTパフォーマンス
向上有無を評価する必要がある
▪ BLEU, TER と比較して、CHRF, YISI-1, ESIM のエラーは少ない傾向
▪ 現時点ではBLEU, TERではなくCHRF, YISI-1, ESIMなどのメトリックを
使うことをオススメする
Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [Mathur+]
25. ▪ ACL2020 概要
▪ ACL2020 Best Paper群の紹介
▪ Best Paper
▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]
▪ Best Paper (Honorable mention)
▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation
Metrics [Mathur+]
▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]
AGENDA