SlideShare une entreprise Scribd logo
1  sur  29
Télécharger pour lire hors ligne
2020.8.14
Kazuki Fujikawa
株式会社ディー・エヌ・エー + 株式会社 Mobility Technologies
ACL2020 参加報告
~ Best paper (+honorable mention) の紹介 ~
▪ ACL2020 概要
▪ ACL2020 Best Paper群の紹介
▪ Best Paper
▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]
▪ Best Paper (Honorable mention)
▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation
Metrics [Mathur+]
▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]
AGENDA
▪ ACL2020 概要
▪ ACL2020 Best Paper群の紹介
▪ Best Paper
▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]
▪ Best Paper (Honorable mention)
▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation
Metrics [Mathur+]
▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]
AGENDA
▪ 自然言語処理分野のトップカンファレンスの一つ
▪ 採択率: 22.7%(779 / 3429)
▪ バーチャル開催(7/5~11)
ACL2020 概要
自分のタイムゾーンに合わせた
スケジュールの表示
スライド・動画は特設サイトで
常設され、チャットで質問可能
ACL2020 概要: 分野毎の論文数(submission)
Information Extraction, Text Mining
Machine Learning
Machine Translation
Dialogue and Interactive Systems
Generation
Question Answering
Sentiment Analysis, Argument Mining
Word-level Semantics
Applications
Resources and Evaluation
Multidisciplinary, AC COI
Sentience-level Semantics
Tagging, Chunking, Syntax, Parsing
Social Media
Summarization
Document Analysis
Multilinguality
Textual Inference, Other Areas of Semantics
Discourse and Pragmatics
Phonology, Morphology, Word Segmentation
2019 2020
Machine Learning for NLP
Dialogue and Interactive Systems
Machine Translation
Information Extraction
NLP Application
Generation
Question Answering
Resources and Evaluation
Summarization
Computational Social Science and Social Media
Semantics: Sentence Level
Interpretability and Analysis of Models for NLP
Semantics: Lexical
Information Retrieval and Text Mining
Language Grounding to Vision, Robotics and Beyond
Theme
Cognitive Modeling and Psycholinguistics
Speech and Multimodality
Syntax: Tagging, Chunking and Parsing
Multidisciplinary and Area Chair COI
Discourse and Pragmatics
Phonology, Morphology and Word Segmentation
Ethics and NLP
Sentiment Analysis, Stylistic Analysis,
and Argument Mining
Semantics: Textual Inference and Other Areas
of Semantics
Theory and Formalism in NLP (Linguistic and
Mathematical)
Vision, Robotics,Multimodal Grounding,
Speech
Linguistic Theories, Cognitive,
Psycholinguistics
: New
: 200+ submissions
▪ ACL2020 概要
▪ ACL2020 Best Paper群の紹介
▪ Best Paper
▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]
▪ Best Paper (Honorable mention)
▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation
Metrics [Mathur+]
▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]
AGENDA
▪ NLPモデルの性能確認を行うためのCheckListを提案
▪ ソフトウェア工学におけるBehavioral Testingを参考にしている
▪ 大量かつ多様なテストケース生成ツールも同梱したOSSを公開
▪ ユーザ調査で有効性を検証
▪ ex1. 商用の感情分析モデルのバグ発見
▪ ex2. CheckList利用有無で3倍のバグを発見
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
[Ribeiro+]
▪ Test types x Capabilities の軸でCheckListを作成し、動作の確認
を行うことを提案
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
[Ribeiro+]
MFT
(Minimum Functionality test)
INV
(Invariance test)
DIR
(Directional Expectation test)
Vocabulary + POS
Taxonomy
Robustness
NER
Fairness
Temporal understanding
Negation
Coreference
Semantic Role Labeling
Logic
Test types
Capabilities
▪ Test types x Capabilities の軸でCheckListを作成し、動作の確認
を行うことを提案
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
[Ribeiro+]
MFT
(Minimum Functionality test)
INV
(Invariance test)
DIR
(Directional Expectation test)
Vocabulary + POS
Taxonomy
Robustness
NER
Fairness
Temporal understanding
Negation
Coreference
Semantic Role Labeling
Logic
Test types
Capabilities
MFT (Minimum Functionality test):
● ソフトウェア工学におけるユニットテストにヒントを得ている
● 目的タスクに関する動作確認用のテストケースの集合体
● 例: 感情分析
(Vocabulary + POS) I despised that aircraft. → negative
(Negation) The food is not poor. → positive or neutral
▪ Test types x Capabilities の軸でCheckListを作成し、動作の確認
を行うことを提案
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
[Ribeiro+]
MFT
(Minimum Functionality test)
INV
(Invariance test)
DIR
(Directional Expectation test)
Vocabulary + POS
Taxonomy
Robustness
NER
Fairness
Temporal understanding
Negation
Coreference
Semantic Role Labeling
Logic
Test types
Capabilities
INV (Invariance test):
● ソフトウェア工学におけるメタモルフィックテストから
ヒントを得ている
● ラベルに影響の無い摂動に対する出力不変性をテスト
● 例: 感情分析
(Robust) @SouthwestAir no thanksthakns → INV
(NER) I miss the #nerdbird in San JoseDenver → INV
▪ Test types x Capabilities の軸でCheckListを作成し、動作の確認
を行うことを提案
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
[Ribeiro+]
MFT
(Minimum Functionality test)
INV
(Invariance test)
DIR
(Directional Expectation test)
Vocabulary + POS
Taxonomy
Robustness
NER
Fairness
Temporal understanding
Negation
Coreference
Semantic Role Labeling
Logic
Test types
Capabilities
DIR (Directional Expectation test):
● ラベルに影響を与える変更が期待通り影響しているか
どうかを確認するテスト
● 例: 感情分析
(Vocabulary+POS) Your service sucks. +You are lame.
→ negative++
(Vocabulary+POS) Great trip on 2672 yesterday... +You
are extraordinary. → positive++
▪ テストケースをスケールするための手法
▪ テンプレートによる多様な入力セットに対する動作確認
▪ ex. “I {NEGATION} {POS_VERB} the {THING}.”
▪ {NEGATION} = {didn't, can't say I, ...}
▪ {POS_VERB} = {love, like, ...}
▪ {THING} = {food, flight, service, ...}
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
[Ribeiro+]
▪ テストケースをスケールするための手法
▪ テンプレート展開の自動化(レコメンド)
▪ RoBERTaなどのMaskedLMを使い、テンプレートの穴埋めを提案
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
[Ribeiro+]
▪ 商用サービス / SoTAモデルに対するテストの実施(感情分析)
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
[Ribeiro+]
 以下のサービス / モデルに対するテスト結果で比較
▪ 商用サービス: Microsoft, Google, Amazonが提供する感情分析API
▪ SoTAモデル: BERT, RoBERTa のFine-tune
▪ 商用サービス / SoTAモデルに対するテストの実施(感情分析)
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
[Ribeiro+]
● 明らかにNeutralなデータに対するエラー
○ Google: 7.6%, Amazon: 4.8%のエラー率
● 非Neutralの簡単な事例でもエラーが発生
○ ex. I like this seat → positive
▪ 商用サービス / SoTAモデルに対するテストの実施(感情分析)
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
[Ribeiro+]
短縮URLやアカウント名などを追加するだけ
で、予測が変化してしまう事例も多数存在
▪ NLP専門家に対するユーザ調査(実験設定)
▪ QQP(質問文同定タスク)を学習したBERTモデルを提供し、
Jupyter上・2h以内でモデルのテストをしてもらう
▪ 不具合の発見に対してCheckListやテストケース生成ツールが有用である
のかを検証
▪ 被験者: 学術 / 産業界のNLP専門家18名を以下のグループに分割
▪ Unaided: 特に指示を与えない
▪ Cap.only: 前項で示したCapabilitiesのリストを共有
▪ Cap.+tmpl.: Capabilitiesのリストに加え、template+穴埋めツールを提供
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
[Ribeiro+]
▪ NLP専門家に対するユーザ調査(実験結果)
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
[Ribeiro+]
CheckList利用者 vs 非利用者:
● Capabilityの観点で、多様な観点で試験を実施
● 結果として約3倍のBug(template利用者)
を発見
→ CheckList利用の有用性を示唆
▪ NLP専門家に対するユーザ調査(実験結果)
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
[Ribeiro+]
template利用者 vs 非利用者:
● Capabilityの観点では同等の試験を実施
● テスト数はtemplate利用者が大きく上回り、
結果としてより多くのバグを発見
→ CheckList利用の有用性を示唆
▪ ACL2020 概要
▪ ACL2020 Best Paper群の紹介
▪ Best Paper
▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]
▪ Best Paper (Honorable mention)
▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation
Evaluation Metrics [Mathur+]
▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]
AGENDA
▪ 機械翻訳(MT)における既存の評価指標の問題点を指摘
▪ 現在のメトリクスの評価手法が、外れ値に弱いことを指摘
▪ 事実上の標準メトリックであるBLEUが必ずしも人間の評価と相関して
いるわけではないことを指摘
▪ MTのパフォーマンスが向上したと言える、メトリクス向上の閾値
の決め方にも言及
Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [Mathur+]
▪ 従来のMT品質の評価方法自体の評価方法
▪ DA (Direct Assessment) と評価法(e.g. BLEU)とのPearson Rで評価
▪ DA: WMT2019で構築されたMTシステムの出力に対して、アノテータが
100段階の評価を付けた上で、アノテータ毎に標準化して平均を取る
▪ どの言語の翻訳タスクに対しても、BLEUは高い相関を持つという結果
▪ 現在も事実上標準の評価指標として用いられている
Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [Mathur+]
I have a pen. ペンを持つ。
ペンを持っています。
原文 MT
Human annotation
DA (Direct Assessment)
50
0 100
BLEU: 28
▪ Pearson R
▪ 基本的には誤差が少ない場合に高い値を示す
▪ 外れ値が存在する場合に高い値を示してしまうことも知られている
▪ 外れ値(少数の品質の悪いMTシステムに対するデータ)を除外すると、
相関係数が大きく変わるものも存在
▪ → メトリック評価時は外れ値を除外しましょう
Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [Mathur+]
外れ値除外無し
外れ値除外有り
▪ 2つのMTシステムペアに対するスコア差を比較
▪ BLEU: 3~5 point 差がある事例の1/4は、DAでは優位な差が無い
▪ 近年のMT研究のBLEU差の多くは 1-2 point 程度の差であり、真の品質
を評価できていない可能性がある
▪ 下図のような各メトリクスとDAの関係性を考慮した上でMTパフォーマンス
向上有無を評価する必要がある
▪ BLEU, TER と比較して、CHRF, YISI-1, ESIM のエラーは少ない傾向
▪ 現時点ではBLEU, TERではなくCHRF, YISI-1, ESIMなどのメトリックを
使うことをオススメする
Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [Mathur+]
▪ ACL2020 概要
▪ ACL2020 Best Paper群の紹介
▪ Best Paper
▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]
▪ Best Paper (Honorable mention)
▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation
Metrics [Mathur+]
▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]
AGENDA
▪ 広範で膨大なリソースで事前学習されたモデルを、対象タスクの
ドメインに合わせて再学習することの有用性を調査
▪ ドメイン間の距離が大きいほどパフォーマンス改善することを確認
(DAPT)
▪ 大規模な計算資源が利用できない環境でも、単純なデータ選択戦略
によるデータ拡張でパフォーマンス向上可能であることを確認
(TAPT, knn-TAPT)
Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks
[Gururangan+]
▪ Domain-Adaptive Pretraining (DAPT)
▪ RoBERTaをターゲットドメインのデータを使ってMLMを再Pretrainする
▪ 4ドメイン x 2タスクに対するFinetuneの性能を、Pretrain種別に比較
▪ RoBERTaのドメインから離れているタスクほど性能改善があることを確認
▪ ドメイン間の距離 (下図2): 各データ上位の語彙上位1万件の重複割合で比較
▪ 無関係のドメインでの再Pretrain(¬DAPT)よりも一貫して良い結果
Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks
[Gururangan+]
▪ Task-Adaptive Pretraining (TAPT)
▪ RoBERTaをターゲットタスクのデータを使ってMLMを再Pretrainする
▪ 4ドメイン x 2タスクに対するFinetuneの性能を、Pretrain種別に比較
▪ DAPTと比べて小規模データであるものの、匹敵する性能であることを確認
▪ DAPT→TAPT→Finetuneの順で訓練したものがベストであった
▪ 同ドメイン別タスクによるTransfer-TAPTはTAPTと比べて性能劣化
→ TAPTの有効性を確認
Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks
[Gururangan+]
▪ TAPT + Data Augmentation (kNN-TAPT)
▪ TAPTで使用したターゲットタスクの各サンプルに対し、DAPTで使用
したドメインデータからk件の類似データをMLMの訓練データに追加
▪ TAPTとDAPTの中間的な位置づけ、小規模な計算資源で実施可能
▪ DAPT, TAPT, kNN-TAPT, RAND-TAPTで比較
▪ TAPT < kNN-TAPT < DAPTという結果、kを増加するほどDAPTに近づく
▪ 計算資源が限られた環境下での有用性を示唆
Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks
[Gururangan+]

Contenu connexe

Similaire à ACL2020 best papers

20110628 for gatracker
20110628 for gatracker20110628 for gatracker
20110628 for gatracker
Kazuhiro Kida
 
20110628 for gatracker
20110628 for gatracker20110628 for gatracker
20110628 for gatracker
kazkida
 
19-B-4 開発品質向上のための、ASQ/ALMソリューション
19-B-4 開発品質向上のための、ASQ/ALMソリューション19-B-4 開発品質向上のための、ASQ/ALMソリューション
19-B-4 開発品質向上のための、ASQ/ALMソリューション
Developers Summit
 
yokyo-unv.
yokyo-unv.yokyo-unv.
yokyo-unv.
hirano
 
U iscope 事業会社様向け_概要資料
U iscope 事業会社様向け_概要資料U iscope 事業会社様向け_概要資料
U iscope 事業会社様向け_概要資料
Daisuke Hiraishi
 

Similaire à ACL2020 best papers (20)

20110628 for gatracker
20110628 for gatracker20110628 for gatracker
20110628 for gatracker
 
20110628 for gatracker
20110628 for gatracker20110628 for gatracker
20110628 for gatracker
 
DeNAの品質を支えるQAの取り組み 〜標準化から実践まで〜
DeNAの品質を支えるQAの取り組み 〜標準化から実践まで〜DeNAの品質を支えるQAの取り組み 〜標準化から実践まで〜
DeNAの品質を支えるQAの取り組み 〜標準化から実践まで〜
 
20151021 cookpad talk_test_engineer
20151021 cookpad talk_test_engineer20151021 cookpad talk_test_engineer
20151021 cookpad talk_test_engineer
 
JAWS FESTA Kansai 2013 | ビジネスに貢献する戦略的なITのためのDevOps
JAWS FESTA Kansai 2013 | ビジネスに貢献する戦略的なITのためのDevOpsJAWS FESTA Kansai 2013 | ビジネスに貢献する戦略的なITのためのDevOps
JAWS FESTA Kansai 2013 | ビジネスに貢献する戦略的なITのためのDevOps
 
QA組織とiOSのテスト
QA組織とiOSのテストQA組織とiOSのテスト
QA組織とiOSのテスト
 
【de:code 2020】 リモートワーク中でも社員の働き方を可視化! Workplace Analytics の概要
【de:code 2020】 リモートワーク中でも社員の働き方を可視化! Workplace Analytics の概要【de:code 2020】 リモートワーク中でも社員の働き方を可視化! Workplace Analytics の概要
【de:code 2020】 リモートワーク中でも社員の働き方を可視化! Workplace Analytics の概要
 
20140605_じどうかの窓口_ソフトウェアテスト自動化のRoi
20140605_じどうかの窓口_ソフトウェアテスト自動化のRoi20140605_じどうかの窓口_ソフトウェアテスト自動化のRoi
20140605_じどうかの窓口_ソフトウェアテスト自動化のRoi
 
Toxic comment classification
Toxic comment classificationToxic comment classification
Toxic comment classification
 
19-B-4 開発品質向上のための、ASQ/ALMソリューション
19-B-4 開発品質向上のための、ASQ/ALMソリューション19-B-4 開発品質向上のための、ASQ/ALMソリューション
19-B-4 開発品質向上のための、ASQ/ALMソリューション
 
テスト観点に関する取り組み事例
テスト観点に関する取り組み事例テスト観点に関する取り組み事例
テスト観点に関する取り組み事例
 
Marketplace QA Introduction
Marketplace QA IntroductionMarketplace QA Introduction
Marketplace QA Introduction
 
【デブサミ 2011】 いまだからこそ、ALM - 人・プロセス・ツール
【デブサミ 2011】 いまだからこそ、ALM - 人・プロセス・ツール【デブサミ 2011】 いまだからこそ、ALM - 人・プロセス・ツール
【デブサミ 2011】 いまだからこそ、ALM - 人・プロセス・ツール
 
Alm summit
Alm summitAlm summit
Alm summit
 
アジャイルなテストの見積もりと計画作り
アジャイルなテストの見積もりと計画作りアジャイルなテストの見積もりと計画作り
アジャイルなテストの見積もりと計画作り
 
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
 
2014-12-17 #ssmjp 運用現場における"品質"とは
2014-12-17 #ssmjp 運用現場における"品質"とは2014-12-17 #ssmjp 運用現場における"品質"とは
2014-12-17 #ssmjp 運用現場における"品質"とは
 
yokyo-unv.
yokyo-unv.yokyo-unv.
yokyo-unv.
 
テストエンジニアの品格 #automatornight
テストエンジニアの品格 #automatornightテストエンジニアの品格 #automatornight
テストエンジニアの品格 #automatornight
 
U iscope 事業会社様向け_概要資料
U iscope 事業会社様向け_概要資料U iscope 事業会社様向け_概要資料
U iscope 事業会社様向け_概要資料
 

Plus de Kazuki Fujikawa

Plus de Kazuki Fujikawa (15)

Stanford Covid Vaccine 2nd place solution
Stanford Covid Vaccine 2nd place solutionStanford Covid Vaccine 2nd place solution
Stanford Covid Vaccine 2nd place solution
 
BMS Molecular Translation 3rd place solution
BMS Molecular Translation 3rd place solutionBMS Molecular Translation 3rd place solution
BMS Molecular Translation 3rd place solution
 
Kaggle参加報告: Champs Predicting Molecular Properties
Kaggle参加報告: Champs Predicting Molecular PropertiesKaggle参加報告: Champs Predicting Molecular Properties
Kaggle参加報告: Champs Predicting Molecular Properties
 
NLP@ICLR2019
NLP@ICLR2019NLP@ICLR2019
NLP@ICLR2019
 
Kaggle参加報告: Quora Insincere Questions Classification
Kaggle参加報告: Quora Insincere Questions ClassificationKaggle参加報告: Quora Insincere Questions Classification
Kaggle参加報告: Quora Insincere Questions Classification
 
Ordered neurons integrating tree structures into recurrent neural networks
Ordered neurons integrating tree structures into recurrent neural networksOrdered neurons integrating tree structures into recurrent neural networks
Ordered neurons integrating tree structures into recurrent neural networks
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classification
 
Graph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generationGraph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generation
 
Conditional neural processes
Conditional neural processesConditional neural processes
Conditional neural processes
 
NIPS2017 Few-shot Learning and Graph Convolution
NIPS2017 Few-shot Learning and Graph ConvolutionNIPS2017 Few-shot Learning and Graph Convolution
NIPS2017 Few-shot Learning and Graph Convolution
 
Matrix capsules with em routing
Matrix capsules with em routingMatrix capsules with em routing
Matrix capsules with em routing
 
Predicting organic reaction outcomes with weisfeiler lehman network
Predicting organic reaction outcomes with weisfeiler lehman networkPredicting organic reaction outcomes with weisfeiler lehman network
Predicting organic reaction outcomes with weisfeiler lehman network
 
SchNet: A continuous-filter convolutional neural network for modeling quantum...
SchNet: A continuous-filter convolutional neural network for modeling quantum...SchNet: A continuous-filter convolutional neural network for modeling quantum...
SchNet: A continuous-filter convolutional neural network for modeling quantum...
 
Matching networks for one shot learning
Matching networks for one shot learningMatching networks for one shot learning
Matching networks for one shot learning
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用
 

ACL2020 best papers

  • 1. 2020.8.14 Kazuki Fujikawa 株式会社ディー・エヌ・エー + 株式会社 Mobility Technologies ACL2020 参加報告 ~ Best paper (+honorable mention) の紹介 ~
  • 2. ▪ ACL2020 概要 ▪ ACL2020 Best Paper群の紹介 ▪ Best Paper ▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] ▪ Best Paper (Honorable mention) ▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+] ▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+] AGENDA
  • 3. ▪ ACL2020 概要 ▪ ACL2020 Best Paper群の紹介 ▪ Best Paper ▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] ▪ Best Paper (Honorable mention) ▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+] ▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+] AGENDA
  • 4. ▪ 自然言語処理分野のトップカンファレンスの一つ ▪ 採択率: 22.7%(779 / 3429) ▪ バーチャル開催(7/5~11) ACL2020 概要 自分のタイムゾーンに合わせた スケジュールの表示 スライド・動画は特設サイトで 常設され、チャットで質問可能
  • 5. ACL2020 概要: 分野毎の論文数(submission) Information Extraction, Text Mining Machine Learning Machine Translation Dialogue and Interactive Systems Generation Question Answering Sentiment Analysis, Argument Mining Word-level Semantics Applications Resources and Evaluation Multidisciplinary, AC COI Sentience-level Semantics Tagging, Chunking, Syntax, Parsing Social Media Summarization Document Analysis Multilinguality Textual Inference, Other Areas of Semantics Discourse and Pragmatics Phonology, Morphology, Word Segmentation 2019 2020 Machine Learning for NLP Dialogue and Interactive Systems Machine Translation Information Extraction NLP Application Generation Question Answering Resources and Evaluation Summarization Computational Social Science and Social Media Semantics: Sentence Level Interpretability and Analysis of Models for NLP Semantics: Lexical Information Retrieval and Text Mining Language Grounding to Vision, Robotics and Beyond Theme Cognitive Modeling and Psycholinguistics Speech and Multimodality Syntax: Tagging, Chunking and Parsing Multidisciplinary and Area Chair COI Discourse and Pragmatics Phonology, Morphology and Word Segmentation Ethics and NLP Sentiment Analysis, Stylistic Analysis, and Argument Mining Semantics: Textual Inference and Other Areas of Semantics Theory and Formalism in NLP (Linguistic and Mathematical) Vision, Robotics,Multimodal Grounding, Speech Linguistic Theories, Cognitive, Psycholinguistics : New : 200+ submissions
  • 6. ▪ ACL2020 概要 ▪ ACL2020 Best Paper群の紹介 ▪ Best Paper ▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] ▪ Best Paper (Honorable mention) ▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+] ▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+] AGENDA
  • 7. ▪ NLPモデルの性能確認を行うためのCheckListを提案 ▪ ソフトウェア工学におけるBehavioral Testingを参考にしている ▪ 大量かつ多様なテストケース生成ツールも同梱したOSSを公開 ▪ ユーザ調査で有効性を検証 ▪ ex1. 商用の感情分析モデルのバグ発見 ▪ ex2. CheckList利用有無で3倍のバグを発見 Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]
  • 8. ▪ Test types x Capabilities の軸でCheckListを作成し、動作の確認 を行うことを提案 Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] MFT (Minimum Functionality test) INV (Invariance test) DIR (Directional Expectation test) Vocabulary + POS Taxonomy Robustness NER Fairness Temporal understanding Negation Coreference Semantic Role Labeling Logic Test types Capabilities
  • 9. ▪ Test types x Capabilities の軸でCheckListを作成し、動作の確認 を行うことを提案 Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] MFT (Minimum Functionality test) INV (Invariance test) DIR (Directional Expectation test) Vocabulary + POS Taxonomy Robustness NER Fairness Temporal understanding Negation Coreference Semantic Role Labeling Logic Test types Capabilities MFT (Minimum Functionality test): ● ソフトウェア工学におけるユニットテストにヒントを得ている ● 目的タスクに関する動作確認用のテストケースの集合体 ● 例: 感情分析 (Vocabulary + POS) I despised that aircraft. → negative (Negation) The food is not poor. → positive or neutral
  • 10. ▪ Test types x Capabilities の軸でCheckListを作成し、動作の確認 を行うことを提案 Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] MFT (Minimum Functionality test) INV (Invariance test) DIR (Directional Expectation test) Vocabulary + POS Taxonomy Robustness NER Fairness Temporal understanding Negation Coreference Semantic Role Labeling Logic Test types Capabilities INV (Invariance test): ● ソフトウェア工学におけるメタモルフィックテストから ヒントを得ている ● ラベルに影響の無い摂動に対する出力不変性をテスト ● 例: 感情分析 (Robust) @SouthwestAir no thanksthakns → INV (NER) I miss the #nerdbird in San JoseDenver → INV
  • 11. ▪ Test types x Capabilities の軸でCheckListを作成し、動作の確認 を行うことを提案 Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] MFT (Minimum Functionality test) INV (Invariance test) DIR (Directional Expectation test) Vocabulary + POS Taxonomy Robustness NER Fairness Temporal understanding Negation Coreference Semantic Role Labeling Logic Test types Capabilities DIR (Directional Expectation test): ● ラベルに影響を与える変更が期待通り影響しているか どうかを確認するテスト ● 例: 感情分析 (Vocabulary+POS) Your service sucks. +You are lame. → negative++ (Vocabulary+POS) Great trip on 2672 yesterday... +You are extraordinary. → positive++
  • 12. ▪ テストケースをスケールするための手法 ▪ テンプレートによる多様な入力セットに対する動作確認 ▪ ex. “I {NEGATION} {POS_VERB} the {THING}.” ▪ {NEGATION} = {didn't, can't say I, ...} ▪ {POS_VERB} = {love, like, ...} ▪ {THING} = {food, flight, service, ...} Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]
  • 13. ▪ テストケースをスケールするための手法 ▪ テンプレート展開の自動化(レコメンド) ▪ RoBERTaなどのMaskedLMを使い、テンプレートの穴埋めを提案 Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]
  • 14. ▪ 商用サービス / SoTAモデルに対するテストの実施(感情分析) Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]  以下のサービス / モデルに対するテスト結果で比較 ▪ 商用サービス: Microsoft, Google, Amazonが提供する感情分析API ▪ SoTAモデル: BERT, RoBERTa のFine-tune
  • 15. ▪ 商用サービス / SoTAモデルに対するテストの実施(感情分析) Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] ● 明らかにNeutralなデータに対するエラー ○ Google: 7.6%, Amazon: 4.8%のエラー率 ● 非Neutralの簡単な事例でもエラーが発生 ○ ex. I like this seat → positive
  • 16. ▪ 商用サービス / SoTAモデルに対するテストの実施(感情分析) Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] 短縮URLやアカウント名などを追加するだけ で、予測が変化してしまう事例も多数存在
  • 17. ▪ NLP専門家に対するユーザ調査(実験設定) ▪ QQP(質問文同定タスク)を学習したBERTモデルを提供し、 Jupyter上・2h以内でモデルのテストをしてもらう ▪ 不具合の発見に対してCheckListやテストケース生成ツールが有用である のかを検証 ▪ 被験者: 学術 / 産業界のNLP専門家18名を以下のグループに分割 ▪ Unaided: 特に指示を与えない ▪ Cap.only: 前項で示したCapabilitiesのリストを共有 ▪ Cap.+tmpl.: Capabilitiesのリストに加え、template+穴埋めツールを提供 Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]
  • 18. ▪ NLP専門家に対するユーザ調査(実験結果) Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] CheckList利用者 vs 非利用者: ● Capabilityの観点で、多様な観点で試験を実施 ● 結果として約3倍のBug(template利用者) を発見 → CheckList利用の有用性を示唆
  • 19. ▪ NLP専門家に対するユーザ調査(実験結果) Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] template利用者 vs 非利用者: ● Capabilityの観点では同等の試験を実施 ● テスト数はtemplate利用者が大きく上回り、 結果としてより多くのバグを発見 → CheckList利用の有用性を示唆
  • 20. ▪ ACL2020 概要 ▪ ACL2020 Best Paper群の紹介 ▪ Best Paper ▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] ▪ Best Paper (Honorable mention) ▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+] ▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+] AGENDA
  • 21. ▪ 機械翻訳(MT)における既存の評価指標の問題点を指摘 ▪ 現在のメトリクスの評価手法が、外れ値に弱いことを指摘 ▪ 事実上の標準メトリックであるBLEUが必ずしも人間の評価と相関して いるわけではないことを指摘 ▪ MTのパフォーマンスが向上したと言える、メトリクス向上の閾値 の決め方にも言及 Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+]
  • 22. ▪ 従来のMT品質の評価方法自体の評価方法 ▪ DA (Direct Assessment) と評価法(e.g. BLEU)とのPearson Rで評価 ▪ DA: WMT2019で構築されたMTシステムの出力に対して、アノテータが 100段階の評価を付けた上で、アノテータ毎に標準化して平均を取る ▪ どの言語の翻訳タスクに対しても、BLEUは高い相関を持つという結果 ▪ 現在も事実上標準の評価指標として用いられている Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+] I have a pen. ペンを持つ。 ペンを持っています。 原文 MT Human annotation DA (Direct Assessment) 50 0 100 BLEU: 28
  • 23. ▪ Pearson R ▪ 基本的には誤差が少ない場合に高い値を示す ▪ 外れ値が存在する場合に高い値を示してしまうことも知られている ▪ 外れ値(少数の品質の悪いMTシステムに対するデータ)を除外すると、 相関係数が大きく変わるものも存在 ▪ → メトリック評価時は外れ値を除外しましょう Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+] 外れ値除外無し 外れ値除外有り
  • 24. ▪ 2つのMTシステムペアに対するスコア差を比較 ▪ BLEU: 3~5 point 差がある事例の1/4は、DAでは優位な差が無い ▪ 近年のMT研究のBLEU差の多くは 1-2 point 程度の差であり、真の品質 を評価できていない可能性がある ▪ 下図のような各メトリクスとDAの関係性を考慮した上でMTパフォーマンス 向上有無を評価する必要がある ▪ BLEU, TER と比較して、CHRF, YISI-1, ESIM のエラーは少ない傾向 ▪ 現時点ではBLEU, TERではなくCHRF, YISI-1, ESIMなどのメトリックを 使うことをオススメする Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+]
  • 25. ▪ ACL2020 概要 ▪ ACL2020 Best Paper群の紹介 ▪ Best Paper ▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] ▪ Best Paper (Honorable mention) ▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+] ▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+] AGENDA
  • 26. ▪ 広範で膨大なリソースで事前学習されたモデルを、対象タスクの ドメインに合わせて再学習することの有用性を調査 ▪ ドメイン間の距離が大きいほどパフォーマンス改善することを確認 (DAPT) ▪ 大規模な計算資源が利用できない環境でも、単純なデータ選択戦略 によるデータ拡張でパフォーマンス向上可能であることを確認 (TAPT, knn-TAPT) Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]
  • 27. ▪ Domain-Adaptive Pretraining (DAPT) ▪ RoBERTaをターゲットドメインのデータを使ってMLMを再Pretrainする ▪ 4ドメイン x 2タスクに対するFinetuneの性能を、Pretrain種別に比較 ▪ RoBERTaのドメインから離れているタスクほど性能改善があることを確認 ▪ ドメイン間の距離 (下図2): 各データ上位の語彙上位1万件の重複割合で比較 ▪ 無関係のドメインでの再Pretrain(¬DAPT)よりも一貫して良い結果 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]
  • 28. ▪ Task-Adaptive Pretraining (TAPT) ▪ RoBERTaをターゲットタスクのデータを使ってMLMを再Pretrainする ▪ 4ドメイン x 2タスクに対するFinetuneの性能を、Pretrain種別に比較 ▪ DAPTと比べて小規模データであるものの、匹敵する性能であることを確認 ▪ DAPT→TAPT→Finetuneの順で訓練したものがベストであった ▪ 同ドメイン別タスクによるTransfer-TAPTはTAPTと比べて性能劣化 → TAPTの有効性を確認 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]
  • 29. ▪ TAPT + Data Augmentation (kNN-TAPT) ▪ TAPTで使用したターゲットタスクの各サンプルに対し、DAPTで使用 したドメインデータからk件の類似データをMLMの訓練データに追加 ▪ TAPTとDAPTの中間的な位置づけ、小規模な計算資源で実施可能 ▪ DAPT, TAPT, kNN-TAPT, RAND-TAPTで比較 ▪ TAPT < kNN-TAPT < DAPTという結果、kを増加するほどDAPTに近づく ▪ 計算資源が限られた環境下での有用性を示唆 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]