SlideShare a Scribd company logo
1 of 39
原聡@第12回最先端NLP勉強会
XAI技術の効能を
ユーザ実験で評価する研究
原 聡
大阪大学 産業科学研究所
1
第12回最先端NLP勉強会
2020/9/25-26@オンライン
担当論文 → 論文調査へ
Evaluating Explainable AI: Which Algorithmic Explanations
Help Users Predict Model Behavior? (ACL2020)
【論文調査】
原聡@第12回最先端NLP勉強会
Peeking inside the black-box: A survey on
Explainable Artificial Intelligence (XAI)
https://ieeexplore.ieee.org/document/8466590/
“XAIが大事”と言われはじめてから5年くらい
n 発表されるXAI関係の論文の数が爆発的に増えた。
• 機械学習関連の国際会議ではワークショップも開催。
• 【参考】 日本語まとめ資料
- 機械学習における解釈性(私のブックマーク), 人工知能, Vol.33, No.3, 2018.
- 説明可能AI(私のブックマーク), 人工知能, Vol.34, No.4, 2019.
- 機械学習モデルの判断根拠の説明
- 機械学習モデルの判断根拠の説明 (Ver.2)
2
原聡@第12回最先端NLP勉強会
ところで、XAI技術ってユーザの役に立ってるの?
n 5年も研究されて色々な技術が開発されているのなら、
既に色々なところで実用化されて役に立っているので
は?
n でも、「弊社はXAI技術で大儲けしてます」という話は
(私の知る範囲では)聞かない。
• 「サービスの一環としてXAI技術も提供します」はよく聞く。
n もしかして、XAI技術ってあまり役に立たない??
3
原聡@第12回最先端NLP勉強会
XAI技術がユーザの役に立つか調べた研究(一部)
n arXivの論文
[1] Manipulating and Measuring Model Interpretability, arXiv’18.
[2] Does the Whole Exceed its Parts? The Effect of AI Explanations on Complementary Term Performance, arXiv’20.
n NLP系の会議論文
[3] Comparing Automatic and Human Evaluation of_Local Explanations for Text Classification, NAACL-HLT’18.
[4] Evaluating Explainable AI: Which Algorithmic Explanations Help Users Predict Model Behavior?, ACL’20.
n CV系の会議論文
???(調査不足)
n FAT系の会議論文
[5] On Human Predictions with Explanations and Predictions of Machine Learning Models: A Case Study on Deception
Detection, FAT*’19.
[6] Effect of Confidence and Explanation on Accuracy and Trust Calibration in AI-Assisted Decision Making, FAT*’20.
n HCI系の会議論文
[7] The Effects of Example-Based Explanations in a Machine Learning Interface, IUI’19.
[8] What can AI do for me? Evaluating Machine Learning Interpretations in Cooperative Play, IUI’19.
[9] Effects of Influence on User Trust in Predictive Decision Making, CHI’19.
[10] The Principles and Limits of Algorithm-in-the-Loop Decision Making, CSCW’19.
[11] “Why is ‘Chicago’ deceptive?” Towards Building Model-Driven Tutorial for Humans, CHI’20.
4
原聡@第12回最先端NLP勉強会
XAI技術が “ユーザの役に立つ” とは?
n XAIに期待される効能(代表的な項目の一部)
• モデルの挙動理解
ユーザが「モデルの予測」を予測できるようになる。
• モデルへの信頼醸成
ユーザが「モデルの予測」を信頼して採用するようになる。
• ユーザの予測精度向上
モデルの補助を受けて、ユーザが高精度な予測ができるよう
になる。
n XAI(説明)が“ユーザの役に立つ”ならば、説明の有無
でユーザの行動に変化が生じるはず。
→ ユーザの行動の(良い方向への)変化が見られれば、
XAI(説明)が“ユーザの役に立つ”と言えそう。
5
原聡@第12回最先端NLP勉強会
【注意】
n 本資料は、論文[1] - [11]を主に「評価項目」と「結果」を
中心にまとめたもの。
• 実験の詳細や結果の分析方法などは各論文へ。
• 論文ごとにデータやモデル、評価した説明法などが異なるた
め、厳密には論文間の結果の比較はできないことに注意。
n 論文[1] - [11]の“ユーザ”は主にエンドユーザ
• 機械学習の知識はないが、モデルを予測(意思決定)に使う
ユーザ。
• 機械学習に詳しいユーザ(研究者/エンジニアなど)向けの
XAIの有効性の検証ではない。
6
原聡@第12回最先端NLP勉強会
XAIの効能まとめ
n 現状の評価
• モデルの挙動理解
ユーザが「モデルの予測」を予測できるようになる。
→ 効果はあるかもしれないが、限定的。
• モデルへの信頼醸成
ユーザが「モデルの予測」を信頼して採用するようになる。
→ 「予測クラスのクラス確率の提示」は効果ありそう。
• ユーザの予測精度向上
モデルの補助を受けて、ユーザが高精度な予測ができるよう
になる。
→ 効果はある が、ユーザがモデル単体の精度を超えるの
は困難。
7
原聡@第12回最先端NLP勉強会
現状の研究結果
n 効能 「モデルの挙動理解」
ユーザが「モデルの予測」を予測できるようになる。
n 現状の評価
効果はあるかもしれないが、限定的。
n 評価研究:[1], [3], [4]
• [1] 効果あり(限定的)
- 説明が十分に単純な場合のみ
• [3] 効果あり
• [4] 効果あり(限定的)
- 一部のデータおよび一部の説明法でのみ
8
原聡@第12回最先端NLP勉強会
現状の研究結果
n 効能 「モデルの挙動理解」
ユーザが「モデルの予測」を予測できるようになる。
n 現状の評価
効果はあるかもしれないが、限定的。
n 評価研究:[1], [3], [4]
• [1] 効果あり(限定的)
- 説明が十分に単純な場合のみ
• [3] 効果あり
• [4] 効果あり(限定的)
- 一部のデータおよび一部の説明法でのみ
9
原聡@第12回最先端NLP勉強会
[4] Evaluating Explainable AI: Which Algorithmic Explanations
Help Users Predict Model Behavior?, ACL’20.
10
評価項目 説明から、ユーザは「モデルの予測」を予測できるか?
データ Movie reviews / Adult
モデル DNN
説明 1. 重要単語・特徴(LIME)
2. 重要単語・特徴(Anchors)
3. 予測に関連する訓練データ(ProtoPNet)
4. 反実仮想データ(入力データの一部を改変して分類結果を反転させたデータ)
5. 1-4の組み合わせ
ユーザ 32人(CSまたは統計の学生)を(データ2種類 × 説明5種類)にランダム割当
タスク 実験に使うデータのTP/TN/FP/FNの比率を揃える。
• [訓練1] 16個の検証データとモデルの予測を見る。
• [本番1] 16個のテストデータについて、ユーザが「モデルの予測」を予測をする。
• [訓練2] 訓練1と同じデータについてモデルの予測と説明を見る。
• [本番2] 本番1と同じデータについて、ユーザが「モデルの予測」を予測をする。
動機付け $15.00/時間
結果 • 予測できた。ただし、Adult + LIMEでのみ([本番1]に比べて[本番2]でユーザの予
測精度の有意に向上)。
示唆 • 説明から、ユーザが「モデルの予測」を予測できるようには(それほど)ならない。
原聡@第12回最先端NLP勉強会
現状の研究結果
n 効能 「モデルへの信頼醸成」
ユーザが「モデルの予測」を信頼して採用するようにな
る。
n 現状の評価
「予測クラスのクラス確率の提示」は効果ありそう。
n 評価研究:[1], [6]
• [1] 効果は観測されず
• [6] 効果あり(限定的)
- 説明として予測クラスのクラス確率を提示した場合は効果あり
- 説明として重要特徴を提示した場合は効果は観測されず
11
原聡@第12回最先端NLP勉強会
現状の研究結果
n 効能 「モデルへの信頼醸成」
ユーザが「モデルの予測」を信頼して採用するようにな
る。
n 現状の評価
「予測クラスのクラス確率の提示」は効果ありそう。
n 評価研究:[1], [6]
• [1] 効果は観測されず
• [6] 効果あり(限定的)
- 説明として予測クラスのクラス確率を提示した場合は効果あり
- 説明として重要特徴を提示した場合は効果は観測されず
12
原聡@第12回最先端NLP勉強会
[6] Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making, FAT*’20.
13
評価項目 説明により、ユーザは「モデルの予測」に従うようになるか?
データ Adult
モデル GBDT
説明 1. 予測ラベル
2. クラス確率
ユーザ 全4通りの設定にそれぞれ9人@Amazon MTurkをランダム割当
タスク • [訓練] 20個のデータでクラスを予測 → 真のクラス、モデルの予測、説明を見る。
• [本番] 40個のデータでクラスを予測 → 説明を見て自身の予測とモデルの予測の
どちらを採用するかを決定。
動機付け 参加$3.00 + $0.05/正解 - $0.02/不正解
結果 • 従うようになった。予測ラベル提示の有無に関わらず、クラス確率の提示により
ユーザは「モデルの予測」に従う傾向が強まった。
• ただし、ユーザの予測精度が有意に向上したわけではない。
示唆 • クラス確率の提示には、ユーザのモデルへの信頼を醸成して「モデルの予測」を採
用するように促す効果がある。
【全4通り】
説明1の有無 × 説明2の有無
原聡@第12回最先端NLP勉強会
現状の研究結果
n 効能 「ユーザの予測精度向上」
モデルの補助を受けて、ユーザが高精度な予測ができ
るようになる。
n 現状の評価
効果はあるが、ユーザがモデル単体の精度を超えるの
は困難。
n 評価研究:[2], [5], [8], [10], [11]
• [2] 効果あり
• [5] 効果あり
• [8] 効果あり
• [10] 効果あり
• [11] 効果あり
14
ただし、モデル単体の予測精度を
ユーザが上回ることはできなかった
精度: モデル単体 > ユーザ(モデル補助あり) > ユーザ単体
原聡@第12回最先端NLP勉強会
現状の研究結果
n 効能 「ユーザの予測精度向上」
モデルの補助を受けて、ユーザが高精度な予測ができ
るようになる。
n 現状の評価
効果はあるが、ユーザがモデル単体の精度を超えるの
は困難。
n 評価研究:[2], [5], [8], [10], [11]
• [2] 効果あり
• [5] 効果あり
• [8] 効果あり
• [10] 効果あり
• [11] 効果あり
15
ただし、モデル単体の予測精度を
ユーザが上回ることはできなかった
精度: モデル単体 > ユーザ(モデル補助あり) > ユーザ単体
原聡@第12回最先端NLP勉強会
[5] On Human Predictions with Explanations and Predictions of Machine
Learning Models: A Case Study on Deception Detection, FAT*’19.
16
評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか?
データ 嘘レビューの検知(嘘 or not の分類)
モデル 線形SVM(bag-of-words特徴) - 精度 0.87
説明 1. 説明なし
2. 予測ラベル
3. 予測ラベル + モデルの分類精度
4. 重要単語(回帰係数)
5. 関連データ(最近傍データ)
6. 1と3の組み合わせ
ユーザ 説明1-6にそれぞれ80人@Amazon MTurkをランダム割当
タスク • [訓練] 3個のレビュー文と説明を見てクラスを予測する。
• [本番] 20個のレビュー文と説明を見てクラスを予測する。
動機付け $0.05/回答 + $0.02/正解
結果 • 高精度な予測ができた。説明1-4では、説明なしよりもユーザの予測精度が向上し
た(精度0.54 – 0.75)。特に説明2が顕著(精度 0.75)。
• ただし、モデル単体での予測が最大精度。
示唆 • 予測ラベルとモデルの精度を提示するのがユーザの精度向上に一番効果的。
原聡@第12回最先端NLP勉強会
[2] Does the Whole Exceed its Parts? The Effect of AI
Explanations on Complementary Term Performance, arXiv’20.
17
評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか?
データ レビュー文の分類データ(beer reviewsとbook reviews)
モデル RoBERTaを使った分類器をfine-tune
分類器のクラス確率(confidence score)はvalidation dataでcalibration
説明 1. モデルの予測クラスとそのクラス確率
2. 1 + 分類対象クラスの重要単語(LIME)
3. 2 + 確率が二番目に大きいクラスの重要単語(LIME)
4. 2と3をクラス確率に応じて適応的に使い分ける方法
5. 人手でannotateした重要フレーズ
ユーザ データそれぞれについて566人, 552人@Amazon MTurkを説明1-5にランダム割当。
Screeningにより、最終的には500人程度に。
タスク 50個のレビュー文を説明をもとに分類。レビュー文はユーザ単体とモデル単体とで同
等の分類精度になるように選択。
動機付け 参加$0.50 + 最終サーベイ回答$0.25 + $0.05/正解 + $0.50/$1.00(正解率90%/95%超)
結果 • 高精度な予測ができた。全ての説明で、ユーザ単体での予測精度を上回った。
• 説明の間で明確な優劣はなかった。
• 説明があると、ユーザはモデルの予測に引っ張られる傾向があった。
示唆 • ユーザが良い予測をするにはクラス確率の提示だけで十分かも。重要単語の提
示は精度向上に寄与せずにユーザのモデルへの盲信を促す可能性がある。
原聡@第12回最先端NLP勉強会
まとめ
n Q. XAI技術は “ユーザの役に立つ” のか?
n A. いくつかの効能はあるが、今のところ期待されていた
ほどの効果は見られていない。
n 課題: XAI技術の研究開発
• ユーザへの効能を考えて手法を開発する必要があるかもし
れない。
- 現状は出力したい説明Xが先にあって、「Xが出力できる手法を考え
る」という研究のアプローチが主流。
• ユーザへの効能を高めるために、ユーザの認知をハックする
のは許されるか?
- 嘘も方便?
- ユーザが幸せなら、ユーザに嘘の説明を提供しても良い?
18
原聡@第12回最先端NLP勉強会
まとめ
n Q. XAI技術は “ユーザの役に立つ” のか?
n A. いくつかの効能はあるが、今のところ期待されていた
ほどの効果は見られていない。
n 課題: 効能の評価方法
• 研究ごとにデータやモデル、評価した説明法などが異なるの
で、結果を公正に比較するのが困難。
- 評価研究がある程度増えてきたら、メタアナリシスが必要かも。
• 評価の質に大きなばらつきがある。
- アンケートレベルの簡素なものから、きちんと実験計画を立てて倫理
審査を経たものまで様々。
• 標準的なプロトコルが必要。
- ユーザ実験に習熟した研究者の知見が必要。
- CHIや社会統計学、心理学、経済学など。
19
原聡@第12回最先端NLP勉強会
研究まとめ一覧
20
原聡@第12回最先端NLP勉強会
[1] Manipulating and Measuring Model Interpretability, arXiv’18.
21
評価項目 説明から、ユーザは「モデルの予測」を予測できるか?
データ New Yorkの物件価格の予測データ
モデル 線形回帰モデル
モデル1: 特徴2つ(浴室の個数, 面積)
モデル2: 特徴8つ
説明
ユーザ 1250人@Amazon MTurkを5通りの設定にランダム割当
タスク • [訓練1] (説明なしのユーザ以外)予測に使われる特徴(および回帰係数)の説明
• [訓練2] 10件の物件/モデル予測を見て、自分で予測する → 正解を見る。
• [本番1] 12件の物件について、「モデルの予測」を予測 → 「予測の自信」を回答。
動機付け $2.50固定
結果 • 予測できた。ただし、「モデル1×係数見せる」の場合のみ。
• 「予測の自信」と予測の誤差には明確な関連性は見られなかった。
示唆 • 特徴の数が増えると、線形モデルでもユーザの予測は不正確になる。
補足 • AsPredictedにて仮説の事前登録あり
• IRB-Approved(組織内の倫理委員会の承認済み)
【全5通り】
説明なし + {モデル1, モデル2} × {回帰係数を見せる, 見せない}
原聡@第12回最先端NLP勉強会
[1] Manipulating and Measuring Model Interpretability, arXiv’18.
22
評価項目 説明により、ユーザは「モデルの予測」に従うようになるか?
ユーザ 1250人@Amazon MTurkを5通りの設定にランダム割当
タスク 前頁の[本番1]の後に
• [本番2] 12件の物件について、自身で価格を予測 → 「予測の自信」を回答。
動機付け $2.50固定
結果 • 従うようにならなかった。説明の種類と、ユーザ自信の予測の精度との間に明確
な関係は見られなかった。
示唆 • 説明によってモデルの挙動が理解できても、ユーザがモデルの予測に従うかは別
問題。
データ、モデル、説明は前頁と同じ
補足 • AsPredictedにて仮説の事前登録あり
• IRB-Approved(組織内の倫理委員会の承認済み)
原聡@第12回最先端NLP勉強会
[1] Manipulating and Measuring Model Interpretability, arXiv’18.
23
評価項目 説明から、ユーザは「モデルの予測」の間違いを見つけられるか?
ユーザ 1250人@Amazon MTurkを5通りの設定にランダム割当
タスク 前々頁の[訓練1][訓練2][本番1]と同じ
• [本番1]の12件の物件のうち2件はモデルの予測が上振れする外れ値(「寝室1つ、
浴室2つ」「寝室1つ、浴室3つ」)。
動機付け $2.50固定
結果 • 見つけられなかった。「説明なし」のユーザに比べて、4つの説明全てにおいて、
ユーザの予測価格は大きく上振れした(モデルの予測値/説明に引っ張られた)。
• 特に「回帰係数を見せる」に割り当てられたユーザは予測を大きく外した。
示唆 • 説明からユーザはモデルの間違いを検知できない。むしろ説明はユーザのモデル
への盲信を助長する可能性がある。
データ、モデル、説明は前頁と同じ
補足 • AsPredictedにて仮説の事前登録あり
• IRB-Approved(組織内の倫理委員会の承認済み)
原聡@第12回最先端NLP勉強会
[2] Does the Whole Exceed its Parts? The Effect of AI
Explanations on Complementary Term Performance, arXiv’20.
24
評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか?
データ レビュー文の分類データ(beer reviewsとbook reviews)
モデル RoBERTaを使った分類器をfine-tune
分類器のクラス確率(confidence score)はvalidation dataでcalibration
説明 1. モデルの予測クラスとそのクラス確率
2. 1 + 分類対象クラスの重要単語(LIME)
3. 2 + 確率が二番目に大きいクラスの重要単語(LIME)
4. 2と3をクラス確率に応じて適応的に使い分ける方法
5. 人手でannotateした重要フレーズ
ユーザ データそれぞれについて566人, 552人@Amazon MTurkを説明1-5にランダム割当。
Screeningにより、最終的には500人程度に。
タスク 50個のレビュー文を説明をもとに分類。レビュー文はユーザ単体とモデル単体とで同
等の分類精度になるように選択。
動機付け 参加$0.50 + 最終サーベイ回答$0.25 + $0.05/正解 + $0.50/$1.00(正解率90%/95%超)
結果 • 高精度な予測ができた。全ての説明で、ユーザ単体での予測精度を上回った。
• 説明の間で明確な優劣はなかった。
• 説明があると、ユーザはモデルの予測に引っ張られる傾向があった。
示唆 • ユーザが良い予測をするにはクラス確率の提示だけで十分かも。重要単語の提
示は精度向上に寄与せずにユーザのモデルへの盲信を促す可能性がある。
原聡@第12回最先端NLP勉強会
[3] Comparing Automatic and Human Evaluation of_Local
Explanations for Text Classification, NAACL-HLT’18.
25
評価項目 説明から、ユーザは「モデルの予測」を予測できるか?
データ 20News / Movie reviews
モデル 1. ロジスティック回帰(tf-idf特徴、L2正則化) - 精度 0.921 / 0.797
2. 多層パーセプトロン(512中間ユニット, ReLU) - 精度 0.939 / 0.832
説明 重要単語(10個または20個)
1. ランダム
2. LIME
3. 貪欲選択(クラス確率が減る単語を貪欲法で選択)
4. 入力勾配
ユーザ データそれぞれについて406人, 445人@CrowdFlowerを説明1-4にランダム割当。
タスク 200個の文書のうち、10~20文書程度を説明をもとに分類。200個の文書の内訳はモデ
ルの予測のTP/TN/FP/FNがそれぞれ50文書ずつ。
動機付け $0.03/回答
結果 • 予測できた。ランダムに比べて他の説明では、ユーザの「モデルの予測」の予測精
度が向上した。
• ランダム以外の説明間で明確な優劣は見られなかった。
示唆 • 説明により、ユーザは「モデルの予測」を予測できるようになる。
原聡@第12回最先端NLP勉強会
[3] Comparing Automatic and Human Evaluation of_Local
Explanations for Text Classification, NAACL-HLT’18.
26
評価項目 説明の定量評価指標と、説明に基づくユーザの「モデルの予測」の予測精度の間に
関係はあるか?
結果 • 関係はあった。説明の定量評価指標SP(switching point; モデルの予測を反転さ
せるのに削除する単語の割合)、AOPC(area over the perturbation curve; 削除単
語数とクラス確率をとのトレードオフの度合い)ともに、説明に基づくユーザの「モ
デルの予測」の予測精度との間に緩い相関が見られた。
示唆 • 定量評価指標SPおよびAOPCは、説明に基づくユーザの「モデルの予測」の予測
精度の代替評価指標として使えるかもしれない。
データ、モデル、説明、ユーザ、タスク、動機付けは前頁と同じ
原聡@第12回最先端NLP勉強会
[4] Evaluating Explainable AI: Which Algorithmic Explanations
Help Users Predict Model Behavior?, ACL’20.
27
評価項目 説明から、ユーザは「モデルの予測」を予測できるか?
データ Movie reviews / Adult
モデル DNN
説明 1. 重要単語・特徴(LIME)
2. 重要単語・特徴(Anchors)
3. 予測に関連する訓練データ(ProtoPNet)
4. 反実仮想データ(入力データの一部を改変して分類結果を反転させたデータ)
5. 1-4の組み合わせ
ユーザ 32人(CSまたは統計の学生)を(データ2種類 × 説明5種類)にランダム割当
タスク 実験に使うデータのTP/TN/FP/FNの比率を揃える。
• [訓練1] 16個の検証データとモデルの予測を見る。
• [本番1] 16個のテストデータについて、ユーザが「モデルの予測」を予測をする。
• [訓練2] 訓練1と同じデータについてモデルの予測と説明を見る。
• [本番2] 本番1と同じデータについて、ユーザが「モデルの予測」を予測をする。
動機付け $15.00/時間
結果 • 予測できた。ただし、Adult + LIMEでのみ([本番1]に比べて[本番2]でユーザの予
測精度の有意に向上)。
示唆 • 説明から、ユーザが「モデルの予測」を予測できるようには(それほど)ならない。
原聡@第12回最先端NLP勉強会
[4] Evaluating Explainable AI: Which Algorithmic Explanations
Help Users Predict Model Behavior?, ACL’20.
28
評価項目 説明から、ユーザはデータの小さな変化によって「モデルの予測」が変化するか否か
を予測できるか?
ユーザ 32人(CSまたは統計の学生)を(データ2種類 × 説明5種類)にランダム割当
タスク 実験に使うデータのTP/TN/FP/FNの比率を揃える。
• [本番1] 32個のテストデータについて、(データ、真のクラス、モデルの予測、“少し
異なるデータ”)を見て、“少し異なるデータ”に対する「モデルの予測」を予測をする。
• [本番2] 本番1と同じデータ + モデルの説明を見て、“少し異なるデータ”に対する
「モデルの予測」を予測をする。
動機付け $15.00/時間
結果 • 予測できなかった。どの説明においても、[本番1]と比べて[本番2]でユーザの予測
精度に有意な向上は見られなかった。
示唆 • 説明から、ユーザが「モデルの予測」を予測できるようにはならない。
データ、モデル、説明は前頁と同じ
原聡@第12回最先端NLP勉強会
[5] On Human Predictions with Explanations and Predictions of Machine
Learning Models: A Case Study on Deception Detection, FAT*’19.
29
評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか?
データ 嘘レビューの検知(嘘 or not の分類)
モデル 線形SVM(bag-of-words特徴) - 精度 0.87
説明 1. 説明なし
2. 予測ラベル
3. 予測ラベル + モデルの分類精度
4. 重要単語(回帰係数)
5. 関連データ(最近傍データ)
6. 1と3の組み合わせ
ユーザ 説明1-6にそれぞれ80人@Amazon MTurkをランダム割当
タスク • [訓練] 3個のレビュー文と説明を見てクラスを予測する。
• [本番] 20個のレビュー文と説明を見てクラスを予測する。
動機付け $0.05/回答 + $0.02/正解
結果 • 高精度な予測ができた。説明1-4では、説明なしよりもユーザの予測精度が向上し
た(精度0.54 – 0.75)。特に説明2が顕著(精度 0.75)。
• ただし、モデル単体での予測が最大精度。
示唆 • 予測ラベルとモデルの精度を提示するのがユーザの精度向上に一番効果的。
原聡@第12回最先端NLP勉強会
[6] Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making, FAT*’20.
30
評価項目 説明により、ユーザは「モデルの予測」に従うようになるか?
データ Adult
モデル GBDT
説明 1. 予測ラベル
2. クラス確率
ユーザ 全4通りの設定にそれぞれ9人@Amazon MTurkをランダム割当
タスク • [訓練] 20個のデータでクラスを予測 → 真のクラス、モデルの予測、説明を見る。
• [本番] 40個のデータでクラスを予測 → 説明を見て自身の予測とモデルの予測の
どちらを採用するかを決定。
動機付け 参加$3.00 + $0.05/正解 - $0.02/不正解
結果 • 従うようになった。予測ラベル提示の有無に関わらず、クラス確率の提示により
ユーザは「モデルの予測」に従う傾向が強まった。
• ただし、ユーザの予測精度が有意に向上したわけではない。
示唆 • クラス確率の提示には、ユーザのモデルへの信頼を醸成して「モデルの予測」を採
用するように促す効果がある。
【全4通り】
説明1の有無 × 説明2の有無
原聡@第12回最先端NLP勉強会
[6] Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making, FAT*’20.
31
評価項目 説明により、ユーザは「モデルの予測」に従うようになるか?
データ Adult
モデル GBDT
説明 1. 予測ラベル
2. 予測ラベル & クラス確率
3. 予測ラベル & 重要特徴(SHAP)
ユーザ 9人(おそらく@Amazon MTurkを説明1-3に3人ずつランダム割当したと思われる)
タスク • [訓練] 20個のデータでクラスを予測 → 真のクラス、モデルの予測、説明を見る。
• [本番] 40個のデータでクラスを予測 → 説明を見て自身の予測とモデルの予測の
どちらを採用するかを決定。
動機付け (不明; おそらく前頁と同じ)
結果 • 従うようにならなかった。重要特徴を提示しても、ユーザが「モデルの予測」を採用
する傾向に変化は見られなかった。
• ただし、ユーザの予測精度が有意に向上したわけでもない。
示唆 • 重要特徴の提示には、ユーザのモデルへの信頼を醸成する効果はなさそう。
原聡@第12回最先端NLP勉強会
[7] The Effects of Example-Based Explanations in a Machine Learning
Interface, IUI’19.
32
評価項目 説明をもとに、ユーザは「モデルの挙動」を理解できるか?
データ QuickDrawの手書きイラスト分類データ
モデル RNN
説明 1. 説明なし
2. 予測クラスと同じ訓練画像をランダムに30個
3. 上位3つの予測クラスについて最も類似した訓練画像を1つ
4. 2 + 3
ユーザ 1150人(募集方法は不明) → スクリーニング後 1070人
タスク • QuickDrawで指示されたオブジェクトのイラスト(モデルで当該クラスと分類される
イラスト)を描く。
• 「モデルの挙動」の理解度を7段階のスコアで回答する。
動機付け (不明)
結果 • 理解できた。ただし、イラストがモデルに適切に分類されなかった場合のみ。このと
き、説明2を提示されたユーザの理解度スコアは有意に高かった。
• イラストがモデルに適切に分類された場合には、説明間でユーザの理解度スコア
に有意な差はなかった。
示唆 • 類似データの提示は、ユーザが「モデルの挙動」を理解した、と思わせる。
• 提示するデータの選び方で効果は変わる。
原聡@第12回最先端NLP勉強会
[8] What can AI do for me? Evaluating Machine Learning Interpretations in
Cooperative Play, IUI’19.
33
評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか?
データ Quizbowlのクイズデータ(正解の選択肢を選ぶ分類データ)
モデル 線形モデル(QANTAのguesser)
説明 1. 予測上位5クラスとクラス確率
2. 類似クイズとその重要単語
3. クイズの重要単語
ユーザ Quizbowlが強い人 40人(ネット掲示板で募集) / 素人 40人(Amazon MTurk)を8通り
の説明に一様ランダムに割当 → 回答数少のユーザをスクリーニング後 30人/30人
タスク 新しく用意された160問に好きなだけ回答する → 1983回答/600回答を収集
動機付け 全問回答で報奨金(金額は不明) / (不明)
結果 • 高精度な予測ができた。強いユーザには説明3が正解率向上に一番効果的だった。
• 高精度な予測ができた。素人ユーザには説明2が正解率向上に一番効果的だった。
示唆 • 複数の説明の提示には相乗効果がある。しかし、複数の説明を見るのは認知負
荷が高いので、ユーザは一部の説明だけを主に確認して必要に応じて他の説明
を見る。
【全8通り】
説明1の有無 × 説明2の有無 × 説明3の有無
原聡@第12回最先端NLP勉強会
[9] Effects of Influence on User Trust in Predictive Decision Making, CHI’19.
34
評価項目 説明により、ユーザはモデルを信用するようになるか?
データ 水道管の破損予測データ(破損 or not の分類)
モデル CNN(5特徴) :モデル1 - 精度 0.90 / モデル2 – 精度 0.50
説明 1. 関連(影響関数)Top10の訓練データ
2. 関連(影響関数)Bottom10の訓練データ
ユーザ 22人(募集方法は不明)
タスク データと説明から破損を予測 → モデルの予測への信頼度を9段階で回答
(回答データ数は不明)
動機付け (不明)
結果 • 信用するようになった。モデル1では、説明1によりユーザのモデル予測への信頼
度が向上することが確認された。
• モデル2では、ユーザのモデル予測への信頼度向上は確認されなかった。
示唆 • モデルの精度が十分に高い場合には、関連データの提示によりユーザのモデル
への信頼度が向上する。モデルの精度が低いと説明に信頼醸成の効果はない。
【全4通り】
説明1の有無 × 説明2の有無
原聡@第12回最先端NLP勉強会
説明 1. 説明なし
2. 予測クラス
[10] The Principles and Limits of Algorithm-in-the-Loop Decision Making,
CSCW’19.
35
評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか?
データ 1. 公判前拘留データ(保釈した被疑者が公判に戻ってくるか否かの分類)
2. ローン返済データ(完済されるか否かの分類)
モデル GBDT – AUC 0.66 / AUC 0.71
ユーザ スクリーニング後 1156人 / 732人(Amazon MTurk) を説明1-6にランダム割当
タスク 300データのうちランダムな40データについて、説明に基づいて出力クラスの確率を
10%刻みの選択肢から選んで回答
動機付け 全回答$2.00 + 回答精度(Brier score)に応じて$0.00 ~ $2.00
結果 • 高精度な予測ができた。2-5は1よりユーザの回答精度(Brier score)が有意に高
かった。
• 4での2回目の予測の回答精度は1回目の予測に比べて有意に高かった。
• 全ての場合において、モデル単体の回答精度(Brier score)が有意に高かった。
示唆 • 提示される説明によってユーザの回答精度は変わる。
• ただし、モデル単体の回答精度の方が高い。
3. 予測クラスが標準回答
4. 1で予測 → 2で予測
5. 2 + 重要特徴
6. 2で予測 → 真値を見る
補足 • IRB-Approved(組織内の倫理委員会の承認済み)
原聡@第12回最先端NLP勉強会
[10] The Principles and Limits of Algorithm-in-the-Loop Decision Making,
CSCW’19.
36
評価項目 説明をもとに、ユーザは自身の予測の正しさを適切に見積もれるようになるか?
ユーザ スクリーニング後 1156人 / 732人(Amazon MTurk) を説明1-6にランダム割当
タスク 前頁のタスク後に、自身の予測の正しさを5段階評価で回答
動機付け 全回答$2.00 + 回答精度(Brier score)に応じて$0.00 ~ $2.00
結果 • 見積もれなかった。ユーザの回答精度と5段階評価との間に明確な関連性は見ら
れなかった。
示唆 • ユーザは自身の予測の正しさを適切に見積もることはできない。
データ、モデル、説明は前頁と同じ
補足 • IRB-Approved(組織内の倫理委員会の承認済み)
原聡@第12回最先端NLP勉強会
[11] “Why is ‘Chicago’ deceptive?” Towards Building Model-Driven Tutorial
for Humans, CHI’20.
37
評価項目 事前の説明をもとに、ユーザはモデルと協調して高精度な予測ができるか?
データ 嘘レビューの検知(嘘 or not の分類)
モデル 線形SVM(bag-of-words特徴) - 精度 0.863
説明 1. 説明なし
2. 人手で作った分類のガイドライン
3. ランダムに選んだデータ10個
4. SP-LIMEで選んだデータ10個とそれぞれの重要10単語
5. 同じ重要単語が出やすく選んだデータ10個とそれぞれの重要10単語
6. 2と5の組み合わせ
ユーザ 説明1-6にそれぞれ80人@Amazon MTurkをランダム割当
タスク • [訓練] (1以外のユーザ)説明を見てレビューの分類の仕方を学ぶ。
• [本番] 20個のレビュー文(説明なし)を見てクラスを予測する。
動機付け 参加$2.50 + $0.05/正解
結果 • 高精度な予測ができた。説明2-6では、説明なしよりもユーザの予測精度が有意
に向上した(0.57 ~ 0.61)。ただし、説明2-6の間で明確な優劣は見られなかった。
• モデル単体の精度(0.863)には大きく劣る。
示唆 • 説明の種類によってユーザの予測精度向上の度合いに変化はない。
• 事前に説明を見て全て覚えておくのが大変なのかもしれない。
補足 • AsPredictedにて仮説の事前登録あり
原聡@第12回最先端NLP勉強会
[11] “Why is ‘Chicago’ deceptive?” Towards Building Model-Driven Tutorial
for Humans, CHI’20.
38
評価項目 回答時の説明をもとに、ユーザはモデルと協調して高精度な予測ができるか?
データ 嘘レビューの検知(嘘 or not の分類)
モデル 線形SVM(bag-of-words特徴) - 精度 0.863
説明 1. 説明なし
2. 重要10単語(色の濃淡で重要度の絶対値を表示)
3. 重要10単語(色および濃淡で符号付き重要度を表示)
4. 3 + 予測ラベル
5. 4 + 人手で作ったガイドライン
6. 5 + モデルの精度
ユーザ 説明1-6にそれぞれ80人@Amazon MTurkをランダム割当
タスク • [訓練] 前頁の説明6を見てレビューの分類の仕方を学ぶ。
• [本番] 20個のレビュー文(説明あり)を見てクラスを予測する。
動機付け 参加$2.50 + $0.05/正解
結果 • 高精度な予測ができた。説明3-6では、説明なしよりもユーザの予測精度が有意
に向上した(0.70 ~ 0.74)。ただし、説明3-6の間で明確な優劣は見られなかった。
• モデル単体の精度(0.863)には大きく劣る。
示唆 • 説明の種類によってユーザの予測精度向上の度合いに変化は(ほぼ)ない。
• ユーザの精度が向上してもモデル単体の精度には及ばない。
補足 • AsPredictedにて仮説の事前登録あり
原聡@第12回最先端NLP勉強会
[11] “Why is ‘Chicago’ deceptive?” Towards Building Model-Driven Tutorial
for Humans, CHI’20.
39
評価項目 ユーザは単純/複雑なモデルのどちらとと協調して高精度な予測ができるか?
データ 嘘レビューの検知(嘘 or not の分類)
モデル • 単純なモデル: 線形SVM(bag-of-words特徴) - 精度 0.863
• 複雑なモデル: BERT – 精度 0.90
説明 重要10単語(色および濃淡で符号付き重要度を表示)
1. SVMの回帰係数上位10個
2. BERTのattention上位10個
3. BERT + LIMEの上位10個
ユーザ 全6通りの設定にそれぞれ80人@Amazon MTurkをランダム割当
タスク • [訓練] (訓練有のユーザ)前々頁の説明6を見てレビューの分類の仕方を学ぶ。
• [本番] 20個のレビュー文(説明あり)を見てクラスを予測する。
動機付け 参加$2.50 + $0.05/正解
結果 • 高精度な予測ができた。訓練有りでは訓練無しよりも有意にユーザの予測精度が
向上した。説明1 >説明3 >説明2 の順でユーザの予測精度が有意に向上した。
• ただし、いずれの場合もモデル単体の精度には大きく劣る。
示唆 • 事前の訓練はユーザの精度向上に有効。
• 単純なモデルに基づく説明の方がユーザの精度向上に有効な可能性がある。
• ユーザの精度が向上してもモデル単体の精度には及ばない。
【全6通り】
訓練(前々頁の説明6)の有無 × 説明1-3のどれか
補足 • AsPredictedにて仮説の事前登録あり

More Related Content

What's hot

Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
 

What's hot (20)

グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
テーブル・テキスト・画像の反実仮想説明
テーブル・テキスト・画像の反実仮想説明テーブル・テキスト・画像の反実仮想説明
テーブル・テキスト・画像の反実仮想説明
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
 

Similar to 【論文調査】XAI技術の効能を ユーザ実験で評価する研究

Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Hironori Washizaki
 
Hadoop conference Japan 2011
Hadoop conference Japan 2011Hadoop conference Japan 2011
Hadoop conference Japan 2011
Takahiko Ito
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
Preferred Networks
 
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
Sho Nakamura
 

Similar to 【論文調査】XAI技術の効能を ユーザ実験で評価する研究 (20)

TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
 
科学的説明を持つ機械学習システム
科学的説明を持つ機械学習システム科学的説明を持つ機械学習システム
科学的説明を持つ機械学習システム
 
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
 
機械学習デザインパターン Machine Learning Design Patterns
機械学習デザインパターン Machine Learning Design Patterns機械学習デザインパターン Machine Learning Design Patterns
機械学習デザインパターン Machine Learning Design Patterns
 
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
 
How to use in R model-agnostic data explanation with DALEX & iml
How to use in R model-agnostic data explanation with DALEX & imlHow to use in R model-agnostic data explanation with DALEX & iml
How to use in R model-agnostic data explanation with DALEX & iml
 
Hadoop conference Japan 2011
Hadoop conference Japan 2011Hadoop conference Japan 2011
Hadoop conference Japan 2011
 
20171015 mosa machine learning
20171015 mosa machine learning20171015 mosa machine learning
20171015 mosa machine learning
 
分散表現を用いたリアルタイム学習型セッションベース推薦システム
分散表現を用いたリアルタイム学習型セッションベース推薦システム分散表現を用いたリアルタイム学習型セッションベース推薦システム
分散表現を用いたリアルタイム学習型セッションベース推薦システム
 
TISO/IEC JTC1におけるソフトウェア工学知識体系、技術者認証および品質の標準化と研究・教育他への活用
TISO/IEC JTC1におけるソフトウェア工学知識体系、技術者認証および品質の標準化と研究・教育他への活用TISO/IEC JTC1におけるソフトウェア工学知識体系、技術者認証および品質の標準化と研究・教育他への活用
TISO/IEC JTC1におけるソフトウェア工学知識体系、技術者認証および品質の標準化と研究・教育他への活用
 
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
広島画像情報学セミナ 2011.9.16
広島画像情報学セミナ 2011.9.16広島画像情報学セミナ 2011.9.16
広島画像情報学セミナ 2011.9.16
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
 
サイトサーチアナリティクスとは
サイトサーチアナリティクスとはサイトサーチアナリティクスとは
サイトサーチアナリティクスとは
 
データ可視化の研究って何をしているの?何の役に立つ?
データ可視化の研究って何をしているの?何の役に立つ?データ可視化の研究って何をしているの?何の役に立つ?
データ可視化の研究って何をしているの?何の役に立つ?
 
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
 
Point net
Point netPoint net
Point net
 
ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -
 

More from Satoshi Hara

More from Satoshi Hara (10)

Explanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its ReliabilityExplanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its Reliability
 
機械学習で嘘をつく話
機械学習で嘘をつく話機械学習で嘘をつく話
機械学習で嘘をつく話
 
異常の定義と推定
異常の定義と推定異常の定義と推定
異常の定義と推定
 
Convex Hull Approximation of Nearly Optimal Lasso Solutions
Convex Hull Approximation of Nearly Optimal Lasso SolutionsConvex Hull Approximation of Nearly Optimal Lasso Solutions
Convex Hull Approximation of Nearly Optimal Lasso Solutions
 
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
 
Maximally Invariant Data Perturbation as Explanation
Maximally Invariant Data Perturbation as ExplanationMaximally Invariant Data Perturbation as Explanation
Maximally Invariant Data Perturbation as Explanation
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙
 
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep AutoencodersKDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
 
特徴選択のためのLasso解列挙
特徴選択のためのLasso解列挙特徴選択のためのLasso解列挙
特徴選択のためのLasso解列挙
 

Recently uploaded

Recently uploaded (7)

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 

【論文調査】XAI技術の効能を ユーザ実験で評価する研究

  • 1. 原聡@第12回最先端NLP勉強会 XAI技術の効能を ユーザ実験で評価する研究 原 聡 大阪大学 産業科学研究所 1 第12回最先端NLP勉強会 2020/9/25-26@オンライン 担当論文 → 論文調査へ Evaluating Explainable AI: Which Algorithmic Explanations Help Users Predict Model Behavior? (ACL2020) 【論文調査】
  • 2. 原聡@第12回最先端NLP勉強会 Peeking inside the black-box: A survey on Explainable Artificial Intelligence (XAI) https://ieeexplore.ieee.org/document/8466590/ “XAIが大事”と言われはじめてから5年くらい n 発表されるXAI関係の論文の数が爆発的に増えた。 • 機械学習関連の国際会議ではワークショップも開催。 • 【参考】 日本語まとめ資料 - 機械学習における解釈性(私のブックマーク), 人工知能, Vol.33, No.3, 2018. - 説明可能AI(私のブックマーク), 人工知能, Vol.34, No.4, 2019. - 機械学習モデルの判断根拠の説明 - 機械学習モデルの判断根拠の説明 (Ver.2) 2
  • 4. 原聡@第12回最先端NLP勉強会 XAI技術がユーザの役に立つか調べた研究(一部) n arXivの論文 [1] Manipulating and Measuring Model Interpretability, arXiv’18. [2] Does the Whole Exceed its Parts? The Effect of AI Explanations on Complementary Term Performance, arXiv’20. n NLP系の会議論文 [3] Comparing Automatic and Human Evaluation of_Local Explanations for Text Classification, NAACL-HLT’18. [4] Evaluating Explainable AI: Which Algorithmic Explanations Help Users Predict Model Behavior?, ACL’20. n CV系の会議論文 ???(調査不足) n FAT系の会議論文 [5] On Human Predictions with Explanations and Predictions of Machine Learning Models: A Case Study on Deception Detection, FAT*’19. [6] Effect of Confidence and Explanation on Accuracy and Trust Calibration in AI-Assisted Decision Making, FAT*’20. n HCI系の会議論文 [7] The Effects of Example-Based Explanations in a Machine Learning Interface, IUI’19. [8] What can AI do for me? Evaluating Machine Learning Interpretations in Cooperative Play, IUI’19. [9] Effects of Influence on User Trust in Predictive Decision Making, CHI’19. [10] The Principles and Limits of Algorithm-in-the-Loop Decision Making, CSCW’19. [11] “Why is ‘Chicago’ deceptive?” Towards Building Model-Driven Tutorial for Humans, CHI’20. 4
  • 5. 原聡@第12回最先端NLP勉強会 XAI技術が “ユーザの役に立つ” とは? n XAIに期待される効能(代表的な項目の一部) • モデルの挙動理解 ユーザが「モデルの予測」を予測できるようになる。 • モデルへの信頼醸成 ユーザが「モデルの予測」を信頼して採用するようになる。 • ユーザの予測精度向上 モデルの補助を受けて、ユーザが高精度な予測ができるよう になる。 n XAI(説明)が“ユーザの役に立つ”ならば、説明の有無 でユーザの行動に変化が生じるはず。 → ユーザの行動の(良い方向への)変化が見られれば、 XAI(説明)が“ユーザの役に立つ”と言えそう。 5
  • 6. 原聡@第12回最先端NLP勉強会 【注意】 n 本資料は、論文[1] - [11]を主に「評価項目」と「結果」を 中心にまとめたもの。 • 実験の詳細や結果の分析方法などは各論文へ。 • 論文ごとにデータやモデル、評価した説明法などが異なるた め、厳密には論文間の結果の比較はできないことに注意。 n 論文[1] - [11]の“ユーザ”は主にエンドユーザ • 機械学習の知識はないが、モデルを予測(意思決定)に使う ユーザ。 • 機械学習に詳しいユーザ(研究者/エンジニアなど)向けの XAIの有効性の検証ではない。 6
  • 7. 原聡@第12回最先端NLP勉強会 XAIの効能まとめ n 現状の評価 • モデルの挙動理解 ユーザが「モデルの予測」を予測できるようになる。 → 効果はあるかもしれないが、限定的。 • モデルへの信頼醸成 ユーザが「モデルの予測」を信頼して採用するようになる。 → 「予測クラスのクラス確率の提示」は効果ありそう。 • ユーザの予測精度向上 モデルの補助を受けて、ユーザが高精度な予測ができるよう になる。 → 効果はある が、ユーザがモデル単体の精度を超えるの は困難。 7
  • 8. 原聡@第12回最先端NLP勉強会 現状の研究結果 n 効能 「モデルの挙動理解」 ユーザが「モデルの予測」を予測できるようになる。 n 現状の評価 効果はあるかもしれないが、限定的。 n 評価研究:[1], [3], [4] • [1] 効果あり(限定的) - 説明が十分に単純な場合のみ • [3] 効果あり • [4] 効果あり(限定的) - 一部のデータおよび一部の説明法でのみ 8
  • 9. 原聡@第12回最先端NLP勉強会 現状の研究結果 n 効能 「モデルの挙動理解」 ユーザが「モデルの予測」を予測できるようになる。 n 現状の評価 効果はあるかもしれないが、限定的。 n 評価研究:[1], [3], [4] • [1] 効果あり(限定的) - 説明が十分に単純な場合のみ • [3] 効果あり • [4] 効果あり(限定的) - 一部のデータおよび一部の説明法でのみ 9
  • 10. 原聡@第12回最先端NLP勉強会 [4] Evaluating Explainable AI: Which Algorithmic Explanations Help Users Predict Model Behavior?, ACL’20. 10 評価項目 説明から、ユーザは「モデルの予測」を予測できるか? データ Movie reviews / Adult モデル DNN 説明 1. 重要単語・特徴(LIME) 2. 重要単語・特徴(Anchors) 3. 予測に関連する訓練データ(ProtoPNet) 4. 反実仮想データ(入力データの一部を改変して分類結果を反転させたデータ) 5. 1-4の組み合わせ ユーザ 32人(CSまたは統計の学生)を(データ2種類 × 説明5種類)にランダム割当 タスク 実験に使うデータのTP/TN/FP/FNの比率を揃える。 • [訓練1] 16個の検証データとモデルの予測を見る。 • [本番1] 16個のテストデータについて、ユーザが「モデルの予測」を予測をする。 • [訓練2] 訓練1と同じデータについてモデルの予測と説明を見る。 • [本番2] 本番1と同じデータについて、ユーザが「モデルの予測」を予測をする。 動機付け $15.00/時間 結果 • 予測できた。ただし、Adult + LIMEでのみ([本番1]に比べて[本番2]でユーザの予 測精度の有意に向上)。 示唆 • 説明から、ユーザが「モデルの予測」を予測できるようには(それほど)ならない。
  • 11. 原聡@第12回最先端NLP勉強会 現状の研究結果 n 効能 「モデルへの信頼醸成」 ユーザが「モデルの予測」を信頼して採用するようにな る。 n 現状の評価 「予測クラスのクラス確率の提示」は効果ありそう。 n 評価研究:[1], [6] • [1] 効果は観測されず • [6] 効果あり(限定的) - 説明として予測クラスのクラス確率を提示した場合は効果あり - 説明として重要特徴を提示した場合は効果は観測されず 11
  • 12. 原聡@第12回最先端NLP勉強会 現状の研究結果 n 効能 「モデルへの信頼醸成」 ユーザが「モデルの予測」を信頼して採用するようにな る。 n 現状の評価 「予測クラスのクラス確率の提示」は効果ありそう。 n 評価研究:[1], [6] • [1] 効果は観測されず • [6] 効果あり(限定的) - 説明として予測クラスのクラス確率を提示した場合は効果あり - 説明として重要特徴を提示した場合は効果は観測されず 12
  • 13. 原聡@第12回最先端NLP勉強会 [6] Effect of Confidence and Explanation on Accuracy and Trust Calibration in AI-Assisted Decision Making, FAT*’20. 13 評価項目 説明により、ユーザは「モデルの予測」に従うようになるか? データ Adult モデル GBDT 説明 1. 予測ラベル 2. クラス確率 ユーザ 全4通りの設定にそれぞれ9人@Amazon MTurkをランダム割当 タスク • [訓練] 20個のデータでクラスを予測 → 真のクラス、モデルの予測、説明を見る。 • [本番] 40個のデータでクラスを予測 → 説明を見て自身の予測とモデルの予測の どちらを採用するかを決定。 動機付け 参加$3.00 + $0.05/正解 - $0.02/不正解 結果 • 従うようになった。予測ラベル提示の有無に関わらず、クラス確率の提示により ユーザは「モデルの予測」に従う傾向が強まった。 • ただし、ユーザの予測精度が有意に向上したわけではない。 示唆 • クラス確率の提示には、ユーザのモデルへの信頼を醸成して「モデルの予測」を採 用するように促す効果がある。 【全4通り】 説明1の有無 × 説明2の有無
  • 14. 原聡@第12回最先端NLP勉強会 現状の研究結果 n 効能 「ユーザの予測精度向上」 モデルの補助を受けて、ユーザが高精度な予測ができ るようになる。 n 現状の評価 効果はあるが、ユーザがモデル単体の精度を超えるの は困難。 n 評価研究:[2], [5], [8], [10], [11] • [2] 効果あり • [5] 効果あり • [8] 効果あり • [10] 効果あり • [11] 効果あり 14 ただし、モデル単体の予測精度を ユーザが上回ることはできなかった 精度: モデル単体 > ユーザ(モデル補助あり) > ユーザ単体
  • 15. 原聡@第12回最先端NLP勉強会 現状の研究結果 n 効能 「ユーザの予測精度向上」 モデルの補助を受けて、ユーザが高精度な予測ができ るようになる。 n 現状の評価 効果はあるが、ユーザがモデル単体の精度を超えるの は困難。 n 評価研究:[2], [5], [8], [10], [11] • [2] 効果あり • [5] 効果あり • [8] 効果あり • [10] 効果あり • [11] 効果あり 15 ただし、モデル単体の予測精度を ユーザが上回ることはできなかった 精度: モデル単体 > ユーザ(モデル補助あり) > ユーザ単体
  • 16. 原聡@第12回最先端NLP勉強会 [5] On Human Predictions with Explanations and Predictions of Machine Learning Models: A Case Study on Deception Detection, FAT*’19. 16 評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか? データ 嘘レビューの検知(嘘 or not の分類) モデル 線形SVM(bag-of-words特徴) - 精度 0.87 説明 1. 説明なし 2. 予測ラベル 3. 予測ラベル + モデルの分類精度 4. 重要単語(回帰係数) 5. 関連データ(最近傍データ) 6. 1と3の組み合わせ ユーザ 説明1-6にそれぞれ80人@Amazon MTurkをランダム割当 タスク • [訓練] 3個のレビュー文と説明を見てクラスを予測する。 • [本番] 20個のレビュー文と説明を見てクラスを予測する。 動機付け $0.05/回答 + $0.02/正解 結果 • 高精度な予測ができた。説明1-4では、説明なしよりもユーザの予測精度が向上し た(精度0.54 – 0.75)。特に説明2が顕著(精度 0.75)。 • ただし、モデル単体での予測が最大精度。 示唆 • 予測ラベルとモデルの精度を提示するのがユーザの精度向上に一番効果的。
  • 17. 原聡@第12回最先端NLP勉強会 [2] Does the Whole Exceed its Parts? The Effect of AI Explanations on Complementary Term Performance, arXiv’20. 17 評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか? データ レビュー文の分類データ(beer reviewsとbook reviews) モデル RoBERTaを使った分類器をfine-tune 分類器のクラス確率(confidence score)はvalidation dataでcalibration 説明 1. モデルの予測クラスとそのクラス確率 2. 1 + 分類対象クラスの重要単語(LIME) 3. 2 + 確率が二番目に大きいクラスの重要単語(LIME) 4. 2と3をクラス確率に応じて適応的に使い分ける方法 5. 人手でannotateした重要フレーズ ユーザ データそれぞれについて566人, 552人@Amazon MTurkを説明1-5にランダム割当。 Screeningにより、最終的には500人程度に。 タスク 50個のレビュー文を説明をもとに分類。レビュー文はユーザ単体とモデル単体とで同 等の分類精度になるように選択。 動機付け 参加$0.50 + 最終サーベイ回答$0.25 + $0.05/正解 + $0.50/$1.00(正解率90%/95%超) 結果 • 高精度な予測ができた。全ての説明で、ユーザ単体での予測精度を上回った。 • 説明の間で明確な優劣はなかった。 • 説明があると、ユーザはモデルの予測に引っ張られる傾向があった。 示唆 • ユーザが良い予測をするにはクラス確率の提示だけで十分かも。重要単語の提 示は精度向上に寄与せずにユーザのモデルへの盲信を促す可能性がある。
  • 18. 原聡@第12回最先端NLP勉強会 まとめ n Q. XAI技術は “ユーザの役に立つ” のか? n A. いくつかの効能はあるが、今のところ期待されていた ほどの効果は見られていない。 n 課題: XAI技術の研究開発 • ユーザへの効能を考えて手法を開発する必要があるかもし れない。 - 現状は出力したい説明Xが先にあって、「Xが出力できる手法を考え る」という研究のアプローチが主流。 • ユーザへの効能を高めるために、ユーザの認知をハックする のは許されるか? - 嘘も方便? - ユーザが幸せなら、ユーザに嘘の説明を提供しても良い? 18
  • 19. 原聡@第12回最先端NLP勉強会 まとめ n Q. XAI技術は “ユーザの役に立つ” のか? n A. いくつかの効能はあるが、今のところ期待されていた ほどの効果は見られていない。 n 課題: 効能の評価方法 • 研究ごとにデータやモデル、評価した説明法などが異なるの で、結果を公正に比較するのが困難。 - 評価研究がある程度増えてきたら、メタアナリシスが必要かも。 • 評価の質に大きなばらつきがある。 - アンケートレベルの簡素なものから、きちんと実験計画を立てて倫理 審査を経たものまで様々。 • 標準的なプロトコルが必要。 - ユーザ実験に習熟した研究者の知見が必要。 - CHIや社会統計学、心理学、経済学など。 19
  • 21. 原聡@第12回最先端NLP勉強会 [1] Manipulating and Measuring Model Interpretability, arXiv’18. 21 評価項目 説明から、ユーザは「モデルの予測」を予測できるか? データ New Yorkの物件価格の予測データ モデル 線形回帰モデル モデル1: 特徴2つ(浴室の個数, 面積) モデル2: 特徴8つ 説明 ユーザ 1250人@Amazon MTurkを5通りの設定にランダム割当 タスク • [訓練1] (説明なしのユーザ以外)予測に使われる特徴(および回帰係数)の説明 • [訓練2] 10件の物件/モデル予測を見て、自分で予測する → 正解を見る。 • [本番1] 12件の物件について、「モデルの予測」を予測 → 「予測の自信」を回答。 動機付け $2.50固定 結果 • 予測できた。ただし、「モデル1×係数見せる」の場合のみ。 • 「予測の自信」と予測の誤差には明確な関連性は見られなかった。 示唆 • 特徴の数が増えると、線形モデルでもユーザの予測は不正確になる。 補足 • AsPredictedにて仮説の事前登録あり • IRB-Approved(組織内の倫理委員会の承認済み) 【全5通り】 説明なし + {モデル1, モデル2} × {回帰係数を見せる, 見せない}
  • 22. 原聡@第12回最先端NLP勉強会 [1] Manipulating and Measuring Model Interpretability, arXiv’18. 22 評価項目 説明により、ユーザは「モデルの予測」に従うようになるか? ユーザ 1250人@Amazon MTurkを5通りの設定にランダム割当 タスク 前頁の[本番1]の後に • [本番2] 12件の物件について、自身で価格を予測 → 「予測の自信」を回答。 動機付け $2.50固定 結果 • 従うようにならなかった。説明の種類と、ユーザ自信の予測の精度との間に明確 な関係は見られなかった。 示唆 • 説明によってモデルの挙動が理解できても、ユーザがモデルの予測に従うかは別 問題。 データ、モデル、説明は前頁と同じ 補足 • AsPredictedにて仮説の事前登録あり • IRB-Approved(組織内の倫理委員会の承認済み)
  • 23. 原聡@第12回最先端NLP勉強会 [1] Manipulating and Measuring Model Interpretability, arXiv’18. 23 評価項目 説明から、ユーザは「モデルの予測」の間違いを見つけられるか? ユーザ 1250人@Amazon MTurkを5通りの設定にランダム割当 タスク 前々頁の[訓練1][訓練2][本番1]と同じ • [本番1]の12件の物件のうち2件はモデルの予測が上振れする外れ値(「寝室1つ、 浴室2つ」「寝室1つ、浴室3つ」)。 動機付け $2.50固定 結果 • 見つけられなかった。「説明なし」のユーザに比べて、4つの説明全てにおいて、 ユーザの予測価格は大きく上振れした(モデルの予測値/説明に引っ張られた)。 • 特に「回帰係数を見せる」に割り当てられたユーザは予測を大きく外した。 示唆 • 説明からユーザはモデルの間違いを検知できない。むしろ説明はユーザのモデル への盲信を助長する可能性がある。 データ、モデル、説明は前頁と同じ 補足 • AsPredictedにて仮説の事前登録あり • IRB-Approved(組織内の倫理委員会の承認済み)
  • 24. 原聡@第12回最先端NLP勉強会 [2] Does the Whole Exceed its Parts? The Effect of AI Explanations on Complementary Term Performance, arXiv’20. 24 評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか? データ レビュー文の分類データ(beer reviewsとbook reviews) モデル RoBERTaを使った分類器をfine-tune 分類器のクラス確率(confidence score)はvalidation dataでcalibration 説明 1. モデルの予測クラスとそのクラス確率 2. 1 + 分類対象クラスの重要単語(LIME) 3. 2 + 確率が二番目に大きいクラスの重要単語(LIME) 4. 2と3をクラス確率に応じて適応的に使い分ける方法 5. 人手でannotateした重要フレーズ ユーザ データそれぞれについて566人, 552人@Amazon MTurkを説明1-5にランダム割当。 Screeningにより、最終的には500人程度に。 タスク 50個のレビュー文を説明をもとに分類。レビュー文はユーザ単体とモデル単体とで同 等の分類精度になるように選択。 動機付け 参加$0.50 + 最終サーベイ回答$0.25 + $0.05/正解 + $0.50/$1.00(正解率90%/95%超) 結果 • 高精度な予測ができた。全ての説明で、ユーザ単体での予測精度を上回った。 • 説明の間で明確な優劣はなかった。 • 説明があると、ユーザはモデルの予測に引っ張られる傾向があった。 示唆 • ユーザが良い予測をするにはクラス確率の提示だけで十分かも。重要単語の提 示は精度向上に寄与せずにユーザのモデルへの盲信を促す可能性がある。
  • 25. 原聡@第12回最先端NLP勉強会 [3] Comparing Automatic and Human Evaluation of_Local Explanations for Text Classification, NAACL-HLT’18. 25 評価項目 説明から、ユーザは「モデルの予測」を予測できるか? データ 20News / Movie reviews モデル 1. ロジスティック回帰(tf-idf特徴、L2正則化) - 精度 0.921 / 0.797 2. 多層パーセプトロン(512中間ユニット, ReLU) - 精度 0.939 / 0.832 説明 重要単語(10個または20個) 1. ランダム 2. LIME 3. 貪欲選択(クラス確率が減る単語を貪欲法で選択) 4. 入力勾配 ユーザ データそれぞれについて406人, 445人@CrowdFlowerを説明1-4にランダム割当。 タスク 200個の文書のうち、10~20文書程度を説明をもとに分類。200個の文書の内訳はモデ ルの予測のTP/TN/FP/FNがそれぞれ50文書ずつ。 動機付け $0.03/回答 結果 • 予測できた。ランダムに比べて他の説明では、ユーザの「モデルの予測」の予測精 度が向上した。 • ランダム以外の説明間で明確な優劣は見られなかった。 示唆 • 説明により、ユーザは「モデルの予測」を予測できるようになる。
  • 26. 原聡@第12回最先端NLP勉強会 [3] Comparing Automatic and Human Evaluation of_Local Explanations for Text Classification, NAACL-HLT’18. 26 評価項目 説明の定量評価指標と、説明に基づくユーザの「モデルの予測」の予測精度の間に 関係はあるか? 結果 • 関係はあった。説明の定量評価指標SP(switching point; モデルの予測を反転さ せるのに削除する単語の割合)、AOPC(area over the perturbation curve; 削除単 語数とクラス確率をとのトレードオフの度合い)ともに、説明に基づくユーザの「モ デルの予測」の予測精度との間に緩い相関が見られた。 示唆 • 定量評価指標SPおよびAOPCは、説明に基づくユーザの「モデルの予測」の予測 精度の代替評価指標として使えるかもしれない。 データ、モデル、説明、ユーザ、タスク、動機付けは前頁と同じ
  • 27. 原聡@第12回最先端NLP勉強会 [4] Evaluating Explainable AI: Which Algorithmic Explanations Help Users Predict Model Behavior?, ACL’20. 27 評価項目 説明から、ユーザは「モデルの予測」を予測できるか? データ Movie reviews / Adult モデル DNN 説明 1. 重要単語・特徴(LIME) 2. 重要単語・特徴(Anchors) 3. 予測に関連する訓練データ(ProtoPNet) 4. 反実仮想データ(入力データの一部を改変して分類結果を反転させたデータ) 5. 1-4の組み合わせ ユーザ 32人(CSまたは統計の学生)を(データ2種類 × 説明5種類)にランダム割当 タスク 実験に使うデータのTP/TN/FP/FNの比率を揃える。 • [訓練1] 16個の検証データとモデルの予測を見る。 • [本番1] 16個のテストデータについて、ユーザが「モデルの予測」を予測をする。 • [訓練2] 訓練1と同じデータについてモデルの予測と説明を見る。 • [本番2] 本番1と同じデータについて、ユーザが「モデルの予測」を予測をする。 動機付け $15.00/時間 結果 • 予測できた。ただし、Adult + LIMEでのみ([本番1]に比べて[本番2]でユーザの予 測精度の有意に向上)。 示唆 • 説明から、ユーザが「モデルの予測」を予測できるようには(それほど)ならない。
  • 28. 原聡@第12回最先端NLP勉強会 [4] Evaluating Explainable AI: Which Algorithmic Explanations Help Users Predict Model Behavior?, ACL’20. 28 評価項目 説明から、ユーザはデータの小さな変化によって「モデルの予測」が変化するか否か を予測できるか? ユーザ 32人(CSまたは統計の学生)を(データ2種類 × 説明5種類)にランダム割当 タスク 実験に使うデータのTP/TN/FP/FNの比率を揃える。 • [本番1] 32個のテストデータについて、(データ、真のクラス、モデルの予測、“少し 異なるデータ”)を見て、“少し異なるデータ”に対する「モデルの予測」を予測をする。 • [本番2] 本番1と同じデータ + モデルの説明を見て、“少し異なるデータ”に対する 「モデルの予測」を予測をする。 動機付け $15.00/時間 結果 • 予測できなかった。どの説明においても、[本番1]と比べて[本番2]でユーザの予測 精度に有意な向上は見られなかった。 示唆 • 説明から、ユーザが「モデルの予測」を予測できるようにはならない。 データ、モデル、説明は前頁と同じ
  • 29. 原聡@第12回最先端NLP勉強会 [5] On Human Predictions with Explanations and Predictions of Machine Learning Models: A Case Study on Deception Detection, FAT*’19. 29 評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか? データ 嘘レビューの検知(嘘 or not の分類) モデル 線形SVM(bag-of-words特徴) - 精度 0.87 説明 1. 説明なし 2. 予測ラベル 3. 予測ラベル + モデルの分類精度 4. 重要単語(回帰係数) 5. 関連データ(最近傍データ) 6. 1と3の組み合わせ ユーザ 説明1-6にそれぞれ80人@Amazon MTurkをランダム割当 タスク • [訓練] 3個のレビュー文と説明を見てクラスを予測する。 • [本番] 20個のレビュー文と説明を見てクラスを予測する。 動機付け $0.05/回答 + $0.02/正解 結果 • 高精度な予測ができた。説明1-4では、説明なしよりもユーザの予測精度が向上し た(精度0.54 – 0.75)。特に説明2が顕著(精度 0.75)。 • ただし、モデル単体での予測が最大精度。 示唆 • 予測ラベルとモデルの精度を提示するのがユーザの精度向上に一番効果的。
  • 30. 原聡@第12回最先端NLP勉強会 [6] Effect of Confidence and Explanation on Accuracy and Trust Calibration in AI-Assisted Decision Making, FAT*’20. 30 評価項目 説明により、ユーザは「モデルの予測」に従うようになるか? データ Adult モデル GBDT 説明 1. 予測ラベル 2. クラス確率 ユーザ 全4通りの設定にそれぞれ9人@Amazon MTurkをランダム割当 タスク • [訓練] 20個のデータでクラスを予測 → 真のクラス、モデルの予測、説明を見る。 • [本番] 40個のデータでクラスを予測 → 説明を見て自身の予測とモデルの予測の どちらを採用するかを決定。 動機付け 参加$3.00 + $0.05/正解 - $0.02/不正解 結果 • 従うようになった。予測ラベル提示の有無に関わらず、クラス確率の提示により ユーザは「モデルの予測」に従う傾向が強まった。 • ただし、ユーザの予測精度が有意に向上したわけではない。 示唆 • クラス確率の提示には、ユーザのモデルへの信頼を醸成して「モデルの予測」を採 用するように促す効果がある。 【全4通り】 説明1の有無 × 説明2の有無
  • 31. 原聡@第12回最先端NLP勉強会 [6] Effect of Confidence and Explanation on Accuracy and Trust Calibration in AI-Assisted Decision Making, FAT*’20. 31 評価項目 説明により、ユーザは「モデルの予測」に従うようになるか? データ Adult モデル GBDT 説明 1. 予測ラベル 2. 予測ラベル & クラス確率 3. 予測ラベル & 重要特徴(SHAP) ユーザ 9人(おそらく@Amazon MTurkを説明1-3に3人ずつランダム割当したと思われる) タスク • [訓練] 20個のデータでクラスを予測 → 真のクラス、モデルの予測、説明を見る。 • [本番] 40個のデータでクラスを予測 → 説明を見て自身の予測とモデルの予測の どちらを採用するかを決定。 動機付け (不明; おそらく前頁と同じ) 結果 • 従うようにならなかった。重要特徴を提示しても、ユーザが「モデルの予測」を採用 する傾向に変化は見られなかった。 • ただし、ユーザの予測精度が有意に向上したわけでもない。 示唆 • 重要特徴の提示には、ユーザのモデルへの信頼を醸成する効果はなさそう。
  • 32. 原聡@第12回最先端NLP勉強会 [7] The Effects of Example-Based Explanations in a Machine Learning Interface, IUI’19. 32 評価項目 説明をもとに、ユーザは「モデルの挙動」を理解できるか? データ QuickDrawの手書きイラスト分類データ モデル RNN 説明 1. 説明なし 2. 予測クラスと同じ訓練画像をランダムに30個 3. 上位3つの予測クラスについて最も類似した訓練画像を1つ 4. 2 + 3 ユーザ 1150人(募集方法は不明) → スクリーニング後 1070人 タスク • QuickDrawで指示されたオブジェクトのイラスト(モデルで当該クラスと分類される イラスト)を描く。 • 「モデルの挙動」の理解度を7段階のスコアで回答する。 動機付け (不明) 結果 • 理解できた。ただし、イラストがモデルに適切に分類されなかった場合のみ。このと き、説明2を提示されたユーザの理解度スコアは有意に高かった。 • イラストがモデルに適切に分類された場合には、説明間でユーザの理解度スコア に有意な差はなかった。 示唆 • 類似データの提示は、ユーザが「モデルの挙動」を理解した、と思わせる。 • 提示するデータの選び方で効果は変わる。
  • 33. 原聡@第12回最先端NLP勉強会 [8] What can AI do for me? Evaluating Machine Learning Interpretations in Cooperative Play, IUI’19. 33 評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか? データ Quizbowlのクイズデータ(正解の選択肢を選ぶ分類データ) モデル 線形モデル(QANTAのguesser) 説明 1. 予測上位5クラスとクラス確率 2. 類似クイズとその重要単語 3. クイズの重要単語 ユーザ Quizbowlが強い人 40人(ネット掲示板で募集) / 素人 40人(Amazon MTurk)を8通り の説明に一様ランダムに割当 → 回答数少のユーザをスクリーニング後 30人/30人 タスク 新しく用意された160問に好きなだけ回答する → 1983回答/600回答を収集 動機付け 全問回答で報奨金(金額は不明) / (不明) 結果 • 高精度な予測ができた。強いユーザには説明3が正解率向上に一番効果的だった。 • 高精度な予測ができた。素人ユーザには説明2が正解率向上に一番効果的だった。 示唆 • 複数の説明の提示には相乗効果がある。しかし、複数の説明を見るのは認知負 荷が高いので、ユーザは一部の説明だけを主に確認して必要に応じて他の説明 を見る。 【全8通り】 説明1の有無 × 説明2の有無 × 説明3の有無
  • 34. 原聡@第12回最先端NLP勉強会 [9] Effects of Influence on User Trust in Predictive Decision Making, CHI’19. 34 評価項目 説明により、ユーザはモデルを信用するようになるか? データ 水道管の破損予測データ(破損 or not の分類) モデル CNN(5特徴) :モデル1 - 精度 0.90 / モデル2 – 精度 0.50 説明 1. 関連(影響関数)Top10の訓練データ 2. 関連(影響関数)Bottom10の訓練データ ユーザ 22人(募集方法は不明) タスク データと説明から破損を予測 → モデルの予測への信頼度を9段階で回答 (回答データ数は不明) 動機付け (不明) 結果 • 信用するようになった。モデル1では、説明1によりユーザのモデル予測への信頼 度が向上することが確認された。 • モデル2では、ユーザのモデル予測への信頼度向上は確認されなかった。 示唆 • モデルの精度が十分に高い場合には、関連データの提示によりユーザのモデル への信頼度が向上する。モデルの精度が低いと説明に信頼醸成の効果はない。 【全4通り】 説明1の有無 × 説明2の有無
  • 35. 原聡@第12回最先端NLP勉強会 説明 1. 説明なし 2. 予測クラス [10] The Principles and Limits of Algorithm-in-the-Loop Decision Making, CSCW’19. 35 評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか? データ 1. 公判前拘留データ(保釈した被疑者が公判に戻ってくるか否かの分類) 2. ローン返済データ(完済されるか否かの分類) モデル GBDT – AUC 0.66 / AUC 0.71 ユーザ スクリーニング後 1156人 / 732人(Amazon MTurk) を説明1-6にランダム割当 タスク 300データのうちランダムな40データについて、説明に基づいて出力クラスの確率を 10%刻みの選択肢から選んで回答 動機付け 全回答$2.00 + 回答精度(Brier score)に応じて$0.00 ~ $2.00 結果 • 高精度な予測ができた。2-5は1よりユーザの回答精度(Brier score)が有意に高 かった。 • 4での2回目の予測の回答精度は1回目の予測に比べて有意に高かった。 • 全ての場合において、モデル単体の回答精度(Brier score)が有意に高かった。 示唆 • 提示される説明によってユーザの回答精度は変わる。 • ただし、モデル単体の回答精度の方が高い。 3. 予測クラスが標準回答 4. 1で予測 → 2で予測 5. 2 + 重要特徴 6. 2で予測 → 真値を見る 補足 • IRB-Approved(組織内の倫理委員会の承認済み)
  • 36. 原聡@第12回最先端NLP勉強会 [10] The Principles and Limits of Algorithm-in-the-Loop Decision Making, CSCW’19. 36 評価項目 説明をもとに、ユーザは自身の予測の正しさを適切に見積もれるようになるか? ユーザ スクリーニング後 1156人 / 732人(Amazon MTurk) を説明1-6にランダム割当 タスク 前頁のタスク後に、自身の予測の正しさを5段階評価で回答 動機付け 全回答$2.00 + 回答精度(Brier score)に応じて$0.00 ~ $2.00 結果 • 見積もれなかった。ユーザの回答精度と5段階評価との間に明確な関連性は見ら れなかった。 示唆 • ユーザは自身の予測の正しさを適切に見積もることはできない。 データ、モデル、説明は前頁と同じ 補足 • IRB-Approved(組織内の倫理委員会の承認済み)
  • 37. 原聡@第12回最先端NLP勉強会 [11] “Why is ‘Chicago’ deceptive?” Towards Building Model-Driven Tutorial for Humans, CHI’20. 37 評価項目 事前の説明をもとに、ユーザはモデルと協調して高精度な予測ができるか? データ 嘘レビューの検知(嘘 or not の分類) モデル 線形SVM(bag-of-words特徴) - 精度 0.863 説明 1. 説明なし 2. 人手で作った分類のガイドライン 3. ランダムに選んだデータ10個 4. SP-LIMEで選んだデータ10個とそれぞれの重要10単語 5. 同じ重要単語が出やすく選んだデータ10個とそれぞれの重要10単語 6. 2と5の組み合わせ ユーザ 説明1-6にそれぞれ80人@Amazon MTurkをランダム割当 タスク • [訓練] (1以外のユーザ)説明を見てレビューの分類の仕方を学ぶ。 • [本番] 20個のレビュー文(説明なし)を見てクラスを予測する。 動機付け 参加$2.50 + $0.05/正解 結果 • 高精度な予測ができた。説明2-6では、説明なしよりもユーザの予測精度が有意 に向上した(0.57 ~ 0.61)。ただし、説明2-6の間で明確な優劣は見られなかった。 • モデル単体の精度(0.863)には大きく劣る。 示唆 • 説明の種類によってユーザの予測精度向上の度合いに変化はない。 • 事前に説明を見て全て覚えておくのが大変なのかもしれない。 補足 • AsPredictedにて仮説の事前登録あり
  • 38. 原聡@第12回最先端NLP勉強会 [11] “Why is ‘Chicago’ deceptive?” Towards Building Model-Driven Tutorial for Humans, CHI’20. 38 評価項目 回答時の説明をもとに、ユーザはモデルと協調して高精度な予測ができるか? データ 嘘レビューの検知(嘘 or not の分類) モデル 線形SVM(bag-of-words特徴) - 精度 0.863 説明 1. 説明なし 2. 重要10単語(色の濃淡で重要度の絶対値を表示) 3. 重要10単語(色および濃淡で符号付き重要度を表示) 4. 3 + 予測ラベル 5. 4 + 人手で作ったガイドライン 6. 5 + モデルの精度 ユーザ 説明1-6にそれぞれ80人@Amazon MTurkをランダム割当 タスク • [訓練] 前頁の説明6を見てレビューの分類の仕方を学ぶ。 • [本番] 20個のレビュー文(説明あり)を見てクラスを予測する。 動機付け 参加$2.50 + $0.05/正解 結果 • 高精度な予測ができた。説明3-6では、説明なしよりもユーザの予測精度が有意 に向上した(0.70 ~ 0.74)。ただし、説明3-6の間で明確な優劣は見られなかった。 • モデル単体の精度(0.863)には大きく劣る。 示唆 • 説明の種類によってユーザの予測精度向上の度合いに変化は(ほぼ)ない。 • ユーザの精度が向上してもモデル単体の精度には及ばない。 補足 • AsPredictedにて仮説の事前登録あり
  • 39. 原聡@第12回最先端NLP勉強会 [11] “Why is ‘Chicago’ deceptive?” Towards Building Model-Driven Tutorial for Humans, CHI’20. 39 評価項目 ユーザは単純/複雑なモデルのどちらとと協調して高精度な予測ができるか? データ 嘘レビューの検知(嘘 or not の分類) モデル • 単純なモデル: 線形SVM(bag-of-words特徴) - 精度 0.863 • 複雑なモデル: BERT – 精度 0.90 説明 重要10単語(色および濃淡で符号付き重要度を表示) 1. SVMの回帰係数上位10個 2. BERTのattention上位10個 3. BERT + LIMEの上位10個 ユーザ 全6通りの設定にそれぞれ80人@Amazon MTurkをランダム割当 タスク • [訓練] (訓練有のユーザ)前々頁の説明6を見てレビューの分類の仕方を学ぶ。 • [本番] 20個のレビュー文(説明あり)を見てクラスを予測する。 動機付け 参加$2.50 + $0.05/正解 結果 • 高精度な予測ができた。訓練有りでは訓練無しよりも有意にユーザの予測精度が 向上した。説明1 >説明3 >説明2 の順でユーザの予測精度が有意に向上した。 • ただし、いずれの場合もモデル単体の精度には大きく劣る。 示唆 • 事前の訓練はユーザの精度向上に有効。 • 単純なモデルに基づく説明の方がユーザの精度向上に有効な可能性がある。 • ユーザの精度が向上してもモデル単体の精度には及ばない。 【全6通り】 訓練(前々頁の説明6)の有無 × 説明1-3のどれか 補足 • AsPredictedにて仮説の事前登録あり