【論文調査】XAI技術の効能をユーザ実験で評価する研究

原聡@第12回最先端NLP勉強会
XAI技術の効能を
ユーザ実験で評価する研究
原聡
大阪大学産業科学研究所
1
第12回最先端NLP勉強会
2020/9/25-26@オンライン
担当論文 → 論文調査へ
Evaluating Explainable AI: Which Algorithmic Explanations
Help Users Predict Model Behavior? (ACL2020)
【論文調査】

Peeking inside the black-box: A survey on
Explainable Artificial Intelligence (XAI)
https://ieeexplore.ieee.org/document/8466590/
“XAIが大事”と言われはじめてから5年くらい
n 発表されるXAI関係の論文の数が爆発的に増えた。
• 機械学習関連の国際会議ではワークショップも開催。
• 【参考】日本語まとめ資料
- 機械学習における解釈性（私のブックマーク）, 人工知能, Vol.33, No.3, 2018.
- 説明可能AI（私のブックマーク）, 人工知能, Vol.34, No.4, 2019.
- 機械学習モデルの判断根拠の説明
- 機械学習モデルの判断根拠の説明 (Ver.2)
2

ところで、XAI技術ってユーザの役に立ってるの？
n 5年も研究されて色々な技術が開発されているのなら、
既に色々なところで実用化されて役に立っているので
は？
n でも、「弊社はXAI技術で大儲けしてます」という話は
（私の知る範囲では）聞かない。
• 「サービスの一環としてXAI技術も提供します」はよく聞く。
n もしかして、XAI技術ってあまり役に立たない？？
3

XAI技術がユーザの役に立つか調べた研究（一部）
n arXivの論文
[1] Manipulating and Measuring Model Interpretability, arXiv’18.
[2] Does the Whole Exceed its Parts? The Effect of AI Explanations on Complementary Term Performance, arXiv’20.
n NLP系の会議論文
[3] Comparing Automatic and Human Evaluation of_Local Explanations for Text Classification, NAACL-HLT’18.
[4] Evaluating Explainable AI: Which Algorithmic Explanations Help Users Predict Model Behavior?, ACL’20.
n CV系の会議論文
？？？（調査不足）
n FAT系の会議論文
[5] On Human Predictions with Explanations and Predictions of Machine Learning Models: A Case Study on Deception
Detection, FAT*’19.
[6] Effect of Confidence and Explanation on Accuracy and Trust Calibration in AI-Assisted Decision Making, FAT*’20.
n HCI系の会議論文
[7] The Effects of Example-Based Explanations in a Machine Learning Interface, IUI’19.
[8] What can AI do for me? Evaluating Machine Learning Interpretations in Cooperative Play, IUI’19.
[9] Effects of Influence on User Trust in Predictive Decision Making, CHI’19.
[10] The Principles and Limits of Algorithm-in-the-Loop Decision Making, CSCW’19.
[11] “Why is ‘Chicago’ deceptive?” Towards Building Model-Driven Tutorial for Humans, CHI’20.
4

XAI技術が “ユーザの役に立つ” とは？
n XAIに期待される効能（代表的な項目の一部）
• モデルの挙動理解
ユーザが「モデルの予測」を予測できるようになる。
• モデルへの信頼醸成
ユーザが「モデルの予測」を信頼して採用するようになる。
• ユーザの予測精度向上
モデルの補助を受けて、ユーザが高精度な予測ができるよう
になる。
n XAI（説明）が“ユーザの役に立つ”ならば、説明の有無
でユーザの行動に変化が生じるはず。
→ ユーザの行動の（良い方向への）変化が見られれば、
XAI（説明）が“ユーザの役に立つ”と言えそう。
5

【注意】
n 本資料は、論文[1] - [11]を主に「評価項目」と「結果」を
中心にまとめたもの。
• 実験の詳細や結果の分析方法などは各論文へ。
• 論文ごとにデータやモデル、評価した説明法などが異なるた
め、厳密には論文間の結果の比較はできないことに注意。
n 論文[1] - [11]の“ユーザ”は主にエンドユーザ
• 機械学習の知識はないが、モデルを予測（意思決定）に使う
ユーザ。
• 機械学習に詳しいユーザ（研究者/エンジニアなど）向けの
XAIの有効性の検証ではない。
6

XAIの効能まとめ
n 現状の評価
• モデルの挙動理解
→ 効果はあるかもしれないが、限定的。
• モデルへの信頼醸成
ユーザが「モデルの予測」を信頼して採用するようになる。
→ 「予測クラスのクラス確率の提示」は効果ありそう。
• ユーザの予測精度向上
モデルの補助を受けて、ユーザが高精度な予測ができるよう
になる。
→ 効果はあるが、ユーザがモデル単体の精度を超えるの
は困難。
7

現状の研究結果
n 効能「モデルの挙動理解」
n 現状の評価
効果はあるかもしれないが、限定的。
n 評価研究：[1], [3], [4]
• [1] 効果あり（限定的）
- 説明が十分に単純な場合のみ
• [3] 効果あり
- 一部のデータおよび一部の説明法でのみ
8

n 効能「モデルの挙動理解」
n 現状の評価
効果はあるかもしれないが、限定的。
n 評価研究：[1], [3], [4]
- 説明が十分に単純な場合のみ
- 一部のデータおよび一部の説明法でのみ
9

[4] Evaluating Explainable AI: Which Algorithmic Explanations
Help Users Predict Model Behavior?, ACL’20.
10
評価項目説明から、ユーザは「モデルの予測」を予測できるか？
データ Movie reviews / Adult
モデル DNN
説明 1. 重要単語・特徴（LIME）
2. 重要単語・特徴（Anchors）
3. 予測に関連する訓練データ（ProtoPNet）
4. 反実仮想データ（入力データの一部を改変して分類結果を反転させたデータ）
5. 1-4の組み合わせ
ユーザ 32人（CSまたは統計の学生）を（データ2種類 × 説明5種類）にランダム割当
タスク実験に使うデータのTP/TN/FP/FNの比率を揃える。
• [訓練1] 16個の検証データとモデルの予測を見る。
• [本番1] 16個のテストデータについて、ユーザが「モデルの予測」を予測をする。
• [訓練2] 訓練1と同じデータについてモデルの予測と説明を見る。
• [本番2] 本番1と同じデータについて、ユーザが「モデルの予測」を予測をする。
動機付け $15.00/時間
結果 • 予測できた。ただし、Adult + LIMEでのみ（[本番1]に比べて[本番2]でユーザの予
測精度の有意に向上）。
示唆 • 説明から、ユーザが「モデルの予測」を予測できるようには（それほど）ならない。

n 効能「モデルへの信頼醸成」
ユーザが「モデルの予測」を信頼して採用するようにな
る。
n 現状の評価
「予測クラスのクラス確率の提示」は効果ありそう。
n 評価研究：[1], [6]
• [1] 効果は観測されず
- 説明として予測クラスのクラス確率を提示した場合は効果あり
- 説明として重要特徴を提示した場合は効果は観測されず
11

n 効能「モデルへの信頼醸成」
ユーザが「モデルの予測」を信頼して採用するようにな
る。
n 現状の評価
「予測クラスのクラス確率の提示」は効果ありそう。
n 評価研究：[1], [6]
• [1] 効果は観測されず
- 説明として予測クラスのクラス確率を提示した場合は効果あり
- 説明として重要特徴を提示した場合は効果は観測されず
12

[6] Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making, FAT*’20.
13
評価項目説明により、ユーザは「モデルの予測」に従うようになるか？
データ Adult
モデル GBDT
説明 1. 予測ラベル
2. クラス確率
ユーザ全4通りの設定にそれぞれ9人@Amazon MTurkをランダム割当
タスク • [訓練] 20個のデータでクラスを予測 → 真のクラス、モデルの予測、説明を見る。
• [本番] 40個のデータでクラスを予測 → 説明を見て自身の予測とモデルの予測の
どちらを採用するかを決定。
動機付け参加$3.00 + $0.05/正解 - $0.02/不正解
結果 • 従うようになった。予測ラベル提示の有無に関わらず、クラス確率の提示により
ユーザは「モデルの予測」に従う傾向が強まった。
• ただし、ユーザの予測精度が有意に向上したわけではない。
示唆 • クラス確率の提示には、ユーザのモデルへの信頼を醸成して「モデルの予測」を採
用するように促す効果がある。
【全4通り】
説明1の有無 × 説明2の有無

n 効能「ユーザの予測精度向上」
モデルの補助を受けて、ユーザが高精度な予測ができ
るようになる。
n 現状の評価
効果はあるが、ユーザがモデル単体の精度を超えるの
は困難。
n 評価研究：[2], [5], [8], [10], [11]
• [10] 効果あり
• [11] 効果あり
14
ただし、モデル単体の予測精度を
ユーザが上回ることはできなかった
精度：モデル単体 > ユーザ（モデル補助あり） > ユーザ単体

n 効能「ユーザの予測精度向上」
モデルの補助を受けて、ユーザが高精度な予測ができ
るようになる。
n 現状の評価
効果はあるが、ユーザがモデル単体の精度を超えるの
は困難。
n 評価研究：[2], [5], [8], [10], [11]
• [10] 効果あり
• [11] 効果あり
15
ただし、モデル単体の予測精度を
ユーザが上回ることはできなかった
精度：モデル単体 > ユーザ（モデル補助あり） > ユーザ単体

[5] On Human Predictions with Explanations and Predictions of Machine
Learning Models: A Case Study on Deception Detection, FAT*’19.
16
評価項目説明をもとに、ユーザはモデルと協調して高精度な予測ができるか？
データ嘘レビューの検知（嘘 or not の分類）
モデル線形SVM（bag-of-words特徴） - 精度 0.87
説明 1. 説明なし
2. 予測ラベル
3. 予測ラベル + モデルの分類精度
4. 重要単語（回帰係数）
5. 関連データ（最近傍データ）
6. 1と3の組み合わせ
ユーザ説明1-6にそれぞれ80人@Amazon MTurkをランダム割当
タスク • [訓練] 3個のレビュー文と説明を見てクラスを予測する。
• [本番] 20個のレビュー文と説明を見てクラスを予測する。
動機付け $0.05/回答 + $0.02/正解
結果 • 高精度な予測ができた。説明1-4では、説明なしよりもユーザの予測精度が向上し
た（精度0.54 – 0.75）。特に説明2が顕著（精度 0.75）。
• ただし、モデル単体での予測が最大精度。
示唆 • 予測ラベルとモデルの精度を提示するのがユーザの精度向上に一番効果的。

[2] Does the Whole Exceed its Parts? The Effect of AI
Explanations on Complementary Term Performance, arXiv’20.
17
データレビュー文の分類データ（beer reviewsとbook reviews）
モデル RoBERTaを使った分類器をfine-tune
分類器のクラス確率（confidence score）はvalidation dataでcalibration
説明 1. モデルの予測クラスとそのクラス確率
2. 1 + 分類対象クラスの重要単語（LIME）
3. 2 + 確率が二番目に大きいクラスの重要単語（LIME）
4. 2と3をクラス確率に応じて適応的に使い分ける方法
5. 人手でannotateした重要フレーズ
ユーザデータそれぞれについて566人, 552人@Amazon MTurkを説明1-5にランダム割当。
Screeningにより、最終的には500人程度に。
タスク 50個のレビュー文を説明をもとに分類。レビュー文はユーザ単体とモデル単体とで同
等の分類精度になるように選択。
動機付け参加$0.50 + 最終サーベイ回答$0.25 + $0.05/正解 + $0.50/$1.00（正解率90%/95%超）
結果 • 高精度な予測ができた。全ての説明で、ユーザ単体での予測精度を上回った。
• 説明の間で明確な優劣はなかった。
• 説明があると、ユーザはモデルの予測に引っ張られる傾向があった。
示唆 • ユーザが良い予測をするにはクラス確率の提示だけで十分かも。重要単語の提
示は精度向上に寄与せずにユーザのモデルへの盲信を促す可能性がある。

まとめ
n Q. XAI技術は “ユーザの役に立つ” のか？
n A. いくつかの効能はあるが、今のところ期待されていた
ほどの効果は見られていない。
n 課題： XAI技術の研究開発
• ユーザへの効能を考えて手法を開発する必要があるかもし
れない。
- 現状は出力したい説明Xが先にあって、「Xが出力できる手法を考え
る」という研究のアプローチが主流。
• ユーザへの効能を高めるために、ユーザの認知をハックする
のは許されるか？
- 嘘も方便？
- ユーザが幸せなら、ユーザに嘘の説明を提供しても良い？
18

まとめ
n Q. XAI技術は “ユーザの役に立つ” のか？
n A. いくつかの効能はあるが、今のところ期待されていた
ほどの効果は見られていない。
n 課題：効能の評価方法
• 研究ごとにデータやモデル、評価した説明法などが異なるの
で、結果を公正に比較するのが困難。
- 評価研究がある程度増えてきたら、メタアナリシスが必要かも。
• 評価の質に大きなばらつきがある。
- アンケートレベルの簡素なものから、きちんと実験計画を立てて倫理
審査を経たものまで様々。
• 標準的なプロトコルが必要。
- ユーザ実験に習熟した研究者の知見が必要。
- CHIや社会統計学、心理学、経済学など。
19

研究まとめ一覧
20

21
データ New Yorkの物件価格の予測データ
モデル線形回帰モデル
モデル1：特徴2つ（浴室の個数, 面積）
モデル2：特徴8つ
説明
ユーザ 1250人@Amazon MTurkを5通りの設定にランダム割当
タスク • [訓練1] （説明なしのユーザ以外）予測に使われる特徴（および回帰係数）の説明
• [訓練2] 10件の物件/モデル予測を見て、自分で予測する → 正解を見る。
• [本番1] 12件の物件について、「モデルの予測」を予測 → 「予測の自信」を回答。
動機付け $2.50固定
結果 • 予測できた。ただし、「モデル1×係数見せる」の場合のみ。
• 「予測の自信」と予測の誤差には明確な関連性は見られなかった。
示唆 • 特徴の数が増えると、線形モデルでもユーザの予測は不正確になる。
補足 • AsPredictedにて仮説の事前登録あり
• IRB-Approved（組織内の倫理委員会の承認済み）
【全5通り】
説明なし + {モデル1, モデル2} × {回帰係数を見せる, 見せない}

22
タスク前頁の[本番1]の後に
• [本番2] 12件の物件について、自身で価格を予測 → 「予測の自信」を回答。
結果 • 従うようにならなかった。説明の種類と、ユーザ自信の予測の精度との間に明確
な関係は見られなかった。
示唆 • 説明によってモデルの挙動が理解できても、ユーザがモデルの予測に従うかは別
問題。
データ、モデル、説明は前頁と同じ

23
評価項目説明から、ユーザは「モデルの予測」の間違いを見つけられるか？
タスク前々頁の[訓練1][訓練2][本番1]と同じ
• [本番1]の12件の物件のうち2件はモデルの予測が上振れする外れ値（「寝室1つ、
浴室2つ」「寝室1つ、浴室3つ」）。
結果 • 見つけられなかった。「説明なし」のユーザに比べて、4つの説明全てにおいて、
ユーザの予測価格は大きく上振れした（モデルの予測値/説明に引っ張られた）。
• 特に「回帰係数を見せる」に割り当てられたユーザは予測を大きく外した。
示唆 • 説明からユーザはモデルの間違いを検知できない。むしろ説明はユーザのモデル
への盲信を助長する可能性がある。

[2] Does the Whole Exceed its Parts? The Effect of AI
Explanations on Complementary Term Performance, arXiv’20.
24
データレビュー文の分類データ（beer reviewsとbook reviews）
モデル RoBERTaを使った分類器をfine-tune
分類器のクラス確率（confidence score）はvalidation dataでcalibration
説明 1. モデルの予測クラスとそのクラス確率
2. 1 + 分類対象クラスの重要単語（LIME）
3. 2 + 確率が二番目に大きいクラスの重要単語（LIME）
4. 2と3をクラス確率に応じて適応的に使い分ける方法
5. 人手でannotateした重要フレーズ
ユーザデータそれぞれについて566人, 552人@Amazon MTurkを説明1-5にランダム割当。
Screeningにより、最終的には500人程度に。
タスク 50個のレビュー文を説明をもとに分類。レビュー文はユーザ単体とモデル単体とで同
等の分類精度になるように選択。
動機付け参加$0.50 + 最終サーベイ回答$0.25 + $0.05/正解 + $0.50/$1.00（正解率90%/95%超）
結果 • 高精度な予測ができた。全ての説明で、ユーザ単体での予測精度を上回った。
• 説明の間で明確な優劣はなかった。
• 説明があると、ユーザはモデルの予測に引っ張られる傾向があった。
示唆 • ユーザが良い予測をするにはクラス確率の提示だけで十分かも。重要単語の提
示は精度向上に寄与せずにユーザのモデルへの盲信を促す可能性がある。

[3] Comparing Automatic and Human Evaluation of_Local
Explanations for Text Classification, NAACL-HLT’18.
25
データ 20News / Movie reviews
モデル 1. ロジスティック回帰（tf-idf特徴、L2正則化） - 精度 0.921 / 0.797
2. 多層パーセプトロン（512中間ユニット, ReLU） - 精度 0.939 / 0.832
説明重要単語（10個または20個）
1. ランダム
2. LIME
3. 貪欲選択（クラス確率が減る単語を貪欲法で選択）
4. 入力勾配
ユーザデータそれぞれについて406人, 445人@CrowdFlowerを説明1-4にランダム割当。
タスク 200個の文書のうち、10~20文書程度を説明をもとに分類。200個の文書の内訳はモデ
ルの予測のTP/TN/FP/FNがそれぞれ50文書ずつ。
動機付け $0.03/回答
結果 • 予測できた。ランダムに比べて他の説明では、ユーザの「モデルの予測」の予測精
度が向上した。
• ランダム以外の説明間で明確な優劣は見られなかった。
示唆 • 説明により、ユーザは「モデルの予測」を予測できるようになる。

[3] Comparing Automatic and Human Evaluation of_Local
Explanations for Text Classification, NAACL-HLT’18.
26
評価項目説明の定量評価指標と、説明に基づくユーザの「モデルの予測」の予測精度の間に
関係はあるか？
結果 • 関係はあった。説明の定量評価指標SP（switching point; モデルの予測を反転さ
せるのに削除する単語の割合）、AOPC（area over the perturbation curve; 削除単
語数とクラス確率をとのトレードオフの度合い）ともに、説明に基づくユーザの「モ
デルの予測」の予測精度との間に緩い相関が見られた。
示唆 • 定量評価指標SPおよびAOPCは、説明に基づくユーザの「モデルの予測」の予測
精度の代替評価指標として使えるかもしれない。
データ、モデル、説明、ユーザ、タスク、動機付けは前頁と同じ

27
データ Movie reviews / Adult
モデル DNN
説明 1. 重要単語・特徴（LIME）
2. 重要単語・特徴（Anchors）
3. 予測に関連する訓練データ（ProtoPNet）
4. 反実仮想データ（入力データの一部を改変して分類結果を反転させたデータ）
5. 1-4の組み合わせ
• [訓練1] 16個の検証データとモデルの予測を見る。
• [本番1] 16個のテストデータについて、ユーザが「モデルの予測」を予測をする。
• [訓練2] 訓練1と同じデータについてモデルの予測と説明を見る。
• [本番2] 本番1と同じデータについて、ユーザが「モデルの予測」を予測をする。
結果 • 予測できた。ただし、Adult + LIMEでのみ（[本番1]に比べて[本番2]でユーザの予
測精度の有意に向上）。
示唆 • 説明から、ユーザが「モデルの予測」を予測できるようには（それほど）ならない。

28
評価項目説明から、ユーザはデータの小さな変化によって「モデルの予測」が変化するか否か
を予測できるか？
• [本番1] 32個のテストデータについて、(データ、真のクラス、モデルの予測、“少し
異なるデータ”)を見て、“少し異なるデータ”に対する「モデルの予測」を予測をする。
• [本番2] 本番1と同じデータ + モデルの説明を見て、“少し異なるデータ”に対する
「モデルの予測」を予測をする。
結果 • 予測できなかった。どの説明においても、[本番1]と比べて[本番2]でユーザの予測
精度に有意な向上は見られなかった。
示唆 • 説明から、ユーザが「モデルの予測」を予測できるようにはならない。

[5] On Human Predictions with Explanations and Predictions of Machine
Learning Models: A Case Study on Deception Detection, FAT*’19.
29
2. 予測ラベル
3. 予測ラベル + モデルの分類精度
4. 重要単語（回帰係数）
5. 関連データ（最近傍データ）
タスク • [訓練] 3個のレビュー文と説明を見てクラスを予測する。
• [本番] 20個のレビュー文と説明を見てクラスを予測する。
動機付け $0.05/回答 + $0.02/正解
結果 • 高精度な予測ができた。説明1-4では、説明なしよりもユーザの予測精度が向上し
た（精度0.54 – 0.75）。特に説明2が顕著（精度 0.75）。
• ただし、モデル単体での予測が最大精度。
示唆 • 予測ラベルとモデルの精度を提示するのがユーザの精度向上に一番効果的。

30
データ Adult
モデル GBDT
2. クラス確率
動機付け参加$3.00 + $0.05/正解 - $0.02/不正解
結果 • 従うようになった。予測ラベル提示の有無に関わらず、クラス確率の提示により
ユーザは「モデルの予測」に従う傾向が強まった。
• ただし、ユーザの予測精度が有意に向上したわけではない。
示唆 • クラス確率の提示には、ユーザのモデルへの信頼を醸成して「モデルの予測」を採
用するように促す効果がある。
【全4通り】

31
データ Adult
モデル GBDT
2. 予測ラベル & クラス確率
3. 予測ラベル & 重要特徴（SHAP）
ユーザ 9人（おそらく@Amazon MTurkを説明1-3に3人ずつランダム割当したと思われる）
動機付け（不明; おそらく前頁と同じ）
結果 • 従うようにならなかった。重要特徴を提示しても、ユーザが「モデルの予測」を採用
する傾向に変化は見られなかった。
• ただし、ユーザの予測精度が有意に向上したわけでもない。
示唆 • 重要特徴の提示には、ユーザのモデルへの信頼を醸成する効果はなさそう。

[7] The Effects of Example-Based Explanations in a Machine Learning
Interface, IUI’19.
32
評価項目説明をもとに、ユーザは「モデルの挙動」を理解できるか？
データ QuickDrawの手書きイラスト分類データ
モデル RNN
2. 予測クラスと同じ訓練画像をランダムに30個
3. 上位3つの予測クラスについて最も類似した訓練画像を1つ
4. 2 + 3
ユーザ 1150人（募集方法は不明） → スクリーニング後 1070人
タスク • QuickDrawで指示されたオブジェクトのイラスト（モデルで当該クラスと分類される
イラスト）を描く。
• 「モデルの挙動」の理解度を7段階のスコアで回答する。
動機付け（不明）
結果 • 理解できた。ただし、イラストがモデルに適切に分類されなかった場合のみ。このと
き、説明2を提示されたユーザの理解度スコアは有意に高かった。
• イラストがモデルに適切に分類された場合には、説明間でユーザの理解度スコア
に有意な差はなかった。
示唆 • 類似データの提示は、ユーザが「モデルの挙動」を理解した、と思わせる。
• 提示するデータの選び方で効果は変わる。

[8] What can AI do for me? Evaluating Machine Learning Interpretations in
Cooperative Play, IUI’19.
33
データ Quizbowlのクイズデータ（正解の選択肢を選ぶ分類データ）
モデル線形モデル（QANTAのguesser）
説明 1. 予測上位5クラスとクラス確率
2. 類似クイズとその重要単語
3. クイズの重要単語
ユーザ Quizbowlが強い人 40人（ネット掲示板で募集） / 素人 40人（Amazon MTurk）を8通り
の説明に一様ランダムに割当 → 回答数少のユーザをスクリーニング後 30人/30人
タスク新しく用意された160問に好きなだけ回答する → 1983回答/600回答を収集
動機付け全問回答で報奨金（金額は不明） / （不明）
結果 • 高精度な予測ができた。強いユーザには説明3が正解率向上に一番効果的だった。
• 高精度な予測ができた。素人ユーザには説明2が正解率向上に一番効果的だった。
示唆 • 複数の説明の提示には相乗効果がある。しかし、複数の説明を見るのは認知負
荷が高いので、ユーザは一部の説明だけを主に確認して必要に応じて他の説明
を見る。
【全8通り】
説明1の有無 × 説明2の有無 × 説明3の有無

[9] Effects of Influence on User Trust in Predictive Decision Making, CHI’19.
34
評価項目説明により、ユーザはモデルを信用するようになるか？
データ水道管の破損予測データ（破損 or not の分類）
モデル CNN（5特徴）：モデル1 - 精度 0.90 / モデル2 – 精度 0.50
説明 1. 関連（影響関数）Top10の訓練データ
2. 関連（影響関数）Bottom10の訓練データ
ユーザ 22人（募集方法は不明）
タスクデータと説明から破損を予測 → モデルの予測への信頼度を9段階で回答
（回答データ数は不明）
動機付け（不明）
結果 • 信用するようになった。モデル1では、説明1によりユーザのモデル予測への信頼
度が向上することが確認された。
• モデル2では、ユーザのモデル予測への信頼度向上は確認されなかった。
示唆 • モデルの精度が十分に高い場合には、関連データの提示によりユーザのモデル
への信頼度が向上する。モデルの精度が低いと説明に信頼醸成の効果はない。
【全4通り】

2. 予測クラス
[10] The Principles and Limits of Algorithm-in-the-Loop Decision Making,
CSCW’19.
35
データ 1. 公判前拘留データ（保釈した被疑者が公判に戻ってくるか否かの分類）
2. ローン返済データ（完済されるか否かの分類）
モデル GBDT – AUC 0.66 / AUC 0.71
ユーザスクリーニング後 1156人 / 732人（Amazon MTurk）を説明1-6にランダム割当
タスク 300データのうちランダムな40データについて、説明に基づいて出力クラスの確率を
10%刻みの選択肢から選んで回答
動機付け全回答$2.00 + 回答精度（Brier score）に応じて$0.00 ~ $2.00
結果 • 高精度な予測ができた。2-5は1よりユーザの回答精度（Brier score）が有意に高
かった。
• 4での2回目の予測の回答精度は1回目の予測に比べて有意に高かった。
• 全ての場合において、モデル単体の回答精度（Brier score）が有意に高かった。
示唆 • 提示される説明によってユーザの回答精度は変わる。
• ただし、モデル単体の回答精度の方が高い。
3. 予測クラスが標準回答
4. 1で予測 → 2で予測
5. 2 + 重要特徴
6. 2で予測 → 真値を見る
補足 • IRB-Approved（組織内の倫理委員会の承認済み）

[10] The Principles and Limits of Algorithm-in-the-Loop Decision Making,
CSCW’19.
36
評価項目説明をもとに、ユーザは自身の予測の正しさを適切に見積もれるようになるか？
ユーザスクリーニング後 1156人 / 732人（Amazon MTurk）を説明1-6にランダム割当
タスク前頁のタスク後に、自身の予測の正しさを5段階評価で回答
動機付け全回答$2.00 + 回答精度（Brier score）に応じて$0.00 ~ $2.00
結果 • 見積もれなかった。ユーザの回答精度と5段階評価との間に明確な関連性は見ら
れなかった。
示唆 • ユーザは自身の予測の正しさを適切に見積もることはできない。
補足 • IRB-Approved（組織内の倫理委員会の承認済み）

[11] “Why is ‘Chicago’ deceptive?” Towards Building Model-Driven Tutorial
for Humans, CHI’20.
37
評価項目事前の説明をもとに、ユーザはモデルと協調して高精度な予測ができるか？
2. 人手で作った分類のガイドライン
3. ランダムに選んだデータ10個
4. SP-LIMEで選んだデータ10個とそれぞれの重要10単語
5. 同じ重要単語が出やすく選んだデータ10個とそれぞれの重要10単語
タスク • [訓練] （1以外のユーザ）説明を見てレビューの分類の仕方を学ぶ。
• [本番] 20個のレビュー文（説明なし）を見てクラスを予測する。
動機付け参加$2.50 + $0.05/正解
結果 • 高精度な予測ができた。説明2-6では、説明なしよりもユーザの予測精度が有意
に向上した（0.57 ~ 0.61）。ただし、説明2-6の間で明確な優劣は見られなかった。
• モデル単体の精度（0.863）には大きく劣る。
示唆 • 説明の種類によってユーザの予測精度向上の度合いに変化はない。
• 事前に説明を見て全て覚えておくのが大変なのかもしれない。

38
評価項目回答時の説明をもとに、ユーザはモデルと協調して高精度な予測ができるか？
2. 重要10単語（色の濃淡で重要度の絶対値を表示）
3. 重要10単語（色および濃淡で符号付き重要度を表示）
4. 3 + 予測ラベル
5. 4 + 人手で作ったガイドライン
6. 5 + モデルの精度
タスク • [訓練] 前頁の説明6を見てレビューの分類の仕方を学ぶ。
• [本番] 20個のレビュー文（説明あり）を見てクラスを予測する。
動機付け参加$2.50 + $0.05/正解
結果 • 高精度な予測ができた。説明3-6では、説明なしよりもユーザの予測精度が有意
に向上した（0.70 ~ 0.74）。ただし、説明3-6の間で明確な優劣は見られなかった。
• モデル単体の精度（0.863）には大きく劣る。
示唆 • 説明の種類によってユーザの予測精度向上の度合いに変化は（ほぼ）ない。
• ユーザの精度が向上してもモデル単体の精度には及ばない。

39
評価項目ユーザは単純/複雑なモデルのどちらとと協調して高精度な予測ができるか？
モデル • 単純なモデル：線形SVM（bag-of-words特徴） - 精度 0.863
• 複雑なモデル： BERT – 精度 0.90
説明重要10単語（色および濃淡で符号付き重要度を表示）
1. SVMの回帰係数上位10個
2. BERTのattention上位10個
3. BERT + LIMEの上位10個
タスク • [訓練] （訓練有のユーザ）前々頁の説明6を見てレビューの分類の仕方を学ぶ。
• [本番] 20個のレビュー文（説明あり）を見てクラスを予測する。
動機付け参加$2.50 + $0.05/正解
結果 • 高精度な予測ができた。訓練有りでは訓練無しよりも有意にユーザの予測精度が
向上した。説明1 >説明3 >説明2 の順でユーザの予測精度が有意に向上した。
• ただし、いずれの場合もモデル単体の精度には大きく劣る。
示唆 • 事前の訓練はユーザの精度向上に有効。
• 単純なモデルに基づく説明の方がユーザの精度向上に有効な可能性がある。
• ユーザの精度が向上してもモデル単体の精度には及ばない。
【全6通り】
訓練（前々頁の説明6）の有無 × 説明1-3のどれか

【論文調査】XAI技術の効能をユーザ実験で評価する研究

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【論文調査】XAI技術の効能をユーザ実験で評価する研究

Similar to 【論文調査】XAI技術の効能をユーザ実験で評価する研究 (20)

More from Satoshi Hara

More from Satoshi Hara (10)

Recently uploaded

Recently uploaded (7)