技術動向の調査として、ICML Workshop Uncertainty & Robustness in Deep Learningの中で、面白そうなタイトルを中心に読んで各論文を4スライドでまとめました。
最新版:https://speakerdeck.com/masatoto/icml-2021-workshop-shen-ceng-xue-xi-falsebu-que-shi-xing-nituite-e0debbd2-62a7-4922-a809-cb07c5da2d08(文章を修正しました。)
2. ICML Workshop
Uncertainty & Robustness in Deep Learning 1/2
UQ:アンサンブル⼿法
• Repulsive Deep Ensembles are Bayesian
UQ:単⼀決定論的⼿法
• Deterministic Neural Networks with Inductive Biases Capture Epistemic and Aleatoric
Uncertainty
• Deep Deterministic Uncertainty for Semantic Segmentation
OOD/Anomaly detection
• Detecting OODs as datapoints with High Uncertainty
• Do We Really Need to Learn Representations from In-domain Data for Outlier Detection?
• PnPOOD : Out-Of-Distribution Detection for Text Classification via Plug and Play Data
Augmentation
3. ICML Workshop
Uncertainty & Robustness in Deep Learning 2/2
RL
• Safety & Explora/on: A Compara/ve Study of Uses of Uncertainty in Reinforcement
Learning
• Implicit Ensemble Training for Efficient and Robust Mul/agent Reinforcement
Learning
Uncertainty Analysis
• A Tale Of Two Long Tails
• Diverse and Amor/zed Counterfactual Explana/ons for Uncertainty Es/mates
• Uncertainty Toolbox: an Open-Source Library for Assessing, Visualizing, and
Improving Uncertainty Quan/fica/on
• Notes on the Behavior of MC Dropout
• On The Dark Side Of Calibra/on For Modern Neural Networks
4. この分野に明るくない⽅に向けて
後で紹介する”Uncertainty Toolbox: an Open-Source Library for Assessing, Visualizing, and
Improving Uncertainty QuanQficaQon “のGithubに⽤語集があります。
その⽤語を先に確認するとわかりやすいかもしれません。
Link:hUps://github.com/uncertainty-toolbox/uncertainty-toolbox/blob/master/docs/glossary.md
なるべく、それぞれの研究の動機等の雰囲気が伝わるような説明を⼼がけました。
認識の不確実性
偶然の不確実性
Amini, A., Schwar.ng, W., Soleimany, A., & Rus, D. (2019). Deep eviden.al regression. arXiv preprint arXiv:1910.02600.
(データの不確実性) (モデルの不確実性)
5. Repulsive Deep Ensembles are Bayesian
アンサンブルメンバー間の多様性が増すように重み更新⽅法を修正
認識の不確実性を推定するのに深層アンサンブルが実装が簡単で性能も良く⼈気
独⽴で学習したメンバーでは、多様性を⾼めるのが困難
多様性が低いと不確実性が過⼩評価される
ディープアンサンブルの重みの更新式に、他のメンバーの重みとのカーネル関数を反
発( Repulsive )項として導⼊。明⽰的にメンバー間を遠ざけるようにした
メンバー間の多様性を更新式で強制され、認識の不確実性の推定が⾼性能
Francesco D’Angelo, Vincent Fortuin
要約
背景
課題
⽅法
結果
#UQ:アンサンブル⼿法
6. Repulsive Deep Ensembles are Bayesian
• 重み空間におけるBNNの推論は、モデルがover-parametrizaQonされているため、縮退した
解になる可能性がある。
• 事後サンプルは異なる重みを持つが、同じ関数にマッピングされる可能性がある。結
果、アンサンブルの多様性を失う。
• Deep Ensemblesのパラメータ勾配更新にカーネル化された反発を導⼊
<latexit sha1_base64="F2ZHUYhsauF1rpR88qBtsCY0FAc=">AAADSXicjVHPa9RAFH7J+qOmard6EbwEl0qlukx6sFIoFPUgnvrDbQs7a5iMs7vTnfwgmd2yjfkH/Ac8eFIQEf8ML4JnD717KZ6kgiIefJvEilvUvpC8733zvi9vZrxIyUQTsmeYlRMnT52eOGNNnj13fqo6fWEjCfsxFw0eqjDe8lgilAxEQ0utxFYUC+Z7Smx6vTuj9c2BiBMZBg/0MBItn3UC2ZacaaTc6kfatHbcVGYPUz3nZEu/cDZHRZRIhT1YUCXaepYGzFPMpirs2FFBHbY/TqnPdJczZd/NaCw7XX3tBm3HjKc06ftuur3kYGOQ2YWLmx5KM7s3ZnbdRridw9IqG3c5hqTMFm251Rqpkzzso8ApQQ3KWAmrr4DCIwiBQx98EBCARqyAQYJPExwgECHXghS5GJHM1wVkYKG2j10COxiyPfx2sGqWbID1yDPJ1Rz/ovCNUWnDDPlAXpMD8o68Ifvkx1+90txjNMsQs1doReROPbm0/vW/Kh+zhu5v1T9n1tCGW/msEmePcma0C17oB7tPD9YX12bSq+QF+YTzPyd75C3uIBh84S9XxdozsPACnPHjPgo25uvOzbqzOl9bvl1exQRchiswi+e9AMtwD1agAdy4b0TG0Ng135ufzW/m96LVNErNRfgjKpWf9Kbl5g==</latexit>
wt+1
i = wt
i + ✏t r log p wt
i|D
Pn
j=1 rwt
i
k wt
i, wt
j
Pn
j=1 k wt
i, wt
j
!
<latexit sha1_base64="8aZv9jNGPg33sIJ4XrRA1672Guc=">AAACcXichVHLSsNAFD2NrxqtrbpR3ASLIghl4kLFVcGNS19VoakliVMNTZOQpJUa+gP+gIKrFkTEz3DjD7jwE8RlBTcuvEkDoqLeYWbOnLnnzpkZzTENz2fsKSH09Q8MDiWHxZHR1Fg6Mz6x59l1V+cF3TZt90BTPW4aFi/4hm/yA8flak0z+b5WXQ/39xvc9Qzb2vWbDi/V1GPLqBi66hN1qBTFQNEq0mkrJSqlcibLciwK6SeQY5BFHJt25gYKjmBDRx01cFjwCZtQ4VErQgaDQ1wJAXEuISPa52hBJG2dsjhlqMRWaTymVTFmLVqHNb1IrdMpJnWXlBLm2CO7ZV32wO7YM3v/tVYQ1Qi9NGnWelrulNPnUztv/6pqNPs4+VT96dlHBauRV4O8OxET3kLv6RtnF92dte25YJ512Av5b7Mndk83sBqv+vUW376CSB8gf3/un2BvKScv5+StpWx+Nf6KJGYwiwV67xXksYFNFOhcF5doo5PoCtOCJMz2UoVErJnElxAWPwCQlI5A</latexit>
w <latexit sha1_base64="ix4c0gBcUBYa1NhOXdVa491YE4A=">AAACa3ichVG7SgNBFD1ZX3F9JJpG1EIMEaswa6FiJdhY5mE0kATZXUcdstlddidBDf6ApY1FbBRExM+w8Qcs8gkiVgo2Ft5sFkRFvcvsnDlzz50zdwzXEr5krB1Renr7+geig+rQ8MhoLD42vuk7dc/kBdOxHK9o6D63hM0LUkiLF12P6zXD4ltGda2zv9Xgni8ce0MeurxS0/dssStMXRJVLJfUgxG1XNmOJ1maBTHzE2ghSCKMjBO/Rhk7cGCijho4bEjCFnT49JWggcElroImcR4hEexzHEMlbZ2yOGXoxFbpv0erUsjatO7U9AO1SadYNDxSziDFHtgNe2H37JY9svdfazWDGh0vhzQbXS13t2MnE/m3f1U1miX2P1V/epbYxXLgVZB3N2A6tzC7+sbR2Ut+JZdqzrFL9kT+L1ib3dEN7MareZXluRZUegDte7t/gs2FtLaY1rILydXl8CmimMIs5qnfS1jFOjIoBH0+RQvnkWcloUwq091UJRJqEvgSSuoDJAaLyQ==</latexit>
x
<latexit sha1_base64="CQ7Or6GtnPaCSZxNV/0Un4EZipc=">AAACa3ichVG7SgNBFD1ZX3F9JJpG1EIMEaswm0KDVcDGMlFjAkmQ3XUSl+yL3U0gBn/A0sYiNgoi4mfY+AMWfoKIVQQbC+9uFkRFvcvsnDlzz50zdxRb11yPsceIMDQ8MjoWHRcnJqemY/GZ2T3XajkqL6qWbjllRXa5rpm86Gmezsu2w2VD0XlJaW76+6U2d1zNMne9js1rhtwwtbqmyh5R5WpF7EyJ1dp+PMnSLIiln0AKQRJh5K34Nao4gAUVLRjgMOER1iHDpa8CCQw2cTV0iXMIacE+xzFE0rYoi1OGTGyT/g1aVULWpLVf0w3UKp2i03BIuYQUe2A3rM/u2S17Yu+/1uoGNXwvHZqVgZbb+7GTuZ23f1UGzR4OP1V/evZQRzbwqpF3O2D8W6gDffvorL+zsZ3qrrBL9kz+L9gju6MbmO1X9arAt3sQ6QGk7+3+CfYyaWktLRUyyVw2fIooFrCMVer3OnLYQh7FoM+n6OE88iIkhHlhcZAqREJNAl9CSH0AJgqLyg==</latexit>
y
事後確率最⼤の⽅向 KDE:他のメンバーと重みが似ているほど離れる
kde-WGD
7. Repulsive Deep Ensembles are Bayesian
HMCをgrand-truthとした場合の分類と回帰の⽐較
kde-fWGD :重み空間でKDEしていたのを関数空間に変えた(w→f)
8. • 付録:評価指標
Repulsive Deep Ensembles are Bayesian
予測分布のエントロピー:偶然の不確実性+認識の不確実性
モデルの不⼀致の尺度ベクトル:認識の不確実性
個々の予測と平均の予測の偏差のばらつき
予測分布
アンサンブル
メンバー
モデルの不⼀致の尺度:モデルの不⼀致の尺度ベクトルをyで期待値をとる
9. Determinis)c Neural Networks with Induc)ve Biases Capture
Epistemic and Aleatoric Uncertainty
アンサンブルのような複雑さや計算コストを必要とせずに、偶然の不確実性と認識
の不確実性を推定するsingle-forward-pass な⽅法の提案
決定論的なNNで single-forward-passによる不確実性の定量化⼿法は存在する。しかし、
訓練⽅法の⼤幅な変更、特殊な出⼒層のために追加のハイパーパラメータが必要
OoDサンプルに対する任意のソフトマックスエントロピーの値は、認識の不確実性を
確実に捉えることができない。また、特徴崩壊( feature collapse )が起こる
特徴崩壊を防ぐために、感度と平滑性の制約を与えたResNet+Spectral Normalization
を⽤いて、出⼒層直前の特徴空間の密度推定値から認識の不確実性を推定
ディープアンサンブルや他のsingle-forward-passなアプローチより⾼品質な不確実性
を推定
Jishnu Mukhoti, Andreas Kirsch, Joost van Amersfoort, Philip H.S. Torr, Yarin Gal
要約
背景
課題
⽅法
結果
#UQ:単⼀決定論的⼿法
10. 特徴崩壊( feature collapse )
• 特徴空間でiD(in Distribu.on)のサンプルにOoDが重なること(d 左, 中央)
• 特徴空間の密度推定による認識の不確実性の推定の失敗に
解決策:特徴空間に感度 (sensiQvity)と平滑性 (smoothness)を課すことでこの問題を緩和
Deterministic Neural Networks with Inductive Biases Capture
Epistemic and Aleatoric Uncertainty
右: 提案(ResNet+SN)
OoDとiDが分離できている
bi-Lipschitz制約
sensitivity smoothness
: residual connec.ons(ResNets) : Spectral Normaliza.on (Miyato et al., 2018)
Miyato, T., Kataoka, T., Koyama, M., and Yoshida, Y. Spectral normalization for generative adversarial networks. In International Conference on Learning Representations, 2018.
制約を満たすために
22. Do We Really Need to Learn Representations from In-
domain Data for Outlier Detection?
ImageNetをSim-CLRv2を⽤いて、 ResNet-50で学習し、それを特徴抽出器として⽤
いる2段階の教師なし異常検知アルゴリズムを提案
2段階に基づく⼿法が、教師なし外れ値検出で最⾼性能
⾃⼰教師あり学習アルゴリズムを利⽤して、分布内データの特徴抽出器を学習し、特
徴空間に単純な外れ値検出器を適⽤
ドメインごとに外れ値検出のために特徴抽出器を学習するコストが⾼い
ドメイン内データに関わらず、事前学習済みネットワークを普遍的な特徴抽出器とし
て使⽤する可能性を探る
様々な外れ値検出ベンチマークにおいて、従来の2段階法と⽐較し、外れ値検出には
ドメイン内データからの表現学習は必要ないことが⽰唆された。
要約
背景
課題
⽅法
結果
Zhisheng Xiao, Qing Yan, Yali Amit #OOD/Anomaly detection
23. 教師なし外れ値検出のSoTAアプローチ
• First Stage
分布内データで特徴を⾃⼰教師あり学習(ex: contras2ve loss)
• Second Stage
学習したネットワークの特徴空間内で外れ値検出を⾏う
- ノンパラメトリック検出器:One-class SVM, Kernel Density EsQmaQon (KDE)
- パラメトリック検出器:Mahalanobis distance
外れ値検出はサイドタスクであることが多く、メインタスクの前に外れ値がフィルタリングさ
れることを考えるとFirst Stage が重たい。
提案:分布内データを⽤いないで⼤規模データ( ImageNet )で特徴表現を⾃⼰教師あり学習
( Sim-CLRv2 )をおこなう。
Do We Really Need to Learn Representations from In-
domain Data for Outlier Detection?
Sehwag, V., Chiang, M., and Mittal, P. Ssd: A unified framework for self-supervised outlier detection. In International Conference on Learning Representations, 2021.
Sohn, K., Li, C.-L., Yoon, J., Jin, M., and Pfister, T. Learning and evaluating representations for deep one-class classification. In International Conference on Learning Representations, 2021.
26. PnPOOD : Out-Of-Distribution Detection for Text Classification
via Plug and Play Data Augmentation
Mrinal Rawat, Ramya Hebbalaguppe, Lovekesh Vig
要約
背景
課題
⽅法
クラス境界に近い⾼品質な⽂章を⽣成することで、テスト時に正確なOOD検出を実現
するNLP⽤のPnPOODを提案
NLPのOODの例:会話エージェントは、ユーザーの質問を分類し、それぞれ対応する。
OODの場合、ユーザーの質問に適さない返答をしてしまう。OODを検知し、別対応す
ることでU Xを向上させる。
OOD(Out-of-Distribution)検出は、コンピュータビジョンではよく研究されているが、
NLP分類のためのOOD検出は⽐較的試みが少ない
最近提案されたPlug and Play Language Modelを⽤いて、OODのサンプルを⽣成するこ
とで、OOD検出を⾏う
20のニュースグループテキストとStanford Sentiment Treebankデータセットにおいて、
より低いECEを⽰すことを⽰した。
要約
背景
課題
⽅法
結果
#OOD/Anomaly detecQon
27. Plug and Play Language Models (PPLM) (Dathathri et al., 2020)
• 事前に学習された⾔語モデル(LM)を⽤いて、モデルのパラメータを変更することなく、
トピックや感情などの属性を制御したテキストを⽣成することが可能
• GPT -2のような⼤規模なモデルをFine-tuningする必要がない
PnPOOD : Out-Of-Distribution Detection for Text Classification
via Plug and Play Data Augmentation
Dathathri, S., MadoJo, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J., and Liu, R. Plug and play language models: A simple approach to controlled text generaQon. ICLR 2020
属性
初期指定単語
⽂章の⽣成例
28. PnPOOD : Out-Of-Distribution Detection for Text Classification
via Plug and Play Data Augmentation
OODの検出⽅法
• Kクラス確率ベクトルの最⼤値が閾値以下でOODと判定
損失関数
<latexit sha1_base64="XffQG0vEQS5HuoEmeuBx8ggKfHk=">AAAEG3icjZFNaxNBGMefJr7UaG2qF0EPg6WSYgiTHrQIQrEtCFaatqYtZOIyu5kkQ3dn191JSTrsF/ALeBAPCiLi2U/Qi4jXHvoRxGMFLx58stm+Y3WWnXme/8z/md/M2IErI03p7lAme+78hYvDl3KXr4xcHc2PXVuN/E7oiKrju364bvNIuFKJqpbaFetBKLhnu2LN3pjtz69tijCSvnqme4Goe7ylZFM6XKNkjQ19ZrUcs0VLKsPDkPdi48TM47rtcNcsxA9ZRzXQL7Rhui00jw3zAxFy7YeKe8J4UklPbok4JuxFhzdIYrZtMx9bptAtkt4kYZH0yJyFFURXEyNVg8Tx8/1Uh1wqFGLmiqauHdkcHf0k9MzsfDpd6FlGEhUXSdPaJyp0J1koW22dDnVC7jLuBm1OmNPw9TGkQZXuAYzvD2AqpEIWyNM4rXSS2e/oo8yLi3NnEfeTA+JD0P/cu0iqhd6JIzGhGukDjeRY3cqP0xJNGjkdlNNgHNJW8fMfgEEDfHCgAx4IUKAxdoFDhF8NykAhQK0OBrUQI5nMC4ghh94OrhK4gqO6gX0Ls1qqKsz7NaPE7eAuLv4hOglM0B36ke7RL/QT/U5//7WWSWr0WXo42gOvCKzRlzdWfv3T5eGooX3oOpNZQxOmE1aJ7EGi9E/hDPybW6/2Vh4sT5g79B39gfxv6S7dxhOozZ/O+yWx/Bpy+ADlk9d9OlidKpXvlcpLU+Mz0+lTDMNNuA0FvO/7MAOPoQJVcDK3Mo8yTzIL2TfZ7ezX7LfB0sxQ6rkOx1p25w/IGjJd</latexit>
L = minimize
✓
E(x,y)⇠Dtrain
ind
[LCE (yin, f✓(x))] + ↵ · E(xP P LM
ood )⇠DOOD
out
⇥
LE f✓ xP P LM
ood , U(y)
⇤
分布内データ
⽣成されたOOD
分布内の中⼼と各⽂の埋め込みの距離を計測.
境界のデータだけにフィルタリング
OOD⽣成例
⽣成OODをエントロピー正則化で⼀様分布に近づける
29. 評価:SSTを分布内データ、Multi30KおよびSNLIをOODデータ
• Stanford Sentiment Treebank(SST) は、ポジティブまたはネガティブな感情を表現した
映画レビュー
• SNLIは⾃然⾔語推論のための前提と仮説のデータセット
• Multi30Kは英語-ドイツ語の画像説明のデータセット
PnPOOD : Out-Of-Distribution Detection for Text Classification
via Plug and Play Data Augmentation
PPLMの有無で性能差が表れている
30. Safety & Exploration: A Comparative Study of Uses of
Uncertainty in Reinforcement Learning
3つのGrid World 環境において、不確実性に基づくUADQNとDQNRPの有効性を評価
RLエージェントが外的要因により危険な⽬に遭うなど、安全性を重要視
例)急な突⾵が吹く地域での⾃動運転⾞
確率的にリスクの⾼い状態に陥る環境において、効率的な探索と安全性を両⽴させた
強化学習アルゴリズムを開発することが不可⽋
既存のDQNRP とUADQN を、偶然の不確実性(安全性)と認識の不確実性(効率的な
探索)を評価する3つの環境で実験
テストしたモデルと環境において、 DQNRPは疎な報酬と稀な解を持つ環境に有効
UADQNはリスクのある確率的な環境において安全に探索することが可能
ただし、リスクの適切な罰⾦に依存
Varun Tekur, Javin Pombra, Rose Hong, Weiwei Pan
要約
背景
課題
⽅法
結果
# RL
31. 安全性や探索において不確実性が果たす役割
偶然の不確実性:エージェントの安全性
認識の不確実性:報酬が少ない環境でのエージェントの探索
Safety & Explora)on: A Compara)ve Study of Uses of
Uncertainty in Reinforcement Learning
(DQNRP) Deep Q Network With Randomized Priors UADQN
DQNRP: Osband, I., Aslanides, J., and Cassirer, A. Randomized prior func?ons for deep reinforcement learning, 2018.
UADQN: Clements, W. R., DelH, B. V., Robaglia, B.-M., Slaoui, R. B., and Toth, S. Es?ma?ng risk and uncertainty in deep reinforcement learning, 2020.
Quantile regression based distributional RL
偶然の不確実性が⾼いと⾏動価値を下げる
<latexit sha1_base64="IZpLpjdZLCGPqK4k1KkX4iJOCiI=">AAADEnichVFLaxRBEK4ZX3F8ZDUXwcvgEokQl949+EQIycWTZBM3CWyvQ0+ndrdJz4OZ3sU4zB/wLHjwpCAi4h/wJrl48OohP0E8RvDiwZrZAd0EtZrprvqqvm+quv1Yq9Qwtm/Zx46fOHlq5rRz5uy587O1Cxc30miUSOzISEfJli9S1CrEjlFG41acoAh8jZv+zkqR3xxjkqoofGh2Y+wFYhCqvpLCEOTV3vOuw4ORl6WLbiY8lef3psPrXJPatnB5qgaB8DJu8LGhpEZhokRJN8/du277D0pRGrg8EGYohc4e5Fxj3yxM6y663EcjHmWt/LA0xjQ3BqV0keeJGgzNNYf3vFqdNVhp7lGnWTl1qGw1qr0BDtsQgYQRBIAQgiFfg4CUVheawCAmrAcZYQl5qswj5OAQd0RVSBWC0B3aBxR1KzSkuNBMS7akv2j6EmK6MM++sLfsgH1i79hX9vOvWlmpUfSyS6c/4WLszT69tP7jv6yATgPD36x/9mygD7fKXhX1HpdIMYWc8MdPnh+s31mbz66yV+wb9f+S7bM9miAcf5ev27j2Ahx6gObh6z7qbLQazRuNZrtVX1qunmIGLsMVWKD7vglLcB9WoQPSmrNuW8vWiv3M/mB/tPcmpbZVceZgyuzPvwAGHsv3</latexit>
µs,ai = µs,ai aleatoric ; Qs,ai ⇠ N µs,ai
<latexit sha1_base64="IZpLpjdZLCGPqK4k1KkX4iJOCiI=">AAADEnichVFLaxRBEK4ZX3F8ZDUXwcvgEokQl949+EQIycWTZBM3CWyvQ0+ndrdJz4OZ3sU4zB/wLHjwpCAi4h/wJrl48OohP0E8RvDiwZrZAd0EtZrprvqqvm+quv1Yq9Qwtm/Zx46fOHlq5rRz5uy587O1Cxc30miUSOzISEfJli9S1CrEjlFG41acoAh8jZv+zkqR3xxjkqoofGh2Y+wFYhCqvpLCEOTV3vOuw4ORl6WLbiY8lef3psPrXJPatnB5qgaB8DJu8LGhpEZhokRJN8/du277D0pRGrg8EGYohc4e5Fxj3yxM6y663EcjHmWt/LA0xjQ3BqV0keeJGgzNNYf3vFqdNVhp7lGnWTl1qGw1qr0BDtsQgYQRBIAQgiFfg4CUVheawCAmrAcZYQl5qswj5OAQd0RVSBWC0B3aBxR1KzSkuNBMS7akv2j6EmK6MM++sLfsgH1i79hX9vOvWlmpUfSyS6c/4WLszT69tP7jv6yATgPD36x/9mygD7fKXhX1HpdIMYWc8MdPnh+s31mbz66yV+wb9f+S7bM9miAcf5ev27j2Ahx6gObh6z7qbLQazRuNZrtVX1qunmIGLsMVWKD7vglLcB9WoQPSmrNuW8vWiv3M/mB/tPcmpbZVceZgyuzPvwAGHsv3</latexit>
µs,ai = µs,ai aleatoric ; Qs,ai ⇠ N µs,ai , 2 2
epistemic
アンサンブル⽅法(認識の不確実性)
状態, ⾏動の豊富なデータ領域ではメンバー間で意⾒⼀致
訓練データのない領域では不⼀致を起こす
偶然の不確実性と認識の不確実性を扱う
リスク回避
32. • Gridworld with stochastic falls
• Gridworld with stochastic rewards (偶然の不確実性)
• Chain Environment (認識の不確実性の有効性)
Safety & Explora)on: A Compara)ve Study of Uses of
Uncertainty in Reinforcement Learning
確率5%で崖に落ちてStartからやり直し
報酬設計
1stepにつき-1
Goal +10
崖落下 -15 (0の場合も実験)
G
上記との違い
崖落下 -5
A
G
疎な報酬と稀な解の環境
毎ステップ1⾏下がる(N−1ステップで1試⾏)
エージェントの⾏動{左, 右}
報酬設計) 左:0,右:-0.01/(N - 1), Goal +1
最⾼報酬0.99
N
N
A
33. • Gridworld with stochastic falls
• Gridworld with stochastic rewards (偶然の不確実性)
• Chain Environment (認識の不確実性の有効性)
Safety & Exploration: A Comparative Study of Uses of
Uncertainty in Reinforcement Learning
最⾼報酬/落下回数
3 trials
10000 timesteps
34. Implicit Ensemble Training for Efficient and Robust Multiagent
Reinforcement Learning
訓練時とテスト時の獲得報酬の隔たりを減らす暗黙的アンサンブルアプローチを提案
マルチエージェントの競争的なシナリオでは、他のエージェントの⽅策の変化によって訓
練とテストの間で分布の不⼀致が起こる
訓練時に最適化された⽅策は、テスト時には最適ではないことが多い
アンサンブルは、訓練からテストへの性能低下を緩和するための有効なアプローチ
ただし、アンサンブルは計算量とメモリ消費量が⼤幅に増加
深層潜在変数モデルとマルチタスク強化学習を組み合わせた新しい暗黙的アンサンブル学
習(IET)アプローチを提案
アンサンブル学習のロバスト性を向上、計算問題に対処
2プレイヤーのターン制のボードゲームで評価し、訓練とテストで報酬の乖離が少ない
Macheng Shen,Jonathan P. How
要約
背景
課題
⽅法
結果
# RL
35. 既存⼿法:アンサンブル学習
各エージェントが複数の⽅策を持つ。または、過去の⽅策の複数のコピーを保持
そこから各エージェントの1つの⽅策をサンプリングして、互いに対戦
Implicit Ensemble Training for Efficient and Robust Multiagent
Reinforcement Learning
アンサンブルメンバー
サンプリングk
アンサンブルRL ⽬的関数
選ばれたアンサンブルメンバーk はエピソード中最適化される
⼀⽅で、K-1のアンサンブルメンバーは、最適化されず、サンプル効率がK倍に悪くなる
<latexit sha1_base64="6ivPkql8aTw4RdGZcISGuN9BewM=">AAACgHichVG7TsMwFD0N7/AqsCB1QVSgshSHARATEgsjtBSQ2hIlwQWraRIlbiWIOrDyAwxMICGEWOAbWPgBBj4BMYLEwsBtGgkBAq5l+/j4nutj2/RsEUjGHhNKR2dXd09vn9o/MDg0nBwZ3Qzcum/xguXarr9tGgG3hcMLUkibb3s+N2qmzbfM6kprf6vB/UC4zoY88Hi5Zuw5oiIsQxKlJ1OlolrRw5Lc59LQQ9HcCTPVmWZzUC2V9WSaZVkUEz+BFoM04lhzk5coYRcuLNRRA4cDSdiGgYBaERoYPOLKCInzCYlon6MJlbR1yuKUYRBbpXGPVsWYdWjdqhlEaotOsan7pJzAFHtgV+yF3bNr9sTef60VRjVaXg5oNtta7unDx+P5t39VNZol9j9Vf3qWqGAx8irIuxcxrVtYbX3j8OQlv5SbCqfZOXsm/2fskd3RDZzGq3WxznOnUOkDtO/P/RNszmW1+ay2PpdeXoy/ohcpTCJD772AZaxiDQU69wiXuMGtoigZZVbR2qlKItaM4UsoSx/aypNC</latexit>
f✓
(k)
i
<latexit sha1_base64="2Nbou52zIQHPnAAuZNWErtjBLd4=">AAACgHichVE9S8NAGH4av+NX1UVwKRalLvXioOIkuAgu2loV2hqSeNXDNAnJtaChg6t/wMFJQURc9De4+Acc/AniqODi4Ns0ICrqe9zdc8+9z3vP3ZmeLQLJ2GNCaWvv6Ozq7lF7+/oHBpNDwxuBW/MtXrBc2/W3TCPgtnB4QQpp8y3P50bVtPmmub/U3N+scz8QrrMuDzxerhq7jqgIy5BE6cmxUlGt6GFJ7nFp6KFobIeZlalGo18tlfVkmmVZFKmfQItBGnGsuslLlLADFxZqqILDgSRsw0BArQgNDB5xZYTE+YREtM/RgEraGmVxyjCI3adxl1bFmHVo3awZRGqLTrGp+6RMYYI9sCv2wu7ZNXti77/WCqMaTS8HNJstLff0wePR/Nu/qirNEnufqj89S1QwH3kV5N2LmOYtrJa+fnjykl/ITYST7Jw9k/8z9sju6AZO/dW6WOO5U6j0Adr35/4JNmay2mxWW5tJL87HX9GNMYwjQ+89h0UsYxUFOvcIl7jBraIoGWVa0VqpSiLWjOBLKAsfmeqTIg==</latexit>
f✓
(K)
i
<latexit sha1_base64="PlP/QcqfQ841p6tx8bE+ROCfArY=">AAACgHichVG7TsMwFD0N7/AqsCB1QVSgshSHARATEgsjtBSQ2hIlwQWraRIlbiWIOrDyAwxMICGEWOAbWPgBBj4BMYLEwsBtGgkBAq5l+/j4nutj2/RsEUjGHhNKR2dXd09vn9o/MDg0nBwZ3Qzcum/xguXarr9tGgG3hcMLUkibb3s+N2qmzbfM6kprf6vB/UC4zoY88Hi5Zuw5oiIsQxKlJ1OlolrRw5Lc59LQQ9HcCTPaTLM5qJbKejLNsiyKiZ9Ai0Eacay5yUuUsAsXFuqogcOBJGzDQECtCA0MHnFlhMT5hES0z9GESto6ZXHKMIit0rhHq2LMOrRu1QwitUWn2NR9Uk5gij2wK/bC7tk1e2Lvv9YKoxotLwc0m20t9/Th4/H827+qGs0S+5+qPz1LVLAYeRXk3YuY1i2str5xePKSX8pNhdPsnD2T/zP2yO7oBk7j1bpY57lTqPQB2vfn/gk257LafFZbn0svL8Zf0YsUJpGh917AMlaxhgKde4RL3OBWUZSMMqto7VQlEWvG8CWUpQ9lNJMI</latexit>
f✓
(1)
i
…
アンサンブルの場合
⽅策
36. ⽅策ネットワーク
モジュラーネットワーク(Yang et al., 2020)
パラメータ数を削減
Implicit ensemble training
Implicit Ensemble Training for Efficient and Robust Mul)agent
Reinforcement Learning
メンバーのカテゴリ変数を連続の潜在変数に緩和
<latexit sha1_base64="xz/p46G0aUIKU6fbyp8Hs0LpQiI=">AAACd3ichVHLSsNAFD2N7/iqdSO4UCxK3ZSJCy2uBDcutbUqNKUkcaxD0yQkabEt/oA/4EIQFKSKn+HGH3DRTxCXCiK48CYNiIp6h5k5c+aeO2dmdMcUns9YJyb19Pb1DwwOycMjo2Pj8YnEjmfXXIPnDdu03T1d87gpLJ73hW/yPcflWlU3+a5eWQ/2d+vc9YRtbfsNhxerWtkSB8LQfKJK8YRakMullup44jjVXByV1WIpnmRpFsbsT6BEIIkoNu14Gyr2YcNADVVwWPAJm9DgUStAAYNDXBEt4lxCItznOIZM2hplccrQiK3QWKZVIWItWgc1vVBt0CkmdZeUs5hnD+yGPbN7dsse2fuvtVphjcBLg2a9q+VOafxkKvf6r6pKs4/DT9Wfnn0cIBN6FeTdCZngFkZXX2+ePudWs/OtBXbJnsj/BeuwO7qBVX8xrrZ49gwyfYDy/bl/gp2ltLKcVraWkmuZ6CsGMY05pOi9V7CGDWwiT+ce4RxtXMfepBlpQUp1U6VYpJnEl5CUD8E0kBc=</latexit>
g (z)
<latexit sha1_base64="HmbI1OIT5GZneqWABFKIfgifHCg=">AAACdHichVHLTsJAFD3UdxVB3ZjogkgwrsiUhRJXJG5cAoqQACFtHWRiaZu2kCDhB/wBF640EmP8DDf+gAs/wbjU6MaFl9LEKFFvM50zZ+65c2auZhvC9Rh7DElj4xOTU9Mz8uxceD4SXVg8cK2Wo/OCbhmWU9JUlxvC5AVPeAYv2Q5Xm5rBi9rxzmC/2OaOKyxz3+vYvNpUj0xRF7rqEVWLRipluVHrVuyG6IXlSrUWjbMk8yM2CpQAxBFE1opeo4JDWNDRQhMcJjzCBlS49JWhgMEmrooucQ4h4e9z9CCTtkVZnDJUYo/pf0SrcsCatB7UdH21TqcYNBxSxpBgD+yGvbB7dsue2Mevtbp+jYGXDs3aUMvtWuR0ee/9X1WTZg+NL9Wfnj3Ukfa9CvJu+8zgFvpQ3z45e9nbzie66+ySPZP/C/bI7ugGZvtV7+d4/hwyNUD5+dyj4CCVVDaTSi4Vz6SDVkxjBWvYoPfeQga7yKLg9+QcV+iH3qRVKS4lhqlSKNAs4VtIyU+VnY8k</latexit>
h
<latexit sha1_base64="NWbPSQgynm/fzvYWSgBk5fl2jPI=">AAACbXichVHLSsNAFD2NrxofrYogKCIWH6sy6ULFVcGNy1ZtK7alJHGsQ9MkJGlBiz/gWnAhCgoi4me48Qdc9BPEhYsKblx4mwZERb3DzJw5c8+dMzOabQjXY6wZkrq6e3r7wv3ywODQcCQ6Mpp1rZqj84xuGZazrakuN4TJM57wDL5tO1ytagbPaZW19n6uzh1XWOaWd2DzYlUtm2JP6KpH1E4hL1slMSQXiqVojMWZHzM/gRKAGIJIWdEbFLALCzpqqILDhEfYgAqXWh4KGGziimgQ5xAS/j7HEWTS1iiLU4ZKbIXGMq3yAWvSul3T9dU6nWJQd0g5gzn2yG5Ziz2wO/bE3n+t1fBrtL0c0Kx1tNwuRY4nNt/+VVVp9rD/qfrTs4c9rPheBXm3faZ9C72jrx+etjZXN+Ya8+yKPZP/S9Zk93QDs/6qX6f5xhlk+gDl+3P/BNlEXFmKK+lELLkSfEUYk5jFIr33MpJYRwoZOtfECc5xEXqRxqUpabqTKoUCzRi+hLTwAfKujJw=</latexit>
oi
<latexit sha1_base64="M7zfbr3g1YYJlsUq/wC38VdF4pI=">AAACbXichVHLSsNAFD2NrxofrYogKCIWH6sy6ULFVcGNy1ZtK7alJHGsQ9MkJGlBiz/gWnAhCgoi4me48Qdc9BPEhYsKblx4mwZERb3DzJw5c8+dMzOabQjXY6wZkrq6e3r7wv3ywODQcCQ6Mpp1rZqj84xuGZazrakuN4TJM57wDL5tO1ytagbPaZW19n6uzh1XWOaWd2DzYlUtm2JP6KpH1E4hL6slMSQXiqVojMWZHzM/gRKAGIJIWdEbFLALCzpqqILDhEfYgAqXWh4KGGziimgQ5xAS/j7HEWTS1iiLU4ZKbIXGMq3yAWvSul3T9dU6nWJQd0g5gzn2yG5Ziz2wO/bE3n+t1fBrtL0c0Kx1tNwuRY4nNt/+VVVp9rD/qfrTs4c9rPheBXm3faZ9C72jrx+etjZXN+Ya8+yKPZP/S9Zk93QDs/6qX6f5xhlk+gDl+3P/BNlEXFmKK+lELLkSfEUYk5jFIr33MpJYRwoZOtfECc5xEXqRxqUpabqTKoUCzRi+hLTwAdZajI4=</latexit>
ai
episodeごとにサンプル
暗黙的なアンサンブルメンバー
L次元の連続潜在変数
<latexit sha1_base64="NWbPSQgynm/fzvYWSgBk5fl2jPI=">AAACbXichVHLSsNAFD2NrxofrYogKCIWH6sy6ULFVcGNy1ZtK7alJHGsQ9MkJGlBiz/gWnAhCgoi4me48Qdc9BPEhYsKblx4mwZERb3DzJw5c8+dMzOabQjXY6wZkrq6e3r7wv3ywODQcCQ6Mpp1rZqj84xuGZazrakuN4TJM57wDL5tO1ytagbPaZW19n6uzh1XWOaWd2DzYlUtm2JP6KpH1E4hL1slMSQXiqVojMWZHzM/gRKAGIJIWdEbFLALCzpqqILDhEfYgAqXWh4KGGziimgQ5xAS/j7HEWTS1iiLU4ZKbIXGMq3yAWvSul3T9dU6nWJQd0g5gzn2yG5Ziz2wO/bE3n+t1fBrtL0c0Kx1tNwuRY4nNt/+VVVp9rD/qfrTs4c9rPheBXm3faZ9C72jrx+etjZXN+Ya8+yKPZP/S9Zk93QDs/6qX6f5xhlk+gDl+3P/BNlEXFmKK+lELLkSfEUYk5jFIr33MpJYRwoZOtfECc5xEXqRxqUpabqTKoUCzRi+hLTwAfKujJw=</latexit>
oi
<latexit sha1_base64="M7zfbr3g1YYJlsUq/wC38VdF4pI=">AAACbXichVHLSsNAFD2NrxofrYogKCIWH6sy6ULFVcGNy1ZtK7alJHGsQ9MkJGlBiz/gWnAhCgoi4me48Qdc9BPEhYsKblx4mwZERb3DzJw5c8+dMzOabQjXY6wZkrq6e3r7wv3ywODQcCQ6Mpp1rZqj84xuGZazrakuN4TJM57wDL5tO1ytagbPaZW19n6uzh1XWOaWd2DzYlUtm2JP6KpH1E4hL6slMSQXiqVojMWZHzM/gRKAGIJIWdEbFLALCzpqqILDhEfYgAqXWh4KGGziimgQ5xAS/j7HEWTS1iiLU4ZKbIXGMq3yAWvSul3T9dU6nWJQd0g5gzn2yG5Ziz2wO/bE3n+t1fBrtL0c0Kx1tNwuRY4nNt/+VVVp9rD/qfrTs4c9rPheBXm3faZ9C72jrx+etjZXN+Ya8+yKPZP/S9Zk93QDs/6qX6f5xhlk+gDl+3P/BNlEXFmKK+lELLkSfEUYk5jFIr33MpJYRwoZOtfECc5xEXqRxqUpabqTKoUCzRi+hLTwAdZajI4=</latexit>
ai
メンバーはc に
より、どのモ
ジュールを使う
かの重みが決定
n層
m個
…
Yang, R., Xu, H., Wu, Y., and Wang, X. Mul1-task reinforcement learning with so? modulariza1on. arXiv preprint arXiv:2003.13661, 2020.
37. • 2プレイヤーのターンベースボードゲームで評価
• 「Connect Four」「Leduc Hold'em」「Texas Hold'em (Limit)」
Implicit Ensemble Training for Efficient and Robust Multiagent
Reinforcement Learning
提案⼿法が訓練とテストで報酬にギャップがないと主張。んー
Connect Four Texas Hold'em
38. Diverse and AmorEzed Counterfactual ExplanaEons for
Uncertainty EsEmates
不確実性推定値の解釈⼿法δ-CLUEの解の冗⻑性を減らす⼿法を提案
予測の不確実性の原因となる、⼊⼒の特徴を理解したいニーズがある。CLUEは不確実
性の⾼い⼊⼒の近傍から不確実性の低い仮想の⼊⼒値を求め、その差分特徴からどう
して不確実性が⾼いかを求める⼿法
CLUEは各⼊⼒につき計算する必要があった。 δ-CLUEは、⼊⼒値のδ近傍内からランダ
ムに複数サンプルした⼊⼒値集合に対してCLUEを求めるように改良されたが、冗⻑な
解が得られる
冗⻑な解が減るように⽬的関数に多様性を図る尺度の項を加えた∇-CLUE、
⼊⼒集合を⼀度推論し、不確実性の⾼い、低い集合に分け、それらを⽤いて計算効率
をあげたGLAM-CLUE(Global Amortized CLUE )を提案した
⼿法を実験で検証した結果、∇-CLUEとGLAM-CLUEはCLUEの⽋点を補っていることがわ
かった
要約
背景
課題
⽅法
結果
Dan Ley, Umang Bhatt, Adrian Weller #Uncertainty Analysis
39. CLUE ( Counterfactual Latent Uncertainty Explanation )とは
「⼊⼒値のどの特徴が予測を不確実にするのか?」を明らかにできる不確実性の解釈⼿法
損失関数は、⼊⼒値 に近い中で、不確実性が下がるような⼊⼒値 を求めるよう
に設計。ただし、⼊⼒値が⾼次元の場合、探索が困難なため、深層⽣成モデルのVAEを⽤い
て低次元空間内で探索を⾏なっている。
Diverse and AmorEzed Counterfactual ExplanaEons for
Uncertainty EsEmates
<latexit sha1_base64="TQDxk3IR2cSBrMD6R2pPfwKoaJA=">AAAChXichVFNLwNBGH66vtdXcZG4NBriopkVQVyIRuLgQKtI2qbZXVM29iu70wabXh38AQcnEhHhyh9w8Qcc/ARxJHFx8Ha7iSB4JzPzzDPv884zM5prGr5g7DEmNTW3tLa1d8idXd09vfG+/nXfqXg6z+mO6Xibmupz07B5ThjC5Juux1VLM/mGtpuu729Uuecbjr0m9l1etNRt2ygbuiqIKsUThbxcsFSxo5WDvVopCLFnBenl3GKtJheKpXiSpVgYiZ9AiUASUaw48QsUsAUHOiqwwGFDEDahwqeWhwIGl7giAuI8Qka4z1GDTNoKZXHKUIndpXGbVvmItWldr+mHap1OMal7pExghD2wS/bC7tkVe2Lvv9YKwhp1L/s0aw0td0u9R4PZt39VFs0CO5+qPz0LlDETejXIuxsy9VvoDX314PglO5sZCUbZGXsm/6fskd3RDezqq36+yjMnkOkDlO/P/ROsT6SUqZSyOpGcX4i+oh1DGMYYvfc05rGEFeTo3ENc4wa3Ups0Lk1KU41UKRZpBvAlpLkP8S2WCw==</latexit>
xCLUE
<latexit sha1_base64="u/9a8NjttZ2NQ+/CFunLuI5G0ws=">AAACd3ichVG7SgNBFD1Z3+sraiNYKAbFKty1ULESbSyTaFRIQthdJ7q4L3YnQQ3+gD9gIQgKEsXPsPEHLPwEsVQQwcKbzYKoqHeYmTNn7rlzZsbwbSuURA8Jpa29o7Oru0ft7esfGEwODW+EXjUwRd70bC/YMvRQ2JYr8tKSttjyA6E7hi02jb2V5v5mTQSh5bnr8sAXJUffca2KZeqSqXJyuFhQi44ud41Kff+oTGqxVE6mKE1RTPwEWgxSiCPjJRsoYhseTFThQMCFZGxDR8itAA0En7kS6swFjKxoX+AIKmurnCU4Q2d2j8cdXhVi1uV1s2YYqU0+xeYesHICU3RP1/RMd3RDj/T+a616VKPp5YBno6UVfnnweHTt9V+Vw7PE7qfqT88SFSxEXi327kdM8xZmS187PHleW8xN1afpgp7Y/zk90C3fwK29mJdZkTuFyh+gfX/un2BjNq3NpbXsbGppOf6KboxhEjP83vNYwioyyPO5+zhDA1eJN2VcmVZmWqlKItaM4Eso2gfkUpCw</latexit>
x0
J. Antora ́n, U. BhaJ, T. Adel, A. Weller, and J. M. Herna ́ndez-Lobato. GeYng a CLUE: A method for explaining uncertainty esQmates. In Interna5onal Conference on Learning Representa5ons, 2021.
不確実性の⾼かった要因の部分に⾊が付いている
損失関数
40. δ-CLUE とは
CLUEに⽐べ、δ-近傍内で仮想サンプルを多数⽣成し、CLUEの解を⼀気に複数求める⼿法
冗⻑な解が多いとされている
Diverse and Amortized Counterfactual Explanations for
Uncertainty Estimates
距離d が離れるほど正しいクラスから変化
δ-近傍内でのサンプル⽅法
D. Ley, U. BhaJ, and A. Weller. δ-CLUE: Diverse sets of explanaQons for uncertainty esQmates. In ICLR Workshop on Security and Safety in Machine Learning Systems, 2021.
41. Diverse and AmorEzed Counterfactual ExplanaEons for
Uncertainty EsEmates
提案⼿法
冗⻑な解が多い
⼀点ずつしか求められない 冗⻑な解を減らし、計算速度をあげた
<latexit sha1_base64="wfaneozQMNrQ1V3zBEtjqVVfDZw=">AAADLnicnVHNahRBEK6ZRI2jMWu8CLkMLpGIuvbkoCEQCCYHDx7y4yaB7c3Q09uz22zPDzO9C8kwL+ALePBkIITgJe/gRR9AIQfxqniM4MWDtbMj/gQjWE13VX1dX/XX3V6sZKoJOTbMkdFz5y+MXbQuXR6/MlG5OrmRRr2EizqPVJRseSwVSoairqVWYitOBAs8JTa97tJgf7MvklRG4RO9E4tmwNqh9CVnGiG38oY2LBow3eFMZY9zqoSvZwrA87Pd3M2c/I5NVSvSKfpf8G5OE9nu6FsLd6nC81rMzZZze/k/OtymfsI41iFk07QXuJlccPLtIj1Lm/zRYdyiTbdSJTVSmH06cMqgCqWtRJUDoNCCCDj0IAABIWiMFTBIcTTAAQIxYk3IEEswksW+gBws5PawSmAFQ7SLaxuzRomGmA96pgWb4ykKZ4JMG6bJW3JITshr8pJ8It/+2isregy07KD3hlwRuxNPr69//ScrQK+h85N1pmYNPswVWiVqjwtkcAs+5Pd3n52sz69NZzfJHvmM+l+QY/IKbxD2v/D9VbH2HCz8AOfP5z4dbMzWnPs1Z3W2uviw/IoxmIIbMIPv/QAW4RGsQB24cc+oG9uGax6Z78z35odhqWmUnGvwm5kfvwNsxNkC</latexit>
L (z1, . . . , zk) = DD (z1, . . . , zk) +
1
k
k
X
i=1
L (zi)
<latexit sha1_base64="Wom1+V5EaB9aDD079rDa9bVJ72Y=">AAACr3ichVFNSxtBGH5c+2G3ta56EbyEBotewmwOthQEqQhSPPi1JjQb093NJBncL3YnAbvkD/gHPPRUQUrx4n/opX+gBU/2WnpU8OLBN5uF0gTtO8zMM8+8zzvPzNihK2LJ2PmIMvrg4aPHY0/Up8/Gn09ok1O7cdCOHG44gRtEZduKuSt8bkghXV4OI255tstL9v5Kb7/U4VEsAn9HHoS86llNXzSEY0miato7s6KWa4npWbIVecnKurHa7S6ZXps42eLS6poub8j5cs70RD33fjDVjESzJRfGVbNa0/KswNLIDQM9A3lksRFoX2CijgAO2vDA4UMSdmEhplaBDoaQuCoS4iJCIt3n6EIlbZuyOGVYxO7T2KRVJWN9WvdqxqnaoVNc6hEpc5hjP9hXdsm+s1P2m93cWStJa/S8HNBs97U8rE0czmxf/1fl0SzR+qu617NEA69Tr4K8hynTu4XT13c+Hl1uv9maS16yY/aH/H9m5+wb3cDvXDknm3zrE1T6AH3wuYfBbrGgLxb0zWJ++W32FWOYxQvM03u/wjLWsAGDzj3DT1zgl6IrJWVP+dBPVUYyzTT+CUXcAqetptE=</latexit>
XCLUE = µ✓ (X | ZCLUE)
<latexit sha1_base64="V8pH9LnrTlN+CaLejKK391gn1kM=">AAAC7nichVHNahRBEK4Z/5LRmFURAoIOLpEEwtKTQyKCEAyChxyS3WwS3F6GnknvbrM9P/T0LiTDPIB5AD1IkARExcfw4gt42EcQDzms4MWDtbMDGkO0mu6u+qq+6q+7vViKRBMyMMwLFy9dvjIxaV29NnV9unTj5lYS9ZTP634kI7XjsYRLEfK6FlrynVhxFniSb3vd1VF+u89VIqJwU+/FvBmwdihawmcaIbf0gjas525KA6Y7KkhX1+pPs+wxZapt00CEdpHyWul+5qZOZlO5G+lkwf4T7mZZHvpMpmsZlbyl507TFs7hUSXaHT0/ZdGmWyqTCsnNPus4hVOGwtaj0jugsAsR+NCDADiEoNGXwCDB0QAHCMSINSFFTKEn8jyHDCzk9rCKYwVDtItrG6NGgYYYj3omOdvHUyROhUwbZskX8oEMyWfykXwlP8/tleY9Rlr2cPfGXB670wcztR//ZQW4a+j8Zv1Ts4YWPMy1CtQe58joFv6Y399/Naw9qs6mD8gx+Yb6j8iAfMIbhP3v/tsNXn0NFn6A8/dzn3W2FivOUsXZWCyvPCm+YgLuwH2Yw/dehhV4ButQx3NPjNvGXeOeGZsvzUPzzbjUNArOLThl5vtfeYW/Qw==</latexit>
ZCLUE = arg min
z1...,zk
L (z1, . . . , zk)
OpQmizing for Diversity:∇-CLUE
多様性を最⼤化(右表)
多様性の指標
42. A Tale Of Two Long Tails
不確実性を図る指標Variance of Gradients (VoG) を⽤いて、偶然の不確実性か認識の不
確実性が⾼いサンプルかを⾒分ける⽅法の提案
モデルが不確実なサンプルを特定し、その不確実性の原因を明らかにすることを⽬指
す。偶然の不確実性が⾼ければ、ラベルクリーニング。認識の不確実性が⾼ければ、
サンプルの追加で対処可能。
予測の不確実性の原因を特定することは重要だが、⽐較的取り組まれていない。
標準のデータ拡張を⽤いて、各サンプルをエポックごとにVoGを計算。
エポックが⼗分たってもVoGが⾼いままなら、偶然の不確実性の⾼いサンプルとする。
実験により、提案した学習の過程でうまく設計された介⼊は、異なる不確実性の原因
を特徴づけ、区別するための効果的な⽅法であることを⽰した。
Daniel D’souza, Zach Nussbaum,Chirag Agarwal,Sara Hooker
要約
背景
課題
⽅法
結果
#Uncertainty Analysis
43. A Tale Of Two Long Tails
Variance of Gradients (VoG) とは
学習の数エポックおきに同じ画像を通し、各ピクセルに対して真のクラスに対する勾配を計算した
勾配マップの、分散スコア
最終層l 前のクラスpに関する特徴を各ピクセル値で微分した勾配⾏列
⾊チャネル⽅向に和
<latexit sha1_base64="CMZztn3m9QIYxXrB1OftYHNHcgA=">AAACmHichVHLSiNBFD22oxPbV5zZiG4ag+IqVCs4wVXAxehOE2OEdAzdbRkL+0V3JZBp8gPzA8MwKwUR8SNcuNEPmIWfIC4VZjOLuek0DCrqbbruqVP33DpVZQWOiCRjtwPK4Ieh4Y+ZEXV0bHxiMjv1aSfyW6HNK7bv+OGuZUbcER6vSCEdvhuE3HQth1eto7XeerXNw0j43rbsBLzumk1PHAjblEQ1sstGTTUs39mPOi6luNw1hKfFhmvKQ8vSSt09LdaqmiGFyyNtvTuuGvVGNsfyLAntJdBTkEMam372DAb24cNGCy44PEjCDkxE9NWggyEgro6YuJCQSNY5ulBJ26IqThUmsUc0NmlWS1mP5r2eUaK2aReH/pCUGubZb3bOHtg1u2B37O+rveKkR89Lh7LV1/KgMfl9uvznXZVLWeLwv+pNzxIHKCReBXkPEqZ3Cruvb3/78VBeLc3HC+yE3ZP/Y3bLrugEXvvRPt3ipV9Q6QH059f9Euws5fWVvL61lCsW0qfIYBZzWKT7/oIi1rGJCu37E5e4xo0yoxSVr8pGv1QZSDWf8SSU0j9q7JyJ</latexit>
S 2 RW ⇥H
数エポックごとに計算した
勾配⾏列の平均
学習序盤でのVoG 学習終盤でのVoG
勾配分散⾏列の
ピクセル平均
<latexit sha1_base64="SBMaXgs3aB7PfrEdMsXALwBrhK8=">AAACtHichVHLahRBFD1pX0lrzBg3gpvBIRI3Q3UWMQiBgAuz0jycSWBqbLrLmpki1Q+qa4bEpn/AH8jClQERce0XuPEHXAS3uhCXEdy48E5Pg4+g3qarzj11z61TVWGqVWYZO55yzpw9d/7C9Ix78dLs5bnalfl2lgyNkC2R6MTshkEmtYplyyqr5W5qZBCFWu6Ee3fH6zsjaTKVxA/tQSq7UdCPVU+JwBLl1x7wjsujwA5MlLeTe8Uq75lA5F6R3y/qPBtGfh6vesUjSrmWPbv4a7Gfp2pf6oIb1R/YW7Mu7/q1BmuyMuqngVeBBqrYSGovwfEYCQSGiCARwxLWCJDR14EHhpS4LnLiDCFVrksUcEk7pCpJFQGxezT2KetUbEz5uGdWqgXtouk3pKxjgb1nr9gJe8des8/s+1975WWPsZcDmsOJVqb+3NNr29/+q4pothj8VP3Ts0UPK6VXRd7TkhmfQkz0oyeHJ9t3thbym+yIfSH/z9kxe0sniEdfxYtNufUMLj2A9+d1nwbtpaa33PQ2lxprK9VTTOM6bmCR7vs21rCODbRo3zf4gI/45Cw73BGOnJQ6U5XmKn4LJ/4Bd3apsg==</latexit>
VoG =
1
N
N
X
n=1
(VoGpixel)
Chirag Agarwal and Sara Hooker. Estimating example difficulty using variance of gradients, 2020.
46. Notes on the Behavior of MC Dropout
MC-dropoutの振る舞いについて、理論と実験の両⾯から分析した
Monte-Carlo dropout は予測の不確実性を定量化するために最も簡単な⼿法と
して利⽤されている
ドロップアウト層をどこに挿⼊するか、何個使⽤するか、ドロップアウト率
の選択などのアーキテクチャの選択は経験的で最適でないパフォーマンスに
つながる。
MC-dropoutの振る舞いについて、理論と実験の両⾯からいくつかの観察結果
を提供
不確実性推定のためにMC-dropoutを使⽤するネットワークのアーキテクチャ
設計と学習の選択に関する直観を説明した
Francesco Verdoja, Ville Kyrki
要約
背景
課題
⽅法
結果
#Uncertainty Analysis
47. Notes on the Behavior of MC Dropout
出⼒値
single-layer linear networks
MCD
Dropout率:低
MCD
dropout率:⾼
MC-dropout
single-layer linear network
ベルヌーイ分布
dropout 確率
dropout率:⾼でも分散が過⼩評価されている
48. • single-layer linear network におけるMC-dropoutの理論的解析
1. 期待値のバイアスは、⼤きなネットワークでは無視できる。
2. MCDが⽣成する事後分布の分散の⼤きさは、 dropout 確率とモデルサイズKの相互作⽤に依存。
3. 事後分布は、データ量やデータの分散に依存しない。つまり、データが多く集まっても⼩さくならない。
4. 事後分布の分散は に⽐例。推定すべき値が⼤きいほど、推定されるモデルの不確実性も⼤きくなる。
より⼤きな現実的なネットワーク上でどのように機能するかを理解するために、様々な実験を⾏った。
Notes on the Behavior of MC Dropout
:モデルのサイズ
:真値の平均
:dropout 確率
<latexit sha1_base64="L0+PigVXISVdeHnIi4bzruwcuNo=">AAACdXichVHLSsNAFD2NrxqtjboRRCjWFld10oUWV4Ibl776gLaWJE41NE1CkhZq6Q/4Ay50o6AifoYbf8CFnyAuFbpx4W0aEC3qHWbmzJl77pyZUW1Ddz3GnkPC0PDI6Fh4XJyYjExFpemZnGs1HI1nNcuwnIKquNzQTZ71dM/gBdvhSl01eF6tbfb2803uuLpl7nstm5frypGpV3VN8YiqSFKpKJZUxWm3OgfpiFgqV6Q4SzE/YoNADkAcQWxb0i1KOIQFDQ3UwWHCI2xAgUutCBkMNnFltIlzCOn+PkcHImkblMUpQyG2RuMRrYoBa9K6V9P11RqdYlB3SBlDgj2xO/bGHtk9e2Efv9Zq+zV6Xlo0q30ttyvR07m97r+qOs0ejr9Uf3r2UEXG96qTd9tnerfQ+vrmydnb3vpuop1kV+yV/F+yZ/ZANzCb79r1Dt89h0gfIP987kGQS6fk1ZS8k45vZIKvCGMei1im917DBrawjSyd28QFrnET6goLwpKQ7KcKoUAzi28hrHwCLCuPZA==</latexit>
ȳ2
51. UQライブラリ
分類問題
• Uncertainty Baselines (Nado et al., 2021)
• Robustness Metrics (Djolonga et al., 2020)
回帰問題
• Uncertainty Toolbox
• Toolbox の内容
Uncertainty Toolbox: an Open-Source Library for Assessing,
Visualizing, and Improving Uncertainty Quan)fica)on
Evaluation Metrics :calibration, group calibration, sharpness, proper scoring rules
Recalibration :単調回帰の平均キャリブレーションの改善
Visualizations :予測分布、キャリブレーション、および予測精度の可視化
Pedagogy:この分野の概念・⽤語集、論⽂リストを提供
hfps://github.com/uncertainty-toolbox/uncertainty-toolbox
52. Uncertainty Toolbox: an Open-Source Library for Assessing,
Visualizing, and Improving Uncertainty Quan)fica)on
• Visualizations
hfps://github.com/uncertainty-toolbox/uncertainty-toolbox
53. Uncertainty Toolbox: an Open-Source Library for Assessing,
Visualizing, and Improving Uncertainty Quantification
• Recalibration
hfps://github.com/uncertainty-toolbox/uncertainty-toolbox
54. On The Dark Side Of Calibration For Modern Neural Networks
最近のキャリブレーション⼿法がAUROCとcalibraQon 指標とのトレードオフがある
ことを⽰した
DNNのキャリブレーションでは、ラベル平滑化やデータ拡張⼿法のMix upがよく利
⽤されている
最近のアプローチは、歴史的にキャリブレーションの重要な側⾯であった
refinementにはほとんど触れていない
calibraQon metric のECEを式変形すると平均予測信頼度とrefinementに分解されるこ
とを⽰した
多くのキャリブレーション⼿法は、 AUROCを低下させることでキャリブレーショ
ンしている
データセットが⾃然に変化した場合でも、多くのキャリブレーション⼿法では、
このcalibraQonとAUROCのトレードオフが成⽴した
Aditya Singh, Alessandro Bay, Biswa Sengupta, Andrea Mirabile
要約
背景
課題
⽅法
結果
#Uncertainty Analysis
55. On The Dark Side Of Calibra)on For Modern Neural Networks
FL:Focal Loss ,MX:Mixup,LS:label smoothing,ERL:Entropy Regulariza.on ,TS:Temperature Scaling
他の研究では、ラベルの平滑化( MixupやLS)は、Calibrationに効果が⾼いことが⽰されていた。
⼀⽅で、実験の結果は、MixupやLSはECEを下げているが、AUROCも下がってしまっている。
※式ECEの分解は、紙⾯のノーテーションが酷すぎて理解できずに断念しました。
そのため、実験の考察のみ紹介します。
56. Natural distribution shift 下でのCalibrationとAUROCのトレードオフの調査
• Natural distribution shiftとは
• 訓練データに⽐べて、テストでは現実画像のように光源、背景などが変化
On The Dark Side Of Calibration For Modern Neural Networks
Taori, R., Dave, A., Shankar, V., Carlini, N., Recht, B., and Schmidt, L. Measuring robustness to natural distribu1on shi?s in image classifica1on.
In Advances in Neural Informa=on Processing Systems (NeurIPS), 2020.
ECEの改善率に対して、AUROCが悪化している