SlideShare a Scribd company logo
1 of 16
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Bayesian Uncertainty Estimation for Batch Normalized
Deep Networks (ICML2018)”
Kensuke Wakasugi, Panasonic Corporation.
タイトル:
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018)
著者:
Mattias Teye¹², Hossein Azizpour¹, Kevin Smith¹³
1 KTH Royal Institute of Technology, Stockholm, Sweden.
2 Electronic Arts, SEED, Stockholm, Sweden.
3 Science for Life Laboratory
選書理由:
Deep Neural NetworkでUncertaintyを扱う手法に関して興味があったため
※特に断りがない限り,図・表・式は上記論文より引用したものです.
書誌情報
Wakasugi, Panasonic Corp.
2
背景
Wakasugi, Panasonic Corp.
3
深層学習を病気の診断や自動運転に適用する際,不確実性の推定は重要
 関連手法として,dropoutをガウス過程とみなし,不確実性を推定する
方法[1]が提案されているが,現在ではdropoutを使ったアーキテク
チャは少ない
 Batch Normalization(BN)を使い,不確実性を推定する手法を提案
mini-batch毎に規格化定数(平均,分散)が変動することを利用
 具体的には,変分近似とBNの等価性を示し,
BNを使って分散が計算できることを示した.
 左図は,提案手法により推定された信頼区間.
[1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty
in Deep Learning. ICML, 48:1–10, 2015.
関連研究:Bayesian Modeling
Wakasugi, Panasonic Corp.
4
点推定を行う深層学習において,確率モデルの導入と周辺化を行い,予測分布を定義
 予測関数のパラメータの生成分布を導入し,
さらに周辺化を行うことで,予測分布を計算.
 計算には𝑝(𝜔|𝐷)が必要だがわからない
→一般的には変分近似により計算.
点推定
ベイズ推定
関連研究:Dropout as a Bayesian Approx.
Wakasugi, Panasonic Corp.
5
Dropoutをベイズ近似とみなし,不確実性を算出
 NNのパラメータ𝜔が周辺化対象
 dropoutをベルヌーイ分布からのサンプリングとみなし,
dropout後の𝑊を確率変数とみなす
→ 𝑊の事前分布を定義
NNの計算過程をベイズ推定で記述
Dropoutを確率過程とみなす
[1] より引用
[1] より引用
[1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML. 2015.
関連研究:Multiplicative Normalizing Flows
Wakasugi, Panasonic Corp.
6
𝑊の生成過程を計算容易かつ複雑な形式で定義
 𝑊の生成過程をNormalizing Flowで定義
→関数が複雑(多蜂性を有するなど),かつ,計算が容易.
𝑾の事前分布を潜在変数𝒛を使って定義
[1] より引用
[2] より引用
[2] Louizos, C. and Welling, M. Multiplicative normalizing flows for variational Bayesian neural networks. ICML. 2017.
提案手法:変分近似としての目的関数
Wakasugi, Panasonic Corp.
7
変分近似の目的関数を,mini-batchで学習できるように式変形
 一般的な式変形に加え、mini-batch(size M)の場
合の目的関数に変形
※ただし,このような式変形は先行文献[3]に習った
とのこと.
𝒑(𝝎|𝑫)を𝒒 𝜽(𝝎)で近似するときの目的関数
mini-batchで学習する場合の目的関数
[3] Gal, Y. Uncertainty in Deep Learning. PhD thesis, University of Cambridge, 2016.
提案手法:BNによる学習
Wakasugi, Panasonic Corp.
8
通常のBNにおける目的関数を導出
 一般的な目的関数の表式.
 変分近似の場合と同様に,mini-batch(size M)の場合の目的関数に変形
 ネットワークパラメータを𝜃, 𝜔に分割.
前者はバイアス,重みなど,後者はBNの平均分散を表す.
(𝜏は先行文献に習って使われているが,本論分では特に言及はされない)
目的関数(損失項+正則項)
mini-batchで学習する場合の目的関数
※notationの変更
変分近似とBNの等価性
Wakasugi, Panasonic Corp.
9
第2項の微分が一致すれば,同様の学習をしているとみなせる
 順序が逆転しているが変分近似の目的関数においても,𝜔
はBNの平均分散を指す.
 Ωとして、weight decayを考える.
 各unitが無相関などの簡単な制約を課すと,
𝑝 𝜔 がガウス分布になることが示される.
→一般的なネットワークにおいて両者が等価
 𝑞 𝜃(𝜔)はmini-batch毎に計算される平均分散に相当し,
それ自身が同分布からのサンプリングとみなせる.
変分近似の目的関数
BNの目的関数
論理の流れの補足:
変分近似において,𝑝 𝜔 に適当な制約を置く(無相関,ガウス分布など)
→l2正則付きの,一般的なBNの目的関数と一致
→BNの最適化=変分近似の最適化
→最適化した𝑞 𝜃(𝜔)で下記式の𝑝 (𝜔|𝑫)を置き換えて計算
→
予測の不確実性の計算
Wakasugi, Panasonic Corp.
10
BNの学習によって,𝑞 𝜃(𝜔)を求め,予測の分散を算出
 左記ベイズ推定の式に相当する計算を実施可能
 具体的には,下記のようにして,𝑞 𝜃(𝜔)のサンプリ
ング(相当?)を実施.
学習データからmini-batchを作成
→BNの平均分散を算出
→𝑞 𝜃(𝜔)の代わりとする
→yの期待値,共分散を算出
ベイズ推定
BNによる期待値と共分散の計算
性能評価指標
Wakasugi, Panasonic Corp.
11
Predictive Log Likelihood(PLL)とContinuous Ranked Probability Score(CRPS)により評価
 これそのままでは,評価指標には出来ないため,
Constant Uncertaintyを使った場合のスコアを0
Optimal Uncertaintyを使った場合のスコアを100
に規格化.
 Constant Uncertaintyは共通のUncertaintyでPLLま
たはCRPSを最適化した値.
 Optimal Uncertaintyはデータ毎にUncertaintyをPLL
またはCRPSに対し最適化した値.
Predictive Log Likelihood
Continuous Ranked Probability Score
※𝐹(𝑦)は累積密度分布
比較結果
Wakasugi, Panasonic Corp.
12
UCIデータセットを用いて,2指標について性能を比較
MCBN(Monte Calro Batch Normalization,提案手法)
MCDO(Monte Calro Dropout)
MNF(Multiplicative Normalizing Flows)
 最大100と考えると,かなり性能が悪いが,そもそもLower Boundといっても最適化した値なので難しい
 Lower Bound(Constant Uncertainty)を優位に超えているものを*で表記
• 既存手法を上回ったという主張だが,解釈が難しい.
Uncertaintyの解析と可視化
Wakasugi, Panasonic Corp.
13
Uncertainty-errorプロットとセグメンテーション時の可視化で,有効性を確認
 左2列は,灰色線(予測誤差の移動平均)と
shaded領域(推定結果)に相関が見られると良い
 右2列は異なるデータセットに対し提案手法で
Uncertaintyを可視化した
 理論上batch-sizeが大きいほうが良く,
メモリの関係で最右列のほうが良い推定になっ
ているらしい
推論時のサンプリング回数の影響
Wakasugi, Panasonic Corp.
14
mini-batchのサンプリング回数を変えたときのPLLを検証
 ResNet32,Cifar10,batch size32で検証
 サンプリング回数を増やすと,PLLが向上(かつ収束)
mini-batchのサンプル回数毎のPLL
まとめ
Wakasugi, Panasonic Corp.
15
 BNに基づくUncertaintyの推定方法を提案し,従来法を上回る性能を実現
 提案手法の理論検証および実験検証を行い,有効性を示した.
 BNを使っていれば適用可能で,アーキテクチャの修正や,再学習が不要.
計算コストも小さい.
雑感
Wakasugi, Panasonic Corp.
16
• Uncertaintyは重要ではあるが,その定量評価は難しい.
• ベイズ最適化や強化学習の枠組みであれば比較しやすいが,それはしていなかった.
先行文献では強化学習を使った検証もしている.
• 全体としては,決定論的なNNにおいて,ランダム性を含む処理を考えて,
そこを変分ベイズとして扱って,予測分布を計算可能にしている,というところか.

More Related Content

What's hot

【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証Masaharu Kinoshita
 
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究Satoshi Hara
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介Deep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
データに内在する構造をみるための埋め込み手法
データに内在する構造をみるための埋め込み手法データに内在する構造をみるための埋め込み手法
データに内在する構造をみるための埋め込み手法Tatsuya Shirakawa
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデルDeep Learning JP
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanismsDeep Learning JP
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some PreliminaryDeep Learning JP
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理Taiji Suzuki
 
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
【DL輪読会】GradMax: Growing Neural Networks using Gradient InformationDeep Learning JP
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII
 

What's hot (20)

【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証
 
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
データに内在する構造をみるための埋め込み手法
データに内在する構造をみるための埋め込み手法データに内在する構造をみるための埋め込み手法
データに内在する構造をみるための埋め込み手法
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
continual learning survey
continual learning surveycontinual learning survey
continual learning survey
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 

[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ “Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018)” Kensuke Wakasugi, Panasonic Corporation.
  • 2. タイトル: Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018) 著者: Mattias Teye¹², Hossein Azizpour¹, Kevin Smith¹³ 1 KTH Royal Institute of Technology, Stockholm, Sweden. 2 Electronic Arts, SEED, Stockholm, Sweden. 3 Science for Life Laboratory 選書理由: Deep Neural NetworkでUncertaintyを扱う手法に関して興味があったため ※特に断りがない限り,図・表・式は上記論文より引用したものです. 書誌情報 Wakasugi, Panasonic Corp. 2
  • 3. 背景 Wakasugi, Panasonic Corp. 3 深層学習を病気の診断や自動運転に適用する際,不確実性の推定は重要  関連手法として,dropoutをガウス過程とみなし,不確実性を推定する 方法[1]が提案されているが,現在ではdropoutを使ったアーキテク チャは少ない  Batch Normalization(BN)を使い,不確実性を推定する手法を提案 mini-batch毎に規格化定数(平均,分散)が変動することを利用  具体的には,変分近似とBNの等価性を示し, BNを使って分散が計算できることを示した.  左図は,提案手法により推定された信頼区間. [1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML, 48:1–10, 2015.
  • 4. 関連研究:Bayesian Modeling Wakasugi, Panasonic Corp. 4 点推定を行う深層学習において,確率モデルの導入と周辺化を行い,予測分布を定義  予測関数のパラメータの生成分布を導入し, さらに周辺化を行うことで,予測分布を計算.  計算には𝑝(𝜔|𝐷)が必要だがわからない →一般的には変分近似により計算. 点推定 ベイズ推定
  • 5. 関連研究:Dropout as a Bayesian Approx. Wakasugi, Panasonic Corp. 5 Dropoutをベイズ近似とみなし,不確実性を算出  NNのパラメータ𝜔が周辺化対象  dropoutをベルヌーイ分布からのサンプリングとみなし, dropout後の𝑊を確率変数とみなす → 𝑊の事前分布を定義 NNの計算過程をベイズ推定で記述 Dropoutを確率過程とみなす [1] より引用 [1] より引用 [1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML. 2015.
  • 6. 関連研究:Multiplicative Normalizing Flows Wakasugi, Panasonic Corp. 6 𝑊の生成過程を計算容易かつ複雑な形式で定義  𝑊の生成過程をNormalizing Flowで定義 →関数が複雑(多蜂性を有するなど),かつ,計算が容易. 𝑾の事前分布を潜在変数𝒛を使って定義 [1] より引用 [2] より引用 [2] Louizos, C. and Welling, M. Multiplicative normalizing flows for variational Bayesian neural networks. ICML. 2017.
  • 7. 提案手法:変分近似としての目的関数 Wakasugi, Panasonic Corp. 7 変分近似の目的関数を,mini-batchで学習できるように式変形  一般的な式変形に加え、mini-batch(size M)の場 合の目的関数に変形 ※ただし,このような式変形は先行文献[3]に習った とのこと. 𝒑(𝝎|𝑫)を𝒒 𝜽(𝝎)で近似するときの目的関数 mini-batchで学習する場合の目的関数 [3] Gal, Y. Uncertainty in Deep Learning. PhD thesis, University of Cambridge, 2016.
  • 8. 提案手法:BNによる学習 Wakasugi, Panasonic Corp. 8 通常のBNにおける目的関数を導出  一般的な目的関数の表式.  変分近似の場合と同様に,mini-batch(size M)の場合の目的関数に変形  ネットワークパラメータを𝜃, 𝜔に分割. 前者はバイアス,重みなど,後者はBNの平均分散を表す. (𝜏は先行文献に習って使われているが,本論分では特に言及はされない) 目的関数(損失項+正則項) mini-batchで学習する場合の目的関数 ※notationの変更
  • 9. 変分近似とBNの等価性 Wakasugi, Panasonic Corp. 9 第2項の微分が一致すれば,同様の学習をしているとみなせる  順序が逆転しているが変分近似の目的関数においても,𝜔 はBNの平均分散を指す.  Ωとして、weight decayを考える.  各unitが無相関などの簡単な制約を課すと, 𝑝 𝜔 がガウス分布になることが示される. →一般的なネットワークにおいて両者が等価  𝑞 𝜃(𝜔)はmini-batch毎に計算される平均分散に相当し, それ自身が同分布からのサンプリングとみなせる. 変分近似の目的関数 BNの目的関数 論理の流れの補足: 変分近似において,𝑝 𝜔 に適当な制約を置く(無相関,ガウス分布など) →l2正則付きの,一般的なBNの目的関数と一致 →BNの最適化=変分近似の最適化 →最適化した𝑞 𝜃(𝜔)で下記式の𝑝 (𝜔|𝑫)を置き換えて計算 →
  • 10. 予測の不確実性の計算 Wakasugi, Panasonic Corp. 10 BNの学習によって,𝑞 𝜃(𝜔)を求め,予測の分散を算出  左記ベイズ推定の式に相当する計算を実施可能  具体的には,下記のようにして,𝑞 𝜃(𝜔)のサンプリ ング(相当?)を実施. 学習データからmini-batchを作成 →BNの平均分散を算出 →𝑞 𝜃(𝜔)の代わりとする →yの期待値,共分散を算出 ベイズ推定 BNによる期待値と共分散の計算
  • 11. 性能評価指標 Wakasugi, Panasonic Corp. 11 Predictive Log Likelihood(PLL)とContinuous Ranked Probability Score(CRPS)により評価  これそのままでは,評価指標には出来ないため, Constant Uncertaintyを使った場合のスコアを0 Optimal Uncertaintyを使った場合のスコアを100 に規格化.  Constant Uncertaintyは共通のUncertaintyでPLLま たはCRPSを最適化した値.  Optimal Uncertaintyはデータ毎にUncertaintyをPLL またはCRPSに対し最適化した値. Predictive Log Likelihood Continuous Ranked Probability Score ※𝐹(𝑦)は累積密度分布
  • 12. 比較結果 Wakasugi, Panasonic Corp. 12 UCIデータセットを用いて,2指標について性能を比較 MCBN(Monte Calro Batch Normalization,提案手法) MCDO(Monte Calro Dropout) MNF(Multiplicative Normalizing Flows)  最大100と考えると,かなり性能が悪いが,そもそもLower Boundといっても最適化した値なので難しい  Lower Bound(Constant Uncertainty)を優位に超えているものを*で表記 • 既存手法を上回ったという主張だが,解釈が難しい.
  • 13. Uncertaintyの解析と可視化 Wakasugi, Panasonic Corp. 13 Uncertainty-errorプロットとセグメンテーション時の可視化で,有効性を確認  左2列は,灰色線(予測誤差の移動平均)と shaded領域(推定結果)に相関が見られると良い  右2列は異なるデータセットに対し提案手法で Uncertaintyを可視化した  理論上batch-sizeが大きいほうが良く, メモリの関係で最右列のほうが良い推定になっ ているらしい
  • 14. 推論時のサンプリング回数の影響 Wakasugi, Panasonic Corp. 14 mini-batchのサンプリング回数を変えたときのPLLを検証  ResNet32,Cifar10,batch size32で検証  サンプリング回数を増やすと,PLLが向上(かつ収束) mini-batchのサンプル回数毎のPLL
  • 15. まとめ Wakasugi, Panasonic Corp. 15  BNに基づくUncertaintyの推定方法を提案し,従来法を上回る性能を実現  提案手法の理論検証および実験検証を行い,有効性を示した.  BNを使っていれば適用可能で,アーキテクチャの修正や,再学習が不要. 計算コストも小さい.
  • 16. 雑感 Wakasugi, Panasonic Corp. 16 • Uncertaintyは重要ではあるが,その定量評価は難しい. • ベイズ最適化や強化学習の枠組みであれば比較しやすいが,それはしていなかった. 先行文献では強化学習を使った検証もしている. • 全体としては,決定論的なNNにおいて,ランダム性を含む処理を考えて, そこを変分ベイズとして扱って,予測分布を計算可能にしている,というところか.