DNNの曖昧性に関する研究動向

DNNの曖昧性に関する研究動向
文献調査
2020/11/9
松永直輝
1

曖昧性推定
2
機械学習システムは様々な分野での社会実装が期待されている
Autonomous Driving[1]
[1] Levinson et al., “Towards Fully Autonomous Driving: Systems and Algorithms”, iEEE, 2011
[2] Miotto et al., “Deep patient: an unsupervised representation to predict the future of patients from the electronic health records”
, 2016
Medical Diagnosis[2]
ミス
重要な意思決定における機械学習のミスは甚大な被害につながる
→ 判定結果に対する曖昧性を推定する研究

基本的な曖昧性推定
3
モデルの出力事後確率を用いた以下のアプローチ
MCP (Maximum Class Probability)
Negative Entropy
Margin
1,2番目の大きさの事後確率の差が小さいサンプル
最大事後確率の値が小さいサンプル
Entropyが最低のサンプル
上記のサンプルを「曖昧性がある」とする手法
→ DNNでは実装する上で課題がある

DNNの抱える課題
4
Out of Distribution / Adversarial Attacks
OODやノイズ画像に対する識別でも高スコアで誤識別する
(Nguyen et al., 2015[3])
Perturbationを加えると誤識別する
(Goodfellow et al., 2015[4])
score>99.6% の誤分類データ[3] Adversarial Example[4]
[3] Nguyen et al., “Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images”, IEEE, 2015
[4] Goodfellow et al., “Explaining and Harnessing Adversarial Examples”, ICLR, 2015

DNNの抱える課題
5
Over Confidence [Guo + , 2017][5]
モデルが正しく予測できないにも関わらず、
高いスコアを出力してしまう
[5] Guo et al., “On Calibration of Modern Neural Networks”, ICML, 2017
医療画像診断や自動運転など，DNNを社会実装していくには
これらの課題の解決し，
判定結果に対して曖昧性を算出することが不可欠となる
モデルの出力事後確率の値が
正解率(Accuracy)を上回ってしまう現象

近年の関連手法
7
Bayesian Approach

Bayesian Approach
8
パラメータに事前分布を仮定し
通常の決定的なNNから確率的なNNへ変換
NN BNN
・事前分布 𝑤 ~ 𝑝(𝑤) を仮定
・モデル 𝑝(𝑦|𝑥, 𝑤)
・出力は確率的な値
・学習によりパラメータを得る
・出力は決定的な値
https://arxiv.org/pdf/1505.05424.pdf
Deep Neural Networkへの適用は計算量の観点から困難

Monte Carlo Dropout[6]
9[6] Yarin Gal, Zoubin Ghahramani, “Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning”, 2016
ベルヌーイ分布はDropoutと同義とみなせる
ベルヌーイ分布に従うDropoutを近似的な事後分布として予測分布を算出
𝑊𝑖 = 𝑀𝑖. 𝑑𝑖𝑎𝑔([𝑧𝑖,𝑗] 𝑗=1
𝐾 𝑖
)
𝑧𝑖,𝑗 ∼ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖 𝑝𝑖 𝑓𝑜𝑟 𝑖 = 1, … 𝐿, 𝑗 = 1, … , 𝐾𝑖−1
𝑝 𝑦∗ 𝑥∗, 𝑋, 𝑌 = 𝑝 𝑦∗ 𝑥∗, 𝑤 𝑞 𝑤 𝑑𝑤 ≈
1
𝑇
𝑡=1
𝑇
𝑝(𝑦∗|𝑥∗, 𝑤𝑡)
𝑤𝑡 ∼ 𝑞 𝑤 (𝑡 = 1, … 𝑇)
未知データ(𝑥∗
, 𝑦∗
)の入力に対して予測分布を求める際に周辺化は困難
→モンテカルロ法でサンプリング
推論時にも複数のモデルで推論を行うため計算量が課題

10
Bayesian Approach
Non-Bayesian Approach
• Deep Ensemble
×計算コスト高い

Deep Ensemble[7]
11
ランダムに初期化されたネットワークを用いて訓練データ全体を学習し，
出力の平均をとって曖昧性を推定する
高い精度を示すが訓練 / 推論時ともに，高い計算コストがかかる
[7] Lakshminarayanan et al., “Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles ”, NIPS, 2017

12
Bayesian Approach
• Deep Ensemble
• Post Process method

Post Process (Temperature Scaling[5])
13
Softmax への入力 Logits を適切なTで除算し OverConfidence を解消する
Original Temp Scale Histogram binning Isotonic regression
Noisy Image や OODに対して高い Confidenceを示してしまうことがある

14
Bayesian Approach
• Deep Ensemble
• Post Process method
• 学習時に工夫を施す手法
○ 実装が容易で精度も高い
× Noise Image などに弱い場合がある
○ Post Process Methodも併用できる
○ 推論時の計算コストが低い

紹介論文
15
① On Mixup Training:
Improved Calibration and Predictive Uncertainty
for Deep Neural Networks
② Confidence – Aware Learning For Deep Neural Networks
 データ拡張のMixupがOverconfidence解消に貢献することを示す
 DNNの学習過程における傾向を加味したCorrect Ranking Lossを提案
学習過程でOverConfidenceを解消した紹介

紹介論文
16
① On Mixup Training:
② Confidence – Aware Learning For Deep Neural Networks
 データ拡張のMixupがOverconfidence解消に貢献することを示す
 DNNの学習過程における傾向を加味したCorrect Ranking Lossを提案
学習過程でOverConfidenceを解消した紹介

17
On Mixup Training:
NeurIPS 2019
Sunil Thulasidasan , Gopinath Chennupati ,
Jeff Bilmes , Tanmoy Bhattacharya , Sarah Michalak

論文概要
18
データ拡張手法のMixup をCalibration 手法として提案し，
OverConfidence を解消する
目的
学習を通してDNNの出力のOverconfidenceを解消する
提案手法
結論
・MixupでOverConfidenceの解消
・Hard Labelでの学習がOver Confidenceの一つ要因

OverConfidence
19
Epoch
[縦軸: Accuracy, 横軸:Confidence (Mean of Winning Softmax) ]
一般的なクラス分類では，
Epochを経るごとに事後確率の値が先行して高い値をとる
→学習中に，Over Confidenceを防ぐ工夫が必要
事後確率の値が正解率(Accuracy)を上回ってしまうこと

Mixup Training
20
訓練データのみでなく，その近傍も用いて学習をする
[8] Chapelle et al., “Vicinal risk minimization” , NeurIPS, 2001
𝑥 = 𝜆𝑥𝑖 + 1 − 𝜆 𝑥𝑗
𝑦 = 𝜆𝑦𝑖 + 1 − 𝜆 𝑦𝑗
𝜆 ∈ 0,1 , 𝜆~𝐵𝑒𝑡𝑎(𝛼, 𝛼)
入力データ (𝑥𝑖, 𝑦𝑖), (𝑥𝑗, 𝑦𝑗)に対して，
Beta分布に従う𝜆を用いて近傍データ( 𝑥, 𝑦)を生成する．
Vicinal Risk Minimization (VRM) [8]
生成された 𝑥と，ソフトラベル 𝑦を用いて学習を行う

評価タスク
21
1, Image Classification
2, NLP
3, OOD
4, 追加実験

実験条件 (Image)
22
データセット
1, STL-10
2, CIFAR-10/100
3, Fashion-MNIST
モデル
・VGG-16(1,2)
・ResNet-34(2)
・ResNet-18(3)
比較手法
・ε-label smoothing [9]
・ERL(Entropy-regularized loss)[10]
[9] Szegedy et al., “Rethinking the inception architecture for computer vision” , IEEE, 2016
[10] Pereyra et al., “Regularizing neural networks by penalizing confident output distributions”, ICLR, 2017

評価指標
23
(nはデータ数)
𝑂𝐸 =
𝑚=1
𝑀
|𝐵 𝑚|
𝑛
[𝑐𝑜𝑛𝑓 𝐵 𝑚 × max 𝑐𝑜𝑛𝑓 𝐵 𝑚 − 𝑎𝑐𝑐 𝐵 𝑚 , 0 ]
( 𝑝𝑖は，推定クラスの事後確率)
Expected Calibration Error(ECE)𝐵 𝑚
M個のbinに分割
Overconfidence Error (OE)
Over Confidenceを
起こしている𝐵 𝑚にのみ加算

定性評価 (Image)
24
ある信頼度区分における最大事後確率の平均値とAccuracyの関係
(STL-10, CIFAR-100)
Mixup Mixup
・Mixup により Accuracy と事後確率の対応関係が改善
・特に高い事後確率のサンプルに対する OverConfidence の解消

定量評価 (Image)
25
・Accuracy は多手法と比較しても同等もしくはそれ以上
・他手法に比べ Over Confidence が抑えられている
OE(Overconfidence Error) / ECE(Calibration Error) / Accuracy の比較
Mixupは Accuracyの低下を抑えつつOverConfidenceを解消

実験結果 (ImageNet)
26
1000クラスを有する ImageNet での実験結果
・Overfittingしづらい多クラスデータにおいても提案の効果を確認
・ResNext-101
比較手法を下回る Calibration Error
・ResNet-50
Label Smoothingが上回るもクラス分類精度はMixupが最高

Results (NLP)
27
TREC / IMDB / MR を用いた実験
Mixupは，単語の意味を崩壊させないようにEmbedding Layerで行う
・自然言語処理のタスクにおいても Mixup の有効性を確認
・Accuracyを保ったままOver Confidenceを解消

実験条件 (OOD / Noisy Data)
28
データセット
・In : STL-10
・Out : ImageNet
・Noisy : Gaussian Random Noise
モデル
・VGG-16
比較手法
・Temperature Scaling[5]
・Monte Carlo Dropout[6]

Results (OOD / Noisy Data)
29
・提案手法はOOD/ノイズデータ両者に対して低いConfidenceを示す
×Temperature Scalingはノイズデータに弱い
・OODやNoisy Dataの分類に関するAUROCではMixup が最高精度
OOD や Gaussian Noise Dataに対する各手法の confidence の分布

Soft Labelによる効果
30
𝛼の増加に伴い訓練データのエントロピー分布も平坦化されてくる
訓練データにおける𝛼とエントロピー(曖昧さ)の関係
MixupによるCalibrationは，
Data Augmentationの効果 Soft Labelの効果or ？

31
・
特徴量のみMixupしたHard Label
特徴量,LabelともにMixupしたSoft Label
・MixupによるOver Confidence解消はSoft Labelによる学習に起因
Soft Labelによる効果
MixupによるCalibrationは，
Data Augmentationの効果 Soft Labelの効果or

(追加実験) Manifold Mixup[11]
32
Mixupの派生系で，中間層の特徴をMixupする手法
・同様条件では，提案 Mixup が高精度
× Hyper Parameterが多い
× 訓練が複雑で，要する時間が長い
・Epochを増やすと，Manifold Mixup が高いAccuracyを示す
→ 本論文では，Mixupを採用
[11] Verma et al., “Manifold Mixup: Better Representations by Interpolating Hidden States”, ICML, 2019

論文まとめ
33
・DA手法として有用なMixup がOverConfidenceの観点でも有用と主張
→学習中にOver Confidence を解消する
・通常のクラス分類の訓練時間と大きな差がなく導入可能
・Hard Label での学習が Over Confidence の要因の一つであると示す
・Image / NLP/ OOD / Gaussian Noisy Dataなどにおいても高精度
・派生系である，Manifold Mixupでも，一部でECEが改善される

34
Confidence – Aware Learning
For Deep Neural Networks
ICML 2020
Jooyoung Moon, Jihyo Kim, Younghak Shin, Sangheum Hwang

論文概要
35
信頼度が適切な順序(Ranking)になるように，出力を正則化する
Correctness Ranking Loss (CRL)を提案．
・Deep Ensemble などの既存手法は計算コストが高い
・クラス確率と独立でない信頼性の指標を導入したい
曖昧性推定だけでなく，
Active Learningや OOD検出においても有用であることが示された
背景
提案手法
結論

問題設定
36
𝑃: Sample i/j が正解である確率
𝜅 : 信頼度
( )
信頼度𝜅
サンプルの実際の正解確率𝑃
・Maximum Class Probability
・Margin
・Negative Entropy
理想的には，入力となるサンプル i,jに対して
信頼度𝜅と，サンプルの実際の正解確率𝑃の間に以下のような関係を持たせたい
通常未知
ネットワークの出力事後確率を用いた曖昧性の指標
二つの指標の大小関係を等しくなるようにネットワークを構築したい

提案の元となるアイデア
37
Forgetting Sample [Toneva+, ICLR 2019[12]]
訓練中に一度正解したが訓練の進行に伴い誤分類されてしまうデータには
判定困難(Noisy Label / 不明瞭)なサンプルが多い
Easy-to-classify Sample [Geifman+, ICLR 2019[13]]
[12] Toneva et al., “AN EMPIRICAL STUDY OF EXAMPLE FORGETTING DURING DEEP NEURAL NETWORK LEARNING”, ICLR, 2019
[13] Geifman et al., “BIAS-REDUCED UNCERTAINTY ESTIMATION FOR DEEP NEURAL CLASSIFIERS”, ICLR, 2019
識別困難なデータに比べて，識別が容易なサンプルは，
訓練の初期段階で識別可能になる

サンプルの正解確率の仮定
38
Forgetting Sample [Toneva+, ICLR 2019[12]]
訓練中に一度正解したが訓練の進行に伴い誤分類されてしまうデータには
判定困難(Noisy Label / 不明瞭)なサンプルが多い
Easy-to-classify Sample [Geifman+, ICLR 2019[13]]
[12] Toneva et al., “AN EMPIRICAL STUDY OF EXAMPLE FORGETTING DURING DEEP NEURAL NETWORK LEARNING”, ICLR, 2019
識別困難なデータに比べて，識別が容易なサンプルは，
訓練の初期段階で識別可能になる
→正解確率𝑃は，学習中に正しく推論された頻度に基づくと仮定

学習時の正解数の分布
39
CIFAR10を，300epoch学習した場合の学習中の正解数
(PreAct-ResNet110)
正解回数の多いサンプル正解回数の少ないサンプル
・物体全体が観察できる
・背景と識別的である
・物体の一部分のみ
・背景と同化している
定性的に正解回数の少ないサンプルが識別が難しいことがわかる

Correctness Ranking Loss (CRL)
40
推論結果(正解/不正解)
Epoch 𝑥𝑖 𝑥𝑗
1 × ×
2 × ○
n ○ ○
正解率 𝑐 ∈ [0,1]
Loss計算時のepochまでの正解率
信頼度𝜅
・Maximum Class Probability
・Margin
・Negative Entropy
などの事後確率Baseの曖昧性指標から選択 𝑐 ∈ [0,1]
𝑐と𝜅の大小関係が一致していないと加算
特に，正解率𝑐に大きな乖離が
見られるペアに関してLossを強める

Implementation Details
41
𝒙𝒊 𝒙j ・・・
Minibatch (size : b)
1 2 3(i) 4(j) 5 b
𝑖 = 1, … 𝑏 − 1 は 𝑖 + 1 𝑖 = 𝑏は𝑖 = 0と𝑝𝑎𝑖𝑟を組む
CRL Lossと，Cross Entropy Lossを組み合わせて全体のLossを定義
𝐿 𝐶𝑅で比較するペアは，計算コストの観点から，batch sizeのペアのみ作成

評価タスク
42
1, Image Classification
2, Out-of-Distribution
3, Active Learning

実験条件 (Image)
43
データセット
・SVHN, CIFAR10/100
モデル
・VGG-16
・PreAct-ResNet110
・DenseNet-BC
比較手法
・Baseline(Cross Entropy)
・MCDropout[6]
・Aleatoric + MCDropout[14]
・AES[15]
[14] Kendall et al., “What uncertainties do we need in bayesian deep learning for computer vision?”, NIPS, 2017

Results (Image)
44
・信頼性尺度
Maximum Class Probability
・特に，Accuracyや，AURC
で他手法を上回る

Results (Image)
45
Baselineと提案手法の，NLLとAURCの推移比較
Baseline手法で起きていた過学習を，提案手法では改善している．
→正則化項としてのCRLの有効性を確認

実験条件 (OOD)
46
データセット
・In : SVHN , CIFAR-10
・Out : Tiny-ImageNet, LSUN
モデル
・PreAct-ResNet110
・DenseNet
比較手法
・Baseline(Cross Entropy)
・ODIN [16]
・Mahalanobis Detector[17]
[16] Liang et al., “Verified uncertainty calibration”,, 2019
[17] Lee et al., “A simple unified framework for detecting out-of-distribution samples and adversarial attacks” , 2018

Results (OOD)
47
Baselineとの比較と，
各手法と提案手法を組み合わせた場合の比較を行った
Baselineよりも高精度であり，
OOD Detectionの既存手法と合わせて用いることでの精度向上を確認

実験条件 (Active Learning)
48
データセット
・CIFAR-10/100
モデル
・ResNet18
比較手法
・Baseline(Entropy , Random Sampling)
・MCDropout[6]
・Core-set Sampling[18]
[18] Sener & Savarese ., “Active learning for convolutional neural networks: A core-set approach”, NIPS, 2018
クエリ
・2000(初期データは各手法共通) *10 (5回試行)
・不確かなものから優先的にクエリとして抽出し，学習

Results (Active Learning)
49
CIFAR10 CIFAR100
・両データセットにおいて提案手法が最良の効率を示す
・提案手法以外では，最も単純なEntropy –based が最も良い

論文まとめ
50
・訓練時の正解率に基づいた信頼度の正則化を行うCRLを提案
→信頼性の尺度を新たに定義せず，事後確率Baseの尺度を利用できる
・曖昧性推定において既存手法を上回る精度を確認
・OODやActive Learning などの分野でも応用できることを確認

参考
51
[1] Levinson et al., “Towards Fully Autonomous Driving: Systems and Algorithms”, iEEE, 2011
[2] Miotto et al., “Deep patient: an unsupervised representation to predict
the future of patients from the electronic health records”, 2016
[3] Nguyen et al., “Deep Neural Networks are Easily Fooled: High Confidence Predictions
for Unrecognizable Images”, IEEE, 2015
[4] Goodfellow et al., “Explaining and Harnessing Adversarial Examples”, ICLR, 2015
[6] Yarin Gal, Zoubin Ghahramani, “Dropout as a Bayesian Approximation:
Representing Model Uncertainty in Deep Learning”, 2016
[7] Lakshminarayanan et al., “Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles ”, NIPS, 2017
[8] Chapelle et al., “Vicinal risk minimization” , NeurIPS, 2001
[9] Szegedy et al., “Rethinking the inception architecture for computer vision” , IEEE, 2016
[10] Pereyra et al., “Regularizing neural networks by penalizing confident output distributions”, ICLR, 2017
[11] Verma et al., “Manifold Mixup: Better Representations by Interpolating Hidden States”, ICML, 2019
[12] Toneva et al., “AN EMPIRICAL STUDY OF EXAMPLE FORGETTING
DURING DEEP NEURAL NETWORK LEARNING”, ICLR, 2019
[14] Kendall et al., “What uncertainties do we need in bayesian deep learning for computer vision?”, NIPS, 2017
[16] Liang et al., “Verified uncertainty calibration”,, 2019
[17] Lee et al., “A simple unified framework for detecting out-of-distribution samples and adversarial attacks” , 2018
[18] Sener & Savarese ., “Active learning for convolutional neural networks: A core-set approach”, NIPS, 2018

AURC / E-AURC
53
AURC
・信頼度が高い順にサンプルを抽出した際のRisk-Coverage曲線のAUC
・小さいほど高性能であることを示す
Coverage
: 抽出したデータに対する誤分類データの割合
: 全体のデータに対する抽出データの割合
Risk
誤分類データの枚数に依存してしまう
E-AURC (Normalized AURC)
・Upper LimitのRisk-Coverage曲線のAUC
をAURCの値から引く

Result (α-Error)
54
実験から適切なαは，[0.1, 0.4]と結論づけていた

AES[15]
55
データ群によって一番最適化されているEpochが異なることから
推論時のデータに対して適切なEpochのパラメタから得られる信頼度を用いる手法

ERL[10]
56
NLL (Negative Log Likelihood) Lossに対して
予測結果のNegative Entropy を加える正則化を行う手法
・誤ったクラスに対する事後確率が高い
・予測分布の曖昧性(Entropy)が低い
サンプルに対して大きな損失が加算されるように正則化を行う

Calibration methods
57
Histogram binning
Isotonic regression
各bin 𝑎 𝑚, 𝑎 𝑚+1 において下式を最適化する信頼度𝜃 𝑚を定義
(binary setting)

評価指標
58
Brier Score
事後確率とOne-hot Label の平均二乗誤差

Extended Training
59
Mixupは全く同じデータを二度以上学習しないため性能改善
→ Epochを増やせばOverConfidenceに繋がるのか？
・Epochを増やしてもLossやErrorが下がることがない
→Mixupは訓練データ自体に過学習することがほぼない

Parameters
60
conditions
Optimizer SGD
lr 0.1
Epoch 300
Weight decay 0.0001
Augmentation
Lr flip,
Randomcrop
Lambda 1.0
batchsize 128
CRLMixup
conditions
Optimizer SGD
lr 0.1
(halved at 2 at 60,120,260)
Epoch 200
Weight decay 5e-4

Results(Ordinal Ranking)
61
Deep Ensemble(five classifier) との比較

DNNの曖昧性に関する研究動向

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à DNNの曖昧性に関する研究動向

Similaire à DNNの曖昧性に関する研究動向 (20)

Dernier

Dernier (11)

DNNの曖昧性に関する研究動向