SlideShare une entreprise Scribd logo
1  sur  71
Active Learning
and
Bayesian Neural Network
文献調査
2020/5/22
松永直輝
1
OUTLINE
3
1,Active Learning
2,論文紹介
・Learning Loss for Active Learning
(2019,CVPR)
3,Bayesian Neural Network
4,論文紹介
・BatchBALD: Efficient and Diverse Batch Acquisition
for Deep Bayesian Active Learning (2019, NeurIPS)
・Bayesian Generative Active Deep Learning (2019, ICML)
まとめ
OUTLINE
4
1,Active Learning
2,論文紹介
・Learning Loss for Active Learning
(2019,CVPR)
3,Bayesian Neural Network
4,論文紹介
・BatchBALD: Efficient and Diverse Batch Acquisition
for Deep Bayesian Active Learning (2019, NeurIPS)
・Bayesian Generative Active Deep Learning (2019, ICML)
まとめ
機械学習におけるラベリング
5
・時間がかかる
医療画像のラベリングには8時間かかることも
・コストがかかる
クラウドソーシングなどを利用する際には,コストが発生する
・プロフェッショナルに依頼する場合がある(MRI画像)
彼らの時間も限られている
できるだけラベリングをするデータを減らしたい
Active Learning(能動学習)
6
1, モデルの学習に効果的なデータを抽出
2, Oracle(annotator)にデータを問い合わせ(query),ラベリング
3, 訓練データに追加する
Curiousなデータを抽出して学習すれば
少量のデータで高性能なモデルの構築が可能仮説
手法
http://apophenia.wdfiles.com/local--files/start/settles_active_learning.pdf
Active Learning(能動学習)
7
1, モデルの学習に効果的なデータを抽出
2, Oracle(annotator)にデータを問い合わせ(query),ラベリング
3, 訓練データに追加する
http://apophenia.wdfiles.com/local--files/start/settles_active_learning.pdf
Curiousなデータを抽出して学習すれば
少量のデータで高性能なモデルの構築が可能
少量のラベリングにより高性能なモデルを構築する手法
仮説
手法
Active Learningのシナリオ
8
 Stream-based selective Sampling
 Membership query synthesis
 Pool-based sampling
初期の能動学習のシナリオ.
モデルの学習に有効的なデータを生成する
未ラベルのデータの扱いは以下の3つに大別される
データに対してラベル付するか破棄するか選択する
教師なしデータPoolから,ラベル付するデータを選択する
Active Learningのシナリオ
9
 Stream-based selective Sampling
 Membership query synthesis
 Pool-based sampling
初期の能動学習のシナリオ.
モデルの学習に有効的なデータを生成する
未ラベルのデータの扱いは以下の3つに大別される
データに対してラベル付するか破棄するか選択する
教師なしデータPoolから,ラベル付するデータを選択する
Query の選択方法
10
 Uncertainty Sampling
最も不確かなデータを抽出する
 Query By Committee
複数のモデルのアンサンブルによる多数決で抽出する
 Expected Model Change
 Expected Error Reduction
 Variance Reduction
 Density-Weighted Method
Oracleへの問い合わせ(データ)の選択方法 (by settles)
http://apophenia.wdfiles.com/local--files/start/settles_active_learning.pdf
Query の選択方法
11
 Uncertainty Sampling
最も不確かなデータを抽出する
 Query By Committee
複数のモデルのアンサンブルによる多数決で抽出する
 Expected Model Change
 Expected Error Reduction
 Variance Reduction
 Density-Weighted Method
Oracleへの問い合わせ(データ)の選択方法 (by settles)
http://apophenia.wdfiles.com/local--files/start/settles_active_learning.pdf
Uncertainty Sampling
12
 Least Confident
最大の事後確率を持つクラスの事後確率が一番低いデータ
事後確率の大きさが1番目と2番目のクラスの事後確率の差が最小のデータ
事後確率のエントロピーが最大のデータ
 Entropy-based Approach
 Margin Sampling
現在は,
アルゴリズム,独自の関数の設計などを用いてsamplingする手法が多い
Active Learningの課題
13
- サンプリングバイアス
初期段階で,ある程度の量のラベル付データを用いないと,
初期データによっては偏ったQueryの抽出をしてしまう可能性がある
- アルゴリズムへの依存
- 費用対効果
Active Learningで取得されるデータはモデルに依存するため,
モデルの変更をすると,今までのデータが使用できなくなる恐れがある
Active Learning手法を考案するより,
安価なアノテーションを行ったほうが効率的である可能性がある
まとめ
14
- Active Learningは学習に効率的なデータを抽出することで,
ラベリングにおけるボトルネックを解消する手法
- アルゴリズム依存や,費用対効果などの課題がある
- 一般的なシナリオは,Pool-based Samplingが用いられる
- Queryの抽出には,主にUncertainty Samplingが用いられる
OUTLINE
15
1,Active Learning
2,論文紹介
・Learning Loss for Active Learning
(2019,CVPR)
3,Bayesian Neural Network
4,論文紹介
・BatchBALD: Efficient and Diverse Batch Acquisition
for Deep Bayesian Active Learning (2019, NeurIPS)
・Bayesian Generative Active Deep Learning (2019, ICML)
まとめ
発表論文
16
・Learning Loss for Active Learning
(Yoo et al.,2019,CVPR)
・BatchBALD: Efficient and Diverse Batch Acquisition
for Deep Bayesian Active Learning
(Kirsch et al., 2019, NeurIPS)
・Bayesian Generative Active Deep Learning
(Tran et al., 2019, ICML)
発表論文
Learning Loss for Active Learning
(2019,CVPR)
Donggeun Yoo , In So Kweon
Summary
18
- 課題
- 手法
・多くのALの手法では,taskに特化しており,汎用性が低い
・複雑なネットワークにおいては,計算コストが高い
汎用性の高く,計算コストの低い手法として,
入力データに対して損失関数を得る
Loss Prediction Moduleを提案する.
- 結論
Classification/Object Detection/Pose estimation において
従来手法を上回る精度を達成.
提案手法
19
Taskのモデルである 𝑦 = 𝜃𝑡𝑎𝑟𝑔𝑒𝑡(𝑥)に対して,
𝜃𝑡𝑎𝑟𝑔𝑒𝑡の中間特徴量ℎを入力とした 𝑙 = 𝜃𝑙𝑜𝑠𝑠(ℎ)を定義
- Loss Prediction Module
- データ抽出
0, ランダムに抽出したデータに対してラベリングをし,初期データとする
1, モデルの訓練
2, 未ラベルデータ全てを検証し,損失関数の大きいものから問い合わせ
3, データセットに加え,1へ
http://openaccess.thecvf.com/content_CVPR_2019/papers/Yoo_Learning_Loss_for_Active_Learning_CVPR_2019_paper.pdf
Loss Prediction Module
20
- Loss Prediction Module
- Motivation
・ターゲットモデルよりも小規模
・ターゲットモデルと同時に学習
→Simple なモデルの提案
各中間特徴量をGAPして,Concat するのみの単純なモデルを提案
→各Layerにおける, Lossの推定に重要な特徴量を抽出できる
追記:Loss Prediction Moduleは,Target modelで算出されたLossの値そのものを求めており,
クラス分類などはしていない
21
Learning Loss
- Loss関数の設計
・Target ModelのLossを教師をGT
・学習過程でLossは減少するのでMSE×
→ミニバッチ𝐵からラベル付ペア {𝑥 𝑝 = (𝑥𝑖, 𝑥𝑗)} を作成し,
(𝑥𝑖, 𝑥𝑗)それぞれのLossに対して大小比較問題を解く
𝑙𝑖, 𝑙𝑗と, 𝑙𝑖, 𝑙𝑗の大小が入れ替わっている時Lossが加算される
GT Loss Prediction
Margin
22
Learning Loss
Target ModelのLossにPrediction ModelのLossを加算するだけで計算可能
Loss prediction
moduleのloss
Target modelのloss
(参考)
Evaluation -Image Classification-
23
- 実験条件
{conv 𝑖_1,conv 𝑖 _2 | 𝑖 = 2,3,4,5}
Random-Sampling / entropy-based Sampling / Core-set Sampling[6]
・モデル : Resnet18
・データセット: CIFAR 10 ・Loss Prediction Module
・Comparison Targets
- 実験結果
・既存手法を上回る精度が得られた
・MSEでは機能していないこともわかる
Evaluation -Object Detection-
24
- 実験条件
- 実験結果
{conv 𝑖 | 𝑖 = 4_3,7,8_2,9_2,10_2,11_2}
Random-Sampling / entropy-based Sampling / Core-set Sampling [6]
・モデル : SSD / VGG16(Backbone)
・データセット: PASCAL VOC 2007/2012 ・Loss Prediction Module
・Comparison Targets
・Label setが増えると
各手法の精度を上回った
評価指標: mAP
・BboxなどのRegressionには
他の手法を使用するのは難しい
Evaluation -Pose Estimation-
25
- 実験条件
- 実験結果
Last feature map of
(H,W,C) = (64,64,256)
Random-Sampling / entropy-based Sampling / Core-set Sampling [6]
・モデル : Stacked Hourglass Net
・データセット: MPⅡDataset ・Loss Prediction Module
・Comparison Targets
評価指標: PCK
・Label setが増えると
各手法の精度を上回った
Summary
26
- 課題
- 手法
・多くのALの手法では,taskに特化ており,汎用性が低い
・複雑なネットワークにおいては,計算コストが高い
汎用性の高く,計算コストの低い手法として,
入力データに対して損失関数で抽出データを提案する
Loss Prediction Moduleを提案する.
- 結論
Classification/Object Detection/Pose estimation において
タスクに依存しない指標として,従来手法を上回る精度を達成.
抽出しているデータの多様性などが考慮できていないことが課題
OUTLINE
27
1,Active Learning
2,論文紹介
・Learning Loss for Active Learning
(2019,CVPR)
3,Bayesian Neural Network
4,論文紹介
・BatchBALD: Efficient and Diverse Batch Acquisition
for Deep Bayesian Active Learning (2019, NeurIPS)
・Bayesian Generative Active Deep Learning (2019, ICML)
まとめ
Bayesian Neural Network (BNN)
28
パラメータに事前分布を仮定し
通常の決定的なNNから確率的なNNへ変換
NN BNN
・事前分布 𝑤 ~ 𝑝(𝑤) を仮定
・モデル 𝑝(𝑦|𝑥, 𝑤)
・出力は確率的な値
・学習によりパラメータを得る
・出力は決定的な値
https://arxiv.org/pdf/1505.05424.pdf
Bayesian Neural Network (BNN)
29
パラメータに事前分布を仮定し
通常の決定的なNNから確率的なNNへ変換
NN BNN
・事前分布 𝑤 ~ 𝑝(𝑤) を仮定
・モデル 𝑝(𝑦|𝑥, 𝑤)
・出力は確率的な値
・学習によりパラメータを得る
・出力は決定的な値
https://arxiv.org/pdf/1505.05424.pdf
確率的な(曖昧さを持った)出力を
得ることができる
BNNにおける事後分布と予測分布
30
- 事後分布 訓練データが与えられた上でのパラメータの確からしさ
- 予測分布 未観測データ𝑥の入力に対する出力𝒚の確からしさ
訓練データ 𝐷 と,パラメータ 𝑤の同時確率分布
𝑝(𝑤, 𝐷)
- モデル
𝑝 𝑦 𝑥, 𝐷 = 𝑝 𝑦 𝑥, 𝑤 𝑝 𝑤 𝐷 𝑑𝑤
𝑝 𝑤 𝐷 =
𝑝 𝐷 𝑤 𝑝(𝑤)
𝑝(𝐷)
=
𝑝 𝐷 𝑤 𝑝(𝑤)
𝑝 𝐷 𝑤 𝑝 𝑤 𝑑𝑤
- 事前分布 パラメータの事前分布を仮定する
𝑤 ~ 𝑝(𝑤)
BNNにおける事後分布と予測分布
31
- 事後分布 訓練データが与えられた上でのパラメータの確からしさ
- 予測分布 未観測データ𝑥の入力に対する出力𝒚の確からしさ
訓練データ 𝐷 と,パラメータ 𝑤の同時確率分布
𝑝(𝑤, 𝐷)
- モデル
𝑝 𝑦 𝑥, 𝐷 = 𝑝 𝑦 𝑥, 𝑤 𝑝 𝑤 𝐷 𝑑𝑤
𝑝 𝑤 𝐷 =
𝑝 𝐷 𝑤 𝑝(𝑤)
𝑝(𝐷)
=
𝑝 𝐷 𝑤 𝑝(𝑤)
𝑝 𝐷 𝑤 𝑝 𝑤 𝑑𝑤
- 事前分布 パラメータの事前分布を仮定する
尤度関数 事前分布
周辺尤度
𝑤 ~ 𝑝(𝑤)
BNNにおける事後分布と予測分布
32
- 事後分布 訓練データが与えられた上でのパラメータの確からしさ
- 予測分布 未観測データ𝑥の入力に対する出力𝒚の確からしさ
訓練データ 𝐷 と,パラメータ 𝑤の同時確率分布
𝑝(𝑤, 𝐷)
- モデル
𝑝 𝑦 𝑥, 𝐷 = 𝑝 𝑦 𝑥, 𝑤 𝑝 𝑤 𝐷 𝑑𝑤
𝑝 𝑤 𝐷 =
𝑝 𝐷 𝑤 𝑝(𝑤)
𝑝(𝐷)
=
𝑝 𝐷 𝑤 𝑝(𝑤)
𝑝 𝐷 𝑤 𝑝 𝑤 𝑑𝑤
- 事前分布 パラメータの事前分布を仮定する
尤度関数 事前分布
周辺尤度
𝑤 ~ 𝑝(𝑤)
事後分布の推定方法
33
複雑なモデルに対しては,
解析的に事後分布 𝑝 𝑤 𝐷 が計算できない
- サンプリング
- 近似
𝑥(𝑖)
∼ 𝑝 𝑤 𝐷 を大量に得ることで,
事後分布の特性を調べる手法
Ex) ギブスサンプリング,ハミルトニアンモンテカルロ
𝑝 𝑤 𝐷 ≈ 𝑞(𝑤)のように計算可能な𝑞(𝑤)を提案し,
事後分布の近似を得る手法
Ex) 変分推論,ラプラス近似
Monte Carlo Dropout
34
Dropout as a Bayesian Approximation[1] にて提唱された手法
ベルヌーイ分布はDropoutと同義とみなせる
未知データ(𝑥∗
, 𝑦∗
)の入力に対して予測分布を求める際に周辺化は困難
→モンテカルロ法でサンプリング
- 近似的な事後分布𝑞(𝑤)を定義
𝑊𝑖 = 𝑀𝑖. 𝑑𝑖𝑎𝑔([𝑧𝑖,𝑗] 𝑗=1
𝐾 𝑖
)
𝑧𝑖,𝑗 ∼ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖 𝑝𝑖 𝑓𝑜𝑟 𝑖 = 1, … 𝐿, 𝑗 = 1, … , 𝐾𝑖−1
- 予測分布の導出
𝑝 𝑦∗ 𝑥∗, 𝑋, 𝑌 = 𝑝 𝑦∗ 𝑥∗, 𝑤 𝑞 𝑤 𝑑𝑤 ≈
1
𝑇
𝑡=1
𝑇
𝑝(𝑦∗|𝑥∗, 𝑤𝑡)
𝑤𝑡 ∼ 𝑞 𝑤 (𝑡 = 1, … 𝑇)
不確かさの指標(Acquisition Function)
35
-BALD
-Max Entropy
https://dl.acm.org/doi/pdf/10.5555/3305381.3305504
予測分布のエントロピーが最大のデータ
予測分布とパラメータの事後分布の相互情報量が最大のデータ
-Variation Ratios
予測分布の広がりを表す指標
-Random acquisition
ランダムにデータを抽出する指標
不確かさの指標(Acquisition Function)
36
-BALD
-Max Entropy
https://dl.acm.org/doi/pdf/10.5555/3305381.3305504
予測分布のエントロピーが最大のデータ
-Variation Ratios
-Random acquisition
予測分布の広がりを表す指標
ランダムにデータを抽出する指標
複雑な画像のデータなどにおいてはBALDを用いるのが一般的
予測分布とパラメータの事後分布の相互情報量が最大のデータ
BALD(Bayesian Active Learning by Disagreement)
37https://arxiv.org/pdf/1906.08158.pdf
予測分布・パラメータの事後分布の
相互情報量の大きいデータを抽出する指標
予測分布のエントロピー データの不確かさ
小
大
データを大きい順に抽出される
相互情報量が大きい=
予測分布の不確かさ
データの不確かさ
まとめ
38
- Bayesian Neural Networkはパラメータに事前分布を
仮定することで,予測分布に曖昧さを持たせる手法
- Dropoutはベルヌーイ分布に近似することができる
- 一般的に不確かさの指標(Acquisition Function)には
BALDが用いられる
OUTLINE
39
1,Active Learning
2,論文紹介
・Learning Loss for Active Learning
(2019,CVPR)
3,Bayesian Neural Network
4,論文紹介
・BatchBALD: Efficient and Diverse Batch Acquisition
for Deep Bayesian Active Learning (2019, NeurIPS)
・Bayesian Generative Active Deep Learning (2019, ICML)
まとめ
発表論文
BatchBALD:
Efficient and Diverse Batch Acquisition
for Deep Bayesian Active Learning
(2019, NeurIPS)
Andreas Kirsch, Joost van Amersfoort, Yarin Gal
背景
41
ALではバッチ単位でデータを抽出するが
個々のデータは有益なデータでも,Batch全体では有益でない場合がある
https://arxiv.org/pdf/1906.08158.pdf
- 課題
- 目的
本論文ではBALDにfocusして,
Batch単位の効率的なデータ抽出を目的とする
提案手法
42
- Batch BALD
Batch内のデータの相関を考慮して,データを取得する
Batch全体に対して得られる予測分布とパラメータの事後分布の相互情報量
(BALD)
https://arxiv.org/pdf/1906.08158.pdf
- I-Diagram[5]を用いた各手法の違い
提案手法
43
- 貪欲法に基づくアルゴリズム
1, 訓練データとAcquisition Batchとの差集合からデータを抽出
2, Batch BALDの計算
3, 値が大きいデータをAcquisition Batchに加える
-> 1に戻る
https://arxiv.org/pdf/1906.08158.pdf
提案手法
44
- Acquisition Function
簡潔化のため𝒙, 𝐷𝑡𝑟𝑎𝑖𝑛に関する条件を省略すると,
・2項目
・1項目
右辺の各項は, 𝜔𝑖 ~ 𝑝 𝜔 を用いて,モンテカルロ法でサンプリング
https://arxiv.org/pdf/1906.08158.pdf
提案手法
45
- Acquisition Function
簡潔化のため𝒙, 𝐷𝑡𝑟𝑎𝑖𝑛に関する条件を省略すると,
右辺の各項は, 𝜔𝑗 ~ 𝑝 𝜔 を用いて,モンテカルロ法でサンプリング
・2項目
・1項目
https://arxiv.org/pdf/1906.08158.pdf
提案手法
46
- Acquisition Function
簡潔化のため𝒙, 𝐷𝑡𝑟𝑎𝑖𝑛に関する条件を省略すると,
右辺の各項は, 𝜔𝑖 ~ 𝑝 𝜔 を用いて,モンテカルロ法でサンプリング
・2項目
・1項目
https://arxiv.org/pdf/1906.08158.pdf
𝑝 𝑦 = 𝔼 𝑝 𝜔 [𝑝(𝑦|𝜔)]
Evaluation -MNIST-
47
Batchsizeを増やしていくと,BALDでは精度が低下するが,
BatchBALDでは精度を,維持している.
https://arxiv.org/pdf/1906.08158.pdf
- 実験条件
- 実験結果
・10 MC Dropout Samples
Evaluation -EMNIST-
48
・EMNIST : 数字,文字の47classesのデータセット
・10 MC Dropout Samples
・Batch BALDが多手法に比較して少量データで高い精度を示した
・カテゴリカル分布のentropyより多様性に富んだデータを抽出が可能
https://arxiv.org/pdf/1906.08158.pdf
- 実験条件
- 実験結果
Evaluation -CINIC-10-
49
・CINIC-10 : CIFAR-10とImageNetの融合した画像データセット
・50 MC Dropout samples
・VGG16 (transfer learning)
https://arxiv.org/pdf/1906.08158.pdf
- 実験条件
- 実験結果
・59%のAccuracyを得るのに,
BatchBALD:1170枚
BALD:1330枚
Summary
50
BALDは,取得するバッチ単位のデータの相関を考慮できていなかった
- 背景
- 手法
バッチ単位の抽出において,多様性に富んだデータ抽出を行うため
貪欲法に基づく,Batch BALDを提案した
- 結果
MNIST,EMNIST,CINIC-10において,SOTAを達成
BALDの欠点を解消したが,課題として計算コストの高さがあり,
少量のデータセットでしか使用ができない
BALD BatchBALD
発表論文
51
・Learning Loss for Active Learning
(Yoo et al.,2019,CVPR)
・BatchBALD: Efficient and Diverse Batch Acquisition
for Deep Bayesian Active Learning
(Kirsch et al., 2019, NeurIPS)
・Bayesian Generative Active Deep Learning
(Tran et al., 2019, ICML)
Bayesian Generative Active Deep Learning
(2019, ICML)
Toan Tran, Thanh-Toan Do, Ian Reid, Gustavo Carneiro
Summary
53
少量データに対する対策として,Data Augmentationがあるが,
生成データは,学習に有益である保証はない
- 背景
- 目的
Bayesian Active Learningと,Data Augmentationを
組み合わせることにより効率的な学習を目指す
- 手法
BNNによって抽出したデータを用いて
VAE + ACGANでData Augmentationを行う手法を提案
- 結論
CIFAR 10/100, SVHN などにおいて
DAやALの従来手法に比較して効率的な学習を実現
Related Work
54
- Generative Active Learning
ある時点のモデルの学習に有益なデータを生成する手法
・Acquisition Functionが計算しやすいものに限られる
・pre-trained GANを用いるため,co-evolveな形でない
課題
- Data Augmentation
・有益なデータを生成しているとは限らない
課題
- VAE Generative Adversarial Nets
VAEを用いることで,GANの生成画像の多様性を持たせる手法
訓練データの水増し
提案手法
55https://arxiv.org/pdf/1904.11643.pdf
0, 初期データ𝐷を用いて識別器を訓練
1, 未ラベルデータからBALDでデータを抽出,ラベリング
2, VAEによってAugmentationを行い,データ生成
3, 元データ/生成データを𝐷に加えて識別器更新
4, 1に戻る
VAE-ACGANとBayesian Active Learningを
組み合わせた手法を提案
提案手法
56
https://arxiv.org/pdf/1904.11643.pdf
Bayesian Active Learning によってInformativeなデータ抽出
0, 初期データ𝐷を用いて識別器を訓練
1, 未ラベルデータからBALDを用いてデータ抽出し,ラベリング
2, VAEによってAugmentationを行い,データ生成
3, 元データ/生成データを𝐷に加えて識別器更新
Discriminator
ラベリング
BALD
提案手法
57https://arxiv.org/pdf/1904.11643.pdf
VAEによってInformativeなデータのAugmentationを行う
0, 初期データ𝐷を用いて識別器を訓練
1, 未ラベルデータからBALDを用いてデータ抽出し,ラベリング
2, VAEによってAugmentationを行い,データ生成
3, 元データ/生成データを𝐷に加えて識別器更新
VAE
Oracle
損失関数
58
- 全体の損失関数
- VAE 再構成誤差と 正規分布𝑧~𝑁(𝟎, 𝑰)とのKL距離
- ACGAN
生成画像,元画像,𝐮~𝑁 𝟎, 𝑰 からDecoderを通して生成した画像
それぞれに対して,真偽判定/クラス判定の損失をとる
Evaluation Condition
59
- 実験条件
・使用データセット
MNIST,CIFAR-10/100, SVHN
・初期データセット
1000(MNIST), 5000(CIFAR10), 15000(CIFAR-100), 10000(SVHN)
・classifier
Resnet18/Resnet18pa[7]
・データ取得
acquisition iteration: 150(SVHNは50)
一回のループで100(SVHNは500)sampleを抽出
(Unlabeled poolから抽出した2000 sampleから)
Evaluation
60
- Test Accuracy
- Information Value
(生成されたSampleに対するBALDの値)
提案手法が各条件において従来手法の精度を上回った
得られる情報量が従来手法よりも大きい
Summary(再掲)
61
少量データに対する対策として,Data Augmentationがあるが,
生成データは,学習に有益である保証はない
- 背景
- 目的
Bayesian Active Learningと,Data Augmentationを
組み合わせることにより効率的な学習を目指す
- 手法
BNNによって抽出したデータを用いて
VAE + ACGANでData Augmentationを行う手法を提案
- 結論
CIFAR 10/100, SVHN などにおいて
DAやALの従来手法に比較して効率的な学習を実現
発表論文(再掲)
62
・Learning Loss for Active Learning (Yoo et al.,2019,CVPR)
・Batch BALD: Efficient and Diverse Batch Acquisition
for Deep Bayesian Active Learning (Kirsch et al., 2019, NeurIPS)
・Bayesian Generative Active Deep Learning (Tran et al., 2019, ICML)
タスクに非依存な形で低コストに計算できる損失関数を定義し,
クエリを抽出する手法を提案した論文
バッチ内のデータの相関を考慮していないBALDの課題を解消する
Batch BALDを提案した論文
Bayesian ALと,Data Augmentationを組み合わせることで,
モデルの学習に効率的な画像のAugmentationする手法を提案した論文
まとめ
63
- Active Learningは学習に効率的なデータを抽出する手法
- 事前分布の仮定により,予測分布に曖昧さを持つ
Bayesian Neural Network
- ALと,BNNを組み合わせることで,予測分布の不確かさを踏まえた
効率的な学習を実現した論文の紹介
- ALには,特徴量抽出を工夫したものなどの多くの手法がある
(サーベイリスト参照)
- タスク非依存で,計算コストのかからない手法がある
参考
64
[1] Yarin Gal, Zoubin Ghahramani,
Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning, 2016
( https://arxiv.org/abs/ 1506.02142)
[2]須山敦志 著,ベイズ深層学習,講談社,2020
[3]須山敦志 著,杉山将 監修,ベイズ推論による機械学習入門,講談社,2018
[4] Yarin Gal, Riashat Islam, Zoubin Ghahramani,
Deep Bayesian Active Learning with Image Data, 2017(ICML)
(https://dl.acm.org/doi/pdf/10.5555/3305381.3305504)
[5] Raymond W. Yeung , A New Outlook on Shannon’s Information Measures(IEEE) ,1991
(https://pdfs.semanticscholar.org/a37e/ab85f532cdc027260777815d78f164eb93aa.pdf)
[6] O. Sener and S. Savarese. Active learning for convolutional neural networks: A core-set approach.
In International Conference on Learning Representations, 2018.
(https://arxiv.org/pdf/1708.00489.pdf)
[7] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun, Identity Mappings in Deep Residual Networks,
2016 (https://arxiv.org/pdf/1603.05027.pdf)
[8] Toan Tran, A Bayesian Data Augmentation Approach for Learning Deep Models,2017
(https://arxiv.org/pdf/1710.10564.pdf)
BALDの計算(1)
65
- Entropy の計算
- 予測分布に対して周辺化
BALDの計算(2)
66
- モンテカルロ法でサンプリング
・Dropoutによる近似分布
相互情報量
67
Raw Data Xの生成の確率密度 予測分布
予測エントロピー H(Y) データの不確実性 H(Y|w) 相互情報量
- BALD
学習データが
ない領域
68
- 指標
BDA(full training) : BDAを行い 10倍拡張
BDA(partial training) : BDAで,2倍拡張(提案手法と同条件)
AL without DA : BALD
Appendix (Bayesian Generative AL)
Appendix (Bayesian Generative AL)
69
- 生成画像- アルゴリズム
70
- 生成されたx’は有益なのか??
Acquisition Function は最大値をとっているところを抽出するので
導関数に𝑥∗
を代入すると0になる.
𝑎(𝑥′
, 𝑀)を,𝑥∗
においてテイラー展開すると
を得る.
𝑥′と𝑥∗のAcquisition Function は近似することができるので,
VAEによって生成された𝑥′も有益なデータであるとみなせる.
Appendix (Bayesian Generative AL)
Batch BALD
71
符号付可測度𝜇を用いて,Information Spaceに以下のように写像することができる
𝜇は以下のように定義できる
𝕀 𝑥; 𝑦 = 𝜇(𝑥 ∩ 𝑦)
ℍ 𝑥, 𝑦 = 𝜇(𝑥 ∪ 𝑦)
𝔼 𝑝(𝑦)ℍ 𝑥|𝑦 = 𝜇(𝑥 ∖ 𝑦)
Batch BALD
72
BALD, Batch BALDについて𝜇を用いて式変形をすると,
- Batch BALD
- BALD
𝜇∗
(𝑦𝑖 ∩ 𝜔)
𝕀 𝑦𝑖; 𝜔|𝑥𝑖, 𝐷𝑡𝑟𝑎𝑖𝑛 = ℍ 𝑦𝑖 | 𝑥, 𝐷𝑡𝑟𝑎𝑖𝑛 − 𝔼 𝑝 𝜔 𝐷𝑡𝑟𝑎𝑖𝑛
ℍ 𝑦|𝑥, 𝜔, 𝐷𝑡𝑟𝑎𝑖𝑛
=
𝑖
𝜇∗
(𝑦𝑖 ∩ 𝜔) = 𝜇∗
𝑖
𝑦𝑖 ∩ 𝜔
𝜇∗
(𝑦𝑖 ∩ 𝜔)
似ているデータばかり抽出してしまう

Contenu connexe

Tendances

Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカット
Tsubasa Hirakawa
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
Akihiro Nitta
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 

Tendances (20)

Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカット
 
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
MIRU2016 チュートリアル
MIRU2016 チュートリアルMIRU2016 チュートリアル
MIRU2016 チュートリアル
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 

Similaire à Active Learning と Bayesian Neural Network

Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
Preferred Networks
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
JubatusOfficial
 
確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案
__106__
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
 

Similaire à Active Learning と Bayesian Neural Network (20)

Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classification
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
 
Matrix capsules with em routing
Matrix capsules with em routingMatrix capsules with em routing
Matrix capsules with em routing
 
Jokyokai
JokyokaiJokyokai
Jokyokai
 
Overview and Roadmap
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
 
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender SystemTop-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender System
 
確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案
 
Generative Deep Learning #01
Generative Deep Learning #01Generative Deep Learning #01
Generative Deep Learning #01
 
Data assim r
Data assim rData assim r
Data assim r
 
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
 
Paper Introduction "RankCompete: Simultaneous ranking and clustering of info...
Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...
Paper Introduction "RankCompete: Simultaneous ranking and clustering of info...
 
El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
 
JPA2022_NetworkTutorial_Part2.pdf
JPA2022_NetworkTutorial_Part2.pdfJPA2022_NetworkTutorial_Part2.pdf
JPA2022_NetworkTutorial_Part2.pdf
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 

Dernier

Dernier (12)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

Active Learning と Bayesian Neural Network

Notes de l'éditeur

  1. 一個一個抽出した時の精度が,理想ではあるが, (BALDでは,Random Samplingより悪い精度を示すこともある)