SlideShare une entreprise Scribd logo
1  sur  17
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Collective dynamics of repeated inference in
variational autoencoder rapidly find cluster
structure
Hiroshi Sekiguchi, Morikawa Lab
書誌情報
• “Collective dynamics of repeated inference in variational
autoencoder rapidly find cluster structure”,
– Nagano, Y., Karakida, R. & Okada, M., The University of Tokyo
– Sci Rep 10, 16001 (2020). https://doi.org/10.1038/s41598-020-72593-4
• 概要:
– クラスタ-構造を持つ画像群で教師なし学習したVariational Autoencoder(VAE)を
用いて,ノイジーな画像をテストデータとして入力し、認識(Encode)と生成
(Decode)を複数回繰り返し(反復推論)て得た再構成画像はノイズ除去される.
この時の,反復推論時の潜在変数の活動パターン時間軌跡は,クラスターの代表
点に接近するダイナミクスになっていることを定量的に示す
• 動機:
– 教師なし学習で、観測データから,低次の潜在空間での知識(メモリパターン)
を構築するモデルに興味がある 2
アジェンダ
• 背景・目的
• 先行研究
• 提案手法
• 評価
• まとめ
図表は、論文から抜粋した
3
背景・目的
• <背景>
– Variational Autoencoder:ラベル無のデータに内在する重要な特徴を抽出可能
– 視覚のAssociative memory model:クラスター*構造を持つ視覚情報を教師なし学習し、各
クラスターに反応するニューロン群を生成し,クラスターに属する視覚情報を引き出す(認識す
る)機構をモデル化したもの.
*クラスター=分類のカテゴリ
同一クラスターに属するメンバーは相関が高い
• <目的>クラスター構造の画像群で学習したVariational Autoencoderに,ノ
イジーな画像で,認識(Encode)と生成(Decode)を複数回反復推論して得
た再構成画像はノイズ低減されており、その際の潜在空間上の活動パターン
軌跡は,連想メモリモデル(Associative memory model)と類似のダイナミク
スを持つことを定量的に示す
•
4
先行研究
• 目的:視覚の下側頭皮質(inferior-temporal cortex)に存在する、物体
形状に反応するニューロンの推論時のダイナミクスをassociative
memory modelを用いて解明する
• 動機:顔の形状に反応するニューロンのダイナミクスを調査
• 視覚のAssociative memory modelを以下で構築
– モデル:Excitatory cellとInhibitory cellで構成
– 入力:クラスタ構造のUltrametric画像 𝛏 𝛍,𝛎
: クラスターμ ∈ [1, 𝑝]のメンバーν∈
[1, 𝑠]番目のパターンを入力、ここで ξ𝑖
μ,ν
, 𝑖 ∈ [1, 𝑁]番目の要素
𝑝𝑟𝑜𝑏 ξ𝑖
μ
= 1 = 1 − 𝑝𝑟𝑜𝑏[ ξ𝑖
μ
= 0 = 𝑓 ←クラスターセンタ値は与えない
𝑃𝑟𝑜𝑏 ξ𝑖
μ,ν
= 0 ξ𝑖
μ
= 1 = 1 − 𝑃𝑟𝑜𝑏 ξ𝑖
μ,ν
= 1 ξ𝑖
μ
= 1 = 𝐹
𝑃𝑟𝑜𝑏 ξ𝑖
μ,ν
= 1 ξ𝑖
μ
= 0 = 1 − 𝑃𝑟𝑜𝑏 ξ𝑖
μ,ν
= 0 ξ𝑖
μ
= 0 = 𝐺
– Hebb則:Neuron𝑖から𝑗へのシノプス係数、𝐽𝑖𝑗 =
1
𝑓𝑁 μ=1
𝑝
ν=1
𝑠
𝝃𝒊
𝝁,𝝂
𝝃𝒋
𝝁,𝝂
とする(各
ニューロンの強度の乗算)
• 推論時
– 微分方程式に従う→初期値が入力画像 t=0~∞とした時ニューロン集団
𝑉 𝑒𝑥𝑡
(𝑡)の軌跡
– 入力画像にノイズを付加する a=0(ノイズゼロ)→1(ノイズ最大)
• 結果
– ノイズ追加の場合、集団軌跡は、まず、入力したUltrametricに近づいた後、クラスタ
のセンター値η1
に近づく:クラスターセンタ値をmodelが創出している 5
Neuronal Mechanisms Encoding Global-to-Fine Information in Inferior-Temporal Cortex*,
N.Matsumoto, M.Okada, Y. Sugase and S. Yamane, Journal of Computational Neuroscience 18,
85–103, 2005
図は論文*から抜粋
同一クラス
ノメンバー
は相関あり
提案手法
• 学習:標準の VAEを使用:
– Network: Full Connection
– 入力:クリーンな画像(MNIST or
Fashion-MNIST)
• 学習データ:50000
• Testデータ:10000(再構成エラー計算用)
– Loss関数:ELBO
– 最適化:Adam
– Epoch: 1500
• 繰り返し推論:
– Network:学習済VAE
– 入力:ノイズ不可の画像(MNIST or
Fashion-MNIST)
– 認識(Enc)と生成(Dec)をtステップ繰り
返して潜在変数z(t)を得る
x t + 1 = 𝐸 𝑝θ(𝑥|𝑧 𝑡 ) 𝑥
𝑧 𝑡 = 𝐸𝑞Φ 𝑧 𝑥 𝑡 [𝑧]:活動パターン
6
𝑔𝑖𝑣𝑒𝑛 𝑥 𝑥(𝑡 + 1)𝑧(𝑡) 𝐸 𝑝θ(𝑥|𝑧 𝑡 ) 𝑥𝑞Φ 𝑧 𝑥
𝑔𝑖𝑣𝑒𝑛 𝑧 𝑥(𝑡)𝑝θ(𝑥|𝑧)
𝐸𝑞Φ 𝑧 𝑥 𝑡 [𝑧]
𝒛(𝒕)
tステッ
プ繰り
返す
評価したいこと
• 再構成画像𝒙(𝒕)の品質
• 活動パターンZ(t)のクラスタ化と活動パターン軌跡
• 活動パターンZ(t)軌跡はクラスターセンターに近づく
• ノイズと階層クラスターの関係
• ノイズとラベル推定精度
• 活動パターンのクラスタセンターへ接近することの意味
• 潜在空間次元数の表現能力
• 潜在空間次元数、直行性、汎化性との関係
7
再構成画像𝒙(𝒕)の品質
• 成功例(右上段)
– 再構成画像X(t):数ステップでノ
イズが除去されている
– ノイズのレベルp=0.2
(28x28=784pixのpの割合の画像
の強度をswap)
– 正しい数字が再現されている
• 失敗例(右下段)
– 似た形の数字を誤っている
– “2”→”8”
– “5”→”3”
– “7”→”9” 8
成功例
失敗例
①
②
③
時間経過純
活動パターンZ(t)のクラスタ化と活動パターン軌跡
• z(t)のクラスタ化の可視化
– z(t)の主成分分析で第1,第2固有ベクトルで
二次元にプロット→時間経過とともにクラスタ
が出現
– 初期画像=種々の“1”の画像+種々のノイズ
• t=10以降でクラスターが2つに分かれる
– 下は、正しく”1”のクラスターに到達している画
像、上は誤って異なる数字のクラスターに到達
している画像
• 活動パターン軌跡: 初期画像𝑥0の時間
𝑡における潜在変数𝑧(𝑡)を𝑡 = 0~∞でプ
ロットしたもの
• 潜在空間の低次元部分空間でクラスタ
化が起こる→低次元で表現可能
9
“1”以外の誤ったクラ
スターに近づく
“1”の正しいク
ラスターに近
づく
活動パターンZ(t)軌跡はクラスターセンターに近づく
10
• 以降は、1ラベルに1クラスタが存在すると仮定す
る(ラベル∈[0,9])
• 潜在空間で、活動パターン軌跡が引き込まれるポイ
ントが複数ある
– ラベルnumに属する𝑖番目の学習データ𝑥 𝑛𝑢𝑚
(𝑖)
に対応する
活動パターン:
ξ 𝑛𝑢𝑚
(𝑖)
= 𝐸𝑞Φ 𝑧 𝑥 𝑛𝑢𝑚
(𝑖)
[𝑧]:メモリベクトル
– ラベルnumに属する全学習データに対応する活動パター
ン群のセンター(平均):ξ 𝑛𝑢𝑚 =
1
𝑁 𝑛𝑢𝑚
𝑖
𝑁 𝑛𝑢𝑚
ξ 𝑛𝑢𝑚
(𝑖)
:クラス
ターセンターあるいはコンセプトベクトル
• 活動パターン軌跡と上記のポイントの最小距離
を計算: min
𝑡
𝑧 𝑡 − ξ 、ξ= ξ 𝑛𝑢𝑚
(𝑖)
or ξ 𝑛𝑢𝑚
– 活動パターンは、直ぐにメモリベクトル近づき、そのあとは、
クラスターセンターに近づく
– 先行研究Associative memory modelの結果と合致
実線:平均、シェード:±1xSTD Dev.
メ
モ
リ
パ
タ
ー
ン
と
の
距
離
ク
ラ
ス
タ
セ
ン
タ
ー
と
の
距
離
短い
短い
試行回数300回、ノイズp=0.2
ノイズと階層クラスターの関係
• さらに、人工的に全クラスターセンターのセンターを作
る
– ξ 𝑛𝑢𝑚
(𝑖)
= 𝐸𝑞Φ 𝑧 𝑥 𝑛𝑢𝑚
(𝑖)
[𝑧]:メモリ
– ξ 𝑛𝑢𝑚 =
1
𝑁 𝑛𝑢𝑚
𝑖
𝑁 𝑛𝑢𝑚
ξ 𝑛𝑢𝑚
(𝑖)
:クラスターセンターあるいはコンセプ
トベクトル
– 全クラスターセンターのセンター:
ξ 𝑎𝑙𝑙 =
1
10
𝑛𝑢𝑚=0
9
ξ 𝑛𝑢𝑚
• 上記三つは、情報の粗さで階層になっている
• 活動パターン軌跡と上記の3エリアの最小距離を計
算: min
𝑡
𝑧 𝑡 − ξ 、ξ= ξ 𝑛𝑢𝑚
(𝑖)
or ξ 𝑛𝑢𝑚 or ξ 𝑎𝑙𝑙
– “6”を試行回数500回
• 結果:図a:ノイズ小の場合(I)はメモリベクトルとの
距離が一番小さい,中庸のノイズ(II)ではクラスタセ
ンターが、ノイズ大(III)では、全クラスターセンタ
のセンターが短い。ノイズによって、最適な軌跡を取
ろうとする。よって、(III)では、誤ったポイントに
近づくのでラベル推定が誤る 11
実線:平均、バー゙:±2xSTD Dev.
• 図b:距離が最小になるstepを示す。
• ξ 𝑛𝑢𝑚
(𝑖)
との距離:入力との再構成エラーを最少
にするにはノイズと共に、多くの時間が必要
• ξ 𝑛𝑢𝑚との距離:ラベル推定には、ノイズに関
わらず30-40ステップで良い
ノイズとラベル推定精度
• 学習済VAEにノイズを可変した
画像を入力しステップtでの活動
パターンを入手。それを別の学
習済分類器(CNN)で分類
• 図a,ラベル“6”、図b、ラベル”1”
は、200回試行し、もっとも頻
度の多いラベルを示す。
• 図a,b:ともに: ノイズが小さい、
中庸の範囲では、ラベル正解。
12
学習済VAE
ノイズ可変
画像
活動パターン
𝑉 𝑒𝑥𝑡
(t)
学習済分類器
(CNN)
0~9を判別
学習済分類器(CNN)
MNISTで学習済
判別精度99.25%
入力”6” 入力”1”
活動パターンのクラスタセンターへ接近することの意味
• VAEは、入力画像のクラスタ構造を抽出できて
いる。
– 活動パターンがクラスターセンターに近づくことで、どの
ラベルに属しているかの分類が可能
– 活動パターンが、クラスターセンタに近づくことで、同時
に、ノイス無しの再構成画像を実現している
• VAEは、高次元の画像を、潜在空間における低
次の部分空間で表現している。
– 入力画像にノイズをいれるということは、潜在空間にお
ける部分空間からの差異を生じさせており、その差異を
まず削減するべく活動パターンは動く
– よって活動パターンは、まずメモリーベクトルに近づき、
次にクラスターセンタに近づく。
13
潜在空間次元数の表現能力
• 次元数100と、各ラベル0~9の
クラスタセンターの強度
– 一握りの次元がactiveで、多くの次
元はnon-active。
• 次元数100の内、主成分分析で
主要な固有ベクトルは14個で
あった。14個で70%の分散を
確保可能→100個は不要
14
潜在空間次元数、直行性、汎化性との関係
• クラスターセンター間の直行性と活動パ
ターンの関係を評価した
• 𝐶𝑖𝑗 =
ξ 𝑖 ∙ ξ 𝑗
ξ 𝑖 𝐹
2
∙ ξ 𝑗 𝐹
2, 𝐴 𝐹
2
= 𝑖𝑗 𝐴𝑖𝑗
2
: 𝐹𝑟𝑜𝑏𝑖𝑛𝑖𝑢𝑠 𝑛𝑜𝑟𝑚
• 𝑁𝑧 ≥ 14で、 𝐶 − 𝐼 𝐹
2
が十分最小値に漸近
している
• 𝑁𝑧 ≥ 14での、活動パターンとクラスター
センターの距離のグラフは正常
• 次元数が小さいと、活動パターンの空間を
直行したクラスタ-センタで張れず、活動
パターンが正しいクラスターに近づきにく
くなる
• VAE Loss: 𝑁𝑧を変化させたところ𝑁𝑧 ≥ 14 15
まとめ・感想
• まとめ
– クリーンなクラスタ構造を持つ画像セットで標準的なVAEを学習し、繰り返し推論で
活動パターンのダイナミクスを調査したところ、Associative Memory Modelの挙動と
以下で一致することが分かった
• 活動パターン軌跡は、クラスタセンターに近づく
• 入力画像のノイズが増えると、全クラスターセンターに近づき、ラベル推定で誤る
– 潜在変数の次元数が推測性能に与える影響を調べた
• 次元数が一定以上大きければ(𝑁𝑧 ≥ 14)、活動パターンが存在する潜在空間の部分空間を直工
するクラスタセンタで張ることができ、活動パターンが正しいクラスタセンターへ近づきやすくなる
– 今後は、異なる階層を持つデータセットで試す
16
END
17

Contenu connexe

Tendances

低ランク行列補完のためのマトロイド理論
低ランク行列補完のためのマトロイド理論低ランク行列補完のためのマトロイド理論
低ランク行列補完のためのマトロイド理論
ryotat
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Ohsawa Goodfellow
 
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
Shotaro Sano
 

Tendances (20)

[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
 
低ランク行列補完のためのマトロイド理論
低ランク行列補完のためのマトロイド理論低ランク行列補完のためのマトロイド理論
低ランク行列補完のためのマトロイド理論
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
 
Chainerで流体計算
Chainerで流体計算Chainerで流体計算
Chainerで流体計算
 
[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers
 
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
20160329.dnn講演
20160329.dnn講演20160329.dnn講演
20160329.dnn講演
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
 
物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
ニューラルネットと深層学習の歴史
ニューラルネットと深層学習の歴史ニューラルネットと深層学習の歴史
ニューラルネットと深層学習の歴史
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
FOBOS
FOBOSFOBOS
FOBOS
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
はじぱた7章F5up
はじぱた7章F5upはじぱた7章F5up
はじぱた7章F5up
 
[DL輪読会]Object-Centric Learning with Slot Attention
[DL輪読会]Object-Centric Learning with Slot Attention[DL輪読会]Object-Centric Learning with Slot Attention
[DL輪読会]Object-Centric Learning with Slot Attention
 
ディープニューラルネット入門
ディープニューラルネット入門ディープニューラルネット入門
ディープニューラルネット入門
 

Similaire à [DL輪読会]Collective dynamics of repeated inference in variational autoencoder rapidly find cluster structure

大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
n_hidekey
 

Similaire à [DL輪読会]Collective dynamics of repeated inference in variational autoencoder rapidly find cluster structure (20)

[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
 
深層学習 - 画像認識のための深層学習 ①
深層学習 - 画像認識のための深層学習 ①深層学習 - 画像認識のための深層学習 ①
深層学習 - 画像認識のための深層学習 ①
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
 
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
MIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearningMIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearning
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -
 
【Unity道場スペシャル 2017大阪】クォータニオン完全マスター
【Unity道場スペシャル 2017大阪】クォータニオン完全マスター【Unity道場スペシャル 2017大阪】クォータニオン完全マスター
【Unity道場スペシャル 2017大阪】クォータニオン完全マスター
 
深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点
 
ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)
 
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
 
Ssaw08 0930
Ssaw08 0930Ssaw08 0930
Ssaw08 0930
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
 
量子アニーリングを用いたクラスタ分析 (QIT32)
量子アニーリングを用いたクラスタ分析 (QIT32)量子アニーリングを用いたクラスタ分析 (QIT32)
量子アニーリングを用いたクラスタ分析 (QIT32)
 
20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列
 

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL輪読会]Collective dynamics of repeated inference in variational autoencoder rapidly find cluster structure

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Collective dynamics of repeated inference in variational autoencoder rapidly find cluster structure Hiroshi Sekiguchi, Morikawa Lab
  • 2. 書誌情報 • “Collective dynamics of repeated inference in variational autoencoder rapidly find cluster structure”, – Nagano, Y., Karakida, R. & Okada, M., The University of Tokyo – Sci Rep 10, 16001 (2020). https://doi.org/10.1038/s41598-020-72593-4 • 概要: – クラスタ-構造を持つ画像群で教師なし学習したVariational Autoencoder(VAE)を 用いて,ノイジーな画像をテストデータとして入力し、認識(Encode)と生成 (Decode)を複数回繰り返し(反復推論)て得た再構成画像はノイズ除去される. この時の,反復推論時の潜在変数の活動パターン時間軌跡は,クラスターの代表 点に接近するダイナミクスになっていることを定量的に示す • 動機: – 教師なし学習で、観測データから,低次の潜在空間での知識(メモリパターン) を構築するモデルに興味がある 2
  • 3. アジェンダ • 背景・目的 • 先行研究 • 提案手法 • 評価 • まとめ 図表は、論文から抜粋した 3
  • 4. 背景・目的 • <背景> – Variational Autoencoder:ラベル無のデータに内在する重要な特徴を抽出可能 – 視覚のAssociative memory model:クラスター*構造を持つ視覚情報を教師なし学習し、各 クラスターに反応するニューロン群を生成し,クラスターに属する視覚情報を引き出す(認識す る)機構をモデル化したもの. *クラスター=分類のカテゴリ 同一クラスターに属するメンバーは相関が高い • <目的>クラスター構造の画像群で学習したVariational Autoencoderに,ノ イジーな画像で,認識(Encode)と生成(Decode)を複数回反復推論して得 た再構成画像はノイズ低減されており、その際の潜在空間上の活動パターン 軌跡は,連想メモリモデル(Associative memory model)と類似のダイナミク スを持つことを定量的に示す • 4
  • 5. 先行研究 • 目的:視覚の下側頭皮質(inferior-temporal cortex)に存在する、物体 形状に反応するニューロンの推論時のダイナミクスをassociative memory modelを用いて解明する • 動機:顔の形状に反応するニューロンのダイナミクスを調査 • 視覚のAssociative memory modelを以下で構築 – モデル:Excitatory cellとInhibitory cellで構成 – 入力:クラスタ構造のUltrametric画像 𝛏 𝛍,𝛎 : クラスターμ ∈ [1, 𝑝]のメンバーν∈ [1, 𝑠]番目のパターンを入力、ここで ξ𝑖 μ,ν , 𝑖 ∈ [1, 𝑁]番目の要素 𝑝𝑟𝑜𝑏 ξ𝑖 μ = 1 = 1 − 𝑝𝑟𝑜𝑏[ ξ𝑖 μ = 0 = 𝑓 ←クラスターセンタ値は与えない 𝑃𝑟𝑜𝑏 ξ𝑖 μ,ν = 0 ξ𝑖 μ = 1 = 1 − 𝑃𝑟𝑜𝑏 ξ𝑖 μ,ν = 1 ξ𝑖 μ = 1 = 𝐹 𝑃𝑟𝑜𝑏 ξ𝑖 μ,ν = 1 ξ𝑖 μ = 0 = 1 − 𝑃𝑟𝑜𝑏 ξ𝑖 μ,ν = 0 ξ𝑖 μ = 0 = 𝐺 – Hebb則:Neuron𝑖から𝑗へのシノプス係数、𝐽𝑖𝑗 = 1 𝑓𝑁 μ=1 𝑝 ν=1 𝑠 𝝃𝒊 𝝁,𝝂 𝝃𝒋 𝝁,𝝂 とする(各 ニューロンの強度の乗算) • 推論時 – 微分方程式に従う→初期値が入力画像 t=0~∞とした時ニューロン集団 𝑉 𝑒𝑥𝑡 (𝑡)の軌跡 – 入力画像にノイズを付加する a=0(ノイズゼロ)→1(ノイズ最大) • 結果 – ノイズ追加の場合、集団軌跡は、まず、入力したUltrametricに近づいた後、クラスタ のセンター値η1 に近づく:クラスターセンタ値をmodelが創出している 5 Neuronal Mechanisms Encoding Global-to-Fine Information in Inferior-Temporal Cortex*, N.Matsumoto, M.Okada, Y. Sugase and S. Yamane, Journal of Computational Neuroscience 18, 85–103, 2005 図は論文*から抜粋 同一クラス ノメンバー は相関あり
  • 6. 提案手法 • 学習:標準の VAEを使用: – Network: Full Connection – 入力:クリーンな画像(MNIST or Fashion-MNIST) • 学習データ:50000 • Testデータ:10000(再構成エラー計算用) – Loss関数:ELBO – 最適化:Adam – Epoch: 1500 • 繰り返し推論: – Network:学習済VAE – 入力:ノイズ不可の画像(MNIST or Fashion-MNIST) – 認識(Enc)と生成(Dec)をtステップ繰り 返して潜在変数z(t)を得る x t + 1 = 𝐸 𝑝θ(𝑥|𝑧 𝑡 ) 𝑥 𝑧 𝑡 = 𝐸𝑞Φ 𝑧 𝑥 𝑡 [𝑧]:活動パターン 6 𝑔𝑖𝑣𝑒𝑛 𝑥 𝑥(𝑡 + 1)𝑧(𝑡) 𝐸 𝑝θ(𝑥|𝑧 𝑡 ) 𝑥𝑞Φ 𝑧 𝑥 𝑔𝑖𝑣𝑒𝑛 𝑧 𝑥(𝑡)𝑝θ(𝑥|𝑧) 𝐸𝑞Φ 𝑧 𝑥 𝑡 [𝑧] 𝒛(𝒕) tステッ プ繰り 返す
  • 7. 評価したいこと • 再構成画像𝒙(𝒕)の品質 • 活動パターンZ(t)のクラスタ化と活動パターン軌跡 • 活動パターンZ(t)軌跡はクラスターセンターに近づく • ノイズと階層クラスターの関係 • ノイズとラベル推定精度 • 活動パターンのクラスタセンターへ接近することの意味 • 潜在空間次元数の表現能力 • 潜在空間次元数、直行性、汎化性との関係 7
  • 8. 再構成画像𝒙(𝒕)の品質 • 成功例(右上段) – 再構成画像X(t):数ステップでノ イズが除去されている – ノイズのレベルp=0.2 (28x28=784pixのpの割合の画像 の強度をswap) – 正しい数字が再現されている • 失敗例(右下段) – 似た形の数字を誤っている – “2”→”8” – “5”→”3” – “7”→”9” 8 成功例 失敗例 ① ② ③ 時間経過純
  • 9. 活動パターンZ(t)のクラスタ化と活動パターン軌跡 • z(t)のクラスタ化の可視化 – z(t)の主成分分析で第1,第2固有ベクトルで 二次元にプロット→時間経過とともにクラスタ が出現 – 初期画像=種々の“1”の画像+種々のノイズ • t=10以降でクラスターが2つに分かれる – 下は、正しく”1”のクラスターに到達している画 像、上は誤って異なる数字のクラスターに到達 している画像 • 活動パターン軌跡: 初期画像𝑥0の時間 𝑡における潜在変数𝑧(𝑡)を𝑡 = 0~∞でプ ロットしたもの • 潜在空間の低次元部分空間でクラスタ 化が起こる→低次元で表現可能 9 “1”以外の誤ったクラ スターに近づく “1”の正しいク ラスターに近 づく
  • 10. 活動パターンZ(t)軌跡はクラスターセンターに近づく 10 • 以降は、1ラベルに1クラスタが存在すると仮定す る(ラベル∈[0,9]) • 潜在空間で、活動パターン軌跡が引き込まれるポイ ントが複数ある – ラベルnumに属する𝑖番目の学習データ𝑥 𝑛𝑢𝑚 (𝑖) に対応する 活動パターン: ξ 𝑛𝑢𝑚 (𝑖) = 𝐸𝑞Φ 𝑧 𝑥 𝑛𝑢𝑚 (𝑖) [𝑧]:メモリベクトル – ラベルnumに属する全学習データに対応する活動パター ン群のセンター(平均):ξ 𝑛𝑢𝑚 = 1 𝑁 𝑛𝑢𝑚 𝑖 𝑁 𝑛𝑢𝑚 ξ 𝑛𝑢𝑚 (𝑖) :クラス ターセンターあるいはコンセプトベクトル • 活動パターン軌跡と上記のポイントの最小距離 を計算: min 𝑡 𝑧 𝑡 − ξ 、ξ= ξ 𝑛𝑢𝑚 (𝑖) or ξ 𝑛𝑢𝑚 – 活動パターンは、直ぐにメモリベクトル近づき、そのあとは、 クラスターセンターに近づく – 先行研究Associative memory modelの結果と合致 実線:平均、シェード:±1xSTD Dev. メ モ リ パ タ ー ン と の 距 離 ク ラ ス タ セ ン タ ー と の 距 離 短い 短い 試行回数300回、ノイズp=0.2
  • 11. ノイズと階層クラスターの関係 • さらに、人工的に全クラスターセンターのセンターを作 る – ξ 𝑛𝑢𝑚 (𝑖) = 𝐸𝑞Φ 𝑧 𝑥 𝑛𝑢𝑚 (𝑖) [𝑧]:メモリ – ξ 𝑛𝑢𝑚 = 1 𝑁 𝑛𝑢𝑚 𝑖 𝑁 𝑛𝑢𝑚 ξ 𝑛𝑢𝑚 (𝑖) :クラスターセンターあるいはコンセプ トベクトル – 全クラスターセンターのセンター: ξ 𝑎𝑙𝑙 = 1 10 𝑛𝑢𝑚=0 9 ξ 𝑛𝑢𝑚 • 上記三つは、情報の粗さで階層になっている • 活動パターン軌跡と上記の3エリアの最小距離を計 算: min 𝑡 𝑧 𝑡 − ξ 、ξ= ξ 𝑛𝑢𝑚 (𝑖) or ξ 𝑛𝑢𝑚 or ξ 𝑎𝑙𝑙 – “6”を試行回数500回 • 結果:図a:ノイズ小の場合(I)はメモリベクトルとの 距離が一番小さい,中庸のノイズ(II)ではクラスタセ ンターが、ノイズ大(III)では、全クラスターセンタ のセンターが短い。ノイズによって、最適な軌跡を取 ろうとする。よって、(III)では、誤ったポイントに 近づくのでラベル推定が誤る 11 実線:平均、バー゙:±2xSTD Dev. • 図b:距離が最小になるstepを示す。 • ξ 𝑛𝑢𝑚 (𝑖) との距離:入力との再構成エラーを最少 にするにはノイズと共に、多くの時間が必要 • ξ 𝑛𝑢𝑚との距離:ラベル推定には、ノイズに関 わらず30-40ステップで良い
  • 12. ノイズとラベル推定精度 • 学習済VAEにノイズを可変した 画像を入力しステップtでの活動 パターンを入手。それを別の学 習済分類器(CNN)で分類 • 図a,ラベル“6”、図b、ラベル”1” は、200回試行し、もっとも頻 度の多いラベルを示す。 • 図a,b:ともに: ノイズが小さい、 中庸の範囲では、ラベル正解。 12 学習済VAE ノイズ可変 画像 活動パターン 𝑉 𝑒𝑥𝑡 (t) 学習済分類器 (CNN) 0~9を判別 学習済分類器(CNN) MNISTで学習済 判別精度99.25% 入力”6” 入力”1”
  • 13. 活動パターンのクラスタセンターへ接近することの意味 • VAEは、入力画像のクラスタ構造を抽出できて いる。 – 活動パターンがクラスターセンターに近づくことで、どの ラベルに属しているかの分類が可能 – 活動パターンが、クラスターセンタに近づくことで、同時 に、ノイス無しの再構成画像を実現している • VAEは、高次元の画像を、潜在空間における低 次の部分空間で表現している。 – 入力画像にノイズをいれるということは、潜在空間にお ける部分空間からの差異を生じさせており、その差異を まず削減するべく活動パターンは動く – よって活動パターンは、まずメモリーベクトルに近づき、 次にクラスターセンタに近づく。 13
  • 14. 潜在空間次元数の表現能力 • 次元数100と、各ラベル0~9の クラスタセンターの強度 – 一握りの次元がactiveで、多くの次 元はnon-active。 • 次元数100の内、主成分分析で 主要な固有ベクトルは14個で あった。14個で70%の分散を 確保可能→100個は不要 14
  • 15. 潜在空間次元数、直行性、汎化性との関係 • クラスターセンター間の直行性と活動パ ターンの関係を評価した • 𝐶𝑖𝑗 = ξ 𝑖 ∙ ξ 𝑗 ξ 𝑖 𝐹 2 ∙ ξ 𝑗 𝐹 2, 𝐴 𝐹 2 = 𝑖𝑗 𝐴𝑖𝑗 2 : 𝐹𝑟𝑜𝑏𝑖𝑛𝑖𝑢𝑠 𝑛𝑜𝑟𝑚 • 𝑁𝑧 ≥ 14で、 𝐶 − 𝐼 𝐹 2 が十分最小値に漸近 している • 𝑁𝑧 ≥ 14での、活動パターンとクラスター センターの距離のグラフは正常 • 次元数が小さいと、活動パターンの空間を 直行したクラスタ-センタで張れず、活動 パターンが正しいクラスターに近づきにく くなる • VAE Loss: 𝑁𝑧を変化させたところ𝑁𝑧 ≥ 14 15
  • 16. まとめ・感想 • まとめ – クリーンなクラスタ構造を持つ画像セットで標準的なVAEを学習し、繰り返し推論で 活動パターンのダイナミクスを調査したところ、Associative Memory Modelの挙動と 以下で一致することが分かった • 活動パターン軌跡は、クラスタセンターに近づく • 入力画像のノイズが増えると、全クラスターセンターに近づき、ラベル推定で誤る – 潜在変数の次元数が推測性能に与える影響を調べた • 次元数が一定以上大きければ(𝑁𝑧 ≥ 14)、活動パターンが存在する潜在空間の部分空間を直工 するクラスタセンタで張ることができ、活動パターンが正しいクラスタセンターへ近づきやすくなる – 今後は、異なる階層を持つデータセットで試す 16