SlideShare une entreprise Scribd logo
1  sur  22
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
NVAE: A Deep Hierarchical Variational Autoencoder
Presenter: Keno Harada, The University of Tokyo, B4
目次
● 書誌情報
● 背景
● 提案手法
○ Depth wise convolution
○ Residual parameterization of posterior parameters
○ Spectral regularization
○ 階層構造
● 実験結果
● NVAE使ってみた on BAIR Robot push dataset
● Very deep VAE(ICLR 2021 underreview)
● 感想
2
書誌情報
● NVAE: A Deep Hierarchical Variational Autoencoder
● 著者: Arash Vahdat, Jan Kautz (NVIDIA)
● Neural Information Processing Systems (NeurIPS) 2020 (spotlight)
● 関連URL
○ 論文: https://arxiv.org/pdf/2007.03898.pdf
○ 著者実装: https://github.com/NVlabs/NVAE
● 概要
○ 階層的なVAEにおいてKL項の安定のためにSpectral Regularizationとpriorの確率分布パラメー
タとの差分を学習させるResidual Parameterizationを組み合わせ, またGeneratorが広範囲の関
係性をモデル化するためにDepth wise convolutionを使用してパラメータを増やしすぎること
なくCNNのfilterサイズを大きくしたNVAEを提案, 256 * 256の高解像度な画像生成を可能にし
た.
3
背景 ~make VAEs great again by architecture design~
● VAEの改善においてNeural network architectureの設計は見過ごされてきた
○ Classificationでうまくいった仕組みをそのまま取り入れていた
○ VAEの特徴に合わせた設計を
■ 入力データと潜在変数間で相互情報量の最大化
■ パラメータ増やした時の挙動が特殊
● Decoderはover parameterizeしちゃうと良くない
● Encoderはパラメータ増やすとamortization gapが減る
■ long-range correlations in dataをうまくモデル化すべき
■ 階層的なVAEではKL項によって学習が不安定に
4
提案手法 Nouveau VAE
● Depth wise convolutions (Generatorのみ)
○ 通常のConvよりもパラメータ数を増やずにreceptive fieldの拡大, MobileNetなどで使われる
○ 左右対称性とか肌のuniformさをモデル化したい
● Residual parameterization of approximate posterior parameters
○ KL項の安定化
● Spectral regularization
○ KL項の安定化
● 階層構造
○ long-range correlationsへの対処
○ IAF-VAEの構造を参考に
● この他様々な工夫あり(活性化関数やKL warmingなど)
5
Depth wise convolutions
parameter数
2d conv: Cin * K * K * Cout
Depth wise: Cin * K * K
Point wise: Cin * 1 * 1 * Cout
(K * K * Cin + Cin*Cout) / (Cin *
K * K * Cout) = 1/Cout + 1/K**2
計算量と表現力の工夫のため
Inverted residualを採用
詳しくは: https://qiita.com/yu4u/items/dc26d220e85279e76157
MobileNetV2: Inverted Residuals and Linear Bottlenecks (Fig3b)
NVAE (Fig3a)
6
Depth wise convolutions
7
Residual parameterization of approximate posterior parameters
なんでうまくいくの??
8
Residual parameterization of approximate posterior parameters
9
Spectral regularization
● KL項を安定させたい
○ Encoderの入力が変化しても大きな変動がないような出力をさせたい
■ リプシッツ定数をコントロールする
● → Spectral Regularization
● GANの学習の安定性に大きく寄与した要素
Spectral normalizationについての輪読会資料: https://www.slideshare.net/DeepLearningJP2016/dl-spectral-norm-regularization-for-improving-the-generalizability-of-
deep-learningspectral-normalization-for-gans
10
Spectral regularization
11
階層構造
12
階層構造
13
Improved Variational Inference with Inverse Autoregressive Flow Fig6
モデル構造
14
実験結果
bits per dimension:
NLL * 1. / np.log(2.) /
(C*H*W)
が右図の値, 解像度が異なっ
ても比較できるようにする
15
実験結果
16
zの標準偏差を狭めても多様性のある生成が可能
Sample時Batch Normのチューニングによって質が良くなることを報告
17
NVAE 使ってみた on BAIR push dataset
18
NVAE 使ってみた on BAIR push dataset
19
Very deep VAE(ICLR 2021 under review)
https://openreview.net/pdf?id=RLRXCV6DbEJ
潜在変数の階層が観測変数の次元と同じになればVAEが自己回帰モデルと等価で
あるという導入から階層の深さに着目, 高解像度の画像生成に成功
学習の安定化のための施策
● 重みの初期化
○ Residual bottlleneck blockの最後のCNNを1/√Nで初期化(Nは層の深さ)
■ その他の層はPyTorchのデフォルトの設定
● upsamplingをNearest neighborで行う
○ 階層が深くなっても勾配がscaleすることなく伝わる
○ free bits, KL warming upのような工夫を除いてもうまくいった
● 勾配ノルムが一定以上の場合はupdateをskip
○ Spectral Regularizationとは違ったヒューリスティックな方法
● p(z)を固定してq(z|x)の学習を行う(epochの半分)
20
Very deep VAE(ICLR 2021 under review)
21
NVAEに比べてzの階層をより深くした
パラメータ数も少ない
NVAEは畳み込みのチャンネル数が多い
NVAEの工夫をVery deep VAEに取り込むことは
可能
感想
● NVAEの実装から滲み出てくる大量の実験を回すための工夫
○ モデルを切り出して他のタスクに使うみたいなハードルが高い
■ 切り出し試み中
○ チャンネル数, 階層の数を同じにした工夫なしのモデルとの比較見てみたい
● Residual parameterizationがなぜうまくいくのかよくわからない
● Very deep + 既存の工夫で次のSoTA?
● disentangleについてあまり考察されていない
22

Contenu connexe

Tendances

Tendances (20)

【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 

Similaire à [DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder

Similaire à [DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder (20)

2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会
 
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
 
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
 
Efficient Neural Architecture Search via Parameters Sharing @ ICML2018読み会
Efficient Neural Architecture Search via Parameters Sharing @ ICML2018読み会Efficient Neural Architecture Search via Parameters Sharing @ ICML2018読み会
Efficient Neural Architecture Search via Parameters Sharing @ ICML2018読み会
 
Graph U-Net
Graph U-NetGraph U-Net
Graph U-Net
 
Cmc cmd slim
Cmc cmd slimCmc cmd slim
Cmc cmd slim
 
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning
 
FPGAをロボット(ROS)で「やわらかく」使うには
FPGAをロボット(ROS)で「やわらかく」使うにはFPGAをロボット(ROS)で「やわらかく」使うには
FPGAをロボット(ROS)で「やわらかく」使うには
 
200702material hirokawa
200702material hirokawa200702material hirokawa
200702material hirokawa
 
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
 
OpenStack Summit November 2014 Paris出張報告
OpenStack Summit November 2014 Paris出張報告OpenStack Summit November 2014 Paris出張報告
OpenStack Summit November 2014 Paris出張報告
 
レトリバ勉強会資料:深層学習による自然言語処理2章
レトリバ勉強会資料:深層学習による自然言語処理2章レトリバ勉強会資料:深層学習による自然言語処理2章
レトリバ勉強会資料:深層学習による自然言語処理2章
 
[DL輪読会]GraphSeq2Seq: Graph-Sequence-to-Sequence for Neural Machine Translation
[DL輪読会]GraphSeq2Seq: Graph-Sequence-to-Sequence for Neural Machine Translation[DL輪読会]GraphSeq2Seq: Graph-Sequence-to-Sequence for Neural Machine Translation
[DL輪読会]GraphSeq2Seq: Graph-Sequence-to-Sequence for Neural Machine Translation
 
20210531 ora jam_stackgan
20210531 ora jam_stackgan20210531 ora jam_stackgan
20210531 ora jam_stackgan
 
STARC RTL設計スタイルガイドによるVerilog HDL並列記述の補強
STARC RTL設計スタイルガイドによるVerilog HDL並列記述の補強STARC RTL設計スタイルガイドによるVerilog HDL並列記述の補強
STARC RTL設計スタイルガイドによるVerilog HDL並列記述の補強
 
[DL Hacks]Self-Attention Generative Adversarial Networks
[DL Hacks]Self-Attention Generative Adversarial Networks[DL Hacks]Self-Attention Generative Adversarial Networks
[DL Hacks]Self-Attention Generative Adversarial Networks
 

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Dernier

Dernier (11)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 

[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ NVAE: A Deep Hierarchical Variational Autoencoder Presenter: Keno Harada, The University of Tokyo, B4
  • 2. 目次 ● 書誌情報 ● 背景 ● 提案手法 ○ Depth wise convolution ○ Residual parameterization of posterior parameters ○ Spectral regularization ○ 階層構造 ● 実験結果 ● NVAE使ってみた on BAIR Robot push dataset ● Very deep VAE(ICLR 2021 underreview) ● 感想 2
  • 3. 書誌情報 ● NVAE: A Deep Hierarchical Variational Autoencoder ● 著者: Arash Vahdat, Jan Kautz (NVIDIA) ● Neural Information Processing Systems (NeurIPS) 2020 (spotlight) ● 関連URL ○ 論文: https://arxiv.org/pdf/2007.03898.pdf ○ 著者実装: https://github.com/NVlabs/NVAE ● 概要 ○ 階層的なVAEにおいてKL項の安定のためにSpectral Regularizationとpriorの確率分布パラメー タとの差分を学習させるResidual Parameterizationを組み合わせ, またGeneratorが広範囲の関 係性をモデル化するためにDepth wise convolutionを使用してパラメータを増やしすぎること なくCNNのfilterサイズを大きくしたNVAEを提案, 256 * 256の高解像度な画像生成を可能にし た. 3
  • 4. 背景 ~make VAEs great again by architecture design~ ● VAEの改善においてNeural network architectureの設計は見過ごされてきた ○ Classificationでうまくいった仕組みをそのまま取り入れていた ○ VAEの特徴に合わせた設計を ■ 入力データと潜在変数間で相互情報量の最大化 ■ パラメータ増やした時の挙動が特殊 ● Decoderはover parameterizeしちゃうと良くない ● Encoderはパラメータ増やすとamortization gapが減る ■ long-range correlations in dataをうまくモデル化すべき ■ 階層的なVAEではKL項によって学習が不安定に 4
  • 5. 提案手法 Nouveau VAE ● Depth wise convolutions (Generatorのみ) ○ 通常のConvよりもパラメータ数を増やずにreceptive fieldの拡大, MobileNetなどで使われる ○ 左右対称性とか肌のuniformさをモデル化したい ● Residual parameterization of approximate posterior parameters ○ KL項の安定化 ● Spectral regularization ○ KL項の安定化 ● 階層構造 ○ long-range correlationsへの対処 ○ IAF-VAEの構造を参考に ● この他様々な工夫あり(活性化関数やKL warmingなど) 5
  • 6. Depth wise convolutions parameter数 2d conv: Cin * K * K * Cout Depth wise: Cin * K * K Point wise: Cin * 1 * 1 * Cout (K * K * Cin + Cin*Cout) / (Cin * K * K * Cout) = 1/Cout + 1/K**2 計算量と表現力の工夫のため Inverted residualを採用 詳しくは: https://qiita.com/yu4u/items/dc26d220e85279e76157 MobileNetV2: Inverted Residuals and Linear Bottlenecks (Fig3b) NVAE (Fig3a) 6
  • 8. Residual parameterization of approximate posterior parameters なんでうまくいくの?? 8
  • 9. Residual parameterization of approximate posterior parameters 9
  • 10. Spectral regularization ● KL項を安定させたい ○ Encoderの入力が変化しても大きな変動がないような出力をさせたい ■ リプシッツ定数をコントロールする ● → Spectral Regularization ● GANの学習の安定性に大きく寄与した要素 Spectral normalizationについての輪読会資料: https://www.slideshare.net/DeepLearningJP2016/dl-spectral-norm-regularization-for-improving-the-generalizability-of- deep-learningspectral-normalization-for-gans 10
  • 13. 階層構造 13 Improved Variational Inference with Inverse Autoregressive Flow Fig6
  • 15. 実験結果 bits per dimension: NLL * 1. / np.log(2.) / (C*H*W) が右図の値, 解像度が異なっ ても比較できるようにする 15
  • 18. NVAE 使ってみた on BAIR push dataset 18
  • 19. NVAE 使ってみた on BAIR push dataset 19
  • 20. Very deep VAE(ICLR 2021 under review) https://openreview.net/pdf?id=RLRXCV6DbEJ 潜在変数の階層が観測変数の次元と同じになればVAEが自己回帰モデルと等価で あるという導入から階層の深さに着目, 高解像度の画像生成に成功 学習の安定化のための施策 ● 重みの初期化 ○ Residual bottlleneck blockの最後のCNNを1/√Nで初期化(Nは層の深さ) ■ その他の層はPyTorchのデフォルトの設定 ● upsamplingをNearest neighborで行う ○ 階層が深くなっても勾配がscaleすることなく伝わる ○ free bits, KL warming upのような工夫を除いてもうまくいった ● 勾配ノルムが一定以上の場合はupdateをskip ○ Spectral Regularizationとは違ったヒューリスティックな方法 ● p(z)を固定してq(z|x)の学習を行う(epochの半分) 20
  • 21. Very deep VAE(ICLR 2021 under review) 21 NVAEに比べてzの階層をより深くした パラメータ数も少ない NVAEは畳み込みのチャンネル数が多い NVAEの工夫をVery deep VAEに取り込むことは 可能
  • 22. 感想 ● NVAEの実装から滲み出てくる大量の実験を回すための工夫 ○ モデルを切り出して他のタスクに使うみたいなハードルが高い ■ 切り出し試み中 ○ チャンネル数, 階層の数を同じにした工夫なしのモデルとの比較見てみたい ● Residual parameterizationがなぜうまくいくのかよくわからない ● Very deep + 既存の工夫で次のSoTA? ● disentangleについてあまり考察されていない 22

Notes de l'éditeur

  1. https://qiita.com/omiita/items/77dadd5a7b16a104df83 https://arxiv.org/pdf/1801.04381v3.pdf https://qiita.com/yu4u/items/dc26d220e85279e76157
  2. https://www.slideshare.net/DeepLearningJP2016/dl-spectral-norm-regularization-for-improving-the-generalizability-of-deep-learningspectral-normalization-for-gans
  3. https://www.slideshare.net/DeepLearningJP2016/dl-spectral-norm-regularization-for-improving-the-generalizability-of-deep-learningspectral-normalization-for-gans
  4. https://www.slideshare.net/DeepLearningJP2016/dl-spectral-norm-regularization-for-improving-the-generalizability-of-deep-learningspectral-normalization-for-gans