SlideShare une entreprise Scribd logo
1  sur  12
DEEP LEARNING JP
[DL Papers]
A Surprisingly Effective Fix for Deep Latent Variable
Modeling of Text
Toru Fujino, UTokyo, SCSLab
http://deeplearning.jp/
1
概要
• A Surprisingly Effective Fix for Deep Latent Variable Modeling of Text
• EMNLP 2019 (short paper)
• 要約
• テキストを扱うVAEで学習上の問題となっていたPosterior collapseに対し, 先行研究
で提案されていた手法を組み合わせて使うことにより問題を軽減し, 従来よりも性能
を大幅に更新. また, テキストにおけるVAEではELBOが不適切であることを指摘.
テキストにおけるVAE [Bowman et al. 2016]
• Encoder, DecoderにはRNN (LSTM) を用いるのが一般的.
• 潜在表現zをもとにした言語モデルを学習させることにより, 潜在空間での
なめらかなサンプリングが可能になる
テキストのVAEにおける課題: Posterior collapse
• VAEの目的関数: 再構成誤差 + KL距離
• KL項は再構成誤差項に比べて学習が容易であり, 損失が学習の早い段階で
0になってしまう.
• Posterior (事後分布) が事前分布に一致してしまい, Encoderからの情報が
無視されてしまう
• テキストを扱うVAEで顕著 [Bowman et al. 2016]
• DecoderでRNNを使うと毎ステップで正解データが与えられるため, 潜在表現zに頼
る必要がないのが一因.
Posterior collapseへの様々な対策
• 潜在表現zに有益な情報が埋め込まれるように仕向ける
• KL項の係数0から徐々に1に近づけていく [Bowman et al. 2016]
• KL項の係数をCyclicに調整 [X. Liu et al. 2019]
• KL項の誤差に閾値 (max) を設ける [Kingma et al. 2016]
• Encoderの学習周期をDecoderのそれよりも早くする
[He et al. 2019]
• Decoderの力を弱める
• Decoderの各時刻の単語の入力を一定確率で<UNK>に置き換える [Bowman et al.
2016]
• Decoderの各時刻の入力に潜在表現zをconcatする [Bowman et al. 2016]
• DecoderにDilated CNNを使って情報をsparseにする
[Z. Yang et al. 2017]
先行研究の手法それぞれに対する予備実験
• 言語モデルとしての性能 (Perplexity: PPL) とVAEによる表現学習の精度を
両立させたい.
• 言語モデルの性能 (PPL) と表現学習の性能 (Recon + AU) を両立させるの
は難しい.
• PPLが一番低いモデル (FB, ラムダ=3) は AUが低く, 潜在表現を有効活用できていな
い.
• AUが高いモデル (FB) はPPLが高い
仮説
• AEで事前学習をさせ, Decoderの学習時に最初から有益な潜在表現zをわ
たせばDecoderは潜在表現zを活用してくれるのではないか?
• AEの事前学習で実験してみた. が, やはりposterior collapseは起こってしまった.
• ELBOの勾配がposterior collapseの方向に向かっているので, 初期化しても
意味がない, という著者たちの結論
• AnnealingするとKL項の誤差が0になるのは防げるが, 活性ユニットの数は2だけ
提案手法
• AEでEncoderのみの事前学習を行い, その後に閾値を設定したKL項で学習
させる
• AEの事前学習
• 再構成誤差でEncoderを学習
• 潜在表現zに有益な情報を埋め込む
• 閾値を設定したKL項
• 誤差が閾値以下になったら学習を諦めるイメージ.
• 閾値をKL項全体に設定するパターンと次元ごとに設定するパターンで実験
結果: Posterior collapseを起こすこと無く学習できた
• 他手法よりも言語モデルとしての性能が高い (Perplexityが低い).
• 表現学習も上手く行っている.
• zの活性ユニットの数も上であり, zの情報を有効利用できている
• ラムダの大きさにもあまり依らない.
結果: 潜在空間での内挿 (Interpolation)
• 他手法よりもなめらかな内挿が可能
まとめ
• VAEでテキストを扱う際に問題となるPosterior collapseに対して, シンプ
ルな手法の組み合わせで従来手法よりも良い結果を出した.
• AEの目的関数での事前学習 + KL項の学習の制限
• NeurIPS 2019にも関連論文あり
• “Don’t Blame the ELBO! A Linear VAE Perspective on Posterior Collapse”
• TensorFlowで実装: https://github.com/toru34/li_emnlp_2019
• まだ少し未完成
参考文献
• (あとで追加します)

Contenu connexe

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 

Dernier

Dernier (10)

Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

[DL輪読会]A Surprisingly Effective Fix for Deep Latent Variable Modeling of Text