SlideShare une entreprise Scribd logo
1  sur  27
Autoregressive Diffusion
Models
CAD DTU 技統支援T
奥井 恒
2022/07/15
©2022 ARISE analytics Reserved.
ICLR2022論文読み会
Introduction
©2022 ARISE analytics Reserved
Autoregressive Diffusion Model (ARDM)
©2022 ARISE analytics Reserved. 2
自己回帰モデルと拡散モデルを一般化したモデル。
性能を大幅に低下させることなく、同時に複数のトークンを生成するために
並列化することができる。
Autoregressive Diffusion Model (ARDM)
©2022 ARISE analytics Reserved. 3
今回紹介する論文は生成モデルについての論文。任意の順番で複数のピクセ
ルを同時に生成できる。
ARDMによる生成プロ
セス
この論文の位置づけ
©2022 ARISE analytics Reserved. 4
※正確には、OA-ARM, Discrete Diffusion model を一般化
ARDMは、自己回帰モデルと拡散モデルを一般化したモデル※
Autoregressive Diffusion Model
• Autoregressive Model を改善
• 順序に依存しない
• Diffusion Model を効率化
• 少ないステップで同程度の精度を担保
Generative Model
Deep Generative Model
VAE
GAN
Flow
Autoregressive Model
Diffusion Model
生成モデル (Generative models)
©2022 ARISE analytics Reserved. 5
※ 参考(A.L.Yullie et.al, 2006)
生成モデルとは、学習データからそのデータの特徴を学習し、類似したデータ
を生成することができるモデル
学習データの背後にある確率分布を推定し獲得する。
学習対象のデータ分
布
生成モデルの確率分布
近づける
:学習データ
使い道の例
生成モデル
対象ドメインのデータを生成
• 画像、音声、化合物を生成する
• シミュレーターを作る
対象ドメインのデータを生成
• 生成された候補が正しいか評価できる
• 異常検知に利用する
データを詳細に解析
• Analysis by Synthesis(生成による解析)※
• 認識モデルの汎化性能を向上
深層生成モデル (Deep generative models)
©2022 ARISE analytics Reserved. 6
表は「ディープラーニングを支える技術2」から引用
ニューラルネットワークを使って、生成過程を近似しモデル化する。表現力が
高く、複雑な生成対象を扱うことができる。
①抽象化表
現が得られ
る
②尤度が評
価できる
③学習が安
定している
④高忠実な
生成ができ
る
⑤高速に
生成できる
VAE 〇 △(下限) 〇 △ 〇
GAN △ × × 〇 〇
Flow △ 〇 △ △ 〇
ARM × 〇 〇 〇 ×
DM △ 〇 〇 〇 ×
①抽象化表現が得られる
データを要約したような表現ができるか
②尤度が評価できる
尤度(もしくは下限)を表現できるか
③学習が安定している
学習が常に成功するか、ハイパーパラメー
タの調整が難しくないか
④高忠実な生成ができる
元のデータに高忠実な生成できるか
⑤高速に生成できる
対象ドメインのデータを高速に生成できる
か
VAE, GAN, Flow
©2022 ARISE analytics Reserved. 7
VAE、GAN、Flowモデルは以下のような構造。
詳細はそのほかの資料をご参考ください。
日本語の記事もある。
Flow-based Deep Generative Models | Lil‘Log (lilianweng.github.io) より
自己回帰モデル (Autoregressive models)
©2022 ARISE analytics Reserved. 8
※ 高速化の方法として、Causal CNN(マスク付きCNN)やDilated Convolutionなども提案されてい
る。
推論の並列化を行う研究もある (参考)
自分が過去に出力した結果を条件とした条件付き確率モデルを使って、データを
次々と出力するようなモデル
𝑝 𝑥1, 𝑥2, 𝑥3, ⋯ , 𝑥𝑑
= 𝑝 𝑥1 𝑝 𝑥2 𝑥1 𝑝 𝑥3 𝑥1𝑥2 , ⋯ 𝑝 𝑥𝑑 𝑥1 … 𝑥𝑑−1
=
𝑖=1
𝑑
𝑝(𝑥𝑖|𝑥<𝑖)
複雑な同時確立を条件付き確率として
表し、各条件付き確率をモデル化する
例
• GPT3(自然言語)
• WaveNet(音声合成)
メリッ
ト
デメ
リット
• 精度が良い(VAEや正規化フ
ローと比較して、尤度が高く出
ている)
• データを生成する順番を事前に
指定する必要がある。
• 生成が遅い※ (各次元を一つずつ
逐次的に生成するため)
• 解釈性が低い(潜在因子を見つ
けることはできない:VAE,GAN
では可能)
特徴
概要
拡散モデル (Diffusion models)
©2022 ARISE analytics Reserved. 9
自己回帰モデルと特徴が似ているが、学習・生成過程が異なる。
(拡散モデルは各時刻にノイズを加えたり・戻したりして、次の時刻の
ノイズからスタートし、徐々にノイズを除去していくことでデータを生成する
モデル
• 生成品質が高く、多様なデータ
を生成できる
• 最尤推定で安定して学習できる
(参考)
• 生成に時間がかかる
J.Ho, et.al.(2020) より引用
逆拡散過程
→
←
拡散過程
各時刻で、拡散過程 𝑞 によって、𝑥𝑡−1 から
𝑥𝑡 へのノイズが加えられたデータが、逆拡
散過程で 𝑥𝑡 から 𝑥𝑡−1 に戻る確率が高くなる
ようにしていく。
メリッ
ト
デメ
リット
特徴
概要
ARDMs (Autoregressive Diffusion Models)
©2022 ARISE analytics Reserved. 10
ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生
成モデル
ARM
DM
• 順序に依存しない
• 少ないステップで実行、並列処理も可能
• データを生成する順番を事前に
指定する必要がある
• 生成が遅い※ (各次元を一つず
つ逐次的に生成するため)
• 生成に時間がかかる
特徴
改善したポイント
ARDMについて
©2022 ARISE analytics Reserved
ARDMs (Autoregressive Diffusion Models)
©2022 ARISE analytics Reserved. 12
ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生
成モデル
特徴
ARDMの概要
• ランダムな順序で変数を生成
• 複数の変数に対する分布が同時に生成され
るので、並列化が可能(動的計画法を使う)
• 順序に依存しない
• 少ないステップで実行、並列処理も可能
前のページの改善イメージ
©2022 ARISE analytics Reserved. 13
変数の生成
• ランダムな順序で変数を生成
• 複数の変数に対する分布が同時に生成され
るので、並列化が可能(動的計画法を使う)
ARDMの特徴
ランダムな順序の変数を生成し、尤度の要素をサンプリングして最適化する。
tに関する総和を適切に再重み
付けされた期待値で置き換え
る
Lt項はステップtの尤度成分を表す。
データポイントの全てのLt項を同時に最適化
する必要はない
ランダム順序での変数生成アルゴリズム
©2022 ARISE analytics Reserved. 14
参考:Autoregressive Diffusion Models (Machine Learning Research Paper Explained) - YouTube
生成順序σ=(3,1,2,4)の自己回帰拡散モデルの生成を示す。
サンプルのベクトル
通常は順序に従っ
decode このモデルで
は最初は空
最初の予測機
同時にあらゆ
る変数につい
て分布を予測
その中から
デコードし
たいものを
選ぶ
一つを除いて同じサンプル
(一つはデコード、その他は
空)
同時に全体の
イメージを予
測
その中からデ
コードしたいも
のを選ぶ
第1層と第3層の塗りつぶされた円はそれぞれ入力変数と出力変数を表し、中間層はネットワー
クの内部活性化を表す。中間層はネットワークの内部活性化を表す。
ランダム順序での変数生成の学習アルゴリズム
©2022 ARISE analytics Reserved. 15
ARDM学習ステップを示す。
このステップでは、σ(1)=3を満たすすべての可能な並べ換
えσについて、同時にステップt=2で最適化する。
サンプリングでは、1ステップにつき1つの出力しか使用されてい
ないのに対し、学習ステップではマスクされたすべての次元が同
時に予測される
ARDMs (Autoregressive Diffusion Models)
©2022 ARISE analytics Reserved. 16
Watson et.al. 2021 のアイデアを基にしている
複数変数の分布が同時に生成され、並列化が可能
ARDMの概要
基本的には、xσ(<t)のみを条件としなが
ら、正のkに対するxσ(t+k)に対する分布
が欲しい。
将来の変数の予測と尤度の項との
関係
モデルがどのステップt + kを予測するかは問題
ではなく、期待的にはこれらはすべて同じ関連
尤度を持つ
その結果、順序にとらわれず、t番目の変数から始め
てk個のトークンを独立に生成すると、1ステップで
k・Ltの対数確率の寄与が得られる
(従来のアプローチではk回のステップを要する。)
並列化
• ランダムな順序で変数を生成
• 複数の変数に対する分布が同時に生成され
るので、並列化が可能(動的計画法を使う)
並列化
©2022 ARISE analytics Reserved. 17
動的計画法アルゴリズムを利用することで,どのステップを並列化すべきかを
求めることができる。
動的計画法から抽出された並列化された
方針。同じ高さの成分は同時にモデル化
されるため、並行して推論・生成される。
20ステップの問題に対して、5ステップで並列化ARDMの損失成分
各ステップの個別損失
成分
実験結果
©2022 ARISE analytics Reserved
実験
©2022 ARISE analytics Reserved. 19
少ないステップで同程度の性能が得られている。
NLL : negative-log-likelihood
bpc : bit per character
実験
©2022 ARISE analytics Reserved. 20
画像圧縮で良い性能をだし、音声・画像の性能も確認している。
bpd : bit per dimension
ARDMの限界
©2022 ARISE analytics Reserved. 21
ARDMの限界がいくつか紹介されている。
• めちゃくちゃ精度が良いとは言えない。
• 一階自己回帰モデルの性能にはまだギャップがある。予備実験では、言語用のアップ
スケール版では、順序にとらわれないバージョンより良い性能は得られなかった。
• 連続分布はまだ。
• ARDMは離散変数をモデル化している。原理的には、連続分布に対する吸収過程も定
義可能
• 異なるアーキテクチャがいい場合もある。
• 本研究では、対数尤度が可逆圧縮における符号化長に直接対応するため、対数尤度の
最適化に重点を置いている。しかし、サンプルの品質など他の目的に対して最適化す
る場合、異なるアーキテクチャの選択がより良い結果を与える可能性がある。
まとめ
©2022 ARISE analytics Reserved
まとめ
©2022 ARISE analytics Reserved. 23
自己回帰モデルと拡散モデルを一般化したARDMを紹介した。
• メリット
• ARDMは、同じ性能を達成するために必要なステップ数が大幅に減少する。
• 拡散モデルのために開発された動的計画法を用いて、ARDMは性能を大幅に低下させることな
く、同時に複数のトークンを生成するために並列化することができる。
• ARDMは離散拡散モデルと同等かそれ以上の性能を持ち、かつモデリングステップの効率性が
高い。
• 限界
• 限界もある。
• めちゃくちゃ精度が良いとは言えない。
• 連続分布はまだ。
• 異なるアーキテクチャがいい場合もある
Best Partner for innovation, Best Creator for the future.
References
©2022 ARISE analytics Reserved. 25
• 論文
• Autoregressive Diffusion Models | OpenReview
• コード
• https://openreview.net/pdf?id=Lm8T39vLDTE
• 参考書籍
• ディープラーニングを支える技術2 ニューラルネットワーク最大の謎
関連論文
©2022 ARISE analytics Reserved. 26
• Autoregressive model
• 定式化(Bengio & Bengio, 2000; Larochelle & Murray, 2011)
• 画像(van den Oord et al., 2016b; Child et al., 2019, i.a.)
• 音声(van den Oord et al., 2016a; Kalchbrenner et al, 2018, i.a.)
• テキスト(Bengio et al., 2003; Graves, 2013; Melis et al., 2018; Merity et al., 2018; Brown et al., 2020, i.a.)
• 順序に依存しない
• (Uria et al., 2014)
• Transformers(Yang et al., 2019; Alcorn & Nguyen, 2021)
• 尤度に基づくタスクで限られた成功しか残していない。
• マスク予測法(Ghazvininejad et al., 2019)
• グラフ(Jain et al.,2020)。Liu et al., 2018)
• Diffusion model
• Denoizing(Song & Ermon, 2019; Sohl-Dickstein et al.,2015; Ho et al., 2020)
• マッチングスコア
• 画像(Dhariwal & Nichol,2021)
• 音声(Chen et al. ,2020; Kong et al. ,2021)
• 変分解釈による尤度の改善(Kingma et al. ,2021; Huang et al. ,2021)
• 連続拡散モデルへの高速化(Jolicoeur-Martineau et al. ,2021; Kong & Ping ,2021)
• 離散拡散モデル
• バイナリデータ(Sohl Dickstein ,2015)
• カテゴリデータ(Hoogeboom et al. ,2021; Austin,2021)
• その他の離散拡散過程(Johnson et al. ,2021)

Contenu connexe

Tendances

変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 

Tendances (20)

Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 

Plus de ARISE analytics

Plus de ARISE analytics (20)

【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
 
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
 
めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方
 
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​
 
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
 
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
 
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
 
教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討
 
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
 
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
 
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
 
【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward
 
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
 
【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text Classification【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text Classification
 

Dernier

Dernier (11)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

【論文読み会】Autoregressive Diffusion Models.pptx

  • 1. Autoregressive Diffusion Models CAD DTU 技統支援T 奥井 恒 2022/07/15 ©2022 ARISE analytics Reserved. ICLR2022論文読み会
  • 3. Autoregressive Diffusion Model (ARDM) ©2022 ARISE analytics Reserved. 2 自己回帰モデルと拡散モデルを一般化したモデル。 性能を大幅に低下させることなく、同時に複数のトークンを生成するために 並列化することができる。
  • 4. Autoregressive Diffusion Model (ARDM) ©2022 ARISE analytics Reserved. 3 今回紹介する論文は生成モデルについての論文。任意の順番で複数のピクセ ルを同時に生成できる。 ARDMによる生成プロ セス
  • 5. この論文の位置づけ ©2022 ARISE analytics Reserved. 4 ※正確には、OA-ARM, Discrete Diffusion model を一般化 ARDMは、自己回帰モデルと拡散モデルを一般化したモデル※ Autoregressive Diffusion Model • Autoregressive Model を改善 • 順序に依存しない • Diffusion Model を効率化 • 少ないステップで同程度の精度を担保 Generative Model Deep Generative Model VAE GAN Flow Autoregressive Model Diffusion Model
  • 6. 生成モデル (Generative models) ©2022 ARISE analytics Reserved. 5 ※ 参考(A.L.Yullie et.al, 2006) 生成モデルとは、学習データからそのデータの特徴を学習し、類似したデータ を生成することができるモデル 学習データの背後にある確率分布を推定し獲得する。 学習対象のデータ分 布 生成モデルの確率分布 近づける :学習データ 使い道の例 生成モデル 対象ドメインのデータを生成 • 画像、音声、化合物を生成する • シミュレーターを作る 対象ドメインのデータを生成 • 生成された候補が正しいか評価できる • 異常検知に利用する データを詳細に解析 • Analysis by Synthesis(生成による解析)※ • 認識モデルの汎化性能を向上
  • 7. 深層生成モデル (Deep generative models) ©2022 ARISE analytics Reserved. 6 表は「ディープラーニングを支える技術2」から引用 ニューラルネットワークを使って、生成過程を近似しモデル化する。表現力が 高く、複雑な生成対象を扱うことができる。 ①抽象化表 現が得られ る ②尤度が評 価できる ③学習が安 定している ④高忠実な 生成ができ る ⑤高速に 生成できる VAE 〇 △(下限) 〇 △ 〇 GAN △ × × 〇 〇 Flow △ 〇 △ △ 〇 ARM × 〇 〇 〇 × DM △ 〇 〇 〇 × ①抽象化表現が得られる データを要約したような表現ができるか ②尤度が評価できる 尤度(もしくは下限)を表現できるか ③学習が安定している 学習が常に成功するか、ハイパーパラメー タの調整が難しくないか ④高忠実な生成ができる 元のデータに高忠実な生成できるか ⑤高速に生成できる 対象ドメインのデータを高速に生成できる か
  • 8. VAE, GAN, Flow ©2022 ARISE analytics Reserved. 7 VAE、GAN、Flowモデルは以下のような構造。 詳細はそのほかの資料をご参考ください。 日本語の記事もある。 Flow-based Deep Generative Models | Lil‘Log (lilianweng.github.io) より
  • 9. 自己回帰モデル (Autoregressive models) ©2022 ARISE analytics Reserved. 8 ※ 高速化の方法として、Causal CNN(マスク付きCNN)やDilated Convolutionなども提案されてい る。 推論の並列化を行う研究もある (参考) 自分が過去に出力した結果を条件とした条件付き確率モデルを使って、データを 次々と出力するようなモデル 𝑝 𝑥1, 𝑥2, 𝑥3, ⋯ , 𝑥𝑑 = 𝑝 𝑥1 𝑝 𝑥2 𝑥1 𝑝 𝑥3 𝑥1𝑥2 , ⋯ 𝑝 𝑥𝑑 𝑥1 … 𝑥𝑑−1 = 𝑖=1 𝑑 𝑝(𝑥𝑖|𝑥<𝑖) 複雑な同時確立を条件付き確率として 表し、各条件付き確率をモデル化する 例 • GPT3(自然言語) • WaveNet(音声合成) メリッ ト デメ リット • 精度が良い(VAEや正規化フ ローと比較して、尤度が高く出 ている) • データを生成する順番を事前に 指定する必要がある。 • 生成が遅い※ (各次元を一つずつ 逐次的に生成するため) • 解釈性が低い(潜在因子を見つ けることはできない:VAE,GAN では可能) 特徴 概要
  • 10. 拡散モデル (Diffusion models) ©2022 ARISE analytics Reserved. 9 自己回帰モデルと特徴が似ているが、学習・生成過程が異なる。 (拡散モデルは各時刻にノイズを加えたり・戻したりして、次の時刻の ノイズからスタートし、徐々にノイズを除去していくことでデータを生成する モデル • 生成品質が高く、多様なデータ を生成できる • 最尤推定で安定して学習できる (参考) • 生成に時間がかかる J.Ho, et.al.(2020) より引用 逆拡散過程 → ← 拡散過程 各時刻で、拡散過程 𝑞 によって、𝑥𝑡−1 から 𝑥𝑡 へのノイズが加えられたデータが、逆拡 散過程で 𝑥𝑡 から 𝑥𝑡−1 に戻る確率が高くなる ようにしていく。 メリッ ト デメ リット 特徴 概要
  • 11. ARDMs (Autoregressive Diffusion Models) ©2022 ARISE analytics Reserved. 10 ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生 成モデル ARM DM • 順序に依存しない • 少ないステップで実行、並列処理も可能 • データを生成する順番を事前に 指定する必要がある • 生成が遅い※ (各次元を一つず つ逐次的に生成するため) • 生成に時間がかかる 特徴 改善したポイント
  • 13. ARDMs (Autoregressive Diffusion Models) ©2022 ARISE analytics Reserved. 12 ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生 成モデル 特徴 ARDMの概要 • ランダムな順序で変数を生成 • 複数の変数に対する分布が同時に生成され るので、並列化が可能(動的計画法を使う) • 順序に依存しない • 少ないステップで実行、並列処理も可能
  • 14. 前のページの改善イメージ ©2022 ARISE analytics Reserved. 13 変数の生成 • ランダムな順序で変数を生成 • 複数の変数に対する分布が同時に生成され るので、並列化が可能(動的計画法を使う) ARDMの特徴 ランダムな順序の変数を生成し、尤度の要素をサンプリングして最適化する。 tに関する総和を適切に再重み 付けされた期待値で置き換え る Lt項はステップtの尤度成分を表す。 データポイントの全てのLt項を同時に最適化 する必要はない
  • 15. ランダム順序での変数生成アルゴリズム ©2022 ARISE analytics Reserved. 14 参考:Autoregressive Diffusion Models (Machine Learning Research Paper Explained) - YouTube 生成順序σ=(3,1,2,4)の自己回帰拡散モデルの生成を示す。 サンプルのベクトル 通常は順序に従っ decode このモデルで は最初は空 最初の予測機 同時にあらゆ る変数につい て分布を予測 その中から デコードし たいものを 選ぶ 一つを除いて同じサンプル (一つはデコード、その他は 空) 同時に全体の イメージを予 測 その中からデ コードしたいも のを選ぶ 第1層と第3層の塗りつぶされた円はそれぞれ入力変数と出力変数を表し、中間層はネットワー クの内部活性化を表す。中間層はネットワークの内部活性化を表す。
  • 16. ランダム順序での変数生成の学習アルゴリズム ©2022 ARISE analytics Reserved. 15 ARDM学習ステップを示す。 このステップでは、σ(1)=3を満たすすべての可能な並べ換 えσについて、同時にステップt=2で最適化する。 サンプリングでは、1ステップにつき1つの出力しか使用されてい ないのに対し、学習ステップではマスクされたすべての次元が同 時に予測される
  • 17. ARDMs (Autoregressive Diffusion Models) ©2022 ARISE analytics Reserved. 16 Watson et.al. 2021 のアイデアを基にしている 複数変数の分布が同時に生成され、並列化が可能 ARDMの概要 基本的には、xσ(<t)のみを条件としなが ら、正のkに対するxσ(t+k)に対する分布 が欲しい。 将来の変数の予測と尤度の項との 関係 モデルがどのステップt + kを予測するかは問題 ではなく、期待的にはこれらはすべて同じ関連 尤度を持つ その結果、順序にとらわれず、t番目の変数から始め てk個のトークンを独立に生成すると、1ステップで k・Ltの対数確率の寄与が得られる (従来のアプローチではk回のステップを要する。) 並列化 • ランダムな順序で変数を生成 • 複数の変数に対する分布が同時に生成され るので、並列化が可能(動的計画法を使う)
  • 18. 並列化 ©2022 ARISE analytics Reserved. 17 動的計画法アルゴリズムを利用することで,どのステップを並列化すべきかを 求めることができる。 動的計画法から抽出された並列化された 方針。同じ高さの成分は同時にモデル化 されるため、並行して推論・生成される。 20ステップの問題に対して、5ステップで並列化ARDMの損失成分 各ステップの個別損失 成分
  • 20. 実験 ©2022 ARISE analytics Reserved. 19 少ないステップで同程度の性能が得られている。 NLL : negative-log-likelihood bpc : bit per character
  • 21. 実験 ©2022 ARISE analytics Reserved. 20 画像圧縮で良い性能をだし、音声・画像の性能も確認している。 bpd : bit per dimension
  • 22. ARDMの限界 ©2022 ARISE analytics Reserved. 21 ARDMの限界がいくつか紹介されている。 • めちゃくちゃ精度が良いとは言えない。 • 一階自己回帰モデルの性能にはまだギャップがある。予備実験では、言語用のアップ スケール版では、順序にとらわれないバージョンより良い性能は得られなかった。 • 連続分布はまだ。 • ARDMは離散変数をモデル化している。原理的には、連続分布に対する吸収過程も定 義可能 • 異なるアーキテクチャがいい場合もある。 • 本研究では、対数尤度が可逆圧縮における符号化長に直接対応するため、対数尤度の 最適化に重点を置いている。しかし、サンプルの品質など他の目的に対して最適化す る場合、異なるアーキテクチャの選択がより良い結果を与える可能性がある。
  • 24. まとめ ©2022 ARISE analytics Reserved. 23 自己回帰モデルと拡散モデルを一般化したARDMを紹介した。 • メリット • ARDMは、同じ性能を達成するために必要なステップ数が大幅に減少する。 • 拡散モデルのために開発された動的計画法を用いて、ARDMは性能を大幅に低下させることな く、同時に複数のトークンを生成するために並列化することができる。 • ARDMは離散拡散モデルと同等かそれ以上の性能を持ち、かつモデリングステップの効率性が 高い。 • 限界 • 限界もある。 • めちゃくちゃ精度が良いとは言えない。 • 連続分布はまだ。 • 異なるアーキテクチャがいい場合もある
  • 25. Best Partner for innovation, Best Creator for the future.
  • 26. References ©2022 ARISE analytics Reserved. 25 • 論文 • Autoregressive Diffusion Models | OpenReview • コード • https://openreview.net/pdf?id=Lm8T39vLDTE • 参考書籍 • ディープラーニングを支える技術2 ニューラルネットワーク最大の謎
  • 27. 関連論文 ©2022 ARISE analytics Reserved. 26 • Autoregressive model • 定式化(Bengio & Bengio, 2000; Larochelle & Murray, 2011) • 画像(van den Oord et al., 2016b; Child et al., 2019, i.a.) • 音声(van den Oord et al., 2016a; Kalchbrenner et al, 2018, i.a.) • テキスト(Bengio et al., 2003; Graves, 2013; Melis et al., 2018; Merity et al., 2018; Brown et al., 2020, i.a.) • 順序に依存しない • (Uria et al., 2014) • Transformers(Yang et al., 2019; Alcorn & Nguyen, 2021) • 尤度に基づくタスクで限られた成功しか残していない。 • マスク予測法(Ghazvininejad et al., 2019) • グラフ(Jain et al.,2020)。Liu et al., 2018) • Diffusion model • Denoizing(Song & Ermon, 2019; Sohl-Dickstein et al.,2015; Ho et al., 2020) • マッチングスコア • 画像(Dhariwal & Nichol,2021) • 音声(Chen et al. ,2020; Kong et al. ,2021) • 変分解釈による尤度の改善(Kingma et al. ,2021; Huang et al. ,2021) • 連続拡散モデルへの高速化(Jolicoeur-Martineau et al. ,2021; Kong & Ping ,2021) • 離散拡散モデル • バイナリデータ(Sohl Dickstein ,2015) • カテゴリデータ(Hoogeboom et al. ,2021; Austin,2021) • その他の離散拡散過程(Johnson et al. ,2021)