SlideShare une entreprise Scribd logo
1  sur  19
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
GANSYNTH: ADVERSATIAL NEURAL AUDIO SYNTHESIS
Rei Mizuta, Graduate School of Mathematical Sciences, UT
書誌情報
• 著者:Jesse Engel, Kumar Krishna Agrawal, Shuo Chen, Ishaan
Gulrajani, Chris Donahue, Adam Roberts
• Google AIの方々
• ICLR 2019 waiting review
• openreview.netでの査読コメントを見る限りacceptされそう?
2
目的
• audio(=波形データ)で曲を学習、合成したい。
– ピアノの曲をヴァイオリンで再生するなど。
• audioデータは1秒に数万サンプリングされているが、周期的という特徴をうまく
捉えて学習したい。具体的には次のいずれかの戦略を使いたい
– Dilatedもしくは様々なスケールで畳み込む
– (窓)フーリエ変換後のベクトルをinputにする
• 既存手法より上手に合成したい
– 音程が変わっても、音色に一貫性を持たせたい
3
要点
(1)GANを使ってaudioを合成する手法で既存手法(WaveNet,WaveGAN)と比べて
実験でいい評価を得た。特に既存手法の改善点として合成後の音声データはス
ペクトルに偏りがあることを明らかにした。
(2)技術的な新規性は、周波数の位相の代わりに位相のずれを測るInstantaneous
Frequencyという量に注目したことである。これによってより画像データに近
いベクトルを生成した。
4
目次
1. 既存手法
1. WaveNet
2. WaveGan
2. 提案手法
1. Instantaneous Frequency
3. 各手法の評価
1. データセットと評価指標
2. アーキテクチャ
3. 結果
4. まとめと感想
5
1.1 WaveNet
Speech Synthesisに使われている既存手法としてWaveNet(Oord et al. ‘16)が
ある。
このネットワークの特徴は
• 入力がaudio、出力がaudio*256(本来は65536通りだが減らす)の確率値
• 固定長
• Dilationを使う
6
.wav形式だと最高で65536(16bit)
1.1 WaveNet
Speech Synthesisに使われている既存手法としてWaveNet(Oord et al. ‘16)が
ある。
このネットワークの特徴は
• 入力がaudio、出力がaudioサイズの確率
• 固定長
• Dilationを使う
7
hが特徴に関わるベクトルとして、Vで特徴を学習
1.2 WaveGan
• Audioデータに対してDCGANの手法を使って学習する。画像と音声データの違
いとして、周期的であることを考慮して、畳み込み層のレイヤーをDCGANよ
り増やす。
8
DCGANでの5*5の畳み込み層の代わりにWaveGANでは25*1の畳み込みをする
目次
1. 既存手法
1. WaveNet
2. WaveGan
2. 提案手法
1. Instantaneous Frequency
3. 各手法の評価
1. データセットと評価指標
2. アーキテクチャ
3. 結果
4. まとめと感想
9
2.1 Instantaneous Frequency
10
• (上)曲の一部をフーリエ変換した後の位相およびIFの表。(下)位相及びIFを各周
波数ごとに並べた「画像」
– IFの方が時間方向に周期的な要素が少なくより画像データに近いベクトルになっていると考え
られる
目次
1. 既存手法
1. WaveNet
2. WaveGan
2. 提案手法
1. Instantaneous Frequency
3. 各手法の評価
1. データセットと評価指標
2. アーキテクチャ
3. 結果
4. まとめと感想
11
3.1. データセットと評価指標
12
• 300000曲のデータセット(NSynth)。1曲は1000個の異なる楽器のうち一つの
みの演奏からなり、4秒間を64000箇所サンプリングする。
• このうちacoustic instrumentのみ、32~1000Hzの間にある70370曲で8割を学
習、2割をtestに使う
• 評価指標について、6種類あるが論文中で可視化されている2つのみ紹介する
– (Human Evaluation) 二つ聞かせてどちらが良いか答えさせる
– (Number of Different Bins;NDB) (Richardson & Weiss ‘18)で論じられている。画像をボ
ロノイ図にしてクラスタリングしたのちカテゴリに入った数の差を測る
3.2. アーキテクチャ
13
• magendaのデータ1曲が64000サンプルサイズであるのに対し、まず1024サイ
ズの窓で256箇所(窓)フーリエ変換する。周波数は512通りとる。結果的に
(256,512,2)サイズの「画像」が得られる。さらにオプションとして次のものを
試す。
– (Phase) 最後の2サイズは(log振幅、位相)
– (IF) 最後の2サイズは(log振幅、位相のInstantaneous Frequency)
• (IF-Mel) log振幅、位相のInstantaneous Frequency共にMel尺度にする
– (H) 2048サイズの窓で128箇所のFTをし(128,1024,2)サイズの画像を得る
• 「画像」から曲に変換するのは”the approximate inverse linear
transformation”を使うらしい(実装を見ないとわからない)。
Mel尺度算出式
3.3. 結果
14
提案手法に様々なオプションを
付けて実験。ほとんどの場合で
既存手法を上回る
既存手法(青色)はスペクトルに大きな偏りがある。
元データのスペクトル(のクラスタ)の分布は折れ線
3.3. 結果
15
赤色:既存手法、スペクトルに大きな偏りがある
3.3. 結果
16
• 論文より抜粋
• 実際に聞いてみましょう(スライドの最後にリンク有)
目次
1. 既存手法
1. WaveNet
2. WaveGan
2. 提案手法
1. Instantaneous Frequency
3. 各手法の評価
1. データセットと評価指標
2. アーキテクチャ
3. 結果
4. まとめと感想
17
まとめと感想
(1)audioデータを窓フーリエ変換したあと位相成分の微分を取ることで周期的でな
い(=画像に近い)ベクトルを生み出すことができた。
(2)GANSynthでは(1)で生み出したベクトルに対してGANを使うことにより曲の合
成を行った。
[感想]
- SpecGAN(WaveGANの論文にある別手法)との比較がない。特にスペクトルの分
布が気になる。
18
参考文献等
• WaveNetのデモ
– https://magenta.tensorflow.org/nsynth-fastgen, 19/3/15閲覧
• WaveGAN
– http://createwith.ai/paper/20180216/1192, 解説 19/3/15閲
覧
– https://chrisdonahue.com/wavegan_examples/, デモ
19/3/15閲覧
• GANSYNTH
– https://openreview.net/forum?id=H1xQVn09FX, 論文
– https://goo.gl/magenta/gansynth-demo, デモ
19

Contenu connexe

Tendances

変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
Akihiro Nitta
 

Tendances (20)

[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstm
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis