Soumettre la recherche
Mettre en ligne
[DL輪読会]Wavenet a generative model for raw audio
•
9 j'aime
•
26,175 vues
Deep Learning JP
Suivre
2016/9/16 Deep Learning JP: http://deeplearning.jp/seminar-2/
Lire moins
Lire la suite
Technologie
Signaler
Partager
Signaler
Partager
1 sur 23
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
画像キャプションの自動生成
画像キャプションの自動生成
Yoshitaka Ushiku
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
Contenu connexe
Tendances
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
Transformerを雰囲気で理解する
Transformerを雰囲気で理解する
AtsukiYamaguchi1
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
cvpaper. challenge
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
モデル高速化百選
モデル高速化百選
Yusuke Uchida
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
Deep Learning JP
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
Tendances
(20)
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Transformerを雰囲気で理解する
Transformerを雰囲気で理解する
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
ドメイン適応の原理と応用
ドメイン適応の原理と応用
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
深層学習を利用した音声強調
深層学習を利用した音声強調
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
モデル高速化百選
モデル高速化百選
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Plus de Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP
Plus de Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Dernier
IGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdf
IGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdf
IGDA Japan SIG-Audio
これからはじめるAnsible - Ansible Night Tokyo 2024
これからはじめるAnsible - Ansible Night Tokyo 2024
Hideki Saito
JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜
JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜
Naomi Yamasaki
SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」
SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」
IGDA Japan SIG-Audio
チームで開発するための環境を整える
チームで開発するための環境を整える
onozaty
00001_test_automation_portfolio_20240313
00001_test_automation_portfolio_20240313
ssuserf8ea02
キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~
キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~
honeshabri
キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版
キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版
Takayuki Nakayama
AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。
AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。
iPride Co., Ltd.
バイオリンの運弓動作計測による初心者と経験者の差異分析
バイオリンの運弓動作計測による初心者と経験者の差異分析
sugiuralab
The 86th National Convention of IPSJ (Student Encouragement Award))
The 86th National Convention of IPSJ (Student Encouragement Award))
yoshidakids7
AWS Lambdaと AWS API Gatewayを使ったREST API作り
AWS Lambdaと AWS API Gatewayを使ったREST API作り
iPride Co., Ltd.
Dernier
(12)
IGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdf
IGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdf
これからはじめるAnsible - Ansible Night Tokyo 2024
これからはじめるAnsible - Ansible Night Tokyo 2024
JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜
JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜
SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」
SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」
チームで開発するための環境を整える
チームで開発するための環境を整える
00001_test_automation_portfolio_20240313
00001_test_automation_portfolio_20240313
キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~
キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~
キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版
キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版
AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。
AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。
バイオリンの運弓動作計測による初心者と経験者の差異分析
バイオリンの運弓動作計測による初心者と経験者の差異分析
The 86th National Convention of IPSJ (Student Encouragement Award))
The 86th National Convention of IPSJ (Student Encouragement Award))
AWS Lambdaと AWS API Gatewayを使ったREST API作り
AWS Lambdaと AWS API Gatewayを使ったREST API作り
[DL輪読会]Wavenet a generative model for raw audio
1.
WAVENET A GENERATIVE MODEL
FOR RAW AUDIO 中山研究室修士一年 横田匡史
2.
書誌情報 • Aaron et
al (Deep Mind) • arxiv • 2016/9/12
3.
従来の音声生成 ・concatenative Text to
Speech(TTS) データベースから該当する音をつなぎあわせて音声を作っていく 音をつなぎ合わせているだけなので、強調・声色変更などができない ・parametric TTS 生成モデルを用いて単語や発話者の特徴量を抽出し音声を生成する。 単語毎に音の特徴量に変換していたので、英語のようなリエゾンのある 言語の音声生成は難しかった。 →WaveNetでは、生の波形から音声を生成する
4.
WaveNet
5.
入力 生の音声波形から、一次元の音のベクトルを入力とする。 しかし、16,000 samples/secとサンプル数が非常に多い。 →より多くの時系列データを高速に処理できるモデルが必要
6.
波形データ変換 生の波形のデータはint16で表現されているため、とりうる値は65,536 個ある。 そのため、上式を用いて値を256個の値に量子化する。 μ-law companding
transformation
7.
出力の確率分布 𝑥𝑡: 時刻tでの音声波形の値 WaveNetでは全ての過去データから次の音声の値を予測をする
8.
WaveNetの学習の流れ 1サンプル分 波形データ入力 モデルを用いて 音声波形を出力 出力と入力から パラメータ更新
9.
dilated causal convolutional
layers Dilationの大きさ毎に入力を飛ばしていくことで層が深くなるにつれてinputの 数を指数関数的に大きくすることができる。また、Dilationの上限を超えたら 次の層でDilationを1に戻すことで、計算の効率化している。 e.g.) 1,2,4,...,512,1,2,4,...,512,1,2,4,...,512.
10.
なぜ、RNNではダメなのか? dilated causal convolutional
layersでは、 全ての出力を一度に計算することができる →学習時間が短くすることができる RNNでは、時系列に追ってデータを見ていく 必要があるので、1つのサンプルを見るのに 時間がかかってしまう。 →学習に非常に時間がかかる
11.
WaveNetのモデル構造 各層にResnetの構造を持っている。また、skip-connectionのそれぞれの コネクションには重みづけされている。
12.
Conditional WaveNetのモデル構造 声色特徴 全てのレイヤーに対して、人の声色の特徴量を入力することで 出力の声色を変化させることができる。
13.
音声の生成(概略図)
14.
実験
15.
MULTI-SPEAKER SPEECH GENERATION ・データセット VCTK
:109人 計44時間の音声データ ・入力 音声の波形データ 話者のID ・出力 音声の波形データ ・receptive field size (入力データサイズ) およそ0.3sec(おそらく15〜16層)
16.
MULTI-SPEAKER SPEECH GENERATION US
parametric US concatenate US wavenet 従来手法(parametric、concatenate)と比べてかなり自然に聞こえる。 CH parametric CH concatenate CH wavenet
17.
TEXT-TO-SPEECH ・データセット Google’s North American
English(24.6時間) Mandarin Chinese TTS systems(34.8時間) のそれぞれの単一話者のスピーチ ・入力 基本周波数 (log F0) →信号を正弦波の合成(例えばフーリエ級数)で 表したときの最も低い周波数成分の周波数(wikipediaより) 単語の言語特徴量(音節・発音etc) ・出力 基本周波数 (log F0) 音節の長さ ・receptive field size (入力データサイズ) およそ0.24sec(おそらく16層)
18.
TEXT-TO-SPEECH MOSとは… ”1: Bad, 2:
Poor, 3: Fair, 4: Good, 5: Excellent” それぞれのサンプルに対して人間が上記のスコアを付け そのスコアを平均したもの
19.
TEXT-TO-SPEECH 各モデルについて、人にどの音源が良いか選択してもらったもの。 No preferenceは、どれも気に入らなかった場合。
20.
TEXT-TO-SPEECH それぞれのサンプルで人間の発話に近い自然な音声が生成されている。 また、左のサンプルでは人間の息遣いまで生成されている!ただ、逆に 若干な感じが残っているという印象。 ・Sample1 ・Sample2
21.
MUSIC ・データセット MagnaTagATune datasets: 約200時間分の音楽データ それぞれのデータにタグ(ジャンルetc) モデル構成・評価などがなかったので、詳細は割愛します。 論文中ではMagnaTagATune
datasetsに関してはタグで条件付けて音 を変化できたらしい(生成された音声のサンプル無し)。
22.
MUSIC ・データセット YouTube piano dataset:
60時間のピアノ音楽データ ・生成音声 これも同様にモデル構成などが記載されていなかったので詳細は割愛します。 しかし、生成された音源データは公開されていました。
23.
まとめ・感想 • 時系列データに対してRNNでなくCNNを用い、並列に計算する ことで、学習時間を短くしている(面白い!) • 各層に対し、話者の特徴量を入れることで、生成する音声を変 化させる事ができる。 •
生成した音源も人の息遣いなどリアルに再現できている。 • ただ、詳しいモデル構成が書かれていないのが残念。。
Télécharger maintenant