Soumettre la recherche
Mettre en ligne
深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討
•
0 j'aime
•
251 vues
Tomoki Koriyama
Suivre
日本音響学会2019年秋季研究発表会
Lire moins
Lire la suite
Sciences
Signaler
Partager
Signaler
Partager
1 sur 1
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
Iugonet 20120810-nipr-sato
Iugonet 20120810-nipr-sato
Iugo Net
130727 nagoyar presentation
130727 nagoyar presentation
Takayuki Nuimura
【論文紹介】 Attention Based Spatial-Temporal Graph Convolutional Networks for Traf...
【論文紹介】 Attention Based Spatial-Temporal Graph Convolutional Networks for Traf...
ddnpaa
【論文紹介】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Acti...
【論文紹介】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Acti...
ddnpaa
An evaluation of Distributions of the Environmental pollutants by (Web)GIS and R
An evaluation of Distributions of the Environmental pollutants by (Web)GIS and R
Junji Yamakawa
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
Computational Materials Science Initiative
GDALとmod_python、mod_rewriteでタイルマップサービスを作ってみた
GDALとmod_python、mod_rewriteでタイルマップサービスを作ってみた
Keisuke Nakao
200730material fujita
200730material fujita
RCCSRENKEI
Recommandé
Iugonet 20120810-nipr-sato
Iugonet 20120810-nipr-sato
Iugo Net
130727 nagoyar presentation
130727 nagoyar presentation
Takayuki Nuimura
【論文紹介】 Attention Based Spatial-Temporal Graph Convolutional Networks for Traf...
【論文紹介】 Attention Based Spatial-Temporal Graph Convolutional Networks for Traf...
ddnpaa
【論文紹介】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Acti...
【論文紹介】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Acti...
ddnpaa
An evaluation of Distributions of the Environmental pollutants by (Web)GIS and R
An evaluation of Distributions of the Environmental pollutants by (Web)GIS and R
Junji Yamakawa
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
Computational Materials Science Initiative
GDALとmod_python、mod_rewriteでタイルマップサービスを作ってみた
GDALとmod_python、mod_rewriteでタイルマップサービスを作ってみた
Keisuke Nakao
200730material fujita
200730material fujita
RCCSRENKEI
Graph U-Net
Graph U-Net
yukihiro domae
CMSI計算科学技術特論A(12) 古典分子動力学法の高速化1
CMSI計算科学技術特論A(12) 古典分子動力学法の高速化1
Computational Materials Science Initiative
[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map
Deep Learning JP
151012 foss4 g_tokyo_grass7_presentation
151012 foss4 g_tokyo_grass7_presentation
Takayuki Nuimura
Learning Depthwise Separable Graph Convolution from Data Manifold
Learning Depthwise Separable Graph Convolution from Data Manifold
yukihiro domae
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
Takanori Nakai
GRASSセミナー基礎編
GRASSセミナー基礎編
Kanetaka Heshiki
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Seiya Tokui
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
Deep Learning JP
Graph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generation
Kazuki Fujikawa
El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704
RCCSRENKEI
ICDE2014 勉強会 新井担当分
ICDE2014 勉強会 新井担当分
Junya Arai
2012-03-08 MSS研究会
2012-03-08 MSS研究会
Kimikazu Kato
UTTERANCE-LEVEL SEQUENTIAL MODELING FOR DEEP GAUSSIAN PROCESS BASED SPEECH S...
UTTERANCE-LEVEL SEQUENTIAL MODELING FOR DEEP GAUSSIAN PROCESS BASED SPEECH S...
Tomoki Koriyama
Sparse Approximation of Gram Matrices for GMMN-based Speech Synthesis
Sparse Approximation of Gram Matrices for GMMN-based Speech Synthesis
Tomoki Koriyama
Semi-supervised Prosody Modeling Using Deep Gaussian Process Latent Variable...
Semi-supervised Prosody Modeling Using Deep Gaussian Process Latent Variable...
Tomoki Koriyama
ICASSP2019音声&音響論文読み会 論文紹介(合成系) #icassp2019jp
ICASSP2019音声&音響論文読み会 論文紹介(合成系) #icassp2019jp
Tomoki Koriyama
GMMNに基づく音声合成におけるグラム行列の スパース近似の検討
GMMNに基づく音声合成におけるグラム行列の スパース近似の検討
Tomoki Koriyama
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
Tomoki Koriyama
グラム行列のスパース近似を用いた生成的モーメントマッチングネットに基づく音声合成の検討
グラム行列のスパース近似を用いた生成的モーメントマッチングネットに基づく音声合成の検討
Tomoki Koriyama
A TRAINING METHOD USING DNN-GUIDED LAYERWISE PRETRAINING FOR DEEP GAUSSIAN ...
A TRAINING METHOD USING DNN-GUIDED LAYERWISE PRETRAINING FOR DEEP GAUSSIAN ...
Tomoki Koriyama
深層ガウス過程に基づく音声合成のための 事前学習の検討
深層ガウス過程に基づく音声合成のための 事前学習の検討
Tomoki Koriyama
Contenu connexe
Tendances
Graph U-Net
Graph U-Net
yukihiro domae
CMSI計算科学技術特論A(12) 古典分子動力学法の高速化1
CMSI計算科学技術特論A(12) 古典分子動力学法の高速化1
Computational Materials Science Initiative
[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map
Deep Learning JP
151012 foss4 g_tokyo_grass7_presentation
151012 foss4 g_tokyo_grass7_presentation
Takayuki Nuimura
Learning Depthwise Separable Graph Convolution from Data Manifold
Learning Depthwise Separable Graph Convolution from Data Manifold
yukihiro domae
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
Takanori Nakai
GRASSセミナー基礎編
GRASSセミナー基礎編
Kanetaka Heshiki
Tendances
(7)
Graph U-Net
Graph U-Net
CMSI計算科学技術特論A(12) 古典分子動力学法の高速化1
CMSI計算科学技術特論A(12) 古典分子動力学法の高速化1
[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map
151012 foss4 g_tokyo_grass7_presentation
151012 foss4 g_tokyo_grass7_presentation
Learning Depthwise Separable Graph Convolution from Data Manifold
Learning Depthwise Separable Graph Convolution from Data Manifold
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
GRASSセミナー基礎編
GRASSセミナー基礎編
Similaire à 深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Seiya Tokui
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
Deep Learning JP
Graph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generation
Kazuki Fujikawa
El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704
RCCSRENKEI
ICDE2014 勉強会 新井担当分
ICDE2014 勉強会 新井担当分
Junya Arai
2012-03-08 MSS研究会
2012-03-08 MSS研究会
Kimikazu Kato
Similaire à 深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討
(6)
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
Graph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generation
El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704
ICDE2014 勉強会 新井担当分
ICDE2014 勉強会 新井担当分
2012-03-08 MSS研究会
2012-03-08 MSS研究会
Plus de Tomoki Koriyama
UTTERANCE-LEVEL SEQUENTIAL MODELING FOR DEEP GAUSSIAN PROCESS BASED SPEECH S...
UTTERANCE-LEVEL SEQUENTIAL MODELING FOR DEEP GAUSSIAN PROCESS BASED SPEECH S...
Tomoki Koriyama
Sparse Approximation of Gram Matrices for GMMN-based Speech Synthesis
Sparse Approximation of Gram Matrices for GMMN-based Speech Synthesis
Tomoki Koriyama
Semi-supervised Prosody Modeling Using Deep Gaussian Process Latent Variable...
Semi-supervised Prosody Modeling Using Deep Gaussian Process Latent Variable...
Tomoki Koriyama
ICASSP2019音声&音響論文読み会 論文紹介(合成系) #icassp2019jp
ICASSP2019音声&音響論文読み会 論文紹介(合成系) #icassp2019jp
Tomoki Koriyama
GMMNに基づく音声合成におけるグラム行列の スパース近似の検討
GMMNに基づく音声合成におけるグラム行列の スパース近似の検討
Tomoki Koriyama
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
Tomoki Koriyama
グラム行列のスパース近似を用いた生成的モーメントマッチングネットに基づく音声合成の検討
グラム行列のスパース近似を用いた生成的モーメントマッチングネットに基づく音声合成の検討
Tomoki Koriyama
A TRAINING METHOD USING DNN-GUIDED LAYERWISE PRETRAINING FOR DEEP GAUSSIAN ...
A TRAINING METHOD USING DNN-GUIDED LAYERWISE PRETRAINING FOR DEEP GAUSSIAN ...
Tomoki Koriyama
深層ガウス過程に基づく音声合成のための 事前学習の検討
深層ガウス過程に基づく音声合成のための 事前学習の検討
Tomoki Koriyama
GPR音声合成における深層ガウス過程の利用の検討
GPR音声合成における深層ガウス過程の利用の検討
Tomoki Koriyama
GP-DNNハイブリッドモデルに基づく統計的音声合成の検討
GP-DNNハイブリッドモデルに基づく統計的音声合成の検討
Tomoki Koriyama
GPR音声合成のためのフレームコンテキストカーネルに基づく決定木構築の検討
GPR音声合成のためのフレームコンテキストカーネルに基づく決定木構築の検討
Tomoki Koriyama
ICASSP2017読み会(Speech Synthesis)
ICASSP2017読み会(Speech Synthesis)
Tomoki Koriyama
Plus de Tomoki Koriyama
(13)
UTTERANCE-LEVEL SEQUENTIAL MODELING FOR DEEP GAUSSIAN PROCESS BASED SPEECH S...
UTTERANCE-LEVEL SEQUENTIAL MODELING FOR DEEP GAUSSIAN PROCESS BASED SPEECH S...
Sparse Approximation of Gram Matrices for GMMN-based Speech Synthesis
Sparse Approximation of Gram Matrices for GMMN-based Speech Synthesis
Semi-supervised Prosody Modeling Using Deep Gaussian Process Latent Variable...
Semi-supervised Prosody Modeling Using Deep Gaussian Process Latent Variable...
ICASSP2019音声&音響論文読み会 論文紹介(合成系) #icassp2019jp
ICASSP2019音声&音響論文読み会 論文紹介(合成系) #icassp2019jp
GMMNに基づく音声合成におけるグラム行列の スパース近似の検討
GMMNに基づく音声合成におけるグラム行列の スパース近似の検討
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
グラム行列のスパース近似を用いた生成的モーメントマッチングネットに基づく音声合成の検討
グラム行列のスパース近似を用いた生成的モーメントマッチングネットに基づく音声合成の検討
A TRAINING METHOD USING DNN-GUIDED LAYERWISE PRETRAINING FOR DEEP GAUSSIAN ...
A TRAINING METHOD USING DNN-GUIDED LAYERWISE PRETRAINING FOR DEEP GAUSSIAN ...
深層ガウス過程に基づく音声合成のための 事前学習の検討
深層ガウス過程に基づく音声合成のための 事前学習の検討
GPR音声合成における深層ガウス過程の利用の検討
GPR音声合成における深層ガウス過程の利用の検討
GP-DNNハイブリッドモデルに基づく統計的音声合成の検討
GP-DNNハイブリッドモデルに基づく統計的音声合成の検討
GPR音声合成のためのフレームコンテキストカーネルに基づく決定木構築の検討
GPR音声合成のためのフレームコンテキストカーネルに基づく決定木構築の検討
ICASSP2017読み会(Speech Synthesis)
ICASSP2017読み会(Speech Synthesis)
深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討
1.
○郡⼭ 知樹,猿渡 洋(東⼤院・情報理⼯) 1-P-25 深層ガウス過程に基づく⾳声合成におけるリカレント構造を⽤いた系列モデリングの検討 リカレントGP(GP状態空間モデル)[Doerr
et al., 2018]の問題点 •過去の隠れ層の値 を使わず.メモリセル のみ使⽤ •時系列処理に,線形変換ではなく要素積 を使うことで計算量削減 •⼊⼒変数からの変換 は時系列⾮依存のため並列計算が可能 →DNNの枠組みでは線形変換を使⽤ •SRUにおいて関数 がガウス過程に従うと仮定 •DGP⾳声合成における「GPRによる予測+サンプリング」を並列計算 •時系列処理は従来のSRUと同様 概要 背景 Simple recurrent unit (SRU) SRU-DGP 実験 まとめと今後の課題 •深層ガウス過程(DGP)⾳声合成における発話単位モデリング •並列計算可能なSimple recurrent unit (SRU) を利⽤ •従来のフィードフォワード型DGP⾳声合成と⽐べ⾃然性の向上 •複数層のガウス過程回帰(GPR)で構成される階層モデル •DGPを⽤いてフレームレベルのコンテキストから⾳声パラメータを予測 •DNN⾳声合成より⾼い⾃然性 •GPRの予測を各時刻で⾏うため計算時間膨⼤ →発話単位の系列モデリングにおける効率的な計算⽅法が必要 1.グラム⾏列の計算 2.予測平均・共分散の計算 3.サンプリング 主観評価結果:対⽐較実験,聴取者30名 客観評価結果 実験条件 メモリセルの更新 層の出⼒を計算 深層ガウス過程(DGP) DGP⾳声合成 [Koriyama & Kobayashi, 2019] データベース ⼊⼒特徴量 ⾳響特徴量 モデル構造 パラメータ学習 ⽐較⼿法 SRU : RNNの時系列処理を単純な計算で表現 [Lei et al., 2018] FF-DGP SRU-DGP (提案法) SRU-RNN ※ で差は有意 LSTM-RNN FF層→双⽅向リカレント層×2→FF層 中間層の次元:256,補助点数:1024 ArcCosカーネル [Cho&Saul, 2009] ミニバッチサイズ:1発話,最適化:Adam FF-DGP: リカレント構造を⽤いないDGP SRU-RNN: SRUのリカレント層を持つRNN LSTM-RNN: LSTMのリカレント層を持つRNN 変分下限 コンテキスト ⾳響特徴量 GPR GPR GPR サンプリング サンプリング 3層DGP⾳声合成の 学習時における順伝播 ガウス過程にそれぞれ従うと仮定 SRU サンプリング GPR メモリセル メモリセル 層の出⼒ 層の⼊⼒ メモリセル :時刻インデックス ゲート 2⼊⼒GPR サンプリング JSUTコーパス(⼥性話者1名,読み上げ) BASIC0000〜BASIC2000の1898⽂ (OpenJTalkの読み推定誤りを除く) 学習セット1778⽂(約1.95時間) 開発セット60⽂,テストセット60⽂ OpenJTalkで⾃動作成したラベルから 得られる575次元コンテキストベクトル 60次元メルケプストラム,対数fo , 1次元⾮周期性指標,これらのΔ+Δ2 0 50 100 56.3% 68.3% 55.3% 43.7% 31.7% 44.7% メルケプストラム距離 [dB] 対数fo RMSE [cent] ⾳素継続⻑RMSE [ms] FF-DGP 5.72 207 20.5 SRU-RNN 5.66 195 17.8 LSTM-RNN 5.63 203 17.8 SRU-DGP(提案法) 5.63 198 18.3 <まとめ> •DGP⾳声合成において並列計算の可能なSRUに基づくリカレント構造を導⼊ •提案法では並列計算可能な関数として線形変換ではなくGPRを使⽤ •従来のフィードフォワード型DGP⾳声合成よりも有意に⾼い⾃然性 •主観評価結果ではSRU-RNN,LSTM-RNNより⾼いスコア <今後の課題> •層の数などハイパーパラメータの影響の調査 •リカレントGPとの計算時間の⽐較 •リカレント構造だけでなく,畳み込みや注意機構のDGPへの適⽤ •各時刻の独⽴性ではなく共分散を考慮したサンプリングの検討 <特⻑> •GPRと同様,カーネル回帰で⾮線形関数を表現 •1層のGPRより複雑な関数を実現 •モデルの複雑さを考慮できるベイズモデル •ミニバッチ勾配降下法による学習が可能 <学習法> •周辺尤度の変分下限(ELBO)を最⼤化 •各層でGPRによる予測分布の推定と 予測分布からのサンプリングを繰り返して順伝播 <課題> •従来法はフレーム単位のフィードフォワード(FF)モデル •⾳声は時系列上で連続的に変化するため発話単位モデリングが必要 •DNN⾳声合成ではLSTM-RNNなどのリカレント構造を⽤いることで性能向上 <⽬的> DGP⾳声合成において発話単位モデリングのためのリカレント構造の導⼊ メモリセル 層の出⼒ 層の⼊⼒ 層の⼊⼒ ゲート 時系列処理 時系列処理 並列計算 並列計算 •NNでは各時刻で線形変換を⾏うため 計算時間は DGP⾳声合成における発話単位の系列モデリングにおいて 計算時間を抑えつつリカレント構造による時系列処理を実現 層の過去の出⼒
Télécharger maintenant