SlideShare une entreprise Scribd logo
1  sur  1
Télécharger pour lire hors ligne
○郡⼭ 知樹,猿渡 洋(東⼤院・情報理⼯)
1-P-25
深層ガウス過程に基づく⾳声合成におけるリカレント構造を⽤いた系列モデリングの検討
リカレントGP(GP状態空間モデル)[Doerr et al., 2018]の問題点
•過去の隠れ層の値 を使わず.メモリセル のみ使⽤
•時系列処理に,線形変換ではなく要素積 を使うことで計算量削減
•⼊⼒変数からの変換 は時系列⾮依存のため並列計算が可能
→DNNの枠組みでは線形変換を使⽤
•SRUにおいて関数 がガウス過程に従うと仮定
•DGP⾳声合成における「GPRによる予測+サンプリング」を並列計算
•時系列処理は従来のSRUと同様
概要
背景
Simple recurrent unit (SRU)
SRU-DGP
実験
まとめと今後の課題
•深層ガウス過程(DGP)⾳声合成における発話単位モデリング
•並列計算可能なSimple recurrent unit (SRU) を利⽤
•従来のフィードフォワード型DGP⾳声合成と⽐べ⾃然性の向上
•複数層のガウス過程回帰(GPR)で構成される階層モデル
•DGPを⽤いてフレームレベルのコンテキストから⾳声パラメータを予測
•DNN⾳声合成より⾼い⾃然性
•GPRの予測を各時刻で⾏うため計算時間膨⼤
→発話単位の系列モデリングにおける効率的な計算⽅法が必要
1.グラム⾏列の計算
2.予測平均・共分散の計算
3.サンプリング
主観評価結果:対⽐較実験,聴取者30名
客観評価結果
実験条件
メモリセルの更新 層の出⼒を計算
深層ガウス過程(DGP)
DGP⾳声合成 [Koriyama & Kobayashi, 2019]
データベース
⼊⼒特徴量
⾳響特徴量
モデル構造
パラメータ学習
⽐較⼿法
SRU : RNNの時系列処理を単純な計算で表現 [Lei et al., 2018]
FF-DGP
SRU-DGP
(提案法)
SRU-RNN
※ で差は有意
LSTM-RNN
FF層→双⽅向リカレント層×2→FF層
中間層の次元:256,補助点数:1024
ArcCosカーネル [Cho&Saul, 2009]
ミニバッチサイズ:1発話,最適化:Adam
FF-DGP: リカレント構造を⽤いないDGP
SRU-RNN: SRUのリカレント層を持つRNN
LSTM-RNN: LSTMのリカレント層を持つRNN
変分下限
コンテキスト
⾳響特徴量
GPR
GPR
GPR
サンプリング
サンプリング
3層DGP⾳声合成の
学習時における順伝播
ガウス過程にそれぞれ従うと仮定
SRU
サンプリング
GPR
メモリセル メモリセル
層の出⼒
層の⼊⼒
メモリセル
:時刻インデックス
ゲート
2⼊⼒GPR
サンプリング
JSUTコーパス(⼥性話者1名,読み上げ)
BASIC0000〜BASIC2000の1898⽂
(OpenJTalkの読み推定誤りを除く)
学習セット1778⽂(約1.95時間)
開発セット60⽂,テストセット60⽂
OpenJTalkで⾃動作成したラベルから
得られる575次元コンテキストベクトル
60次元メルケプストラム,対数fo
,
1次元⾮周期性指標,これらのΔ+Δ2
0 50 100
56.3%
68.3%
55.3%
43.7%
31.7%
44.7%
メルケプストラム距離 [dB] 対数fo RMSE [cent] ⾳素継続⻑RMSE [ms]
FF-DGP 5.72 207 20.5
SRU-RNN 5.66 195 17.8
LSTM-RNN 5.63 203 17.8
SRU-DGP(提案法) 5.63 198 18.3
<まとめ>
•DGP⾳声合成において並列計算の可能なSRUに基づくリカレント構造を導⼊
•提案法では並列計算可能な関数として線形変換ではなくGPRを使⽤
•従来のフィードフォワード型DGP⾳声合成よりも有意に⾼い⾃然性
•主観評価結果ではSRU-RNN,LSTM-RNNより⾼いスコア
<今後の課題>
•層の数などハイパーパラメータの影響の調査
•リカレントGPとの計算時間の⽐較
•リカレント構造だけでなく,畳み込みや注意機構のDGPへの適⽤
•各時刻の独⽴性ではなく共分散を考慮したサンプリングの検討
<特⻑>
•GPRと同様,カーネル回帰で⾮線形関数を表現
•1層のGPRより複雑な関数を実現
•モデルの複雑さを考慮できるベイズモデル
•ミニバッチ勾配降下法による学習が可能
<学習法>
•周辺尤度の変分下限(ELBO)を最⼤化
•各層でGPRによる予測分布の推定と
予測分布からのサンプリングを繰り返して順伝播
<課題>
•従来法はフレーム単位のフィードフォワード(FF)モデル
•⾳声は時系列上で連続的に変化するため発話単位モデリングが必要
•DNN⾳声合成ではLSTM-RNNなどのリカレント構造を⽤いることで性能向上
<⽬的>
DGP⾳声合成において発話単位モデリングのためのリカレント構造の導⼊
メモリセル
層の出⼒
層の⼊⼒ 層の⼊⼒
ゲート
時系列処理
時系列処理
並列計算
並列計算
•NNでは各時刻で線形変換を⾏うため
計算時間は
DGP⾳声合成における発話単位の系列モデリングにおいて
計算時間を抑えつつリカレント構造による時系列処理を実現
層の過去の出⼒

Contenu connexe

Tendances

[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a MapDeep Learning JP
 
151012 foss4 g_tokyo_grass7_presentation
151012 foss4 g_tokyo_grass7_presentation151012 foss4 g_tokyo_grass7_presentation
151012 foss4 g_tokyo_grass7_presentationTakayuki Nuimura
 
Learning Depthwise Separable Graph Convolution from Data Manifold
Learning Depthwise Separable Graph Convolution from Data ManifoldLearning Depthwise Separable Graph Convolution from Data Manifold
Learning Depthwise Separable Graph Convolution from Data Manifoldyukihiro domae
 
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチPUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチTakanori Nakai
 
GRASSセミナー基礎編
GRASSセミナー基礎編GRASSセミナー基礎編
GRASSセミナー基礎編Kanetaka Heshiki
 

Tendances (7)

Graph U-Net
Graph U-NetGraph U-Net
Graph U-Net
 
CMSI計算科学技術特論A(12) 古典分子動力学法の高速化1
CMSI計算科学技術特論A(12) 古典分子動力学法の高速化1CMSI計算科学技術特論A(12) 古典分子動力学法の高速化1
CMSI計算科学技術特論A(12) 古典分子動力学法の高速化1
 
[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map
 
151012 foss4 g_tokyo_grass7_presentation
151012 foss4 g_tokyo_grass7_presentation151012 foss4 g_tokyo_grass7_presentation
151012 foss4 g_tokyo_grass7_presentation
 
Learning Depthwise Separable Graph Convolution from Data Manifold
Learning Depthwise Separable Graph Convolution from Data ManifoldLearning Depthwise Separable Graph Convolution from Data Manifold
Learning Depthwise Separable Graph Convolution from Data Manifold
 
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチPUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
 
GRASSセミナー基礎編
GRASSセミナー基礎編GRASSセミナー基礎編
GRASSセミナー基礎編
 

Similaire à 深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討

Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...Deep Learning JP
 
Graph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generationGraph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generationKazuki Fujikawa
 
El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704RCCSRENKEI
 
ICDE2014 勉強会 新井担当分
ICDE2014 勉強会 新井担当分ICDE2014 勉強会 新井担当分
ICDE2014 勉強会 新井担当分Junya Arai
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会Kimikazu Kato
 

Similaire à 深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討 (6)

Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
 
Graph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generationGraph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generation
 
El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704
 
ICDE2014 勉強会 新井担当分
ICDE2014 勉強会 新井担当分ICDE2014 勉強会 新井担当分
ICDE2014 勉強会 新井担当分
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会
 

Plus de Tomoki Koriyama

UTTERANCE-LEVEL SEQUENTIAL MODELING FOR DEEP GAUSSIAN PROCESS BASED
 SPEECH S...
UTTERANCE-LEVEL SEQUENTIAL MODELING FOR DEEP GAUSSIAN PROCESS BASED
 SPEECH S...UTTERANCE-LEVEL SEQUENTIAL MODELING FOR DEEP GAUSSIAN PROCESS BASED
 SPEECH S...
UTTERANCE-LEVEL SEQUENTIAL MODELING FOR DEEP GAUSSIAN PROCESS BASED
 SPEECH S...Tomoki Koriyama
 
Sparse Approximation of Gram Matrices for GMMN-based Speech Synthesis
Sparse Approximation of Gram Matrices for GMMN-based Speech SynthesisSparse Approximation of Gram Matrices for GMMN-based Speech Synthesis
Sparse Approximation of Gram Matrices for GMMN-based Speech SynthesisTomoki Koriyama
 
Semi-supervised Prosody Modeling Using Deep Gaussian Process Latent Variable...
 Semi-supervised Prosody Modeling Using Deep Gaussian Process Latent Variable... Semi-supervised Prosody Modeling Using Deep Gaussian Process Latent Variable...
Semi-supervised Prosody Modeling Using Deep Gaussian Process Latent Variable...Tomoki Koriyama
 
ICASSP2019音声&音響論文読み会 論文紹介(合成系) #icassp2019jp
ICASSP2019音声&音響論文読み会 論文紹介(合成系) #icassp2019jpICASSP2019音声&音響論文読み会 論文紹介(合成系) #icassp2019jp
ICASSP2019音声&音響論文読み会 論文紹介(合成系) #icassp2019jpTomoki Koriyama
 
GMMNに基づく音声合成におけるグラム行列の
スパース近似の検討
GMMNに基づく音声合成におけるグラム行列の
スパース近似の検討GMMNに基づく音声合成におけるグラム行列の
スパース近似の検討
GMMNに基づく音声合成におけるグラム行列の
スパース近似の検討Tomoki Koriyama
 
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討Tomoki Koriyama
 
グラム行列のスパース近似を用いた生成的モーメントマッチングネットに基づく音声合成の検討
グラム行列のスパース近似を用いた生成的モーメントマッチングネットに基づく音声合成の検討グラム行列のスパース近似を用いた生成的モーメントマッチングネットに基づく音声合成の検討
グラム行列のスパース近似を用いた生成的モーメントマッチングネットに基づく音声合成の検討Tomoki Koriyama
 
A TRAINING METHOD USING
 DNN-GUIDED LAYERWISE PRETRAINING
 FOR DEEP GAUSSIAN ...
A TRAINING METHOD USING
 DNN-GUIDED LAYERWISE PRETRAINING
 FOR DEEP GAUSSIAN ...A TRAINING METHOD USING
 DNN-GUIDED LAYERWISE PRETRAINING
 FOR DEEP GAUSSIAN ...
A TRAINING METHOD USING
 DNN-GUIDED LAYERWISE PRETRAINING
 FOR DEEP GAUSSIAN ...Tomoki Koriyama
 
深層ガウス過程に基づく音声合成のための
事前学習の検討
深層ガウス過程に基づく音声合成のための
事前学習の検討深層ガウス過程に基づく音声合成のための
事前学習の検討
深層ガウス過程に基づく音声合成のための
事前学習の検討Tomoki Koriyama
 
GPR音声合成における深層ガウス過程の利用の検討
GPR音声合成における深層ガウス過程の利用の検討GPR音声合成における深層ガウス過程の利用の検討
GPR音声合成における深層ガウス過程の利用の検討Tomoki Koriyama
 
GP-DNNハイブリッドモデルに基づく統計的音声合成の検討
GP-DNNハイブリッドモデルに基づく統計的音声合成の検討GP-DNNハイブリッドモデルに基づく統計的音声合成の検討
GP-DNNハイブリッドモデルに基づく統計的音声合成の検討Tomoki Koriyama
 
GPR音声合成のためのフレームコンテキストカーネルに基づく決定木構築の検討
GPR音声合成のためのフレームコンテキストカーネルに基づく決定木構築の検討GPR音声合成のためのフレームコンテキストカーネルに基づく決定木構築の検討
GPR音声合成のためのフレームコンテキストカーネルに基づく決定木構築の検討Tomoki Koriyama
 
ICASSP2017読み会(Speech Synthesis)
ICASSP2017読み会(Speech Synthesis)ICASSP2017読み会(Speech Synthesis)
ICASSP2017読み会(Speech Synthesis)Tomoki Koriyama
 

Plus de Tomoki Koriyama (13)

UTTERANCE-LEVEL SEQUENTIAL MODELING FOR DEEP GAUSSIAN PROCESS BASED
 SPEECH S...
UTTERANCE-LEVEL SEQUENTIAL MODELING FOR DEEP GAUSSIAN PROCESS BASED
 SPEECH S...UTTERANCE-LEVEL SEQUENTIAL MODELING FOR DEEP GAUSSIAN PROCESS BASED
 SPEECH S...
UTTERANCE-LEVEL SEQUENTIAL MODELING FOR DEEP GAUSSIAN PROCESS BASED
 SPEECH S...
 
Sparse Approximation of Gram Matrices for GMMN-based Speech Synthesis
Sparse Approximation of Gram Matrices for GMMN-based Speech SynthesisSparse Approximation of Gram Matrices for GMMN-based Speech Synthesis
Sparse Approximation of Gram Matrices for GMMN-based Speech Synthesis
 
Semi-supervised Prosody Modeling Using Deep Gaussian Process Latent Variable...
 Semi-supervised Prosody Modeling Using Deep Gaussian Process Latent Variable... Semi-supervised Prosody Modeling Using Deep Gaussian Process Latent Variable...
Semi-supervised Prosody Modeling Using Deep Gaussian Process Latent Variable...
 
ICASSP2019音声&音響論文読み会 論文紹介(合成系) #icassp2019jp
ICASSP2019音声&音響論文読み会 論文紹介(合成系) #icassp2019jpICASSP2019音声&音響論文読み会 論文紹介(合成系) #icassp2019jp
ICASSP2019音声&音響論文読み会 論文紹介(合成系) #icassp2019jp
 
GMMNに基づく音声合成におけるグラム行列の
スパース近似の検討
GMMNに基づく音声合成におけるグラム行列の
スパース近似の検討GMMNに基づく音声合成におけるグラム行列の
スパース近似の検討
GMMNに基づく音声合成におけるグラム行列の
スパース近似の検討
 
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
 
グラム行列のスパース近似を用いた生成的モーメントマッチングネットに基づく音声合成の検討
グラム行列のスパース近似を用いた生成的モーメントマッチングネットに基づく音声合成の検討グラム行列のスパース近似を用いた生成的モーメントマッチングネットに基づく音声合成の検討
グラム行列のスパース近似を用いた生成的モーメントマッチングネットに基づく音声合成の検討
 
A TRAINING METHOD USING
 DNN-GUIDED LAYERWISE PRETRAINING
 FOR DEEP GAUSSIAN ...
A TRAINING METHOD USING
 DNN-GUIDED LAYERWISE PRETRAINING
 FOR DEEP GAUSSIAN ...A TRAINING METHOD USING
 DNN-GUIDED LAYERWISE PRETRAINING
 FOR DEEP GAUSSIAN ...
A TRAINING METHOD USING
 DNN-GUIDED LAYERWISE PRETRAINING
 FOR DEEP GAUSSIAN ...
 
深層ガウス過程に基づく音声合成のための
事前学習の検討
深層ガウス過程に基づく音声合成のための
事前学習の検討深層ガウス過程に基づく音声合成のための
事前学習の検討
深層ガウス過程に基づく音声合成のための
事前学習の検討
 
GPR音声合成における深層ガウス過程の利用の検討
GPR音声合成における深層ガウス過程の利用の検討GPR音声合成における深層ガウス過程の利用の検討
GPR音声合成における深層ガウス過程の利用の検討
 
GP-DNNハイブリッドモデルに基づく統計的音声合成の検討
GP-DNNハイブリッドモデルに基づく統計的音声合成の検討GP-DNNハイブリッドモデルに基づく統計的音声合成の検討
GP-DNNハイブリッドモデルに基づく統計的音声合成の検討
 
GPR音声合成のためのフレームコンテキストカーネルに基づく決定木構築の検討
GPR音声合成のためのフレームコンテキストカーネルに基づく決定木構築の検討GPR音声合成のためのフレームコンテキストカーネルに基づく決定木構築の検討
GPR音声合成のためのフレームコンテキストカーネルに基づく決定木構築の検討
 
ICASSP2017読み会(Speech Synthesis)
ICASSP2017読み会(Speech Synthesis)ICASSP2017読み会(Speech Synthesis)
ICASSP2017読み会(Speech Synthesis)
 

深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討

  • 1. ○郡⼭ 知樹,猿渡 洋(東⼤院・情報理⼯) 1-P-25 深層ガウス過程に基づく⾳声合成におけるリカレント構造を⽤いた系列モデリングの検討 リカレントGP(GP状態空間モデル)[Doerr et al., 2018]の問題点 •過去の隠れ層の値 を使わず.メモリセル のみ使⽤ •時系列処理に,線形変換ではなく要素積 を使うことで計算量削減 •⼊⼒変数からの変換 は時系列⾮依存のため並列計算が可能 →DNNの枠組みでは線形変換を使⽤ •SRUにおいて関数 がガウス過程に従うと仮定 •DGP⾳声合成における「GPRによる予測+サンプリング」を並列計算 •時系列処理は従来のSRUと同様 概要 背景 Simple recurrent unit (SRU) SRU-DGP 実験 まとめと今後の課題 •深層ガウス過程(DGP)⾳声合成における発話単位モデリング •並列計算可能なSimple recurrent unit (SRU) を利⽤ •従来のフィードフォワード型DGP⾳声合成と⽐べ⾃然性の向上 •複数層のガウス過程回帰(GPR)で構成される階層モデル •DGPを⽤いてフレームレベルのコンテキストから⾳声パラメータを予測 •DNN⾳声合成より⾼い⾃然性 •GPRの予測を各時刻で⾏うため計算時間膨⼤ →発話単位の系列モデリングにおける効率的な計算⽅法が必要 1.グラム⾏列の計算 2.予測平均・共分散の計算 3.サンプリング 主観評価結果:対⽐較実験,聴取者30名 客観評価結果 実験条件 メモリセルの更新 層の出⼒を計算 深層ガウス過程(DGP) DGP⾳声合成 [Koriyama & Kobayashi, 2019] データベース ⼊⼒特徴量 ⾳響特徴量 モデル構造 パラメータ学習 ⽐較⼿法 SRU : RNNの時系列処理を単純な計算で表現 [Lei et al., 2018] FF-DGP SRU-DGP (提案法) SRU-RNN ※ で差は有意 LSTM-RNN FF層→双⽅向リカレント層×2→FF層 中間層の次元:256,補助点数:1024 ArcCosカーネル [Cho&Saul, 2009] ミニバッチサイズ:1発話,最適化:Adam FF-DGP: リカレント構造を⽤いないDGP SRU-RNN: SRUのリカレント層を持つRNN LSTM-RNN: LSTMのリカレント層を持つRNN 変分下限 コンテキスト ⾳響特徴量 GPR GPR GPR サンプリング サンプリング 3層DGP⾳声合成の 学習時における順伝播 ガウス過程にそれぞれ従うと仮定 SRU サンプリング GPR メモリセル メモリセル 層の出⼒ 層の⼊⼒ メモリセル :時刻インデックス ゲート 2⼊⼒GPR サンプリング JSUTコーパス(⼥性話者1名,読み上げ) BASIC0000〜BASIC2000の1898⽂ (OpenJTalkの読み推定誤りを除く) 学習セット1778⽂(約1.95時間) 開発セット60⽂,テストセット60⽂ OpenJTalkで⾃動作成したラベルから 得られる575次元コンテキストベクトル 60次元メルケプストラム,対数fo , 1次元⾮周期性指標,これらのΔ+Δ2 0 50 100 56.3% 68.3% 55.3% 43.7% 31.7% 44.7% メルケプストラム距離 [dB] 対数fo RMSE [cent] ⾳素継続⻑RMSE [ms] FF-DGP 5.72 207 20.5 SRU-RNN 5.66 195 17.8 LSTM-RNN 5.63 203 17.8 SRU-DGP(提案法) 5.63 198 18.3 <まとめ> •DGP⾳声合成において並列計算の可能なSRUに基づくリカレント構造を導⼊ •提案法では並列計算可能な関数として線形変換ではなくGPRを使⽤ •従来のフィードフォワード型DGP⾳声合成よりも有意に⾼い⾃然性 •主観評価結果ではSRU-RNN,LSTM-RNNより⾼いスコア <今後の課題> •層の数などハイパーパラメータの影響の調査 •リカレントGPとの計算時間の⽐較 •リカレント構造だけでなく,畳み込みや注意機構のDGPへの適⽤ •各時刻の独⽴性ではなく共分散を考慮したサンプリングの検討 <特⻑> •GPRと同様,カーネル回帰で⾮線形関数を表現 •1層のGPRより複雑な関数を実現 •モデルの複雑さを考慮できるベイズモデル •ミニバッチ勾配降下法による学習が可能 <学習法> •周辺尤度の変分下限(ELBO)を最⼤化 •各層でGPRによる予測分布の推定と 予測分布からのサンプリングを繰り返して順伝播 <課題> •従来法はフレーム単位のフィードフォワード(FF)モデル •⾳声は時系列上で連続的に変化するため発話単位モデリングが必要 •DNN⾳声合成ではLSTM-RNNなどのリカレント構造を⽤いることで性能向上 <⽬的> DGP⾳声合成において発話単位モデリングのためのリカレント構造の導⼊ メモリセル 層の出⼒ 層の⼊⼒ 層の⼊⼒ ゲート 時系列処理 時系列処理 並列計算 並列計算 •NNでは各時刻で線形変換を⾏うため 計算時間は DGP⾳声合成における発話単位の系列モデリングにおいて 計算時間を抑えつつリカレント構造による時系列処理を実現 層の過去の出⼒