深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討

○郡⼭知樹，猿渡洋（東⼤院・情報理⼯）
1-P-25
深層ガウス過程に基づく⾳声合成におけるリカレント構造を⽤いた系列モデリングの検討
リカレントGP(GP状態空間モデル)[Doerr et al., 2018]の問題点
•過去の隠れ層の値を使わず．メモリセルのみ使⽤
•時系列処理に，線形変換ではなく要素積を使うことで計算量削減
•⼊⼒変数からの変換は時系列⾮依存のため並列計算が可能
→DNNの枠組みでは線形変換を使⽤
•SRUにおいて関数がガウス過程に従うと仮定
•DGP⾳声合成における「GPRによる予測＋サンプリング」を並列計算
•時系列処理は従来のSRUと同様
概要
背景
Simple recurrent unit (SRU)
SRU-DGP
実験
まとめと今後の課題
•深層ガウス過程(DGP)⾳声合成における発話単位モデリング
•並列計算可能なSimple recurrent unit (SRU) を利⽤
•従来のフィードフォワード型DGP⾳声合成と⽐べ⾃然性の向上
•複数層のガウス過程回帰(GPR)で構成される階層モデル
•DGPを⽤いてフレームレベルのコンテキストから⾳声パラメータを予測
•DNN⾳声合成より⾼い⾃然性
•GPRの予測を各時刻で⾏うため計算時間膨⼤
→発話単位の系列モデリングにおける効率的な計算⽅法が必要
1.グラム⾏列の計算
2.予測平均・共分散の計算
3.サンプリング
主観評価結果：対⽐較実験，聴取者30名
客観評価結果
実験条件
メモリセルの更新層の出⼒を計算
深層ガウス過程(DGP)
DGP⾳声合成 [Koriyama & Kobayashi, 2019]
データベース
⼊⼒特徴量
⾳響特徴量
モデル構造
パラメータ学習
⽐較⼿法
SRU : RNNの時系列処理を単純な計算で表現 [Lei et al., 2018]
FF-DGP
SRU-DGP
(提案法)
SRU-RNN
※ で差は有意
LSTM-RNN
FF層→双⽅向リカレント層×2→FF層
中間層の次元：256，補助点数：1024
ArcCosカーネル [Cho&Saul, 2009]
ミニバッチサイズ：1発話，最適化：Adam
FF-DGP: リカレント構造を⽤いないDGP
SRU-RNN: SRUのリカレント層を持つRNN
LSTM-RNN: LSTMのリカレント層を持つRNN
変分下限
コンテキスト
⾳響特徴量
GPR
GPR
GPR
サンプリング
サンプリング
3層DGP⾳声合成の
学習時における順伝播
ガウス過程にそれぞれ従うと仮定
SRU
サンプリング
GPR
メモリセルメモリセル
層の出⼒
層の⼊⼒
メモリセル
：時刻インデックス
ゲート
2⼊⼒GPR
サンプリング
JSUTコーパス（⼥性話者1名，読み上げ）
BASIC0000〜BASIC2000の1898⽂
（OpenJTalkの読み推定誤りを除く）
学習セット1778⽂（約1.95時間）
開発セット60⽂，テストセット60⽂
OpenJTalkで⾃動作成したラベルから
得られる575次元コンテキストベクトル
60次元メルケプストラム，対数fo
，
1次元⾮周期性指標，これらのΔ＋Δ2
0 50 100
56.3%
68.3%
55.3%
43.7%
31.7%
44.7%
メルケプストラム距離 [dB] 対数fo RMSE [cent] ⾳素継続⻑RMSE [ms]
FF-DGP 5.72 207 20.5
SRU-RNN 5.66 195 17.8
LSTM-RNN 5.63 203 17.8
SRU-DGP(提案法) 5.63 198 18.3
＜まとめ＞
•DGP⾳声合成において並列計算の可能なSRUに基づくリカレント構造を導⼊
•提案法では並列計算可能な関数として線形変換ではなくGPRを使⽤
•従来のフィードフォワード型DGP⾳声合成よりも有意に⾼い⾃然性
•主観評価結果ではSRU-RNN，LSTM-RNNより⾼いスコア
＜今後の課題＞
•層の数などハイパーパラメータの影響の調査
•リカレントGPとの計算時間の⽐較
•リカレント構造だけでなく，畳み込みや注意機構のDGPへの適⽤
•各時刻の独⽴性ではなく共分散を考慮したサンプリングの検討
＜特⻑＞
•GPRと同様，カーネル回帰で⾮線形関数を表現
•1層のGPRより複雑な関数を実現
•モデルの複雑さを考慮できるベイズモデル
•ミニバッチ勾配降下法による学習が可能
＜学習法＞
•周辺尤度の変分下限(ELBO)を最⼤化
•各層でGPRによる予測分布の推定と
予測分布からのサンプリングを繰り返して順伝播
＜課題＞
•従来法はフレーム単位のフィードフォワード(FF)モデル
•⾳声は時系列上で連続的に変化するため発話単位モデリングが必要
•DNN⾳声合成ではLSTM-RNNなどのリカレント構造を⽤いることで性能向上
＜⽬的＞
DGP⾳声合成において発話単位モデリングのためのリカレント構造の導⼊
メモリセル
層の出⼒
層の⼊⼒層の⼊⼒
ゲート
時系列処理
時系列処理
並列計算
並列計算
•NNでは各時刻で線形変換を⾏うため
計算時間は
DGP⾳声合成における発話単位の系列モデリングにおいて
計算時間を抑えつつリカレント構造による時系列処理を実現
層の過去の出⼒

深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (7)

Similaire à 深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討

Similaire à 深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討 (6)

Plus de Tomoki Koriyama

Plus de Tomoki Koriyama (13)

深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討