Deep learning for acoustic modeling in parametric speech generation

©Yuki Saito, 2017/05/10
Deep Learning for Acoustic Modeling in
Parametric Speech Generation
A Systematic Review of
Existing Techniques and Future Trends
[Z.-H. Ling et al., 2015.]
創造情報学専攻修士2年齋藤佑樹

/401
Outline of This Paper
 Statistical Parametric Speech Generation (SPSG)
– 入力特徴量と音声特徴量の対応関係を音響モデルにより表現
– 従来の音響モデル
• Hidden Markov Models (HMMs)
• Gaussian Mixture Models (GMMs)
 Deep Neural Networks (DNNs) の導入
– Automatic Speech Recognition (ASR) での成功に基づく
– 人間の階層的な音声生成過程をモデル化
 本稿の目的: DNNsを用いたSPSGの系統的な review
– 既存の技術 → DNNs を用いたSPSG へ
複雑な対応関係を
表現しにくい

/402
Introduction
 音声信号処理における機械学習
– ASR: 音声波形 (もしくは音声特徴量系列) から単語列を予測 (分類)
– Speech generation: 入力から音声信号を予測 (回帰)
• Text-To-Speech (TTS): 入力テキストから音声を生成
• Voice Conversion (VC): 入力音声の非言語的な情報を修正・変換
• Speech enhancement: 入力音声の品質改善 (e.g., ノイズ軽減)
• Articulatory-to-acoustic: 発話機構の運動を音声特徴量へ変換
 SPSG = 統計的な音響モデリング + Vocoder による音声波形生成
– (1) 𝑝(出力 | 入力) もしくは 𝑝(入力, 出力) を表現する音響モデルを構築
– (2) 上記の確率分布に従い音声特徴量を生成
• Spectral features (e.g., Mel-Cepstral Coefficients: MCCs)
• Excitation features (e.g., fundamental frequency, aperiodicity)
– (3) Vocoder による音声波形生成

/403
HMM-Based Speech Synthesis
 HMM: 離散的な隠れ状態系列を用いて観測の系列を生成
 HMM音声合成: コンテキスト依存のHMMを構築
– 音素, アクセントの型, 品詞などの組み合わせ毎にHMMが存在
 状態間の遷移
– 遷移確率により表現
 観測の生成分布
– State-Output PDFs により表現
– 個々の分布は Gaussian
 各状態の継続長
– 別途推定 (継続長HMMを利用)
 利点: 声質の制御が容易
– モデル適応や補間など

/404
Block Diagram of
Typical HMM-Based Speech Synthesis System

/405
Model Parameter Estimation Based on
Maximum Likelihood (ML) Criterion
 音素数 𝑁 のテキスト特徴量系列: 𝒙 = 𝒙1, … , 𝒙 𝑁
 フレーム数 𝑇 の音声特徴量系列: 𝒚 = 𝒚1
⊤
, … , 𝒚 𝑇
⊤ ⊤
– フレーム 𝑡 における音声特徴量: 𝒚 𝑡 = 𝒚 𝑠 𝑡
⊤
, Δ𝒚 𝑠 𝑡
⊤
, Δ2
𝒚 𝑠 𝑡
⊤ ⊤
• 𝒚 𝑠 𝑡
∈ ℝ 𝐷𝑠: 静的特徴量, Δ𝐲s 𝑡
, Δ2 𝒚 𝑠 𝑡
: 動的特徴量
– 静的特徴量の系列を 𝒚 𝑠 = 𝒚 𝑠1
⊤ , … , 𝒚 𝑠 𝑇
⊤ ⊤
とすると 𝒚 = 𝑴 𝑦 𝒚 𝑠
 コンテキスト依存HMMのモデルパラメータ 𝜆∗
のML推定
– 𝜆∗ = arg max
𝜆
𝑝 𝒚 𝒙, 𝜆
– HMMの状態系列を 𝒒 = 𝑞1, … , 𝑞 𝑇 とすると
• 𝑝 𝒚 𝒙, 𝜆 = ∀𝒒 𝑝 𝒚, 𝒒 𝒙, 𝜆
• = ∀𝒒 𝑃 𝒒 𝒙, 𝜆 𝑝 𝒚 𝒒, 𝜆
• = ∀𝒒 𝑃 𝒒 𝒙, 𝜆 𝑡=1
𝑇
𝑝 𝒚 𝑡 𝑞𝑡, 𝜆
静的特徴量から
動的特徴量を
計算する行列

/406
Decision Tree-Based Clustering
 問題点: コンテキストの組み合わせが膨大
– 同じコンテキストの発生は非常に稀 → overfitting
 解決策: 類似したコンテキストをクラスタリング
– クラスタ毎にHMMの State-Output PDFs を割り当て
 決定木 (Decision Tree):
– データの集合をいくつかの質問により
分割
– 質問の設定は対象とする言語に依存
• English, Chinese, Japanese, ...

/407
Block Diagram of
Typical HMM-Based Speech Synthesis System

/408
Speech Synthesis Stage
 1. 入力テキストからテキスト特徴量 𝒙 を取得
 2. HMMの状態系列 𝒒∗
を決定
– 𝒒∗
= arg max
𝒒
𝑃(𝒒| 𝒙, 𝜆∗
)
 3. 静的・動的特徴量の制約を考慮して，音声特徴量を生成
– 𝒚 𝑠
∗ = arg max
𝒚 𝑠
𝑡=1
𝑇
𝑝(𝒚 𝑡|𝑞𝑡
∗
, 𝜆∗)| 𝒚=𝑴 𝑦 𝒚 𝑠 𝑡
 4. Vocoder により音声波形を生成

/409
GMM-Based Voice Conversion
 入力話者の音声特徴量系列: 𝒙 = 𝒙1
⊤
, … , 𝒙 𝑇
⊤ ⊤
 目的話者の音声特徴量系列: 𝒚 = 𝒚1
⊤
, … , 𝒚 𝑇
⊤ ⊤
 Joint Distribution (JD)-GMM: 𝒛 𝑡 = 𝒙 𝑡
⊤
, 𝒚 𝑡
⊤ ⊤ の生成をモデル化
– モデルパラメータ: 𝜆 = 𝛼 𝑚, 𝝁 𝑚
𝑧
, 𝚺 𝑚
𝑧
𝑚=1
𝑀
• 𝛼 𝑚: 混合重み，𝝁 𝑚
(𝑧)
: 平均，𝚺 𝑚
𝑧
: 分散
• 𝝁 𝑚
𝑧
=
𝝁 𝑚
𝑥
𝝁 𝑚
𝑦
, 𝚺 𝑚
𝑧
=
𝚺 𝑚
𝑥𝑥
𝚺 𝑚
𝑥𝑦
𝚺 𝑚
𝑦𝑥
𝚺 𝑚
𝑦𝑦
 モデルパラメータのML推定
– 𝜆∗ = arg max
𝜆
𝑝 𝒙, 𝒚 𝜆
– = arg max
𝜆
𝑡=1
𝑇
𝑝 𝒛 𝑡 𝜆
Aligned by using
Dynamic Time Warping

/4010
Block Diagram of
Typical GMM-Based Voice Conversion System

/4011
Acoustic Feature Prediction Using
Conditional PDF
 入力音声特徴量 𝒙 の変換 (𝒎 = 𝑚1, … , 𝑚 𝑇 は混合成分系列)
– 𝑝 𝒚 𝒙, 𝜆∗
= ∀𝒎 𝑝 𝒚, 𝒎 𝒙, 𝜆∗
– = ∀𝒎 𝑃(𝒎| 𝒙, 𝜆∗) 𝑡=1
𝑇
𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡, 𝜆∗
• 𝑃 𝒎 𝒙, 𝜆∗ = 𝑡=1
𝑇
𝑃 𝑚 𝑡 𝒙 𝑡, 𝜆∗ は
• 𝛼 𝑚, 𝝁 𝑚
𝑥
, 𝚺 𝑚
𝑥
𝑚=1
𝑀
• をパラメータとするGMMを用いて決定
• 𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡, 𝜆∗ は
• 平均: 𝝁 𝑚,𝑡
𝑦|𝑥
= 𝝁 𝑚
(𝑦)
+ 𝚺 𝑚
𝑦𝑥
𝚺 𝑚
𝑥𝑥 −1
𝒙 𝑡 − 𝝁 𝑚
𝑥
• 分散: 𝚺 𝑚
𝑦|𝑥
= 𝚺 𝑚
(𝑦𝑦)
− 𝚺 𝑚
𝑦𝑥
𝚺 𝑚
𝑥𝑥 −1
𝚺 𝑚
(𝑥𝑦)
• とする Gaussian

/4012
Voice Conversion Stage
 1. 入力音声波形から音声特徴量 𝒙 を取得
 2. GMMの混合成分系列 𝒎∗
を決定
– 𝑚 𝑡
∗
= arg max
𝑚 𝑡
𝑃(𝑚 𝑡| 𝒙 𝑡, 𝜆∗
)
 3. 静的・動的特徴量の制約を考慮して，音声特徴量を生成
– 𝒚 𝑠
∗ = arg max
𝒚 𝑠
𝑡=1
𝑇
𝑝(𝒚 𝑡| 𝒙 𝑡, 𝑚 𝑡
∗
, 𝜆∗)| 𝒚=𝑴 𝑦 𝒚 𝑠
 4. Vocoder により音声波形を生成

/4013
Common Structure: Two-Step Mapping
 HMM音声合成とGMM音声変換の共通点: 2段階のモデル化
– (1) 離散的な隠れ変数を用いた「入力 → クラスター」のマッピング
• HMM: 状態 𝑞𝑡
∗
, GMM: 混合成分 𝑚 𝑡
∗
– (2) Gaussian を用いた「クラスター → 音声特徴量」のマッピング
• HMM: 𝑝 𝒚 𝑡|𝑞𝑡
∗
, 𝜆∗ , GMM: 𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡
∗
, 𝜆∗
 Limitations
– 決定木に基づくコンテキストクラスタリング
• → コンテキストの複雑な依存関係 (XORなど) を表現できない
– Single Gaussian with diagonal covariance matrices の仮定
• 音声特徴量はフレーム毎に独立 (隠れ変数が given のとき)
• フレーム内の音声特徴量は独立
• → 音声特徴量の over-smoothing & 合成音声の品質劣化

/4014
Deep Learning Technique for Acoustic Modeling
 Motivations
– 従来手法よりも高い表現力
• 入力間, 出力間, さらに入出力間の対応関係
– 人間の音声生成に基づくモデリング
• 階層型のネットワーク構造を利用
 本稿では
– Restricted Boltzmann Machines (RBMs)
– Deep Belief Networks (DBNs)
– Deep Neural Networks (DNNs) → conditional modeling
 を紹介
Joint modeling

/4015
Restricted Boltzmann Machines (RBMs)
 可視素子と隠れ素子の関係を表す2層の無向グラフィカルモデル
– 𝒗 = 𝑣1, … , 𝑣 𝑉
⊤
: 可視素子 (素子数 𝑉)
– 𝒉 = ℎ1, … , ℎ 𝐻
⊤: 隠れ素子 (素子数 𝐻)
– 𝜆 = {𝒂, 𝒃, 𝑾}: モデルパラメータ
• 𝒂 = 𝑎1, … , 𝑎 𝑉
⊤: 可視素子のバイアス
• 𝒃 = 𝑏1, … , 𝑏 𝐻
⊤: 隠れ素子のバイアス
• 𝑾 = 𝑤𝑖𝑗 ∈ ℝ 𝑉×𝐻: 素子間の結合重み
 Joint PDF 𝑃 𝒗, 𝒉 𝜆 の表現 (可視素子, 隠れ素子ともに2値の場合)
– 𝑃 𝒗, 𝒉 𝜆 =
1
𝒵 𝜆
exp − 𝐸 𝒗, 𝒉; 𝜆 𝐶 𝑇 (𝐶 𝑇 は温度パラメータ, 本稿では1)
• 𝐸 𝒗, 𝒉; 𝜆 = − 𝑖=1
𝑉
𝑎𝑖 𝑣𝑖 − 𝑗=1
𝐻
𝑏𝑗ℎ𝑗 − 𝑖=1
𝑉
𝑗=1
𝐻
𝑤𝑖𝑗 𝑣𝑖ℎ𝑗
• → エネルギー関数
• 𝒵𝜆 = ∀𝒗 ∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆
• → 分配関数

/4016
Training RBMs
 可視素子 𝒗 の marginal PDF
– 𝑃 𝒗 𝜆 =
1
𝒵 𝜆
∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆
 確率的勾配降下法によるモデルパラメータのML推定 (𝑤𝑖𝑗)
–
𝜕 log 𝑃 𝒗 𝜆
𝜕𝑤 𝑖𝑗
= E 𝑃data
𝑣𝑖ℎ𝑗 − E 𝑃model
𝑣𝑖ℎ𝑗
• E 𝑃data
⋅ : 学習データの分布に関する期待値
• E 𝑃model
⋅ : 𝑃 𝒗 𝜆 に関する期待値
• → 計算が困難なので, Contrastive Divergence (CD) 法で近似

/4017
Gaussian-Bernoulli RBM:
RBM for Real-Valued Visible Units
 エネルギー関数
– 𝐸 𝒗, 𝒉; 𝜆 = 𝑖=1
𝑉 𝑣 𝑖−𝑎 𝑖
2
2𝜎𝑖
2 − 𝑗=1
𝐻
𝑏𝑗ℎ𝑗 − 𝑖=1
𝑉
𝑗=1
𝐻
𝑤𝑖𝑗ℎ𝑗
𝑣 𝑖
𝜎 𝑖
 Conditional PDFs
– 𝑃 ℎ𝑗 = 1 𝒗, 𝜆 = 𝑔 𝑏𝑗 + 𝒗 𝑇
𝚺−
1
2 𝒘⋅𝑗
– 𝑝 𝒗 𝒉, 𝜆 = 𝒩 𝒗; 𝝁, 𝚺
• 𝑔 𝑥 = 1 (1 + exp −𝑥 ): sigmoid 関数
• 𝒘⋅𝑗: 𝑾 の 𝑗 番目の列ベクトル
• 𝝁 = 𝑾𝒉 + 𝒂: 平均
• 𝚺 = diag{𝜎1
2
, … , 𝜎 𝑉
2
}: 分散共分散行列
• 各成分は定数 (以降, 表記を簡単化するために全て1とする)

/4018
Marginal PDF of Gaussian-Bernoulli RBM
 𝑝 𝒗 𝜆 =
1
𝒵 𝜆
∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆
 =
1
𝒵 𝜆
∀𝒉 exp − 𝑖=1
2
2
+ 𝒃⊤ 𝒗 + 𝒗⊤ 𝑾𝒉
 =
1
𝒵 𝜆
exp − 𝑖=1
2
2 𝑗=1
𝐻
ℎ 𝑗∈{0,1} exp(𝑏𝑗ℎ𝑗 + 𝒗⊤
𝒘⋅𝑗ℎ𝑗)
 =
1
𝒵 𝜆
𝑖=1
𝑉
exp −
𝑣 𝑖−𝑎 𝑖
2
2 𝑗=1
𝐻
1 + exp(𝑏𝑗 + 𝒗⊤
𝒘⋅𝑗)
 この 𝑝 𝒗 𝜆 は
– Product of Experts (PoEs)
– GMM
 として解釈可能

/4019
Gaussian-Bernoulli RBM as Product of Experts (PoEs)
 PoE: 複数の単純な分布の積により1つの確率分布を表現
– 個々の分布よりも鋭い分布を生成可能
– 高次元空間における混合モデルよりも効率的
𝑝 𝒗 𝜆 =
1
𝒵 𝜆
𝑖=1
𝑉
exp −
𝑣 𝑖−𝑎 𝑖
2
2 𝑗=1
𝐻
1 + exp(𝑏𝑗 + 𝒗⊤
𝒘⋅𝑗)
 First products
– 可視素子間の相関は考慮せず, 単変量のみでのモデル化
 Second products
– 隠れ素子で結び付けられた可視素子同士の依存関係をモデル化

/4020
Gaussian-Bernoulli RBM as GMM
 Gaussian-Bernoulli RBM ≡ 混合成分数が 2 𝐻 のGMM
– 𝐻 = 0 のとき...
• 𝑝 𝒗 𝜆 =
1
𝒵 𝜆
exp − 𝑖=1
2
2
→ 平均 𝒂 の Gaussian
– 𝐻 = 1 のとき...
• 𝑝 𝒗 𝜆 =
1
𝒵 𝜆
exp − 𝑖=1
2
2
+
𝜅
𝒵 𝜆
exp − 𝑖=1
𝑉 𝑣 𝑖−𝑎 𝑖−𝑤 𝑖1
2
2
• 𝜅: モデルパラメータによって決まる定数
– 一般的に...
• 隠れ素子数の増加 → 混合成分数が2倍に
• Structured mean vectors & tied covariance matrices
• → robust towards data sparsity problem

/4021
Conditional RBM (CRBM)
 𝑝 𝒚 𝒙, 𝜆 をモデル化
– 𝒙 ∈ ℝ 𝐷 𝑋 と 𝒚 ∈ ℝ 𝐷 𝑌 が実数, 𝒉 が2値のとき
• 𝐸 𝒚, 𝒉, 𝒙; 𝜆 = 𝑖=1
𝐷 𝑌 𝑦 𝑖−𝑎 𝑖− 𝑘 𝐴 𝑘𝑖 𝑥 𝑘
2
2𝜎𝑖
2
• − 𝑗=1
𝐻
𝑏𝑗 + 𝑘 𝐵 𝑘𝑗 𝑥 𝑘 ℎ𝑗 − 𝑖=1
𝐷 𝑌
𝑗=1
𝐻
𝑤𝑖𝑗ℎ𝑗
𝑦 𝑖
𝜎 𝑖
• 𝑨 = 𝐴 𝑘𝑖 ∈ ℝ 𝐷 𝑋×𝐷 𝑌, 𝑩 = 𝐵 𝑘𝑗 ∈ ℝ 𝐷 𝑋×𝐻: モデルパラメータ
• 𝑝 𝒚 𝒙, 𝜆 =
1
𝒵 𝜆
∀𝒉 exp −𝐸 𝒗, 𝒉, 𝒙; 𝜆
• 𝒵𝜆 = ∀𝒉 exp −𝐸 𝒗, 𝒉, 𝒙; 𝜆 𝑑𝒚
 モデルパラメータの推定はRBMと同様 (CD法)

/4022
Deep Belief Networks (DBNs)
 隠れ素子を多層化 (𝐿層)
– 𝒉 𝑙 = ℎ1
𝑙
, … , ℎ 𝐻 𝑙
𝑙
⊤
: 𝑙番目の隠れ層 (素子数 𝐻𝑙)
– 𝜆 = 𝒂 1 , 𝑾 1 , … , 𝒂 𝐿 , 𝒃 𝐿 , 𝑾 𝐿 : モデルパラメータ
– 𝑝 𝒗, 𝒉 1 , … , 𝒉 𝐿 𝜆 = 𝑝 𝒗 𝒉 1 , 𝜆 𝑙=2
𝐿−1
𝑃 𝒉 𝑙−1 𝒉 𝑙 , 𝜆 𝑃(𝒉 𝐿−1 , 𝒉 𝐿 |𝜆)
• 𝑝 𝒗 𝒉 1 , 𝜆 = 𝒩 𝒗; 𝑾 1 𝒉 1 + 𝒂 1 , 𝑰
• 𝑃 ℎ𝑖
𝑙−1
= 1 𝒉 𝑙 , 𝜆 = 𝑔 𝑎𝑖
𝑙
+ 𝑗 𝑤𝑖𝑗
𝑙
ℎ𝑗
𝑙
 Marginal PDF
– 𝑝 𝒗 𝜆 = ∀𝒉 1 ⋯ ∀𝒉 𝐿 𝑝 𝒗, 𝒉 1
, … , 𝒉 𝐿
𝜆
• → 𝜆 の直接的な推定は困難

/4023
Greedy Layer-wise Training
Estimate 𝒂 1 , 𝒃(1), 𝑾 1
(train 1st RBM)
Estimate 𝒂 2 , 𝒃(2), 𝑾 2
(train 2nd RBM)
Estimate 𝒂 3
, 𝒃(3)
, 𝑾 3
(train 3rd RBM)

/4024
Deep Neural Networks (DNNs)
 教師あり学習に基づく 𝑝 𝒚 𝒙, 𝜆 のモデル化
– 𝜆 = 𝒃 1 , 𝑾 1 , … , 𝒃 𝐿+1 , 𝑾 𝐿+1 : モデルパラメータ
– ℎ𝑗
𝑙
= 𝑔 𝑏𝑗
𝑙
+ 𝑖 ℎ𝑖
𝑙−1
𝑤𝑖𝑗
𝑙
: 𝑙 番目の隠れ層の第 𝑗 成分
• ℎ𝑖
0
= 𝑥𝑖 (入力特徴量の第 𝑖 成分)
• 𝑏𝑗
(𝑙)
: バイアス成分，𝑤𝑖𝑗
𝑙
: 結合重み
 出力層の活性化関数はタスク依存
– Classification → softmax 関数
• 𝑦𝑗 =
exp 𝑏 𝑗
(𝐿+1)
+ 𝑖 ℎ 𝑖
(𝐿)
𝑤𝑖𝑗
𝐿+1
𝑘 exp 𝑏 𝑘
(𝐿+1)
+ 𝑖 ℎ 𝑖
(𝐿)
𝑤𝑖𝑘
𝐿+1
– Regression → linear 関数
• 𝑦𝑗 = 𝑏𝑗
(𝐿+1)
+ 𝑖 ℎ𝑖
(𝐿)
𝑤𝑖𝑗
(𝐿+1)

/4025
Loss Function for Training DNN
 Backpropagation アルゴリズムを用いた学習
– 出力層の損失関数 ℒ 𝒚, 𝒚; 𝜆 が小さくなるように 𝜆 を更新
• Classification → cross-entropy 関数
• ℒ 𝒚, 𝒚; 𝜆 = − 𝑗 𝑦𝑗 log( 𝑦)
• Regression → mean squared error
• ℒ 𝒚, 𝒚; 𝜆 = 𝑗 𝑦𝑗 − 𝑦𝑗
2
» → 𝑝 𝒚 𝒙, 𝜆 = 𝒩 𝒚; 𝒚, 𝑰 を仮定した 𝜆 のML推定と等価
 DNNの学習における問題
– 𝜆 の更新に必要な情報を低層まで伝播不可 (勾配消失問題)
– 表現力が非常に高いので over-fitting しやすい
• → DBNによる pre-training
• (1) 𝐿 層のDBNを教師なし学習
• (2) 出力層を追加して全体を fine-tuning

/4026
Another Way to Pre-train DNN:
AutoEncoders (AEs)
 入力 𝒙 を復元するための圧縮された中間表現 𝒉 を学習
– (1) 重み 𝑾 を用いて入力 𝒙 を 𝒉 に圧縮
– (2) 𝑾′ を用いて 𝒉 から 𝒙 を復元 (𝑾′ = 𝑾⊤ としてもよい)
– (3) 𝒙 と 𝒙 の誤差を最小化するようにモデルパラメータを学習
 Denoising AE (DAE): 入力にノイズを加えて復元
– RBMsの代わりにDAEsを多層化させてDNNを構築
• ニューラルネットワークの学習として
• DNNの pre-training が可能 ̃

/4027
Cluster-to-Feature Mapping Using
Deep Generative Models
 RBMsを用いたHMM音声合成
– MCCsなどの低次元特徴量ではなく, スペクトル包絡をモデル化
– HMM音声合成における Gaussian をRBMsで置換
 実験条件
– 音声特徴量 (MCCs，F0，スペクトル包絡) の抽出: STRAIGHT法
• MCCsとF0のモデル化: HMM音声合成 (全手法で共通)
予測特徴量生成分布
Baseline MCCs Gaussian
GMM スペクトル包絡 GMM (𝑀 = 8)
RBM スペクトル包絡 RBM (𝐻 = 50)

/4028
Experimental Results
 RBMによる品質改善を確認
 VCにおいても品質改善を確認 (Mean Opinion Score: MOS での評価)
– 目的話者との類似度: 2.83 → 3.13
– 合成音声の自然性: 2.90 → 3.45

/4029
Spectrograms of Synthetic Speech
RBM
Baseline

/4030
Input-to-Feature Mapping Using
Deep Joint Models
 MultiDistribution DBN (MD-DBN) によるモデリング
– 「入力特徴量 → 音声特徴量」の直接的なマッピングを実現
– 音節単位での複数フレームの音声特徴量をモデル化
• Mel-Generalized Cepstrums (MGCs), log-energy, logF0, U/V
• 異なる音声特徴量の相関もモデル化可能
– 連続変数 (U/V以外) のモデル化
• → Gaussian
– 2値変数 (U/V) のモデル化
• → Bernoulli

/4031
Training/Synthesis Using MD-DBN
 学習時
– (1) 𝒉 𝐿−1
までを教師なし学習 (通常のDBNの学習と同様)
– (2) 𝒙, 𝒉 𝐿 , 𝒉 𝐿−1 の相関を学習
 生成時
– (1) テキスト特徴量 𝒙 を決定
– (2) 𝒉 𝐿−1 の推定
– (3) 𝒉(1) までを再帰的に推定
– (4) 音声特徴量 𝒚 を推定
– (5) 波形生成

/4032
Comparison between HMM and MD-DBN
 生成分布の表現方法
– HMM: 複数の single Gaussian
– MD-DBN: 1つのネットワーク
 音声特徴量モデル化の単位
– HMM: 状態単位でのモデル化
– MD-DBN: 音節単位 (複数フレーム) でのモデル化
 同一フレーム内での音声特徴量のモデル化
– HMM: 異なる特徴量は互いに独立と仮定 (diagonal covariance)
– MD-DBN: 独立性の仮定なし

/4033
Experimental Results
 比較手法
– HMM: HMM音声合成
– DBN (MGCs): スペクトルのみをMD-DBNで予測
– DBN (MGCs + logF0): スペクトルとF0の両方をMD-DBNで予測
 結果
– スペクトル特徴量のみの予測では品質改善を確認
– F0も加えて予測すると有意差はなし → 特徴量の次元数の違いが問題？

/4034
Input-to-Feature Mapping Using
Deep Conditional Models
 𝑝 𝒚 𝒙, 𝜆 を表すDNNにより音声特徴量をモデル化
– DNN音声合成: テキスト特徴量を音声特徴量へフレーム毎に変換
• テキスト特徴量: 2値変数と実数変数の混合
• 音声特徴量: 各フレームのMCCs, logF0, excitation, U/V
– 学習後のDNNの出力層 → 生成分布 (Gaussian) の平均
• 分散は学習データを用いて別途推定
– 結果: HMM音声合成と比較して品質改善

/4035
Comparisons among Three Approaches
 Cluster-to-Feature w/ RBM
– 従来技術と類似した枠組み + 生成分布の表現方法を修正
 Input-to-Feature w/ MD-DBN or DNN
– 2段階のモデル化を統合 (クラスターへのマッピングが不要)
• 音声特徴量への複雑なマッピングをより効率的に表現可能
– MD-DBN: サンプリングベースの音声特徴量生成
– DNN: 入力特徴量から音声特徴量を straightforward に生成
• 生成分布の表現力は弱い (単位行列を仮定した Gaussian)
 タスクに応じてさまざまなアプローチが存在
– DNN + Gaussian Process を用いたlogF0の生成 (TTS)
– Mixture of RBMs を用いたVC
– DAEを用いた speech enhancement
– etc...

/4036
Performance of RBMs as Density Models
 HMM音声合成におけるスペクトル
特徴量のモデル化
– GMM: モデルが複雑になるほど
over-fitting しやすい
– RBM: モデルを複雑にしたときの
over-fitting の影響が比較的小さい
→ good generalization
 RBMを用いることにで, 生のスペク
トル包絡からの特徴抽出が可能に
– → 包絡モデリング時の誤差を軽減

/4037
Input and Target Features
 入力特徴量はタスク依存で決定
– TTS: rich linguistic context, 入力テキストのベクトル表現
– VC: 入力音声のスペクトル特徴量
– Enhancement: noisy speech のパワースペクトル
 出力特徴量 (音声) の表現方法も多数存在
– Deep generative models が持つ高い表現力を利用
• 生のスペクトル包絡，パワースペクトルからの特徴抽出
• 多数の音声特徴量を連結させた特徴量
– TTSでは, F0に関する特徴量の予測も重要
• これまで紹介した手法では, logF0の予測精度は今ひとつ...

/4038
Model Structures and Model Training
 音声生成のアプローチに応じたモデルの設定
– RBMs, DBNs: joint PDFs and input-to-feature, or input-to-feature
– DNNs, CRBMs, DAEs: conditional PDFs and input-to-feature
 モデルの深さも重要 (だが, 深ければよいというわけでもない)
– ASRに比べると学習データの数が少ないので，学習が困難
 モデルの初期化法も多数存在
– Random initialization (TTS)
– DBNsを用いた初期化 (VC)
– AEs, RBMs を用いた初期化 (enhancement)
 計算コスト削減にGPUを用いた高速化も有効

/4039
Comparison between Speech Synthesis and
Recognition both Using DNN-HMMs
 DNN-HMM: ASRにおいて主流となっている手法
– (1) DNNにより音声特徴量を決定木の葉ノードにマッピング
– (2) HMMにより言語特徴量を decoding
 SPSGでは，ASRに比べてモデルの構造が多様
– DNNを用いた conditional PDF のモデル化 → DNN-HMMに類似
• 主な違いは出力層の活性化関数
• ASR (classification): softmax 関数
• SPSG (regression): linear 関数
 音声特徴量の役割
– ASR: 発話内容の予測 (exicitation, power spectra は使わない)
– SPSG: 音声波形の生成 (spectra, excitation の両方が必要)

/4040
Conclusions
 概要: deep learning を用いたSPSGのための音響モデリング
– 入出力間の複雑な対応関係を表現可能
• Deep joint models (RBMs, DBNs)
• Deep conditional models (CRBMs, DNNs)
– 従来手法と比較して合成音声の品質改善
 将来展望
– F0の高精度な予測を実現するモデルが必要
• スペクトルの予測とは別途行うべき？
• 時系列単位での依存性を考慮したモデル

Deep learning for acoustic modeling in parametric speech generation

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Deep learning for acoustic modeling in parametric speech generation

Similaire à Deep learning for acoustic modeling in parametric speech generation (20)

Plus de Yuki Saito

Plus de Yuki Saito (20)

Deep learning for acoustic modeling in parametric speech generation