SlideShare une entreprise Scribd logo
1  sur  41
Télécharger pour lire hors ligne
©Yuki Saito, 2017/05/10
Deep Learning for Acoustic Modeling in
Parametric Speech Generation
A Systematic Review of
Existing Techniques and Future Trends
[Z.-H. Ling et al., 2015.]
創造情報学専攻 修士2年 齋藤 佑樹
/401
Outline of This Paper
 Statistical Parametric Speech Generation (SPSG)
– 入力特徴量と音声特徴量の対応関係を音響モデルにより表現
– 従来の音響モデル
• Hidden Markov Models (HMMs)
• Gaussian Mixture Models (GMMs)
 Deep Neural Networks (DNNs) の導入
– Automatic Speech Recognition (ASR) での成功に基づく
– 人間の階層的な音声生成過程をモデル化
 本稿の目的: DNNsを用いたSPSGの系統的な review
– 既存の技術 → DNNs を用いたSPSG へ
複雑な対応関係を
表現しにくい
/402
Introduction
 音声信号処理における機械学習
– ASR: 音声波形 (もしくは音声特徴量系列) から単語列を予測 (分類)
– Speech generation: 入力から音声信号を予測 (回帰)
• Text-To-Speech (TTS): 入力テキストから音声を生成
• Voice Conversion (VC): 入力音声の非言語的な情報を修正・変換
• Speech enhancement: 入力音声の品質改善 (e.g., ノイズ軽減)
• Articulatory-to-acoustic: 発話機構の運動を音声特徴量へ変換
 SPSG = 統計的な音響モデリング + Vocoder による音声波形生成
– (1) 𝑝(出力 | 入力) もしくは 𝑝(入力, 出力) を表現する音響モデルを構築
– (2) 上記の確率分布に従い音声特徴量を生成
• Spectral features (e.g., Mel-Cepstral Coefficients: MCCs)
• Excitation features (e.g., fundamental frequency, aperiodicity)
– (3) Vocoder による音声波形生成
/403
HMM-Based Speech Synthesis
 HMM: 離散的な隠れ状態系列を用いて観測の系列を生成
 HMM音声合成: コンテキスト依存のHMMを構築
– 音素, アクセントの型, 品詞などの組み合わせ毎にHMMが存在
 状態間の遷移
– 遷移確率により表現
 観測の生成分布
– State-Output PDFs により表現
– 個々の分布は Gaussian
 各状態の継続長
– 別途推定 (継続長HMMを利用)
 利点: 声質の制御が容易
– モデル適応や補間など
/404
Block Diagram of
Typical HMM-Based Speech Synthesis System
/405
Model Parameter Estimation Based on
Maximum Likelihood (ML) Criterion
 音素数 𝑁 のテキスト特徴量系列: 𝒙 = 𝒙1, … , 𝒙 𝑁
 フレーム数 𝑇 の音声特徴量系列: 𝒚 = 𝒚1
⊤
, … , 𝒚 𝑇
⊤ ⊤
– フレーム 𝑡 における音声特徴量: 𝒚 𝑡 = 𝒚 𝑠 𝑡
⊤
, Δ𝒚 𝑠 𝑡
⊤
, Δ2
𝒚 𝑠 𝑡
⊤ ⊤
• 𝒚 𝑠 𝑡
∈ ℝ 𝐷𝑠: 静的特徴量, Δ𝐲s 𝑡
, Δ2 𝒚 𝑠 𝑡
: 動的特徴量
– 静的特徴量の系列を 𝒚 𝑠 = 𝒚 𝑠1
⊤ , … , 𝒚 𝑠 𝑇
⊤ ⊤
とすると 𝒚 = 𝑴 𝑦 𝒚 𝑠
 コンテキスト依存HMMのモデルパラメータ 𝜆∗
のML推定
– 𝜆∗ = arg max
𝜆
𝑝 𝒚 𝒙, 𝜆
– HMMの状態系列を 𝒒 = 𝑞1, … , 𝑞 𝑇 とすると
• 𝑝 𝒚 𝒙, 𝜆 = ∀𝒒 𝑝 𝒚, 𝒒 𝒙, 𝜆
• = ∀𝒒 𝑃 𝒒 𝒙, 𝜆 𝑝 𝒚 𝒒, 𝜆
• = ∀𝒒 𝑃 𝒒 𝒙, 𝜆 𝑡=1
𝑇
𝑝 𝒚 𝑡 𝑞𝑡, 𝜆
静的特徴量から
動的特徴量を
計算する行列
/406
Decision Tree-Based Clustering
 問題点: コンテキストの組み合わせが膨大
– 同じコンテキストの発生は非常に稀 → overfitting
 解決策: 類似したコンテキストをクラスタリング
– クラスタ毎にHMMの State-Output PDFs を割り当て
 決定木 (Decision Tree):
– データの集合をいくつかの質問により
分割
– 質問の設定は対象とする言語に依存
• English, Chinese, Japanese, ...
/407
Block Diagram of
Typical HMM-Based Speech Synthesis System
/408
Speech Synthesis Stage
 1. 入力テキストからテキスト特徴量 𝒙 を取得
 2. HMMの状態系列 𝒒∗
を決定
– 𝒒∗
= arg max
𝒒
𝑃(𝒒| 𝒙, 𝜆∗
)
 3. 静的・動的特徴量の制約を考慮して,音声特徴量を生成
– 𝒚 𝑠
∗ = arg max
𝒚 𝑠
𝑡=1
𝑇
𝑝(𝒚 𝑡|𝑞𝑡
∗
, 𝜆∗)| 𝒚=𝑴 𝑦 𝒚 𝑠 𝑡
 4. Vocoder により音声波形を生成
/409
GMM-Based Voice Conversion
 入力話者の音声特徴量系列: 𝒙 = 𝒙1
⊤
, … , 𝒙 𝑇
⊤ ⊤
 目的話者の音声特徴量系列: 𝒚 = 𝒚1
⊤
, … , 𝒚 𝑇
⊤ ⊤
 Joint Distribution (JD)-GMM: 𝒛 𝑡 = 𝒙 𝑡
⊤
, 𝒚 𝑡
⊤ ⊤ の生成をモデル化
– モデルパラメータ: 𝜆 = 𝛼 𝑚, 𝝁 𝑚
𝑧
, 𝚺 𝑚
𝑧
𝑚=1
𝑀
• 𝛼 𝑚: 混合重み,𝝁 𝑚
(𝑧)
: 平均,𝚺 𝑚
𝑧
: 分散
• 𝝁 𝑚
𝑧
=
𝝁 𝑚
𝑥
𝝁 𝑚
𝑦
, 𝚺 𝑚
𝑧
=
𝚺 𝑚
𝑥𝑥
𝚺 𝑚
𝑥𝑦
𝚺 𝑚
𝑦𝑥
𝚺 𝑚
𝑦𝑦
 モデルパラメータのML推定
– 𝜆∗ = arg max
𝜆
𝑝 𝒙, 𝒚 𝜆
– = arg max
𝜆
𝑡=1
𝑇
𝑝 𝒛 𝑡 𝜆
Aligned by using
Dynamic Time Warping
/4010
Block Diagram of
Typical GMM-Based Voice Conversion System
/4011
Acoustic Feature Prediction Using
Conditional PDF
 入力音声特徴量 𝒙 の変換 (𝒎 = 𝑚1, … , 𝑚 𝑇 は混合成分系列)
– 𝑝 𝒚 𝒙, 𝜆∗
= ∀𝒎 𝑝 𝒚, 𝒎 𝒙, 𝜆∗
– = ∀𝒎 𝑃(𝒎| 𝒙, 𝜆∗) 𝑡=1
𝑇
𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡, 𝜆∗
• 𝑃 𝒎 𝒙, 𝜆∗ = 𝑡=1
𝑇
𝑃 𝑚 𝑡 𝒙 𝑡, 𝜆∗ は
• 𝛼 𝑚, 𝝁 𝑚
𝑥
, 𝚺 𝑚
𝑥
𝑚=1
𝑀
• をパラメータとするGMMを用いて決定
• 𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡, 𝜆∗ は
• 平均: 𝝁 𝑚,𝑡
𝑦|𝑥
= 𝝁 𝑚
(𝑦)
+ 𝚺 𝑚
𝑦𝑥
𝚺 𝑚
𝑥𝑥 −1
𝒙 𝑡 − 𝝁 𝑚
𝑥
• 分散: 𝚺 𝑚
𝑦|𝑥
= 𝚺 𝑚
(𝑦𝑦)
− 𝚺 𝑚
𝑦𝑥
𝚺 𝑚
𝑥𝑥 −1
𝚺 𝑚
(𝑥𝑦)
• とする Gaussian
/4012
Voice Conversion Stage
 1. 入力音声波形から音声特徴量 𝒙 を取得
 2. GMMの混合成分系列 𝒎∗
を決定
– 𝑚 𝑡
∗
= arg max
𝑚 𝑡
𝑃(𝑚 𝑡| 𝒙 𝑡, 𝜆∗
)
 3. 静的・動的特徴量の制約を考慮して,音声特徴量を生成
– 𝒚 𝑠
∗ = arg max
𝒚 𝑠
𝑡=1
𝑇
𝑝(𝒚 𝑡| 𝒙 𝑡, 𝑚 𝑡
∗
, 𝜆∗)| 𝒚=𝑴 𝑦 𝒚 𝑠
 4. Vocoder により音声波形を生成
/4013
Common Structure: Two-Step Mapping
 HMM音声合成とGMM音声変換の共通点: 2段階のモデル化
– (1) 離散的な隠れ変数を用いた「入力 → クラスター」のマッピング
• HMM: 状態 𝑞𝑡
∗
, GMM: 混合成分 𝑚 𝑡
∗
– (2) Gaussian を用いた「クラスター → 音声特徴量」のマッピング
• HMM: 𝑝 𝒚 𝑡|𝑞𝑡
∗
, 𝜆∗ , GMM: 𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡
∗
, 𝜆∗
 Limitations
– 決定木に基づくコンテキストクラスタリング
• → コンテキストの複雑な依存関係 (XORなど) を表現できない
– Single Gaussian with diagonal covariance matrices の仮定
• 音声特徴量はフレーム毎に独立 (隠れ変数が given のとき)
• フレーム内の音声特徴量は独立
• → 音声特徴量の over-smoothing & 合成音声の品質劣化
/4014
Deep Learning Technique for Acoustic Modeling
 Motivations
– 従来手法よりも高い表現力
• 入力間, 出力間, さらに入出力間の対応関係
– 人間の音声生成に基づくモデリング
• 階層型のネットワーク構造を利用
 本稿では
– Restricted Boltzmann Machines (RBMs)
– Deep Belief Networks (DBNs)
– Deep Neural Networks (DNNs) → conditional modeling
 を紹介
Joint modeling
/4015
Restricted Boltzmann Machines (RBMs)
 可視素子と隠れ素子の関係を表す2層の無向グラフィカルモデル
– 𝒗 = 𝑣1, … , 𝑣 𝑉
⊤
: 可視素子 (素子数 𝑉)
– 𝒉 = ℎ1, … , ℎ 𝐻
⊤: 隠れ素子 (素子数 𝐻)
– 𝜆 = {𝒂, 𝒃, 𝑾}: モデルパラメータ
• 𝒂 = 𝑎1, … , 𝑎 𝑉
⊤: 可視素子のバイアス
• 𝒃 = 𝑏1, … , 𝑏 𝐻
⊤: 隠れ素子のバイアス
• 𝑾 = 𝑤𝑖𝑗 ∈ ℝ 𝑉×𝐻: 素子間の結合重み
 Joint PDF 𝑃 𝒗, 𝒉 𝜆 の表現 (可視素子, 隠れ素子ともに2値の場合)
– 𝑃 𝒗, 𝒉 𝜆 =
1
𝒵 𝜆
exp − 𝐸 𝒗, 𝒉; 𝜆 𝐶 𝑇 (𝐶 𝑇 は温度パラメータ, 本稿では1)
• 𝐸 𝒗, 𝒉; 𝜆 = − 𝑖=1
𝑉
𝑎𝑖 𝑣𝑖 − 𝑗=1
𝐻
𝑏𝑗ℎ𝑗 − 𝑖=1
𝑉
𝑗=1
𝐻
𝑤𝑖𝑗 𝑣𝑖ℎ𝑗
• → エネルギー関数
• 𝒵𝜆 = ∀𝒗 ∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆
• → 分配関数
/4016
Training RBMs
 可視素子 𝒗 の marginal PDF
– 𝑃 𝒗 𝜆 =
1
𝒵 𝜆
∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆
 確率的勾配降下法によるモデルパラメータのML推定 (𝑤𝑖𝑗)
–
𝜕 log 𝑃 𝒗 𝜆
𝜕𝑤 𝑖𝑗
= E 𝑃data
𝑣𝑖ℎ𝑗 − E 𝑃model
𝑣𝑖ℎ𝑗
• E 𝑃data
⋅ : 学習データの分布に関する期待値
• E 𝑃model
⋅ : 𝑃 𝒗 𝜆 に関する期待値
• → 計算が困難なので, Contrastive Divergence (CD) 法で近似
/4017
Gaussian-Bernoulli RBM:
RBM for Real-Valued Visible Units
 エネルギー関数
– 𝐸 𝒗, 𝒉; 𝜆 = 𝑖=1
𝑉 𝑣 𝑖−𝑎 𝑖
2
2𝜎𝑖
2 − 𝑗=1
𝐻
𝑏𝑗ℎ𝑗 − 𝑖=1
𝑉
𝑗=1
𝐻
𝑤𝑖𝑗ℎ𝑗
𝑣 𝑖
𝜎 𝑖
 Conditional PDFs
– 𝑃 ℎ𝑗 = 1 𝒗, 𝜆 = 𝑔 𝑏𝑗 + 𝒗 𝑇
𝚺−
1
2 𝒘⋅𝑗
– 𝑝 𝒗 𝒉, 𝜆 = 𝒩 𝒗; 𝝁, 𝚺
• 𝑔 𝑥 = 1 (1 + exp −𝑥 ): sigmoid 関数
• 𝒘⋅𝑗: 𝑾 の 𝑗 番目の列ベクトル
• 𝝁 = 𝑾𝒉 + 𝒂: 平均
• 𝚺 = diag{𝜎1
2
, … , 𝜎 𝑉
2
}: 分散共分散行列
• 各成分は定数 (以降, 表記を簡単化するために全て1とする)
/4018
Marginal PDF of Gaussian-Bernoulli RBM
 𝑝 𝒗 𝜆 =
1
𝒵 𝜆
∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆
 =
1
𝒵 𝜆
∀𝒉 exp − 𝑖=1
𝑉 𝑣 𝑖−𝑎 𝑖
2
2
+ 𝒃⊤ 𝒗 + 𝒗⊤ 𝑾𝒉
 =
1
𝒵 𝜆
exp − 𝑖=1
𝑉 𝑣 𝑖−𝑎 𝑖
2
2 𝑗=1
𝐻
ℎ 𝑗∈{0,1} exp(𝑏𝑗ℎ𝑗 + 𝒗⊤
𝒘⋅𝑗ℎ𝑗)
 =
1
𝒵 𝜆
𝑖=1
𝑉
exp −
𝑣 𝑖−𝑎 𝑖
2
2 𝑗=1
𝐻
1 + exp(𝑏𝑗 + 𝒗⊤
𝒘⋅𝑗)
 この 𝑝 𝒗 𝜆 は
– Product of Experts (PoEs)
– GMM
 として解釈可能
/4019
Gaussian-Bernoulli RBM as Product of Experts (PoEs)
 PoE: 複数の単純な分布の積により1つの確率分布を表現
– 個々の分布よりも鋭い分布を生成可能
– 高次元空間における混合モデルよりも効率的
𝑝 𝒗 𝜆 =
1
𝒵 𝜆
𝑖=1
𝑉
exp −
𝑣 𝑖−𝑎 𝑖
2
2 𝑗=1
𝐻
1 + exp(𝑏𝑗 + 𝒗⊤
𝒘⋅𝑗)
 First products
– 可視素子間の相関は考慮せず, 単変量のみでのモデル化
 Second products
– 隠れ素子で結び付けられた可視素子同士の依存関係をモデル化
/4020
Gaussian-Bernoulli RBM as GMM
 Gaussian-Bernoulli RBM ≡ 混合成分数が 2 𝐻 のGMM
– 𝐻 = 0 のとき...
• 𝑝 𝒗 𝜆 =
1
𝒵 𝜆
exp − 𝑖=1
𝑉 𝑣 𝑖−𝑎 𝑖
2
2
→ 平均 𝒂 の Gaussian
– 𝐻 = 1 のとき...
• 𝑝 𝒗 𝜆 =
1
𝒵 𝜆
exp − 𝑖=1
𝑉 𝑣 𝑖−𝑎 𝑖
2
2
+
𝜅
𝒵 𝜆
exp − 𝑖=1
𝑉 𝑣 𝑖−𝑎 𝑖−𝑤 𝑖1
2
2
• 𝜅: モデルパラメータによって決まる定数
– 一般的に...
• 隠れ素子数の増加 → 混合成分数が2倍に
• Structured mean vectors & tied covariance matrices
• → robust towards data sparsity problem
/4021
Conditional RBM (CRBM)
 𝑝 𝒚 𝒙, 𝜆 をモデル化
– 𝒙 ∈ ℝ 𝐷 𝑋 と 𝒚 ∈ ℝ 𝐷 𝑌 が実数, 𝒉 が2値のとき
• 𝐸 𝒚, 𝒉, 𝒙; 𝜆 = 𝑖=1
𝐷 𝑌 𝑦 𝑖−𝑎 𝑖− 𝑘 𝐴 𝑘𝑖 𝑥 𝑘
2
2𝜎𝑖
2
• − 𝑗=1
𝐻
𝑏𝑗 + 𝑘 𝐵 𝑘𝑗 𝑥 𝑘 ℎ𝑗 − 𝑖=1
𝐷 𝑌
𝑗=1
𝐻
𝑤𝑖𝑗ℎ𝑗
𝑦 𝑖
𝜎 𝑖
• 𝑨 = 𝐴 𝑘𝑖 ∈ ℝ 𝐷 𝑋×𝐷 𝑌, 𝑩 = 𝐵 𝑘𝑗 ∈ ℝ 𝐷 𝑋×𝐻: モデルパラメータ
• 𝑝 𝒚 𝒙, 𝜆 =
1
𝒵 𝜆
∀𝒉 exp −𝐸 𝒗, 𝒉, 𝒙; 𝜆
• 𝒵𝜆 = ∀𝒉 exp −𝐸 𝒗, 𝒉, 𝒙; 𝜆 𝑑𝒚
 モデルパラメータの推定はRBMと同様 (CD法)
/4022
Deep Belief Networks (DBNs)
 隠れ素子を多層化 (𝐿層)
– 𝒉 𝑙 = ℎ1
𝑙
, … , ℎ 𝐻 𝑙
𝑙
⊤
: 𝑙番目の隠れ層 (素子数 𝐻𝑙)
– 𝜆 = 𝒂 1 , 𝑾 1 , … , 𝒂 𝐿 , 𝒃 𝐿 , 𝑾 𝐿 : モデルパラメータ
– 𝑝 𝒗, 𝒉 1 , … , 𝒉 𝐿 𝜆 = 𝑝 𝒗 𝒉 1 , 𝜆 𝑙=2
𝐿−1
𝑃 𝒉 𝑙−1 𝒉 𝑙 , 𝜆 𝑃(𝒉 𝐿−1 , 𝒉 𝐿 |𝜆)
• 𝑝 𝒗 𝒉 1 , 𝜆 = 𝒩 𝒗; 𝑾 1 𝒉 1 + 𝒂 1 , 𝑰
• 𝑃 ℎ𝑖
𝑙−1
= 1 𝒉 𝑙 , 𝜆 = 𝑔 𝑎𝑖
𝑙
+ 𝑗 𝑤𝑖𝑗
𝑙
ℎ𝑗
𝑙
 Marginal PDF
– 𝑝 𝒗 𝜆 = ∀𝒉 1 ⋯ ∀𝒉 𝐿 𝑝 𝒗, 𝒉 1
, … , 𝒉 𝐿
𝜆
• → 𝜆 の直接的な推定は困難
/4023
Greedy Layer-wise Training
Estimate 𝒂 1 , 𝒃(1), 𝑾 1
(train 1st RBM)
Estimate 𝒂 2 , 𝒃(2), 𝑾 2
(train 2nd RBM)
Estimate 𝒂 3
, 𝒃(3)
, 𝑾 3
(train 3rd RBM)
/4024
Deep Neural Networks (DNNs)
 教師あり学習に基づく 𝑝 𝒚 𝒙, 𝜆 のモデル化
– 𝜆 = 𝒃 1 , 𝑾 1 , … , 𝒃 𝐿+1 , 𝑾 𝐿+1 : モデルパラメータ
– ℎ𝑗
𝑙
= 𝑔 𝑏𝑗
𝑙
+ 𝑖 ℎ𝑖
𝑙−1
𝑤𝑖𝑗
𝑙
: 𝑙 番目の隠れ層の第 𝑗 成分
• ℎ𝑖
0
= 𝑥𝑖 (入力特徴量の第 𝑖 成分)
• 𝑏𝑗
(𝑙)
: バイアス成分,𝑤𝑖𝑗
𝑙
: 結合重み
 出力層の活性化関数はタスク依存
– Classification → softmax 関数
• 𝑦𝑗 =
exp 𝑏 𝑗
(𝐿+1)
+ 𝑖 ℎ 𝑖
(𝐿)
𝑤𝑖𝑗
𝐿+1
𝑘 exp 𝑏 𝑘
(𝐿+1)
+ 𝑖 ℎ 𝑖
(𝐿)
𝑤𝑖𝑘
𝐿+1
– Regression → linear 関数
• 𝑦𝑗 = 𝑏𝑗
(𝐿+1)
+ 𝑖 ℎ𝑖
(𝐿)
𝑤𝑖𝑗
(𝐿+1)
/4025
Loss Function for Training DNN
 Backpropagation アルゴリズムを用いた学習
– 出力層の損失関数 ℒ 𝒚, 𝒚; 𝜆 が小さくなるように 𝜆 を更新
• Classification → cross-entropy 関数
• ℒ 𝒚, 𝒚; 𝜆 = − 𝑗 𝑦𝑗 log( 𝑦)
• Regression → mean squared error
• ℒ 𝒚, 𝒚; 𝜆 = 𝑗 𝑦𝑗 − 𝑦𝑗
2
» → 𝑝 𝒚 𝒙, 𝜆 = 𝒩 𝒚; 𝒚, 𝑰 を仮定した 𝜆 のML推定と等価
 DNNの学習における問題
– 𝜆 の更新に必要な情報を低層まで伝播不可 (勾配消失問題)
– 表現力が非常に高いので over-fitting しやすい
• → DBNによる pre-training
• (1) 𝐿 層のDBNを教師なし学習
• (2) 出力層を追加して全体を fine-tuning
/4026
Another Way to Pre-train DNN:
AutoEncoders (AEs)
 入力 𝒙 を復元するための圧縮された中間表現 𝒉 を学習
– (1) 重み 𝑾 を用いて入力 𝒙 を 𝒉 に圧縮
– (2) 𝑾′ を用いて 𝒉 から 𝒙 を復元 (𝑾′ = 𝑾⊤ としてもよい)
– (3) 𝒙 と 𝒙 の誤差を最小化するようにモデルパラメータを学習
 Denoising AE (DAE): 入力にノイズを加えて復元
– RBMsの代わりにDAEsを多層化させてDNNを構築
• ニューラルネットワークの学習として
• DNNの pre-training が可能 ̃
/4027
Cluster-to-Feature Mapping Using
Deep Generative Models
 RBMsを用いたHMM音声合成
– MCCsなどの低次元特徴量ではなく, スペクトル包絡をモデル化
– HMM音声合成における Gaussian をRBMsで置換
 実験条件
– 音声特徴量 (MCCs,F0,スペクトル包絡) の抽出: STRAIGHT法
• MCCsとF0のモデル化: HMM音声合成 (全手法で共通)
予測特徴量 生成分布
Baseline MCCs Gaussian
GMM スペクトル包絡 GMM (𝑀 = 8)
RBM スペクトル包絡 RBM (𝐻 = 50)
/4028
Experimental Results
 RBMによる品質改善を確認
 VCにおいても品質改善を確認 (Mean Opinion Score: MOS での評価)
– 目的話者との類似度: 2.83 → 3.13
– 合成音声の自然性: 2.90 → 3.45
/4029
Spectrograms of Synthetic Speech
RBM
Baseline
/4030
Input-to-Feature Mapping Using
Deep Joint Models
 MultiDistribution DBN (MD-DBN) によるモデリング
– 「入力特徴量 → 音声特徴量」の直接的なマッピングを実現
– 音節単位での複数フレームの音声特徴量をモデル化
• Mel-Generalized Cepstrums (MGCs), log-energy, logF0, U/V
• 異なる音声特徴量の相関もモデル化可能
– 連続変数 (U/V以外) のモデル化
• → Gaussian
– 2値変数 (U/V) のモデル化
• → Bernoulli
/4031
Training/Synthesis Using MD-DBN
 学習時
– (1) 𝒉 𝐿−1
までを教師なし学習 (通常のDBNの学習と同様)
– (2) 𝒙, 𝒉 𝐿 , 𝒉 𝐿−1 の相関を学習
 生成時
– (1) テキスト特徴量 𝒙 を決定
– (2) 𝒉 𝐿−1 の推定
– (3) 𝒉(1) までを再帰的に推定
– (4) 音声特徴量 𝒚 を推定
– (5) 波形生成
/4032
Comparison between HMM and MD-DBN
 生成分布の表現方法
– HMM: 複数の single Gaussian
– MD-DBN: 1つのネットワーク
 音声特徴量モデル化の単位
– HMM: 状態単位でのモデル化
– MD-DBN: 音節単位 (複数フレーム) でのモデル化
 同一フレーム内での音声特徴量のモデル化
– HMM: 異なる特徴量は互いに独立と仮定 (diagonal covariance)
– MD-DBN: 独立性の仮定なし
/4033
Experimental Results
 比較手法
– HMM: HMM音声合成
– DBN (MGCs): スペクトルのみをMD-DBNで予測
– DBN (MGCs + logF0): スペクトルとF0の両方をMD-DBNで予測
 結果
– スペクトル特徴量のみの予測では品質改善を確認
– F0も加えて予測すると有意差はなし → 特徴量の次元数の違いが問題?
/4034
Input-to-Feature Mapping Using
Deep Conditional Models
 𝑝 𝒚 𝒙, 𝜆 を表すDNNにより音声特徴量をモデル化
– DNN音声合成: テキスト特徴量を音声特徴量へフレーム毎に変換
• テキスト特徴量: 2値変数と実数変数の混合
• 音声特徴量: 各フレームのMCCs, logF0, excitation, U/V
– 学習後のDNNの出力層 → 生成分布 (Gaussian) の平均
• 分散は学習データを用いて別途推定
– 結果: HMM音声合成と比較して品質改善
/4035
Comparisons among Three Approaches
 Cluster-to-Feature w/ RBM
– 従来技術と類似した枠組み + 生成分布の表現方法を修正
 Input-to-Feature w/ MD-DBN or DNN
– 2段階のモデル化を統合 (クラスターへのマッピングが不要)
• 音声特徴量への複雑なマッピングをより効率的に表現可能
– MD-DBN: サンプリングベースの音声特徴量生成
– DNN: 入力特徴量から音声特徴量を straightforward に生成
• 生成分布の表現力は弱い (単位行列を仮定した Gaussian)
 タスクに応じてさまざまなアプローチが存在
– DNN + Gaussian Process を用いたlogF0の生成 (TTS)
– Mixture of RBMs を用いたVC
– DAEを用いた speech enhancement
– etc...
/4036
Performance of RBMs as Density Models
 HMM音声合成におけるスペクトル
特徴量のモデル化
– GMM: モデルが複雑になるほど
over-fitting しやすい
– RBM: モデルを複雑にしたときの
over-fitting の影響が比較的小さい
→ good generalization
 RBMを用いることにで, 生のスペク
トル包絡からの特徴抽出が可能に
– → 包絡モデリング時の誤差を軽減
/4037
Input and Target Features
 入力特徴量はタスク依存で決定
– TTS: rich linguistic context, 入力テキストのベクトル表現
– VC: 入力音声のスペクトル特徴量
– Enhancement: noisy speech のパワースペクトル
 出力特徴量 (音声) の表現方法も多数存在
– Deep generative models が持つ高い表現力を利用
• 生のスペクトル包絡,パワースペクトルからの特徴抽出
• 多数の音声特徴量を連結させた特徴量
– TTSでは, F0に関する特徴量の予測も重要
• これまで紹介した手法では, logF0の予測精度は今ひとつ...
/4038
Model Structures and Model Training
 音声生成のアプローチに応じたモデルの設定
– RBMs, DBNs: joint PDFs and input-to-feature, or input-to-feature
– DNNs, CRBMs, DAEs: conditional PDFs and input-to-feature
 モデルの深さも重要 (だが, 深ければよいというわけでもない)
– ASRに比べると学習データの数が少ないので,学習が困難
 モデルの初期化法も多数存在
– Random initialization (TTS)
– DBNsを用いた初期化 (VC)
– AEs, RBMs を用いた初期化 (enhancement)
 計算コスト削減にGPUを用いた高速化も有効
/4039
Comparison between Speech Synthesis and
Recognition both Using DNN-HMMs
 DNN-HMM: ASRにおいて主流となっている手法
– (1) DNNにより音声特徴量を決定木の葉ノードにマッピング
– (2) HMMにより言語特徴量を decoding
 SPSGでは,ASRに比べてモデルの構造が多様
– DNNを用いた conditional PDF のモデル化 → DNN-HMMに類似
• 主な違いは出力層の活性化関数
• ASR (classification): softmax 関数
• SPSG (regression): linear 関数
 音声特徴量の役割
– ASR: 発話内容の予測 (exicitation, power spectra は使わない)
– SPSG: 音声波形の生成 (spectra, excitation の両方が必要)
/4040
Conclusions
 概要: deep learning を用いたSPSGのための音響モデリング
– 入出力間の複雑な対応関係を表現可能
• Deep joint models (RBMs, DBNs)
• Deep conditional models (CRBMs, DNNs)
– 従来手法と比較して合成音声の品質改善
 将来展望
– F0の高精度な予測を実現するモデルが必要
• スペクトルの予測とは別途行うべき?
• 時系列単位での依存性を考慮したモデル

Contenu connexe

Tendances

3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)Toru Tamaki
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識Tomoki Hayashi
 
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)Shunya Ueta
 
Connecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typingConnecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typing禎晃 山崎
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative ModelsSeiya Tokui
 
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105STAIR Lab Seminar 202105
STAIR Lab Seminar 202105Sho Takase
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてYuya Unno
 
Pythonによる機械学習の最前線
Pythonによる機械学習の最前線Pythonによる機械学習の最前線
Pythonによる機械学習の最前線Kimikazu Kato
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...Yusuke Iwasawa
 
深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論Naoaki Okazaki
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 
アンサンブル学習
アンサンブル学習アンサンブル学習
アンサンブル学習Hidekazu Tanaka
 
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展Naoaki Okazaki
 
アルゴリズムを楽しく!@PiyogrammerConference
アルゴリズムを楽しく!@PiyogrammerConferenceアルゴリズムを楽しく!@PiyogrammerConference
アルゴリズムを楽しく!@PiyogrammerConferenceKensuke Otsuki
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 

Tendances (20)

Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
Skip gram shirakawa_20141121
Skip gram shirakawa_20141121Skip gram shirakawa_20141121
Skip gram shirakawa_20141121
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
 
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
 
Connecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typingConnecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typing
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105STAIR Lab Seminar 202105
STAIR Lab Seminar 202105
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
 
Pythonによる機械学習の最前線
Pythonによる機械学習の最前線Pythonによる機械学習の最前線
Pythonによる機械学習の最前線
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
 
深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
アンサンブル学習
アンサンブル学習アンサンブル学習
アンサンブル学習
 
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展
 
アルゴリズムを楽しく!@PiyogrammerConference
アルゴリズムを楽しく!@PiyogrammerConferenceアルゴリズムを楽しく!@PiyogrammerConference
アルゴリズムを楽しく!@PiyogrammerConference
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
Deep learning入門
Deep learning入門Deep learning入門
Deep learning入門
 

Similaire à Deep learning for acoustic modeling in parametric speech generation

RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習Masayuki Tanaka
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMMMorpho, Inc.
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Ohsawa Goodfellow
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKSDeep Learning JP
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」Keisuke Sugawara
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介Masayoshi Kondo
 
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の  モード近似を用いた位相復元 SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の  モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元 Shinnosuke Takamichi
 
Ordered neurons integrating tree structures into recurrent neural networks
Ordered neurons integrating tree structures into recurrent neural networksOrdered neurons integrating tree structures into recurrent neural networks
Ordered neurons integrating tree structures into recurrent neural networksKazuki Fujikawa
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7matsuolab
 
A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)Morpho, Inc.
 
Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会Taikai Takeda
 

Similaire à Deep learning for acoustic modeling in parametric speech generation (20)

Dive into XGBoost.pdf
Dive into XGBoost.pdfDive into XGBoost.pdf
Dive into XGBoost.pdf
 
RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
 
Prml revenge7.1.1
Prml revenge7.1.1Prml revenge7.1.1
Prml revenge7.1.1
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
 
PRML_from5.1to5.3.1
PRML_from5.1to5.3.1PRML_from5.1to5.3.1
PRML_from5.1to5.3.1
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
PFI Christmas seminar 2009
PFI Christmas seminar 2009PFI Christmas seminar 2009
PFI Christmas seminar 2009
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
 
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の  モード近似を用いた位相復元 SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の  モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
 
Ordered neurons integrating tree structures into recurrent neural networks
Ordered neurons integrating tree structures into recurrent neural networksOrdered neurons integrating tree structures into recurrent neural networks
Ordered neurons integrating tree structures into recurrent neural networks
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 
論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx
 
A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)
 
Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会
 

Plus de Yuki Saito

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdfYuki Saito
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_ascYuki Saito
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfYuki Saito
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUSYuki Saito
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentationYuki Saito
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn MeetingYuki Saito
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumnYuki Saito
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_publishedYuki Saito
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNAYuki Saito
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会Yuki Saito
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asjYuki Saito
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_ttsYuki Saito
 

Plus de Yuki Saito (20)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
 

Deep learning for acoustic modeling in parametric speech generation

  • 1. ©Yuki Saito, 2017/05/10 Deep Learning for Acoustic Modeling in Parametric Speech Generation A Systematic Review of Existing Techniques and Future Trends [Z.-H. Ling et al., 2015.] 創造情報学専攻 修士2年 齋藤 佑樹
  • 2. /401 Outline of This Paper  Statistical Parametric Speech Generation (SPSG) – 入力特徴量と音声特徴量の対応関係を音響モデルにより表現 – 従来の音響モデル • Hidden Markov Models (HMMs) • Gaussian Mixture Models (GMMs)  Deep Neural Networks (DNNs) の導入 – Automatic Speech Recognition (ASR) での成功に基づく – 人間の階層的な音声生成過程をモデル化  本稿の目的: DNNsを用いたSPSGの系統的な review – 既存の技術 → DNNs を用いたSPSG へ 複雑な対応関係を 表現しにくい
  • 3. /402 Introduction  音声信号処理における機械学習 – ASR: 音声波形 (もしくは音声特徴量系列) から単語列を予測 (分類) – Speech generation: 入力から音声信号を予測 (回帰) • Text-To-Speech (TTS): 入力テキストから音声を生成 • Voice Conversion (VC): 入力音声の非言語的な情報を修正・変換 • Speech enhancement: 入力音声の品質改善 (e.g., ノイズ軽減) • Articulatory-to-acoustic: 発話機構の運動を音声特徴量へ変換  SPSG = 統計的な音響モデリング + Vocoder による音声波形生成 – (1) 𝑝(出力 | 入力) もしくは 𝑝(入力, 出力) を表現する音響モデルを構築 – (2) 上記の確率分布に従い音声特徴量を生成 • Spectral features (e.g., Mel-Cepstral Coefficients: MCCs) • Excitation features (e.g., fundamental frequency, aperiodicity) – (3) Vocoder による音声波形生成
  • 4. /403 HMM-Based Speech Synthesis  HMM: 離散的な隠れ状態系列を用いて観測の系列を生成  HMM音声合成: コンテキスト依存のHMMを構築 – 音素, アクセントの型, 品詞などの組み合わせ毎にHMMが存在  状態間の遷移 – 遷移確率により表現  観測の生成分布 – State-Output PDFs により表現 – 個々の分布は Gaussian  各状態の継続長 – 別途推定 (継続長HMMを利用)  利点: 声質の制御が容易 – モデル適応や補間など
  • 5. /404 Block Diagram of Typical HMM-Based Speech Synthesis System
  • 6. /405 Model Parameter Estimation Based on Maximum Likelihood (ML) Criterion  音素数 𝑁 のテキスト特徴量系列: 𝒙 = 𝒙1, … , 𝒙 𝑁  フレーム数 𝑇 の音声特徴量系列: 𝒚 = 𝒚1 ⊤ , … , 𝒚 𝑇 ⊤ ⊤ – フレーム 𝑡 における音声特徴量: 𝒚 𝑡 = 𝒚 𝑠 𝑡 ⊤ , Δ𝒚 𝑠 𝑡 ⊤ , Δ2 𝒚 𝑠 𝑡 ⊤ ⊤ • 𝒚 𝑠 𝑡 ∈ ℝ 𝐷𝑠: 静的特徴量, Δ𝐲s 𝑡 , Δ2 𝒚 𝑠 𝑡 : 動的特徴量 – 静的特徴量の系列を 𝒚 𝑠 = 𝒚 𝑠1 ⊤ , … , 𝒚 𝑠 𝑇 ⊤ ⊤ とすると 𝒚 = 𝑴 𝑦 𝒚 𝑠  コンテキスト依存HMMのモデルパラメータ 𝜆∗ のML推定 – 𝜆∗ = arg max 𝜆 𝑝 𝒚 𝒙, 𝜆 – HMMの状態系列を 𝒒 = 𝑞1, … , 𝑞 𝑇 とすると • 𝑝 𝒚 𝒙, 𝜆 = ∀𝒒 𝑝 𝒚, 𝒒 𝒙, 𝜆 • = ∀𝒒 𝑃 𝒒 𝒙, 𝜆 𝑝 𝒚 𝒒, 𝜆 • = ∀𝒒 𝑃 𝒒 𝒙, 𝜆 𝑡=1 𝑇 𝑝 𝒚 𝑡 𝑞𝑡, 𝜆 静的特徴量から 動的特徴量を 計算する行列
  • 7. /406 Decision Tree-Based Clustering  問題点: コンテキストの組み合わせが膨大 – 同じコンテキストの発生は非常に稀 → overfitting  解決策: 類似したコンテキストをクラスタリング – クラスタ毎にHMMの State-Output PDFs を割り当て  決定木 (Decision Tree): – データの集合をいくつかの質問により 分割 – 質問の設定は対象とする言語に依存 • English, Chinese, Japanese, ...
  • 8. /407 Block Diagram of Typical HMM-Based Speech Synthesis System
  • 9. /408 Speech Synthesis Stage  1. 入力テキストからテキスト特徴量 𝒙 を取得  2. HMMの状態系列 𝒒∗ を決定 – 𝒒∗ = arg max 𝒒 𝑃(𝒒| 𝒙, 𝜆∗ )  3. 静的・動的特徴量の制約を考慮して,音声特徴量を生成 – 𝒚 𝑠 ∗ = arg max 𝒚 𝑠 𝑡=1 𝑇 𝑝(𝒚 𝑡|𝑞𝑡 ∗ , 𝜆∗)| 𝒚=𝑴 𝑦 𝒚 𝑠 𝑡  4. Vocoder により音声波形を生成
  • 10. /409 GMM-Based Voice Conversion  入力話者の音声特徴量系列: 𝒙 = 𝒙1 ⊤ , … , 𝒙 𝑇 ⊤ ⊤  目的話者の音声特徴量系列: 𝒚 = 𝒚1 ⊤ , … , 𝒚 𝑇 ⊤ ⊤  Joint Distribution (JD)-GMM: 𝒛 𝑡 = 𝒙 𝑡 ⊤ , 𝒚 𝑡 ⊤ ⊤ の生成をモデル化 – モデルパラメータ: 𝜆 = 𝛼 𝑚, 𝝁 𝑚 𝑧 , 𝚺 𝑚 𝑧 𝑚=1 𝑀 • 𝛼 𝑚: 混合重み,𝝁 𝑚 (𝑧) : 平均,𝚺 𝑚 𝑧 : 分散 • 𝝁 𝑚 𝑧 = 𝝁 𝑚 𝑥 𝝁 𝑚 𝑦 , 𝚺 𝑚 𝑧 = 𝚺 𝑚 𝑥𝑥 𝚺 𝑚 𝑥𝑦 𝚺 𝑚 𝑦𝑥 𝚺 𝑚 𝑦𝑦  モデルパラメータのML推定 – 𝜆∗ = arg max 𝜆 𝑝 𝒙, 𝒚 𝜆 – = arg max 𝜆 𝑡=1 𝑇 𝑝 𝒛 𝑡 𝜆 Aligned by using Dynamic Time Warping
  • 11. /4010 Block Diagram of Typical GMM-Based Voice Conversion System
  • 12. /4011 Acoustic Feature Prediction Using Conditional PDF  入力音声特徴量 𝒙 の変換 (𝒎 = 𝑚1, … , 𝑚 𝑇 は混合成分系列) – 𝑝 𝒚 𝒙, 𝜆∗ = ∀𝒎 𝑝 𝒚, 𝒎 𝒙, 𝜆∗ – = ∀𝒎 𝑃(𝒎| 𝒙, 𝜆∗) 𝑡=1 𝑇 𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡, 𝜆∗ • 𝑃 𝒎 𝒙, 𝜆∗ = 𝑡=1 𝑇 𝑃 𝑚 𝑡 𝒙 𝑡, 𝜆∗ は • 𝛼 𝑚, 𝝁 𝑚 𝑥 , 𝚺 𝑚 𝑥 𝑚=1 𝑀 • をパラメータとするGMMを用いて決定 • 𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡, 𝜆∗ は • 平均: 𝝁 𝑚,𝑡 𝑦|𝑥 = 𝝁 𝑚 (𝑦) + 𝚺 𝑚 𝑦𝑥 𝚺 𝑚 𝑥𝑥 −1 𝒙 𝑡 − 𝝁 𝑚 𝑥 • 分散: 𝚺 𝑚 𝑦|𝑥 = 𝚺 𝑚 (𝑦𝑦) − 𝚺 𝑚 𝑦𝑥 𝚺 𝑚 𝑥𝑥 −1 𝚺 𝑚 (𝑥𝑦) • とする Gaussian
  • 13. /4012 Voice Conversion Stage  1. 入力音声波形から音声特徴量 𝒙 を取得  2. GMMの混合成分系列 𝒎∗ を決定 – 𝑚 𝑡 ∗ = arg max 𝑚 𝑡 𝑃(𝑚 𝑡| 𝒙 𝑡, 𝜆∗ )  3. 静的・動的特徴量の制約を考慮して,音声特徴量を生成 – 𝒚 𝑠 ∗ = arg max 𝒚 𝑠 𝑡=1 𝑇 𝑝(𝒚 𝑡| 𝒙 𝑡, 𝑚 𝑡 ∗ , 𝜆∗)| 𝒚=𝑴 𝑦 𝒚 𝑠  4. Vocoder により音声波形を生成
  • 14. /4013 Common Structure: Two-Step Mapping  HMM音声合成とGMM音声変換の共通点: 2段階のモデル化 – (1) 離散的な隠れ変数を用いた「入力 → クラスター」のマッピング • HMM: 状態 𝑞𝑡 ∗ , GMM: 混合成分 𝑚 𝑡 ∗ – (2) Gaussian を用いた「クラスター → 音声特徴量」のマッピング • HMM: 𝑝 𝒚 𝑡|𝑞𝑡 ∗ , 𝜆∗ , GMM: 𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡 ∗ , 𝜆∗  Limitations – 決定木に基づくコンテキストクラスタリング • → コンテキストの複雑な依存関係 (XORなど) を表現できない – Single Gaussian with diagonal covariance matrices の仮定 • 音声特徴量はフレーム毎に独立 (隠れ変数が given のとき) • フレーム内の音声特徴量は独立 • → 音声特徴量の over-smoothing & 合成音声の品質劣化
  • 15. /4014 Deep Learning Technique for Acoustic Modeling  Motivations – 従来手法よりも高い表現力 • 入力間, 出力間, さらに入出力間の対応関係 – 人間の音声生成に基づくモデリング • 階層型のネットワーク構造を利用  本稿では – Restricted Boltzmann Machines (RBMs) – Deep Belief Networks (DBNs) – Deep Neural Networks (DNNs) → conditional modeling  を紹介 Joint modeling
  • 16. /4015 Restricted Boltzmann Machines (RBMs)  可視素子と隠れ素子の関係を表す2層の無向グラフィカルモデル – 𝒗 = 𝑣1, … , 𝑣 𝑉 ⊤ : 可視素子 (素子数 𝑉) – 𝒉 = ℎ1, … , ℎ 𝐻 ⊤: 隠れ素子 (素子数 𝐻) – 𝜆 = {𝒂, 𝒃, 𝑾}: モデルパラメータ • 𝒂 = 𝑎1, … , 𝑎 𝑉 ⊤: 可視素子のバイアス • 𝒃 = 𝑏1, … , 𝑏 𝐻 ⊤: 隠れ素子のバイアス • 𝑾 = 𝑤𝑖𝑗 ∈ ℝ 𝑉×𝐻: 素子間の結合重み  Joint PDF 𝑃 𝒗, 𝒉 𝜆 の表現 (可視素子, 隠れ素子ともに2値の場合) – 𝑃 𝒗, 𝒉 𝜆 = 1 𝒵 𝜆 exp − 𝐸 𝒗, 𝒉; 𝜆 𝐶 𝑇 (𝐶 𝑇 は温度パラメータ, 本稿では1) • 𝐸 𝒗, 𝒉; 𝜆 = − 𝑖=1 𝑉 𝑎𝑖 𝑣𝑖 − 𝑗=1 𝐻 𝑏𝑗ℎ𝑗 − 𝑖=1 𝑉 𝑗=1 𝐻 𝑤𝑖𝑗 𝑣𝑖ℎ𝑗 • → エネルギー関数 • 𝒵𝜆 = ∀𝒗 ∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆 • → 分配関数
  • 17. /4016 Training RBMs  可視素子 𝒗 の marginal PDF – 𝑃 𝒗 𝜆 = 1 𝒵 𝜆 ∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆  確率的勾配降下法によるモデルパラメータのML推定 (𝑤𝑖𝑗) – 𝜕 log 𝑃 𝒗 𝜆 𝜕𝑤 𝑖𝑗 = E 𝑃data 𝑣𝑖ℎ𝑗 − E 𝑃model 𝑣𝑖ℎ𝑗 • E 𝑃data ⋅ : 学習データの分布に関する期待値 • E 𝑃model ⋅ : 𝑃 𝒗 𝜆 に関する期待値 • → 計算が困難なので, Contrastive Divergence (CD) 法で近似
  • 18. /4017 Gaussian-Bernoulli RBM: RBM for Real-Valued Visible Units  エネルギー関数 – 𝐸 𝒗, 𝒉; 𝜆 = 𝑖=1 𝑉 𝑣 𝑖−𝑎 𝑖 2 2𝜎𝑖 2 − 𝑗=1 𝐻 𝑏𝑗ℎ𝑗 − 𝑖=1 𝑉 𝑗=1 𝐻 𝑤𝑖𝑗ℎ𝑗 𝑣 𝑖 𝜎 𝑖  Conditional PDFs – 𝑃 ℎ𝑗 = 1 𝒗, 𝜆 = 𝑔 𝑏𝑗 + 𝒗 𝑇 𝚺− 1 2 𝒘⋅𝑗 – 𝑝 𝒗 𝒉, 𝜆 = 𝒩 𝒗; 𝝁, 𝚺 • 𝑔 𝑥 = 1 (1 + exp −𝑥 ): sigmoid 関数 • 𝒘⋅𝑗: 𝑾 の 𝑗 番目の列ベクトル • 𝝁 = 𝑾𝒉 + 𝒂: 平均 • 𝚺 = diag{𝜎1 2 , … , 𝜎 𝑉 2 }: 分散共分散行列 • 各成分は定数 (以降, 表記を簡単化するために全て1とする)
  • 19. /4018 Marginal PDF of Gaussian-Bernoulli RBM  𝑝 𝒗 𝜆 = 1 𝒵 𝜆 ∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆  = 1 𝒵 𝜆 ∀𝒉 exp − 𝑖=1 𝑉 𝑣 𝑖−𝑎 𝑖 2 2 + 𝒃⊤ 𝒗 + 𝒗⊤ 𝑾𝒉  = 1 𝒵 𝜆 exp − 𝑖=1 𝑉 𝑣 𝑖−𝑎 𝑖 2 2 𝑗=1 𝐻 ℎ 𝑗∈{0,1} exp(𝑏𝑗ℎ𝑗 + 𝒗⊤ 𝒘⋅𝑗ℎ𝑗)  = 1 𝒵 𝜆 𝑖=1 𝑉 exp − 𝑣 𝑖−𝑎 𝑖 2 2 𝑗=1 𝐻 1 + exp(𝑏𝑗 + 𝒗⊤ 𝒘⋅𝑗)  この 𝑝 𝒗 𝜆 は – Product of Experts (PoEs) – GMM  として解釈可能
  • 20. /4019 Gaussian-Bernoulli RBM as Product of Experts (PoEs)  PoE: 複数の単純な分布の積により1つの確率分布を表現 – 個々の分布よりも鋭い分布を生成可能 – 高次元空間における混合モデルよりも効率的 𝑝 𝒗 𝜆 = 1 𝒵 𝜆 𝑖=1 𝑉 exp − 𝑣 𝑖−𝑎 𝑖 2 2 𝑗=1 𝐻 1 + exp(𝑏𝑗 + 𝒗⊤ 𝒘⋅𝑗)  First products – 可視素子間の相関は考慮せず, 単変量のみでのモデル化  Second products – 隠れ素子で結び付けられた可視素子同士の依存関係をモデル化
  • 21. /4020 Gaussian-Bernoulli RBM as GMM  Gaussian-Bernoulli RBM ≡ 混合成分数が 2 𝐻 のGMM – 𝐻 = 0 のとき... • 𝑝 𝒗 𝜆 = 1 𝒵 𝜆 exp − 𝑖=1 𝑉 𝑣 𝑖−𝑎 𝑖 2 2 → 平均 𝒂 の Gaussian – 𝐻 = 1 のとき... • 𝑝 𝒗 𝜆 = 1 𝒵 𝜆 exp − 𝑖=1 𝑉 𝑣 𝑖−𝑎 𝑖 2 2 + 𝜅 𝒵 𝜆 exp − 𝑖=1 𝑉 𝑣 𝑖−𝑎 𝑖−𝑤 𝑖1 2 2 • 𝜅: モデルパラメータによって決まる定数 – 一般的に... • 隠れ素子数の増加 → 混合成分数が2倍に • Structured mean vectors & tied covariance matrices • → robust towards data sparsity problem
  • 22. /4021 Conditional RBM (CRBM)  𝑝 𝒚 𝒙, 𝜆 をモデル化 – 𝒙 ∈ ℝ 𝐷 𝑋 と 𝒚 ∈ ℝ 𝐷 𝑌 が実数, 𝒉 が2値のとき • 𝐸 𝒚, 𝒉, 𝒙; 𝜆 = 𝑖=1 𝐷 𝑌 𝑦 𝑖−𝑎 𝑖− 𝑘 𝐴 𝑘𝑖 𝑥 𝑘 2 2𝜎𝑖 2 • − 𝑗=1 𝐻 𝑏𝑗 + 𝑘 𝐵 𝑘𝑗 𝑥 𝑘 ℎ𝑗 − 𝑖=1 𝐷 𝑌 𝑗=1 𝐻 𝑤𝑖𝑗ℎ𝑗 𝑦 𝑖 𝜎 𝑖 • 𝑨 = 𝐴 𝑘𝑖 ∈ ℝ 𝐷 𝑋×𝐷 𝑌, 𝑩 = 𝐵 𝑘𝑗 ∈ ℝ 𝐷 𝑋×𝐻: モデルパラメータ • 𝑝 𝒚 𝒙, 𝜆 = 1 𝒵 𝜆 ∀𝒉 exp −𝐸 𝒗, 𝒉, 𝒙; 𝜆 • 𝒵𝜆 = ∀𝒉 exp −𝐸 𝒗, 𝒉, 𝒙; 𝜆 𝑑𝒚  モデルパラメータの推定はRBMと同様 (CD法)
  • 23. /4022 Deep Belief Networks (DBNs)  隠れ素子を多層化 (𝐿層) – 𝒉 𝑙 = ℎ1 𝑙 , … , ℎ 𝐻 𝑙 𝑙 ⊤ : 𝑙番目の隠れ層 (素子数 𝐻𝑙) – 𝜆 = 𝒂 1 , 𝑾 1 , … , 𝒂 𝐿 , 𝒃 𝐿 , 𝑾 𝐿 : モデルパラメータ – 𝑝 𝒗, 𝒉 1 , … , 𝒉 𝐿 𝜆 = 𝑝 𝒗 𝒉 1 , 𝜆 𝑙=2 𝐿−1 𝑃 𝒉 𝑙−1 𝒉 𝑙 , 𝜆 𝑃(𝒉 𝐿−1 , 𝒉 𝐿 |𝜆) • 𝑝 𝒗 𝒉 1 , 𝜆 = 𝒩 𝒗; 𝑾 1 𝒉 1 + 𝒂 1 , 𝑰 • 𝑃 ℎ𝑖 𝑙−1 = 1 𝒉 𝑙 , 𝜆 = 𝑔 𝑎𝑖 𝑙 + 𝑗 𝑤𝑖𝑗 𝑙 ℎ𝑗 𝑙  Marginal PDF – 𝑝 𝒗 𝜆 = ∀𝒉 1 ⋯ ∀𝒉 𝐿 𝑝 𝒗, 𝒉 1 , … , 𝒉 𝐿 𝜆 • → 𝜆 の直接的な推定は困難
  • 24. /4023 Greedy Layer-wise Training Estimate 𝒂 1 , 𝒃(1), 𝑾 1 (train 1st RBM) Estimate 𝒂 2 , 𝒃(2), 𝑾 2 (train 2nd RBM) Estimate 𝒂 3 , 𝒃(3) , 𝑾 3 (train 3rd RBM)
  • 25. /4024 Deep Neural Networks (DNNs)  教師あり学習に基づく 𝑝 𝒚 𝒙, 𝜆 のモデル化 – 𝜆 = 𝒃 1 , 𝑾 1 , … , 𝒃 𝐿+1 , 𝑾 𝐿+1 : モデルパラメータ – ℎ𝑗 𝑙 = 𝑔 𝑏𝑗 𝑙 + 𝑖 ℎ𝑖 𝑙−1 𝑤𝑖𝑗 𝑙 : 𝑙 番目の隠れ層の第 𝑗 成分 • ℎ𝑖 0 = 𝑥𝑖 (入力特徴量の第 𝑖 成分) • 𝑏𝑗 (𝑙) : バイアス成分,𝑤𝑖𝑗 𝑙 : 結合重み  出力層の活性化関数はタスク依存 – Classification → softmax 関数 • 𝑦𝑗 = exp 𝑏 𝑗 (𝐿+1) + 𝑖 ℎ 𝑖 (𝐿) 𝑤𝑖𝑗 𝐿+1 𝑘 exp 𝑏 𝑘 (𝐿+1) + 𝑖 ℎ 𝑖 (𝐿) 𝑤𝑖𝑘 𝐿+1 – Regression → linear 関数 • 𝑦𝑗 = 𝑏𝑗 (𝐿+1) + 𝑖 ℎ𝑖 (𝐿) 𝑤𝑖𝑗 (𝐿+1)
  • 26. /4025 Loss Function for Training DNN  Backpropagation アルゴリズムを用いた学習 – 出力層の損失関数 ℒ 𝒚, 𝒚; 𝜆 が小さくなるように 𝜆 を更新 • Classification → cross-entropy 関数 • ℒ 𝒚, 𝒚; 𝜆 = − 𝑗 𝑦𝑗 log( 𝑦) • Regression → mean squared error • ℒ 𝒚, 𝒚; 𝜆 = 𝑗 𝑦𝑗 − 𝑦𝑗 2 » → 𝑝 𝒚 𝒙, 𝜆 = 𝒩 𝒚; 𝒚, 𝑰 を仮定した 𝜆 のML推定と等価  DNNの学習における問題 – 𝜆 の更新に必要な情報を低層まで伝播不可 (勾配消失問題) – 表現力が非常に高いので over-fitting しやすい • → DBNによる pre-training • (1) 𝐿 層のDBNを教師なし学習 • (2) 出力層を追加して全体を fine-tuning
  • 27. /4026 Another Way to Pre-train DNN: AutoEncoders (AEs)  入力 𝒙 を復元するための圧縮された中間表現 𝒉 を学習 – (1) 重み 𝑾 を用いて入力 𝒙 を 𝒉 に圧縮 – (2) 𝑾′ を用いて 𝒉 から 𝒙 を復元 (𝑾′ = 𝑾⊤ としてもよい) – (3) 𝒙 と 𝒙 の誤差を最小化するようにモデルパラメータを学習  Denoising AE (DAE): 入力にノイズを加えて復元 – RBMsの代わりにDAEsを多層化させてDNNを構築 • ニューラルネットワークの学習として • DNNの pre-training が可能 ̃
  • 28. /4027 Cluster-to-Feature Mapping Using Deep Generative Models  RBMsを用いたHMM音声合成 – MCCsなどの低次元特徴量ではなく, スペクトル包絡をモデル化 – HMM音声合成における Gaussian をRBMsで置換  実験条件 – 音声特徴量 (MCCs,F0,スペクトル包絡) の抽出: STRAIGHT法 • MCCsとF0のモデル化: HMM音声合成 (全手法で共通) 予測特徴量 生成分布 Baseline MCCs Gaussian GMM スペクトル包絡 GMM (𝑀 = 8) RBM スペクトル包絡 RBM (𝐻 = 50)
  • 29. /4028 Experimental Results  RBMによる品質改善を確認  VCにおいても品質改善を確認 (Mean Opinion Score: MOS での評価) – 目的話者との類似度: 2.83 → 3.13 – 合成音声の自然性: 2.90 → 3.45
  • 30. /4029 Spectrograms of Synthetic Speech RBM Baseline
  • 31. /4030 Input-to-Feature Mapping Using Deep Joint Models  MultiDistribution DBN (MD-DBN) によるモデリング – 「入力特徴量 → 音声特徴量」の直接的なマッピングを実現 – 音節単位での複数フレームの音声特徴量をモデル化 • Mel-Generalized Cepstrums (MGCs), log-energy, logF0, U/V • 異なる音声特徴量の相関もモデル化可能 – 連続変数 (U/V以外) のモデル化 • → Gaussian – 2値変数 (U/V) のモデル化 • → Bernoulli
  • 32. /4031 Training/Synthesis Using MD-DBN  学習時 – (1) 𝒉 𝐿−1 までを教師なし学習 (通常のDBNの学習と同様) – (2) 𝒙, 𝒉 𝐿 , 𝒉 𝐿−1 の相関を学習  生成時 – (1) テキスト特徴量 𝒙 を決定 – (2) 𝒉 𝐿−1 の推定 – (3) 𝒉(1) までを再帰的に推定 – (4) 音声特徴量 𝒚 を推定 – (5) 波形生成
  • 33. /4032 Comparison between HMM and MD-DBN  生成分布の表現方法 – HMM: 複数の single Gaussian – MD-DBN: 1つのネットワーク  音声特徴量モデル化の単位 – HMM: 状態単位でのモデル化 – MD-DBN: 音節単位 (複数フレーム) でのモデル化  同一フレーム内での音声特徴量のモデル化 – HMM: 異なる特徴量は互いに独立と仮定 (diagonal covariance) – MD-DBN: 独立性の仮定なし
  • 34. /4033 Experimental Results  比較手法 – HMM: HMM音声合成 – DBN (MGCs): スペクトルのみをMD-DBNで予測 – DBN (MGCs + logF0): スペクトルとF0の両方をMD-DBNで予測  結果 – スペクトル特徴量のみの予測では品質改善を確認 – F0も加えて予測すると有意差はなし → 特徴量の次元数の違いが問題?
  • 35. /4034 Input-to-Feature Mapping Using Deep Conditional Models  𝑝 𝒚 𝒙, 𝜆 を表すDNNにより音声特徴量をモデル化 – DNN音声合成: テキスト特徴量を音声特徴量へフレーム毎に変換 • テキスト特徴量: 2値変数と実数変数の混合 • 音声特徴量: 各フレームのMCCs, logF0, excitation, U/V – 学習後のDNNの出力層 → 生成分布 (Gaussian) の平均 • 分散は学習データを用いて別途推定 – 結果: HMM音声合成と比較して品質改善
  • 36. /4035 Comparisons among Three Approaches  Cluster-to-Feature w/ RBM – 従来技術と類似した枠組み + 生成分布の表現方法を修正  Input-to-Feature w/ MD-DBN or DNN – 2段階のモデル化を統合 (クラスターへのマッピングが不要) • 音声特徴量への複雑なマッピングをより効率的に表現可能 – MD-DBN: サンプリングベースの音声特徴量生成 – DNN: 入力特徴量から音声特徴量を straightforward に生成 • 生成分布の表現力は弱い (単位行列を仮定した Gaussian)  タスクに応じてさまざまなアプローチが存在 – DNN + Gaussian Process を用いたlogF0の生成 (TTS) – Mixture of RBMs を用いたVC – DAEを用いた speech enhancement – etc...
  • 37. /4036 Performance of RBMs as Density Models  HMM音声合成におけるスペクトル 特徴量のモデル化 – GMM: モデルが複雑になるほど over-fitting しやすい – RBM: モデルを複雑にしたときの over-fitting の影響が比較的小さい → good generalization  RBMを用いることにで, 生のスペク トル包絡からの特徴抽出が可能に – → 包絡モデリング時の誤差を軽減
  • 38. /4037 Input and Target Features  入力特徴量はタスク依存で決定 – TTS: rich linguistic context, 入力テキストのベクトル表現 – VC: 入力音声のスペクトル特徴量 – Enhancement: noisy speech のパワースペクトル  出力特徴量 (音声) の表現方法も多数存在 – Deep generative models が持つ高い表現力を利用 • 生のスペクトル包絡,パワースペクトルからの特徴抽出 • 多数の音声特徴量を連結させた特徴量 – TTSでは, F0に関する特徴量の予測も重要 • これまで紹介した手法では, logF0の予測精度は今ひとつ...
  • 39. /4038 Model Structures and Model Training  音声生成のアプローチに応じたモデルの設定 – RBMs, DBNs: joint PDFs and input-to-feature, or input-to-feature – DNNs, CRBMs, DAEs: conditional PDFs and input-to-feature  モデルの深さも重要 (だが, 深ければよいというわけでもない) – ASRに比べると学習データの数が少ないので,学習が困難  モデルの初期化法も多数存在 – Random initialization (TTS) – DBNsを用いた初期化 (VC) – AEs, RBMs を用いた初期化 (enhancement)  計算コスト削減にGPUを用いた高速化も有効
  • 40. /4039 Comparison between Speech Synthesis and Recognition both Using DNN-HMMs  DNN-HMM: ASRにおいて主流となっている手法 – (1) DNNにより音声特徴量を決定木の葉ノードにマッピング – (2) HMMにより言語特徴量を decoding  SPSGでは,ASRに比べてモデルの構造が多様 – DNNを用いた conditional PDF のモデル化 → DNN-HMMに類似 • 主な違いは出力層の活性化関数 • ASR (classification): softmax 関数 • SPSG (regression): linear 関数  音声特徴量の役割 – ASR: 発話内容の予測 (exicitation, power spectra は使わない) – SPSG: 音声波形の生成 (spectra, excitation の両方が必要)
  • 41. /4040 Conclusions  概要: deep learning を用いたSPSGのための音響モデリング – 入出力間の複雑な対応関係を表現可能 • Deep joint models (RBMs, DBNs) • Deep conditional models (CRBMs, DNNs) – 従来手法と比較して合成音声の品質改善  将来展望 – F0の高精度な予測を実現するモデルが必要 • スペクトルの予測とは別途行うべき? • 時系列単位での依存性を考慮したモデル