Soumettre la recherche
Mettre en ligne
Deep learning for acoustic modeling in parametric speech generation
•
1 j'aime
•
763 vues
Y
Yuki Saito
Suivre
研究室内の論文紹介資料(当時M2)
Lire moins
Lire la suite
Sciences
Signaler
Partager
Signaler
Partager
1 sur 41
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
Interspeech2020 reading
Interspeech2020 reading
Yuki Saito
ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
ICASSP2020 論文読み会 資料 上乃聖
ICASSP2020 論文読み会 資料 上乃聖
SeiUeno
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
Saito18sp03
Saito18sp03
Yuki Saito
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
Contenu connexe
Tendances
Saito17asjA
Saito17asjA
Yuki Saito
Skip gram shirakawa_20141121
Skip gram shirakawa_20141121
Mathematical Systems Inc.
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
Toru Tamaki
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
Tomoki Hayashi
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
Shunya Ueta
Connecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typing
禎晃 山崎
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
Seiya Tokui
Extract and edit
Extract and edit
禎晃 山崎
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105
Sho Takase
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
Yuya Unno
Pythonによる機械学習の最前線
Pythonによる機械学習の最前線
Kimikazu Kato
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
Yusuke Iwasawa
深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論
Naoaki Okazaki
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
アンサンブル学習
アンサンブル学習
Hidekazu Tanaka
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展
Naoaki Okazaki
アルゴリズムを楽しく!@PiyogrammerConference
アルゴリズムを楽しく!@PiyogrammerConference
Kensuke Otsuki
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
Deep learning入門
Deep learning入門
magoroku Yamamoto
Tendances
(20)
Saito17asjA
Saito17asjA
Skip gram shirakawa_20141121
Skip gram shirakawa_20141121
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
Connecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typing
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
Extract and edit
Extract and edit
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
Pythonによる機械学習の最前線
Pythonによる機械学習の最前線
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
アンサンブル学習
アンサンブル学習
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展
アルゴリズムを楽しく!@PiyogrammerConference
アルゴリズムを楽しく!@PiyogrammerConference
Active Learning 入門
Active Learning 入門
Deep learning入門
Deep learning入門
Similaire à Deep learning for acoustic modeling in parametric speech generation
Dive into XGBoost.pdf
Dive into XGBoost.pdf
Yuuji Hiramatsu
RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習
Masayuki Tanaka
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
Morpho, Inc.
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
Preferred Networks
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Ohsawa Goodfellow
Prml revenge7.1.1
Prml revenge7.1.1
Naoya Nakamura
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
Deep Learning JP
PRML_from5.1to5.3.1
PRML_from5.1to5.3.1
禎晃 山崎
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
PFI Christmas seminar 2009
PFI Christmas seminar 2009
Preferred Networks
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
Keisuke Sugawara
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Morpho, Inc.
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
Masayoshi Kondo
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
Shinnosuke Takamichi
Ordered neurons integrating tree structures into recurrent neural networks
Ordered neurons integrating tree structures into recurrent neural networks
Kazuki Fujikawa
Paper: seq2seq 20190320
Paper: seq2seq 20190320
Yusuke Fujimoto
PRML輪読#7
PRML輪読#7
matsuolab
論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx
Natsumi KOBAYASHI
A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)
Morpho, Inc.
Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会
Taikai Takeda
Similaire à Deep learning for acoustic modeling in parametric speech generation
(20)
Dive into XGBoost.pdf
Dive into XGBoost.pdf
RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Prml revenge7.1.1
Prml revenge7.1.1
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
PRML_from5.1to5.3.1
PRML_from5.1to5.3.1
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
PFI Christmas seminar 2009
PFI Christmas seminar 2009
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
Ordered neurons integrating tree structures into recurrent neural networks
Ordered neurons integrating tree structures into recurrent neural networks
Paper: seq2seq 20190320
Paper: seq2seq 20190320
PRML輪読#7
PRML輪読#7
論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx
A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)
Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会
Plus de Yuki Saito
hirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
fujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
Yuki Saito
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Yuki Saito
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
Nishimura22slp03 presentation
Nishimura22slp03 presentation
Yuki Saito
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
Saito2103slp
Saito2103slp
Yuki Saito
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
Saito20asj s slide_published
Saito20asj s slide_published
Yuki Saito
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
Saito19asj_s
Saito19asj_s
Yuki Saito
Une18apsipa
Une18apsipa
Yuki Saito
Saito18asj_s
Saito18asj_s
Yuki Saito
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
Yuki Saito
miyoshi17sp07
miyoshi17sp07
Yuki Saito
miyoshi2017asj
miyoshi2017asj
Yuki Saito
saito2017asj_tts
saito2017asj_tts
Yuki Saito
Plus de Yuki Saito
(20)
hirai23slp03.pdf
hirai23slp03.pdf
Interspeech2022 参加報告
Interspeech2022 参加報告
fujii22apsipa_asc
fujii22apsipa_asc
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Nishimura22slp03 presentation
Nishimura22slp03 presentation
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Saito2103slp
Saito2103slp
Saito20asj_autumn
Saito20asj_autumn
Saito20asj s slide_published
Saito20asj s slide_published
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Saito19asj_s
Saito19asj_s
Une18apsipa
Une18apsipa
Saito18asj_s
Saito18asj_s
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
miyoshi17sp07
miyoshi17sp07
miyoshi2017asj
miyoshi2017asj
saito2017asj_tts
saito2017asj_tts
Deep learning for acoustic modeling in parametric speech generation
1.
©Yuki Saito, 2017/05/10 Deep
Learning for Acoustic Modeling in Parametric Speech Generation A Systematic Review of Existing Techniques and Future Trends [Z.-H. Ling et al., 2015.] 創造情報学専攻 修士2年 齋藤 佑樹
2.
/401 Outline of This
Paper Statistical Parametric Speech Generation (SPSG) – 入力特徴量と音声特徴量の対応関係を音響モデルにより表現 – 従来の音響モデル • Hidden Markov Models (HMMs) • Gaussian Mixture Models (GMMs) Deep Neural Networks (DNNs) の導入 – Automatic Speech Recognition (ASR) での成功に基づく – 人間の階層的な音声生成過程をモデル化 本稿の目的: DNNsを用いたSPSGの系統的な review – 既存の技術 → DNNs を用いたSPSG へ 複雑な対応関係を 表現しにくい
3.
/402 Introduction 音声信号処理における機械学習 – ASR:
音声波形 (もしくは音声特徴量系列) から単語列を予測 (分類) – Speech generation: 入力から音声信号を予測 (回帰) • Text-To-Speech (TTS): 入力テキストから音声を生成 • Voice Conversion (VC): 入力音声の非言語的な情報を修正・変換 • Speech enhancement: 入力音声の品質改善 (e.g., ノイズ軽減) • Articulatory-to-acoustic: 発話機構の運動を音声特徴量へ変換 SPSG = 統計的な音響モデリング + Vocoder による音声波形生成 – (1) 𝑝(出力 | 入力) もしくは 𝑝(入力, 出力) を表現する音響モデルを構築 – (2) 上記の確率分布に従い音声特徴量を生成 • Spectral features (e.g., Mel-Cepstral Coefficients: MCCs) • Excitation features (e.g., fundamental frequency, aperiodicity) – (3) Vocoder による音声波形生成
4.
/403 HMM-Based Speech Synthesis
HMM: 離散的な隠れ状態系列を用いて観測の系列を生成 HMM音声合成: コンテキスト依存のHMMを構築 – 音素, アクセントの型, 品詞などの組み合わせ毎にHMMが存在 状態間の遷移 – 遷移確率により表現 観測の生成分布 – State-Output PDFs により表現 – 個々の分布は Gaussian 各状態の継続長 – 別途推定 (継続長HMMを利用) 利点: 声質の制御が容易 – モデル適応や補間など
5.
/404 Block Diagram of Typical
HMM-Based Speech Synthesis System
6.
/405 Model Parameter Estimation
Based on Maximum Likelihood (ML) Criterion 音素数 𝑁 のテキスト特徴量系列: 𝒙 = 𝒙1, … , 𝒙 𝑁 フレーム数 𝑇 の音声特徴量系列: 𝒚 = 𝒚1 ⊤ , … , 𝒚 𝑇 ⊤ ⊤ – フレーム 𝑡 における音声特徴量: 𝒚 𝑡 = 𝒚 𝑠 𝑡 ⊤ , Δ𝒚 𝑠 𝑡 ⊤ , Δ2 𝒚 𝑠 𝑡 ⊤ ⊤ • 𝒚 𝑠 𝑡 ∈ ℝ 𝐷𝑠: 静的特徴量, Δ𝐲s 𝑡 , Δ2 𝒚 𝑠 𝑡 : 動的特徴量 – 静的特徴量の系列を 𝒚 𝑠 = 𝒚 𝑠1 ⊤ , … , 𝒚 𝑠 𝑇 ⊤ ⊤ とすると 𝒚 = 𝑴 𝑦 𝒚 𝑠 コンテキスト依存HMMのモデルパラメータ 𝜆∗ のML推定 – 𝜆∗ = arg max 𝜆 𝑝 𝒚 𝒙, 𝜆 – HMMの状態系列を 𝒒 = 𝑞1, … , 𝑞 𝑇 とすると • 𝑝 𝒚 𝒙, 𝜆 = ∀𝒒 𝑝 𝒚, 𝒒 𝒙, 𝜆 • = ∀𝒒 𝑃 𝒒 𝒙, 𝜆 𝑝 𝒚 𝒒, 𝜆 • = ∀𝒒 𝑃 𝒒 𝒙, 𝜆 𝑡=1 𝑇 𝑝 𝒚 𝑡 𝑞𝑡, 𝜆 静的特徴量から 動的特徴量を 計算する行列
7.
/406 Decision Tree-Based Clustering
問題点: コンテキストの組み合わせが膨大 – 同じコンテキストの発生は非常に稀 → overfitting 解決策: 類似したコンテキストをクラスタリング – クラスタ毎にHMMの State-Output PDFs を割り当て 決定木 (Decision Tree): – データの集合をいくつかの質問により 分割 – 質問の設定は対象とする言語に依存 • English, Chinese, Japanese, ...
8.
/407 Block Diagram of Typical
HMM-Based Speech Synthesis System
9.
/408 Speech Synthesis Stage
1. 入力テキストからテキスト特徴量 𝒙 を取得 2. HMMの状態系列 𝒒∗ を決定 – 𝒒∗ = arg max 𝒒 𝑃(𝒒| 𝒙, 𝜆∗ ) 3. 静的・動的特徴量の制約を考慮して,音声特徴量を生成 – 𝒚 𝑠 ∗ = arg max 𝒚 𝑠 𝑡=1 𝑇 𝑝(𝒚 𝑡|𝑞𝑡 ∗ , 𝜆∗)| 𝒚=𝑴 𝑦 𝒚 𝑠 𝑡 4. Vocoder により音声波形を生成
10.
/409 GMM-Based Voice Conversion
入力話者の音声特徴量系列: 𝒙 = 𝒙1 ⊤ , … , 𝒙 𝑇 ⊤ ⊤ 目的話者の音声特徴量系列: 𝒚 = 𝒚1 ⊤ , … , 𝒚 𝑇 ⊤ ⊤ Joint Distribution (JD)-GMM: 𝒛 𝑡 = 𝒙 𝑡 ⊤ , 𝒚 𝑡 ⊤ ⊤ の生成をモデル化 – モデルパラメータ: 𝜆 = 𝛼 𝑚, 𝝁 𝑚 𝑧 , 𝚺 𝑚 𝑧 𝑚=1 𝑀 • 𝛼 𝑚: 混合重み,𝝁 𝑚 (𝑧) : 平均,𝚺 𝑚 𝑧 : 分散 • 𝝁 𝑚 𝑧 = 𝝁 𝑚 𝑥 𝝁 𝑚 𝑦 , 𝚺 𝑚 𝑧 = 𝚺 𝑚 𝑥𝑥 𝚺 𝑚 𝑥𝑦 𝚺 𝑚 𝑦𝑥 𝚺 𝑚 𝑦𝑦 モデルパラメータのML推定 – 𝜆∗ = arg max 𝜆 𝑝 𝒙, 𝒚 𝜆 – = arg max 𝜆 𝑡=1 𝑇 𝑝 𝒛 𝑡 𝜆 Aligned by using Dynamic Time Warping
11.
/4010 Block Diagram of Typical
GMM-Based Voice Conversion System
12.
/4011 Acoustic Feature Prediction
Using Conditional PDF 入力音声特徴量 𝒙 の変換 (𝒎 = 𝑚1, … , 𝑚 𝑇 は混合成分系列) – 𝑝 𝒚 𝒙, 𝜆∗ = ∀𝒎 𝑝 𝒚, 𝒎 𝒙, 𝜆∗ – = ∀𝒎 𝑃(𝒎| 𝒙, 𝜆∗) 𝑡=1 𝑇 𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡, 𝜆∗ • 𝑃 𝒎 𝒙, 𝜆∗ = 𝑡=1 𝑇 𝑃 𝑚 𝑡 𝒙 𝑡, 𝜆∗ は • 𝛼 𝑚, 𝝁 𝑚 𝑥 , 𝚺 𝑚 𝑥 𝑚=1 𝑀 • をパラメータとするGMMを用いて決定 • 𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡, 𝜆∗ は • 平均: 𝝁 𝑚,𝑡 𝑦|𝑥 = 𝝁 𝑚 (𝑦) + 𝚺 𝑚 𝑦𝑥 𝚺 𝑚 𝑥𝑥 −1 𝒙 𝑡 − 𝝁 𝑚 𝑥 • 分散: 𝚺 𝑚 𝑦|𝑥 = 𝚺 𝑚 (𝑦𝑦) − 𝚺 𝑚 𝑦𝑥 𝚺 𝑚 𝑥𝑥 −1 𝚺 𝑚 (𝑥𝑦) • とする Gaussian
13.
/4012 Voice Conversion Stage
1. 入力音声波形から音声特徴量 𝒙 を取得 2. GMMの混合成分系列 𝒎∗ を決定 – 𝑚 𝑡 ∗ = arg max 𝑚 𝑡 𝑃(𝑚 𝑡| 𝒙 𝑡, 𝜆∗ ) 3. 静的・動的特徴量の制約を考慮して,音声特徴量を生成 – 𝒚 𝑠 ∗ = arg max 𝒚 𝑠 𝑡=1 𝑇 𝑝(𝒚 𝑡| 𝒙 𝑡, 𝑚 𝑡 ∗ , 𝜆∗)| 𝒚=𝑴 𝑦 𝒚 𝑠 4. Vocoder により音声波形を生成
14.
/4013 Common Structure: Two-Step
Mapping HMM音声合成とGMM音声変換の共通点: 2段階のモデル化 – (1) 離散的な隠れ変数を用いた「入力 → クラスター」のマッピング • HMM: 状態 𝑞𝑡 ∗ , GMM: 混合成分 𝑚 𝑡 ∗ – (2) Gaussian を用いた「クラスター → 音声特徴量」のマッピング • HMM: 𝑝 𝒚 𝑡|𝑞𝑡 ∗ , 𝜆∗ , GMM: 𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡 ∗ , 𝜆∗ Limitations – 決定木に基づくコンテキストクラスタリング • → コンテキストの複雑な依存関係 (XORなど) を表現できない – Single Gaussian with diagonal covariance matrices の仮定 • 音声特徴量はフレーム毎に独立 (隠れ変数が given のとき) • フレーム内の音声特徴量は独立 • → 音声特徴量の over-smoothing & 合成音声の品質劣化
15.
/4014 Deep Learning Technique
for Acoustic Modeling Motivations – 従来手法よりも高い表現力 • 入力間, 出力間, さらに入出力間の対応関係 – 人間の音声生成に基づくモデリング • 階層型のネットワーク構造を利用 本稿では – Restricted Boltzmann Machines (RBMs) – Deep Belief Networks (DBNs) – Deep Neural Networks (DNNs) → conditional modeling を紹介 Joint modeling
16.
/4015 Restricted Boltzmann Machines
(RBMs) 可視素子と隠れ素子の関係を表す2層の無向グラフィカルモデル – 𝒗 = 𝑣1, … , 𝑣 𝑉 ⊤ : 可視素子 (素子数 𝑉) – 𝒉 = ℎ1, … , ℎ 𝐻 ⊤: 隠れ素子 (素子数 𝐻) – 𝜆 = {𝒂, 𝒃, 𝑾}: モデルパラメータ • 𝒂 = 𝑎1, … , 𝑎 𝑉 ⊤: 可視素子のバイアス • 𝒃 = 𝑏1, … , 𝑏 𝐻 ⊤: 隠れ素子のバイアス • 𝑾 = 𝑤𝑖𝑗 ∈ ℝ 𝑉×𝐻: 素子間の結合重み Joint PDF 𝑃 𝒗, 𝒉 𝜆 の表現 (可視素子, 隠れ素子ともに2値の場合) – 𝑃 𝒗, 𝒉 𝜆 = 1 𝒵 𝜆 exp − 𝐸 𝒗, 𝒉; 𝜆 𝐶 𝑇 (𝐶 𝑇 は温度パラメータ, 本稿では1) • 𝐸 𝒗, 𝒉; 𝜆 = − 𝑖=1 𝑉 𝑎𝑖 𝑣𝑖 − 𝑗=1 𝐻 𝑏𝑗ℎ𝑗 − 𝑖=1 𝑉 𝑗=1 𝐻 𝑤𝑖𝑗 𝑣𝑖ℎ𝑗 • → エネルギー関数 • 𝒵𝜆 = ∀𝒗 ∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆 • → 分配関数
17.
/4016 Training RBMs 可視素子
𝒗 の marginal PDF – 𝑃 𝒗 𝜆 = 1 𝒵 𝜆 ∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆 確率的勾配降下法によるモデルパラメータのML推定 (𝑤𝑖𝑗) – 𝜕 log 𝑃 𝒗 𝜆 𝜕𝑤 𝑖𝑗 = E 𝑃data 𝑣𝑖ℎ𝑗 − E 𝑃model 𝑣𝑖ℎ𝑗 • E 𝑃data ⋅ : 学習データの分布に関する期待値 • E 𝑃model ⋅ : 𝑃 𝒗 𝜆 に関する期待値 • → 計算が困難なので, Contrastive Divergence (CD) 法で近似
18.
/4017 Gaussian-Bernoulli RBM: RBM for
Real-Valued Visible Units エネルギー関数 – 𝐸 𝒗, 𝒉; 𝜆 = 𝑖=1 𝑉 𝑣 𝑖−𝑎 𝑖 2 2𝜎𝑖 2 − 𝑗=1 𝐻 𝑏𝑗ℎ𝑗 − 𝑖=1 𝑉 𝑗=1 𝐻 𝑤𝑖𝑗ℎ𝑗 𝑣 𝑖 𝜎 𝑖 Conditional PDFs – 𝑃 ℎ𝑗 = 1 𝒗, 𝜆 = 𝑔 𝑏𝑗 + 𝒗 𝑇 𝚺− 1 2 𝒘⋅𝑗 – 𝑝 𝒗 𝒉, 𝜆 = 𝒩 𝒗; 𝝁, 𝚺 • 𝑔 𝑥 = 1 (1 + exp −𝑥 ): sigmoid 関数 • 𝒘⋅𝑗: 𝑾 の 𝑗 番目の列ベクトル • 𝝁 = 𝑾𝒉 + 𝒂: 平均 • 𝚺 = diag{𝜎1 2 , … , 𝜎 𝑉 2 }: 分散共分散行列 • 各成分は定数 (以降, 表記を簡単化するために全て1とする)
19.
/4018 Marginal PDF of
Gaussian-Bernoulli RBM 𝑝 𝒗 𝜆 = 1 𝒵 𝜆 ∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆 = 1 𝒵 𝜆 ∀𝒉 exp − 𝑖=1 𝑉 𝑣 𝑖−𝑎 𝑖 2 2 + 𝒃⊤ 𝒗 + 𝒗⊤ 𝑾𝒉 = 1 𝒵 𝜆 exp − 𝑖=1 𝑉 𝑣 𝑖−𝑎 𝑖 2 2 𝑗=1 𝐻 ℎ 𝑗∈{0,1} exp(𝑏𝑗ℎ𝑗 + 𝒗⊤ 𝒘⋅𝑗ℎ𝑗) = 1 𝒵 𝜆 𝑖=1 𝑉 exp − 𝑣 𝑖−𝑎 𝑖 2 2 𝑗=1 𝐻 1 + exp(𝑏𝑗 + 𝒗⊤ 𝒘⋅𝑗) この 𝑝 𝒗 𝜆 は – Product of Experts (PoEs) – GMM として解釈可能
20.
/4019 Gaussian-Bernoulli RBM as
Product of Experts (PoEs) PoE: 複数の単純な分布の積により1つの確率分布を表現 – 個々の分布よりも鋭い分布を生成可能 – 高次元空間における混合モデルよりも効率的 𝑝 𝒗 𝜆 = 1 𝒵 𝜆 𝑖=1 𝑉 exp − 𝑣 𝑖−𝑎 𝑖 2 2 𝑗=1 𝐻 1 + exp(𝑏𝑗 + 𝒗⊤ 𝒘⋅𝑗) First products – 可視素子間の相関は考慮せず, 単変量のみでのモデル化 Second products – 隠れ素子で結び付けられた可視素子同士の依存関係をモデル化
21.
/4020 Gaussian-Bernoulli RBM as
GMM Gaussian-Bernoulli RBM ≡ 混合成分数が 2 𝐻 のGMM – 𝐻 = 0 のとき... • 𝑝 𝒗 𝜆 = 1 𝒵 𝜆 exp − 𝑖=1 𝑉 𝑣 𝑖−𝑎 𝑖 2 2 → 平均 𝒂 の Gaussian – 𝐻 = 1 のとき... • 𝑝 𝒗 𝜆 = 1 𝒵 𝜆 exp − 𝑖=1 𝑉 𝑣 𝑖−𝑎 𝑖 2 2 + 𝜅 𝒵 𝜆 exp − 𝑖=1 𝑉 𝑣 𝑖−𝑎 𝑖−𝑤 𝑖1 2 2 • 𝜅: モデルパラメータによって決まる定数 – 一般的に... • 隠れ素子数の増加 → 混合成分数が2倍に • Structured mean vectors & tied covariance matrices • → robust towards data sparsity problem
22.
/4021 Conditional RBM (CRBM)
𝑝 𝒚 𝒙, 𝜆 をモデル化 – 𝒙 ∈ ℝ 𝐷 𝑋 と 𝒚 ∈ ℝ 𝐷 𝑌 が実数, 𝒉 が2値のとき • 𝐸 𝒚, 𝒉, 𝒙; 𝜆 = 𝑖=1 𝐷 𝑌 𝑦 𝑖−𝑎 𝑖− 𝑘 𝐴 𝑘𝑖 𝑥 𝑘 2 2𝜎𝑖 2 • − 𝑗=1 𝐻 𝑏𝑗 + 𝑘 𝐵 𝑘𝑗 𝑥 𝑘 ℎ𝑗 − 𝑖=1 𝐷 𝑌 𝑗=1 𝐻 𝑤𝑖𝑗ℎ𝑗 𝑦 𝑖 𝜎 𝑖 • 𝑨 = 𝐴 𝑘𝑖 ∈ ℝ 𝐷 𝑋×𝐷 𝑌, 𝑩 = 𝐵 𝑘𝑗 ∈ ℝ 𝐷 𝑋×𝐻: モデルパラメータ • 𝑝 𝒚 𝒙, 𝜆 = 1 𝒵 𝜆 ∀𝒉 exp −𝐸 𝒗, 𝒉, 𝒙; 𝜆 • 𝒵𝜆 = ∀𝒉 exp −𝐸 𝒗, 𝒉, 𝒙; 𝜆 𝑑𝒚 モデルパラメータの推定はRBMと同様 (CD法)
23.
/4022 Deep Belief Networks
(DBNs) 隠れ素子を多層化 (𝐿層) – 𝒉 𝑙 = ℎ1 𝑙 , … , ℎ 𝐻 𝑙 𝑙 ⊤ : 𝑙番目の隠れ層 (素子数 𝐻𝑙) – 𝜆 = 𝒂 1 , 𝑾 1 , … , 𝒂 𝐿 , 𝒃 𝐿 , 𝑾 𝐿 : モデルパラメータ – 𝑝 𝒗, 𝒉 1 , … , 𝒉 𝐿 𝜆 = 𝑝 𝒗 𝒉 1 , 𝜆 𝑙=2 𝐿−1 𝑃 𝒉 𝑙−1 𝒉 𝑙 , 𝜆 𝑃(𝒉 𝐿−1 , 𝒉 𝐿 |𝜆) • 𝑝 𝒗 𝒉 1 , 𝜆 = 𝒩 𝒗; 𝑾 1 𝒉 1 + 𝒂 1 , 𝑰 • 𝑃 ℎ𝑖 𝑙−1 = 1 𝒉 𝑙 , 𝜆 = 𝑔 𝑎𝑖 𝑙 + 𝑗 𝑤𝑖𝑗 𝑙 ℎ𝑗 𝑙 Marginal PDF – 𝑝 𝒗 𝜆 = ∀𝒉 1 ⋯ ∀𝒉 𝐿 𝑝 𝒗, 𝒉 1 , … , 𝒉 𝐿 𝜆 • → 𝜆 の直接的な推定は困難
24.
/4023 Greedy Layer-wise Training Estimate
𝒂 1 , 𝒃(1), 𝑾 1 (train 1st RBM) Estimate 𝒂 2 , 𝒃(2), 𝑾 2 (train 2nd RBM) Estimate 𝒂 3 , 𝒃(3) , 𝑾 3 (train 3rd RBM)
25.
/4024 Deep Neural Networks
(DNNs) 教師あり学習に基づく 𝑝 𝒚 𝒙, 𝜆 のモデル化 – 𝜆 = 𝒃 1 , 𝑾 1 , … , 𝒃 𝐿+1 , 𝑾 𝐿+1 : モデルパラメータ – ℎ𝑗 𝑙 = 𝑔 𝑏𝑗 𝑙 + 𝑖 ℎ𝑖 𝑙−1 𝑤𝑖𝑗 𝑙 : 𝑙 番目の隠れ層の第 𝑗 成分 • ℎ𝑖 0 = 𝑥𝑖 (入力特徴量の第 𝑖 成分) • 𝑏𝑗 (𝑙) : バイアス成分,𝑤𝑖𝑗 𝑙 : 結合重み 出力層の活性化関数はタスク依存 – Classification → softmax 関数 • 𝑦𝑗 = exp 𝑏 𝑗 (𝐿+1) + 𝑖 ℎ 𝑖 (𝐿) 𝑤𝑖𝑗 𝐿+1 𝑘 exp 𝑏 𝑘 (𝐿+1) + 𝑖 ℎ 𝑖 (𝐿) 𝑤𝑖𝑘 𝐿+1 – Regression → linear 関数 • 𝑦𝑗 = 𝑏𝑗 (𝐿+1) + 𝑖 ℎ𝑖 (𝐿) 𝑤𝑖𝑗 (𝐿+1)
26.
/4025 Loss Function for
Training DNN Backpropagation アルゴリズムを用いた学習 – 出力層の損失関数 ℒ 𝒚, 𝒚; 𝜆 が小さくなるように 𝜆 を更新 • Classification → cross-entropy 関数 • ℒ 𝒚, 𝒚; 𝜆 = − 𝑗 𝑦𝑗 log( 𝑦) • Regression → mean squared error • ℒ 𝒚, 𝒚; 𝜆 = 𝑗 𝑦𝑗 − 𝑦𝑗 2 » → 𝑝 𝒚 𝒙, 𝜆 = 𝒩 𝒚; 𝒚, 𝑰 を仮定した 𝜆 のML推定と等価 DNNの学習における問題 – 𝜆 の更新に必要な情報を低層まで伝播不可 (勾配消失問題) – 表現力が非常に高いので over-fitting しやすい • → DBNによる pre-training • (1) 𝐿 層のDBNを教師なし学習 • (2) 出力層を追加して全体を fine-tuning
27.
/4026 Another Way to
Pre-train DNN: AutoEncoders (AEs) 入力 𝒙 を復元するための圧縮された中間表現 𝒉 を学習 – (1) 重み 𝑾 を用いて入力 𝒙 を 𝒉 に圧縮 – (2) 𝑾′ を用いて 𝒉 から 𝒙 を復元 (𝑾′ = 𝑾⊤ としてもよい) – (3) 𝒙 と 𝒙 の誤差を最小化するようにモデルパラメータを学習 Denoising AE (DAE): 入力にノイズを加えて復元 – RBMsの代わりにDAEsを多層化させてDNNを構築 • ニューラルネットワークの学習として • DNNの pre-training が可能 ̃
28.
/4027 Cluster-to-Feature Mapping Using Deep
Generative Models RBMsを用いたHMM音声合成 – MCCsなどの低次元特徴量ではなく, スペクトル包絡をモデル化 – HMM音声合成における Gaussian をRBMsで置換 実験条件 – 音声特徴量 (MCCs,F0,スペクトル包絡) の抽出: STRAIGHT法 • MCCsとF0のモデル化: HMM音声合成 (全手法で共通) 予測特徴量 生成分布 Baseline MCCs Gaussian GMM スペクトル包絡 GMM (𝑀 = 8) RBM スペクトル包絡 RBM (𝐻 = 50)
29.
/4028 Experimental Results RBMによる品質改善を確認
VCにおいても品質改善を確認 (Mean Opinion Score: MOS での評価) – 目的話者との類似度: 2.83 → 3.13 – 合成音声の自然性: 2.90 → 3.45
30.
/4029 Spectrograms of Synthetic
Speech RBM Baseline
31.
/4030 Input-to-Feature Mapping Using Deep
Joint Models MultiDistribution DBN (MD-DBN) によるモデリング – 「入力特徴量 → 音声特徴量」の直接的なマッピングを実現 – 音節単位での複数フレームの音声特徴量をモデル化 • Mel-Generalized Cepstrums (MGCs), log-energy, logF0, U/V • 異なる音声特徴量の相関もモデル化可能 – 連続変数 (U/V以外) のモデル化 • → Gaussian – 2値変数 (U/V) のモデル化 • → Bernoulli
32.
/4031 Training/Synthesis Using MD-DBN
学習時 – (1) 𝒉 𝐿−1 までを教師なし学習 (通常のDBNの学習と同様) – (2) 𝒙, 𝒉 𝐿 , 𝒉 𝐿−1 の相関を学習 生成時 – (1) テキスト特徴量 𝒙 を決定 – (2) 𝒉 𝐿−1 の推定 – (3) 𝒉(1) までを再帰的に推定 – (4) 音声特徴量 𝒚 を推定 – (5) 波形生成
33.
/4032 Comparison between HMM
and MD-DBN 生成分布の表現方法 – HMM: 複数の single Gaussian – MD-DBN: 1つのネットワーク 音声特徴量モデル化の単位 – HMM: 状態単位でのモデル化 – MD-DBN: 音節単位 (複数フレーム) でのモデル化 同一フレーム内での音声特徴量のモデル化 – HMM: 異なる特徴量は互いに独立と仮定 (diagonal covariance) – MD-DBN: 独立性の仮定なし
34.
/4033 Experimental Results 比較手法 –
HMM: HMM音声合成 – DBN (MGCs): スペクトルのみをMD-DBNで予測 – DBN (MGCs + logF0): スペクトルとF0の両方をMD-DBNで予測 結果 – スペクトル特徴量のみの予測では品質改善を確認 – F0も加えて予測すると有意差はなし → 特徴量の次元数の違いが問題?
35.
/4034 Input-to-Feature Mapping Using Deep
Conditional Models 𝑝 𝒚 𝒙, 𝜆 を表すDNNにより音声特徴量をモデル化 – DNN音声合成: テキスト特徴量を音声特徴量へフレーム毎に変換 • テキスト特徴量: 2値変数と実数変数の混合 • 音声特徴量: 各フレームのMCCs, logF0, excitation, U/V – 学習後のDNNの出力層 → 生成分布 (Gaussian) の平均 • 分散は学習データを用いて別途推定 – 結果: HMM音声合成と比較して品質改善
36.
/4035 Comparisons among Three
Approaches Cluster-to-Feature w/ RBM – 従来技術と類似した枠組み + 生成分布の表現方法を修正 Input-to-Feature w/ MD-DBN or DNN – 2段階のモデル化を統合 (クラスターへのマッピングが不要) • 音声特徴量への複雑なマッピングをより効率的に表現可能 – MD-DBN: サンプリングベースの音声特徴量生成 – DNN: 入力特徴量から音声特徴量を straightforward に生成 • 生成分布の表現力は弱い (単位行列を仮定した Gaussian) タスクに応じてさまざまなアプローチが存在 – DNN + Gaussian Process を用いたlogF0の生成 (TTS) – Mixture of RBMs を用いたVC – DAEを用いた speech enhancement – etc...
37.
/4036 Performance of RBMs
as Density Models HMM音声合成におけるスペクトル 特徴量のモデル化 – GMM: モデルが複雑になるほど over-fitting しやすい – RBM: モデルを複雑にしたときの over-fitting の影響が比較的小さい → good generalization RBMを用いることにで, 生のスペク トル包絡からの特徴抽出が可能に – → 包絡モデリング時の誤差を軽減
38.
/4037 Input and Target
Features 入力特徴量はタスク依存で決定 – TTS: rich linguistic context, 入力テキストのベクトル表現 – VC: 入力音声のスペクトル特徴量 – Enhancement: noisy speech のパワースペクトル 出力特徴量 (音声) の表現方法も多数存在 – Deep generative models が持つ高い表現力を利用 • 生のスペクトル包絡,パワースペクトルからの特徴抽出 • 多数の音声特徴量を連結させた特徴量 – TTSでは, F0に関する特徴量の予測も重要 • これまで紹介した手法では, logF0の予測精度は今ひとつ...
39.
/4038 Model Structures and
Model Training 音声生成のアプローチに応じたモデルの設定 – RBMs, DBNs: joint PDFs and input-to-feature, or input-to-feature – DNNs, CRBMs, DAEs: conditional PDFs and input-to-feature モデルの深さも重要 (だが, 深ければよいというわけでもない) – ASRに比べると学習データの数が少ないので,学習が困難 モデルの初期化法も多数存在 – Random initialization (TTS) – DBNsを用いた初期化 (VC) – AEs, RBMs を用いた初期化 (enhancement) 計算コスト削減にGPUを用いた高速化も有効
40.
/4039 Comparison between Speech
Synthesis and Recognition both Using DNN-HMMs DNN-HMM: ASRにおいて主流となっている手法 – (1) DNNにより音声特徴量を決定木の葉ノードにマッピング – (2) HMMにより言語特徴量を decoding SPSGでは,ASRに比べてモデルの構造が多様 – DNNを用いた conditional PDF のモデル化 → DNN-HMMに類似 • 主な違いは出力層の活性化関数 • ASR (classification): softmax 関数 • SPSG (regression): linear 関数 音声特徴量の役割 – ASR: 発話内容の予測 (exicitation, power spectra は使わない) – SPSG: 音声波形の生成 (spectra, excitation の両方が必要)
41.
/4040 Conclusions 概要: deep
learning を用いたSPSGのための音響モデリング – 入出力間の複雑な対応関係を表現可能 • Deep joint models (RBMs, DBNs) • Deep conditional models (CRBMs, DNNs) – 従来手法と比較して合成音声の品質改善 将来展望 – F0の高精度な予測を実現するモデルが必要 • スペクトルの予測とは別途行うべき? • 時系列単位での依存性を考慮したモデル
Télécharger maintenant