Soumettre la recherche
Mettre en ligne
Nakai22sp03 presentation
•
0 j'aime
•
278 vues
Y
Yuki Saito
Suivre
Presentation at SLP (Mar. 01, 2022)
Lire moins
Lire la suite
Sciences
Signaler
Partager
Signaler
Partager
1 sur 29
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
Saito2103slp
Saito2103slp
Yuki Saito
Nishimura22slp03 presentation
Nishimura22slp03 presentation
Yuki Saito
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
Deep Learning JP
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
Recommandé
Saito2103slp
Saito2103slp
Yuki Saito
Nishimura22slp03 presentation
Nishimura22slp03 presentation
Yuki Saito
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
Deep Learning JP
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
hirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
Deep Learning JP
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
ARISE analytics
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Fujimoto Keisuke
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
[DL輪読会]Deep Neural Networks as Gaussian Processes
[DL輪読会]Deep Neural Networks as Gaussian Processes
Deep Learning JP
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
Sift特徴量について
Sift特徴量について
la_flance
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
Deep Learning JP
能動学習セミナー
能動学習セミナー
Preferred Networks
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
Kosuke Futamata
ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
Contenu connexe
Tendances
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
hirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
Deep Learning JP
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
ARISE analytics
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Fujimoto Keisuke
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
[DL輪読会]Deep Neural Networks as Gaussian Processes
[DL輪読会]Deep Neural Networks as Gaussian Processes
Deep Learning JP
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
Sift特徴量について
Sift特徴量について
la_flance
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
Deep Learning JP
能動学習セミナー
能動学習セミナー
Preferred Networks
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
Tendances
(20)
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
hirai23slp03.pdf
hirai23slp03.pdf
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
[DL輪読会]Deep Neural Networks as Gaussian Processes
[DL輪読会]Deep Neural Networks as Gaussian Processes
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Sift特徴量について
Sift特徴量について
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
能動学習セミナー
能動学習セミナー
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
Similaire à Nakai22sp03 presentation
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
Kosuke Futamata
ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
NU_I_TODALAB
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
Natsumi KOBAYASHI
Saito19asj_s
Saito19asj_s
Yuki Saito
Jacet2014ykondo_final
Jacet2014ykondo_final
早稲田大学
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Shinnosuke Takamichi
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
Deep Learning JP
miyoshi17sp07
miyoshi17sp07
Yuki Saito
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
Takaaki Saeki
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
Similaire à Nakai22sp03 presentation
(16)
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
ICASSP読み会2020
ICASSP読み会2020
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
Interspeech2022 参加報告
Interspeech2022 参加報告
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
Saito19asj_s
Saito19asj_s
Jacet2014ykondo_final
Jacet2014ykondo_final
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
miyoshi17sp07
miyoshi17sp07
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
音情報処理における特徴表現
音情報処理における特徴表現
Plus de Yuki Saito
fujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
Yuki Saito
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Yuki Saito
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
Interspeech2020 reading
Interspeech2020 reading
Yuki Saito
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
Saito20asj s slide_published
Saito20asj s slide_published
Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
Une18apsipa
Une18apsipa
Yuki Saito
Saito18sp03
Saito18sp03
Yuki Saito
Saito18asj_s
Saito18asj_s
Yuki Saito
Saito17asjA
Saito17asjA
Yuki Saito
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
Yuki Saito
miyoshi2017asj
miyoshi2017asj
Yuki Saito
saito2017asj_tts
saito2017asj_tts
Yuki Saito
saito2017asj_vc
saito2017asj_vc
Yuki Saito
Saito2017icassp
Saito2017icassp
Yuki Saito
Slp201702
Slp201702
Yuki Saito
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
Plus de Yuki Saito
(19)
fujii22apsipa_asc
fujii22apsipa_asc
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Interspeech2020 reading
Interspeech2020 reading
Saito20asj_autumn
Saito20asj_autumn
Saito20asj s slide_published
Saito20asj s slide_published
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Une18apsipa
Une18apsipa
Saito18sp03
Saito18sp03
Saito18asj_s
Saito18asj_s
Saito17asjA
Saito17asjA
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
miyoshi2017asj
miyoshi2017asj
saito2017asj_tts
saito2017asj_tts
saito2017asj_vc
saito2017asj_vc
Saito2017icassp
Saito2017icassp
Slp201702
Slp201702
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Nakai22sp03 presentation
1.
多話者音声合成のためのAdversarial Regularizerを考慮した学習アルゴリズム 仲井 佑友輔,齋藤 佑樹,宇田川
健太,猿渡 洋(東大) 2022 年 3 月 音声 (SP) 研究会 3 月 1 日(火)
2.
/28 目次 • イントロダクション • 従来の多話者音声合成モデル •
提案法 • 実験的評価 • 結論 1 イントロダクション
3.
/28 イントロダクション • テキスト音声合成 (Text
to Speech: TTS) • テキストから人間の自然音声に近い音声を合成する技術 • 既に社会にも広く浸透 →音声アシスタント,スマートスピーカーなど 近年は Deep Neural Network (DNN) [1]による学習モデルが主流に • 多話者音声合成 [2] • 複数の話者に対して音声合成を行う TTS • それぞれの話者が持つ固有の特徴(話者埋め込み)をうまく捉えることが重要 • 多様な話者埋め込みをどう学習,解釈すべきかが本研究の関心 2 イントロダクション [1] Y. Ren et al., ICLR, 2021 [2] N. Hojo et al., IEICE Trans., 2018
4.
/28 本発表の概要 • 従来法 :
Speaker Encoder で事前学習した話者埋め込みによる多話者音声合成 • Synthesizer, Vocoder と独立に学習することで少ないデータセットでも高品質な音声合成 が可能に • 問題点 : Synthesizer に対して埋め込み空間の解釈性の高さが保証されない • 未知話者を入力とした際に話者性を捉えた音声を合成できないという懸念 • 提案法 : Adversarial Regularizer を考慮した敵対学習による埋め込み空間の解 釈性の向上 • 2 名の話者埋め込みを混合,得られたメルスペクトログラムから混合率を推定するネット ワークを導入,Synthesizer と敵対学習 • 結果 : 合成音声の話者類似性の改善を確認 3 イントロダクション
5.
/28 • イントロダクション • 従来の多話者音声合成モデル •
提案法 • 実験的評価 • 結論 4
6.
/28 • テキストから抽出された言語特徴 量から音素継続長,音響特徴量を 学習 • 学習したモデルから音素継続長, 音響特徴量を予測 •
多話者音声合成では話者埋め込み も入力として用いる DNN音声合成 5 従来の多話者音声合成モデル [3] [3] 山本, 高道, Pythonで学ぶ音声合成 機械学習実践シリーズ, 2021
7.
/28 • 3 つの独立した
DNN から構成される ① Speaker Encoder • メルスペクトログラムから識別的タスクにより話者埋め込みを抽出 ② Synthesizer • テキストから得られる言語特徴量と話者埋め込みからメルスペクトログラムを合成 ③ Vocoder • メルスペクトログラムから音声を合成 6 従来の多話者音声合成モデル 従来の多話者音声合成モデル [4] [4] Y. Jia et al., NIPS, 2018
8.
/28 • 自然音声から変換したメルスペクトログラムを入力とし,固定次元の話者埋め 込みを学習する • Generalized
end-to-end (GE2E) 損失 [5] を用いた識別的な学習タスクにより, 同じ話者による埋め込みは対応する話者のセントロイドの近くに,異なる話者 のセントロイドから遠くに分布するように学習 7 Speaker Encoder 従来の多話者音声合成モデル [5] G. Heigold, ICASSP, 2016
9.
/28 • イントロダクション • 従来の多話者音声合成モデル •
提案法 • 実験的評価 • 結論 8
10.
/28 • Speaker Encoder
と Synthesizer は独立に学習するため,話者埋め 込み空間が Synthesizer にとって解釈性が高いとは限らない →埋め込み空間の解釈性が低い場合,未知話者の特徴を上手く抽出できない 可能性がある • 提案法では,話者埋め込み空間を上手く捉えられるような Synthesizer の構築を目的とする 9 提案法 従来法の問題点
11.
/28 • 画像生成の文脈での技術 • 特徴空間の解釈性の向上が モチベーションの敵対学習 •
Encoder 𝑓𝜃, Decoder 𝑔𝜙, Critic 𝑑𝜔 からなる ① 異なるデータ 𝑥1, 𝑥2 を Encoder に入力,抽出された特徴量 𝑧1, 𝑧2を 𝛼 ∶ 1 − 𝛼 の割合で混合 ( 𝛼 ∈ 0, 0.5 ) • 𝑧𝑖 = 𝑓𝜃 𝑥𝑖 (𝑖 = 1, 2) ② 混合した特徴量を Decoder に与え,データを出力 • ො 𝑥𝛼 = 𝑔𝜙(𝛼𝑧1 + (1 − 𝛼)𝑧2) ③ Critic は入力された合成データから混合率 𝛼 を推定 10 提案法 Adversarial Regularizer [6] [6] D. Berthelot et al., ICLR, 2019
12.
/28 • 話者埋め込み空間を上手く捉えられるような Synthesizer
の構築がモチベーション • Speaker Encoder は Synthesizer とは独立に事前学習し,パラメータは更新しない 11 提案法 提案法
13.
/28 ① 異なる話者による発話を 1つずつサンプリング,メルスペクトログラム
𝑥1, 𝑥2 を Speaker Encoder に入力 12 提案法 提案法
14.
/28 ② 話者埋め込みを混合,Synthesizer は混合した話者埋め込みによるメルスペクト ログラム
ො 𝑥𝛼 を出力 13 提案法 提案法
15.
/28 ③ Critic は入力
ො 𝑥𝛼 から混合率 𝛼 を推定 • モデルの更新は Critic → Synthesizer の順で行う 14 提案法 提案法
16.
/28 • Critic は以下の損失関数でパラメータを更新 •
第 1 項 : 真の 𝛼 と Critic が推定した ො 𝛼 との二乗誤差 • 第 2 項 : 入力 𝑥1 と Synthesizer により再構成した 𝑔𝜙(𝑓𝜃(𝑥1)) を 𝛾 で混合したもの • 初期段階で Synthesizer による合成音声の品質が十分でない時の学習を安定させる ための項 • Critic 更新後,Synthesizer を更新 • 第 1 項 : 従来法と等しい損失 • 第 2 項 : ො 𝛼 の 2 乗に比例する項 • 混合した話者埋め込みによる音声特徴量と実在話者の音声特徴量との区別がつかな くなるようにしたいというモチベーション 提案法 提案法 15
17.
/28 • FastSpeech2 [7] •
言語特徴量と話者埋め込みを Variance Adaptor に入力, 分散情報(ピッチ,エネルギー,音素継続長)を予測して メルスペクトログラムを合成する Synthesizer • 非自己回帰型のモデルで高速 • HiFi-GAN [8] • メルスペクトログラムから音声を生成する,敵対的生成 ネットワーク (generative adversarial network: GAN) による Vocoder 16 提案法 Synthesizer / Vocoder [7] Y. Ren et al., 2021 [8] J. Kong et al., NIPS, 2020
18.
/28 • イントロダクション • 従来の多話者音声合成モデル •
提案法 • 実験的評価 • 結論 17
19.
/28 18 実験 実験条件 話者エンコーダの 学習用コーパス CSJ コーパス [9] 日本語母語話者
1417 名(男性 947 名,女性 470 名),計 660 時間 Synthesizer のモデル Wataru-Nakata により公開されている FastSpeech 2 TTS の学習用コーパス JVS コーパス [10] のパラレル発話データ 日本語母語話者 100 名(男性 49 名,女性 51 名),話者ごとに 100 文ずつ TTS 学習データ 96 名(男性47 名,女性 49名)の 9600 発話のうちランダムにサンプリングした 9048 発話 評価データ 学習,検証データから除外した 4 名(男女 2 名ずつ) 検証データ 96 名(男性47 名,女性 49名)の 9600 発話のうち学習データで用いなかった 512 発話 ハイパーパラメータ 𝛾=0.1, 𝜆 = 0.01 Vocoder のモデル Wataru-Nakata により公開されているHiFi-GAN [11] 比較手法 Jia et al. の従来法,提案法 評価尺度 客観評価 客観:音声特徴量の予測性能 主観評価 ①②合成音声の品質 ③補間音声の自然性 ④話者モーフィングの解釈性に関するスコアの root mean squared error (RMSE) [9] K. Maekawa et al., SSPR, 2003 [10] S. Takamichi et al., AST, 2020 [11] J. Kong et al., NIPS, 2020
20.
/28 • 評価話者 4
名(男女 2 名ずつ)の自然音声,合成音声に対して音素ごとのピッチ, エネルギー,音素継続長を抽出,root mean squared error (RMSE)を計算 • ピッチ,エネルギーは継続時間で重みづけした RMSE も計算 • 全ての特徴量について,従来法より 良好な結果に • 話者性の大きなファクターである pitch で大幅な精度向上を確認 19 (𝑑𝑖 ∶ 音素継続長) 客観評価
21.
/28 • 従来法と提案法それぞれによる合成音声を聴き,どちらの音声がより自然か を選択 • 評価者数
25 名が手法ごとに 10 発話分を評価 • 提案法が総じて従来法に劣る結果に • Synthesizer の損失関数における Critic の影響が原因? 20 実験 主観評価① 合成音声の自然性 太字 : p<0.05 の有意差
22.
/28 • 自然音声を聴いた後に該当話者の合成音声を聴き,どちらの音声が該当話者 に類似しているか選択 • 評価者数
25 名が手法ごとに 10 発話分を評価 • 1 名を除き,提案法の方が話者類似性は高 いという結果に • 話者埋め込み空間の解釈性向上により Synthesizer が話者性を上手く捉えることが可能になったこと を示唆 21 実験 主観評価② 合成音声の話者類似性 太字 : p<0.05 の有意差
23.
/28 • 評価話者の自然音声 (VOICEACTRESS100_001)
男性:青,女性:赤 • 従来法 vs 提案法 (jvs010) jvs005 jvs010 jvs060 jvs078 音声サンプル①② 22 音声サンプルはこちらから試聴できます. 従来法 提案法
24.
/28 • 評価話者 2
名の埋め込みを 𝛼 = 0.5 の割合で混合,従来法と提案法それぞれに よる合成音声を聴き,どちらの音声がより自然かを選択 • 話者埋め込み空間の頑健性の変化を知りたいというモチベーション • 評価者数 25 名が手法ごとに 10 発話分を評価 • 一部の話者の組について自然性の改善を確認 • 異性間 (jvs078 to jvs060) でも自然な補間音声 が合成可能 23 実験 主観評価③ 補間音声の自然性 太字 : p<0.05 の有意差
25.
/28 • 評価話者の自然音声 (VOICEACTRESS100_001)
男性:青,女性:赤 • 従来法 vs 提案法 jvs005 jvs010 jvs060 jvs078 音声サンプル③ 24 音声サンプルはこちらから試聴できます. jvs005 to jvs078 jvs078 to jvs060 従来法 提案法
26.
/28 • 評価話者 2
名の埋め込みを 𝛼 = 0, 0.25, 0.5, 0.75, 1 の割合で混合,受聴者は 評価話者の音声を聴いた後に混合した合成音声を聴き,混合率 𝛼 を予想 • 評価者数 50 名が手法ごとに 20 発話分を評価 • 予想結果と真の混合率との RMSE を計算, 手法間で比較 • 全ての組で提案法が従来法に勝る結果に • 自然な話者モーフィングが可能な Synthesizer を学習できたと推察 25 実験 主観評価④ 話者モーフィングの解釈性
27.
/28 • 評価話者の自然音声 (VOICEACTRESS100_001)
男性:青,女性:赤 • 従来法 vs 提案法 (jvs005 to jvs078) jvs005 jvs010 jvs060 jvs078 音声サンプル④ 26 音声サンプルはこちらから試聴できます. α=0 α=0.25 α=0.5 α=0.75 α=1 従来法 提案法
28.
/28 • イントロダクション • 従来の多話者音声合成モデル •
提案法 • 実験的評価 • 結論 27
29.
/28 結論 • 目的 :
話者埋め込み空間の解釈性向上 • 未知話者でも話者性を抽出できるようなモデルの構築 • 提案法 : Adversarial Regularizer を考慮した敵対学習による多話者 TTS • 2 名の話者埋め込みを混合,得られたメルスペクトログラムから混合率を推定するネット ワークを導入,Synthesizer と敵対学習 • 結果 : 合成音声の話者類似性の改善を確認 • 今後の展望 • 話者埋め込みのより良い補間方法を検討 • ハイパーパラメータのチューニング,Critic のモデル改善 28 結論
Télécharger maintenant