SlideShare une entreprise Scribd logo
1  sur  21
Télécharger pour lire hors ligne
音素事後確率を用いた
多対一音声変換のための
音声認識・生成モデルの同時敵対学習
◎ 齋藤 佑樹, △ 阿久澤 圭 (ディー・エヌ・エー/東大),
橘 健太郎 (ディー・エヌ・エー)
日本音響学会 2019年秋季研究発表会 2-4-2
2/17
• 研究目的: 多対一音声変換 (VC) の高品質化
• 多対一VC: 任意話者の音声を所望の目的話者の音声に変換
• DeNA の VTuber 向け配信事業サービスへの応用展開
• 従来法: 音素事後確率 (PPG*) を用いた多対一 VC [Sun+, 2016]
• 音声認識・生成モデルを結合し, ノンパラレル多対一 VCを実現
• 問題点: 変換音声の品質劣化
• 合成音声特徴量の過剰な平滑化 & PPGの話者依存性が原因
• 提案法: 音声認識・生成モデルの同時敵対学習
• 1. 話者認証器に敵対する音声生成モデル学習
• 2. ドメイン識別器に敵対する音声認識モデル学習
• 3. 音声認識・生成モデルの同時学習
• 結果: 提案法による変換音声の品質改善
本発表の概要 *PPG: Phonetic PosteriorGram
• 1. 多数話者の音声を用いた音声認識モデルの学習
• ! " , $ " ~ & " : 多数話者コーパス & " に含まれるデータ
従来法: PPG を用いた多対一 VCの学習 [Sun+, 2016]
3/17
'( ⋅
特徴
抽出
'* ⋅
音素
予測
+ ⋅
音声生成
入力音声
特徴量
! "
! ,
潜在変数
-. "
-. ,
PPG
/0 "
/0 ,
音素
ラベル
$ "
1234
音声認識
合成音声
特徴量
/5 ,
目的音声
特徴量
5 ,
1624
1234 $ " , /0 " : 音素識別損失の softmax cross-entropy
• 2. 目的話者の音声を用いた音声生成モデルの学習
• ! " , $ " ~ & " : 目的話者コーパス & " に含まれるデータ
従来法: PPG を用いた多対一 VCの学習 [Sun+, 2016]
3/17
'( ⋅
特徴
抽出
'* ⋅
音素
予測
+ ⋅
音声生成
入力音声
特徴量
! ,
! "
潜在変数
-. ,
-. "
PPG
/0 ,
/0 "
音素
ラベル
1 ,
2345
音声認識
合成音声
特徴量
/$ "
目的音声
特徴量
$ "
2635
2635 $ " , /$ " : 音声生成損失の mean squared error
従来法の問題点1: 合成音声特徴量の過剰な平滑化
• 音声生成損失のみの最小化 → 合成音声特徴量の分布が縮小
4/17
25次メルケプ
フレーム
目的話者の自然音声
目的話者の合成音声
(従来法)
23次メルケプ
従来法の問題点2: PPG の話者依存性
• 音素識別損失のみの最小化 → PPG の話者独立性の保証なし
• 異なる話者の同一発話音声から異なる PPG を予測する可能性
5/17
変換元話者 A 変換元話者 B
音素
インデックス
フレーム
6/17
提案法
音声認識・生成モデルの
同時敵対学習
• 敵対的DNN音声合成 [Saito+, 2018]
• 話者認証器 !"# : 自然/合成音声の統計的な違いを検出
• Generative Adversarial Net (GAN) に基づく分布間距離最小化
• 1. !"# の更新: $"# の最小化
話者認証器に敵対する音声生成モデル学習
7/17
%& ⋅ ( ⋅
) *
) +
,- *
,- +
$"./
01 +
$2"/%3 ⋅
!"# ⋅
1 +
自然
合成
04 *
04 +
5 *
$"#話者
認証器
$"# 1 + , 01 + : 自然/合成音声を正しく識別させる損失
[Goodfellow+, 2014]
• 敵対的DNN音声合成 [Saito+, 2018]
• 話者認証器 !"# : 自然/合成音声の統計的な違いを検出
• Generative Adversarial Net (GAN) に基づく分布間距離最小化
• 2. $ の更新: %& = %(") + +&%,-# の最小化
話者認証器に敵対する音声生成モデル学習
7/17
./ ⋅ $ ⋅
1 2
1 3
45 2
45 3
%"6)
78 3
%(").9 ⋅
!"# ⋅
8 3
自然
合成
7: 2
7: 3
; 2
%,-#話者
認証器
[Goodfellow+, 2014]
%,-# 78 3
: 合成音声を自然音声と誤識別させる損失
(8 3
, 78 3
の分布間距離最小化を考慮した学習)
• 認識モデルの Domain-Advarsarial Training (DAT) [Ganin+, 2016]
• ドメイン識別器 !"# : $% からドメイン & '
と & (
を識別
• 本発表では, コーパス & )
と & (
をドメインとみなして学習
• 1. !"# の更新: *"# の最小化
ドメイン識別器に敵対する音声認識モデル学習
8/17
+, ⋅ . ⋅
/ '
/ (
$% '
$% (
*0#1
23 (
+4 ⋅
!"# ⋅ !05 ⋅
3 (
自然
合成
26 '
26 (
7 '
& (
& '
*05*"#ドメイン
識別器
*"# $% ' , $% ( : $% を用いてドメインを正しく識別させる損失
*901
話者
認証器
• 認識モデルの Domain-Advarsarial Training (DAT) [Ganin+, 2016]
• ドメイン識別器 !"# : $% からドメイン & '
と & (
を識別
• 本発表では, コーパス & )
と & (
をドメインとみなして学習
• 2. *+, *- の更新: ./ = .1#2 − 4/."# の最小化
ドメイン識別器に敵対する音声認識モデル学習
8/17
*+ ⋅ 6 ⋅
7 '
7 (
$% '
$% (
.1#2
89 (
*- ⋅
!"# ⋅ !1: ⋅
9 (
自然
合成
8; '
8; (
< '
& (
& '
.1:−."#ドメイン
識別器
.=12
−."# $% '
, $% (
: $% を用いてドメインを誤まって識別させる損失
(潜在変数のドメイン不変性を制約とした学習)
話者
認証器
• 1. !"#, !%& の更新: '"#, '%& の最小化
• 2. (), (*, + の更新: ' = '- + '/ の最小化
音声認識・生成モデルの同時敵対学習
9/17
() ⋅ + ⋅
1 2
1 3
45 2
45 3
'%#6
78 3
(* ⋅
!"# ⋅ !%& ⋅
8 3
自然
合成
79 2
79 3
: 2
; 3
; 2
'%&'"#
'<%6
() ⋅ + ⋅
1 2
1 3
45 2
45 3
'%#6
78 3
(* ⋅
!"# ⋅ !%& ⋅
8 3
自然
合成
79 2
79 3
: 2
; 3
; 2
'="&−'"#
'<%6
• 1. !"#, !%& の更新: '"#, '%& の最小化
• 2. (), (*, + の更新: ' = '- + '/ の最小化
音声認識・生成モデルの同時敵対学習
9/17
() ⋅ + ⋅
1 2
1 3
45 2
45 3
'%#6
78 3
(* ⋅
!"# ⋅ !%& ⋅
8 3
自然
合成
79 2
79 3
: 2
; 3
; 2
'%&'"#
'<%6
() ⋅ + ⋅
1 2
1 3
45 2
45 3
'%#6
78 3
(* ⋅
!"# ⋅ !%& ⋅
8 3
自然
合成
79 2
79 3
: 2
; 3
; 2
'="&−'"#
'<%6
提案法の効果1: 過剰な平滑化の緩和
10/17
25次メルケプ
目的話者の自然音声 従来法
23次メルケプ
提案法
(GAN)
提案法
(DAT-GAN)
GAN により, 合成 / 自然音声の分布の違いを補償!
目的話者の合成音声
提案法の効果2: PPG の話者依存性緩和
11/17
従来法
提案法
(GAN)
提案法
(DAT-GAN)
変換元話者 A 変換元話者 B
音素インデックス
フレーム
DAT により, 話者の違いに対して頑健な PPG を学習!
12/17
実験的評価
実験条件
学習データ
! " : CSJ コーパス [Maekawa+, 2000]
! #
: NICT 声優対話コーパス [Sugiura+, 2015]
変換元話者
(パラレル1発話)
ATR デジタル音声データベース C セット
(男性10名, 女性10名) [Kurematsu+, 1990]
DNNの入出力
(詳細は原稿参照)
音声認識: 13次 MFCC (+ Δ) → 43次元 PPG
音声生成: 43次元 PPG → 1—39次メルケプ
話者認証: 1—39次メルケプ → 認証結果
ドメイン識別: 256次元潜在変数 → 識別結果
初期化
CSJ コーパスの全学習データを用いた
音声認識モデルの事前学習 (1エポック)
比較手法
従来法: 個別学習 [Sun+, 2016]
提案法 (GAN): 同時敵対学習 ω% = 0.5, ω+ = 0.0
提案法 (DAT-GAN): 同上 ω% = 0.5, ω+ = 0.25
最適化手法 学習率 0.01 の AdaGrad [Duchi+, 2011]
13/17
変換音声の自然性に関する MOS スコア
• 被験者: クラウドソーシングで集めた30名
• 10 (変換元) × 2 (女 → 女, 男 → 女) × 3 (手法) = 60 サンプル
14/17
評価結果 ± 95%信頼区間
女 → 女 男 → 女
従来法 2.703 ± 0.124 2.510 ± 0.113
提案法 (GAN) 2.997 ± 0.131 2.553 ± 0.116
提案法 (DAT-GAN) 2.953 ± 0.125 2.747 ± 0.119
提案法 (DAT-GAN) により,
同性/異性間VC両方で有意に自然性を改善
変換音声の話者類似性に関する XAB スコア
• 被験者: クラウドソーシングで集めた30名
• 10 (変換元) × 2 (女 → 女, 男 → 女) × 2 (比較) = 40 サンプル
• リファレンス音声: 目的話者の学習に用いていない1発話
15/17
提案法 (DAT-GAN) により,
従来法 / 提案法 (GAN) と比較して有意に話者類似性も改善
Method A 評価結果 (女 → 女) Method B
従来法 0.317 vs. 0.683 提案法 (DAT-GAN)
提案法 (GAN) 0.387 vs. 0.623 提案法 (DAT-GAN)
Method A 評価結果 (男 → 女) Method B
従来法 0.283 vs. 0.717 提案法 (DAT-GAN)
提案法 (GAN) 0.373 vs. 0.627 提案法 (DAT-GAN)
変換音声サンプル (抜粋)
女1 女2 女3 男1 男2 男3
従来法
提案法
(GAN)
提案法
(DAT-GAN)
16/17
リファレンス:
まとめ
17/17
• 研究目的: 多対一音声変換 (VC) の高品質化
• 従来法: 音素事後確率 (PPG*) を用いた多対一 VC [Sun+, 2016]
• 音声認識・生成モデルを結合し, 多対一 VCを実現
• 問題点: 変換音声の品質劣化
• 合成音声特徴量の過剰な平滑化 & PPG の話者依存性が原因
• 提案法: 音声認識・生成モデルの同時敵対学習
• 1. 話者認証器に敵対する音声生成モデル学習
• 2. ドメイン識別器に敵対する音声認識モデル学習
• 3. 音声認識・生成モデルの同時学習
• 結果: 提案法による変換音声の品質改善
• 今後: 提案法のハイパーパラメータが与える影響を調査

Contenu connexe

Tendances

DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムYuki Saito
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムShinnosuke Takamichi
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎Akinori Ito
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用Shinnosuke Takamichi
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 readingYuki Saito
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...KoueiYamaoka
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)KoueiYamaoka
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embeddingShinnosuke Takamichi
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_ttsYuki Saito
 
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”Shinnosuke Takamichi
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)貴史 益子
 
音声の認識と合成
音声の認識と合成音声の認識と合成
音声の認識と合成Akinori Ito
 

Tendances (20)

DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
 
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
音声の認識と合成
音声の認識と合成音声の認識と合成
音声の認識と合成
 

Similaire à Saito19asjAutumn_DeNA

Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
NIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIONIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIOKoichiro Mori
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成Kentaro Tachibana
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援Ryohei Suzuki
 
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討 深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討 TaikiNakamura
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組みAtsushi_Ando
 

Similaire à Saito19asjAutumn_DeNA (10)

Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
NIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIONIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIO
 
Slp201702
Slp201702Slp201702
Slp201702
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討 深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 

Plus de Yuki Saito

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdfYuki Saito
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_ascYuki Saito
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfYuki Saito
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUSYuki Saito
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentationYuki Saito
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn MeetingYuki Saito
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_publishedYuki Saito
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会Yuki Saito
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asjYuki Saito
 
Saito2017icassp
Saito2017icasspSaito2017icassp
Saito2017icasspYuki Saito
 

Plus de Yuki Saito (14)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
 
Saito2017icassp
Saito2017icasspSaito2017icassp
Saito2017icassp
 

Saito19asjAutumn_DeNA

  • 1. 音素事後確率を用いた 多対一音声変換のための 音声認識・生成モデルの同時敵対学習 ◎ 齋藤 佑樹, △ 阿久澤 圭 (ディー・エヌ・エー/東大), 橘 健太郎 (ディー・エヌ・エー) 日本音響学会 2019年秋季研究発表会 2-4-2
  • 2. 2/17 • 研究目的: 多対一音声変換 (VC) の高品質化 • 多対一VC: 任意話者の音声を所望の目的話者の音声に変換 • DeNA の VTuber 向け配信事業サービスへの応用展開 • 従来法: 音素事後確率 (PPG*) を用いた多対一 VC [Sun+, 2016] • 音声認識・生成モデルを結合し, ノンパラレル多対一 VCを実現 • 問題点: 変換音声の品質劣化 • 合成音声特徴量の過剰な平滑化 & PPGの話者依存性が原因 • 提案法: 音声認識・生成モデルの同時敵対学習 • 1. 話者認証器に敵対する音声生成モデル学習 • 2. ドメイン識別器に敵対する音声認識モデル学習 • 3. 音声認識・生成モデルの同時学習 • 結果: 提案法による変換音声の品質改善 本発表の概要 *PPG: Phonetic PosteriorGram
  • 3. • 1. 多数話者の音声を用いた音声認識モデルの学習 • ! " , $ " ~ & " : 多数話者コーパス & " に含まれるデータ 従来法: PPG を用いた多対一 VCの学習 [Sun+, 2016] 3/17 '( ⋅ 特徴 抽出 '* ⋅ 音素 予測 + ⋅ 音声生成 入力音声 特徴量 ! " ! , 潜在変数 -. " -. , PPG /0 " /0 , 音素 ラベル $ " 1234 音声認識 合成音声 特徴量 /5 , 目的音声 特徴量 5 , 1624 1234 $ " , /0 " : 音素識別損失の softmax cross-entropy
  • 4. • 2. 目的話者の音声を用いた音声生成モデルの学習 • ! " , $ " ~ & " : 目的話者コーパス & " に含まれるデータ 従来法: PPG を用いた多対一 VCの学習 [Sun+, 2016] 3/17 '( ⋅ 特徴 抽出 '* ⋅ 音素 予測 + ⋅ 音声生成 入力音声 特徴量 ! , ! " 潜在変数 -. , -. " PPG /0 , /0 " 音素 ラベル 1 , 2345 音声認識 合成音声 特徴量 /$ " 目的音声 特徴量 $ " 2635 2635 $ " , /$ " : 音声生成損失の mean squared error
  • 5. 従来法の問題点1: 合成音声特徴量の過剰な平滑化 • 音声生成損失のみの最小化 → 合成音声特徴量の分布が縮小 4/17 25次メルケプ フレーム 目的話者の自然音声 目的話者の合成音声 (従来法) 23次メルケプ
  • 6. 従来法の問題点2: PPG の話者依存性 • 音素識別損失のみの最小化 → PPG の話者独立性の保証なし • 異なる話者の同一発話音声から異なる PPG を予測する可能性 5/17 変換元話者 A 変換元話者 B 音素 インデックス フレーム
  • 8. • 敵対的DNN音声合成 [Saito+, 2018] • 話者認証器 !"# : 自然/合成音声の統計的な違いを検出 • Generative Adversarial Net (GAN) に基づく分布間距離最小化 • 1. !"# の更新: $"# の最小化 話者認証器に敵対する音声生成モデル学習 7/17 %& ⋅ ( ⋅ ) * ) + ,- * ,- + $"./ 01 + $2"/%3 ⋅ !"# ⋅ 1 + 自然 合成 04 * 04 + 5 * $"#話者 認証器 $"# 1 + , 01 + : 自然/合成音声を正しく識別させる損失 [Goodfellow+, 2014]
  • 9. • 敵対的DNN音声合成 [Saito+, 2018] • 話者認証器 !"# : 自然/合成音声の統計的な違いを検出 • Generative Adversarial Net (GAN) に基づく分布間距離最小化 • 2. $ の更新: %& = %(") + +&%,-# の最小化 話者認証器に敵対する音声生成モデル学習 7/17 ./ ⋅ $ ⋅ 1 2 1 3 45 2 45 3 %"6) 78 3 %(").9 ⋅ !"# ⋅ 8 3 自然 合成 7: 2 7: 3 ; 2 %,-#話者 認証器 [Goodfellow+, 2014] %,-# 78 3 : 合成音声を自然音声と誤識別させる損失 (8 3 , 78 3 の分布間距離最小化を考慮した学習)
  • 10. • 認識モデルの Domain-Advarsarial Training (DAT) [Ganin+, 2016] • ドメイン識別器 !"# : $% からドメイン & ' と & ( を識別 • 本発表では, コーパス & ) と & ( をドメインとみなして学習 • 1. !"# の更新: *"# の最小化 ドメイン識別器に敵対する音声認識モデル学習 8/17 +, ⋅ . ⋅ / ' / ( $% ' $% ( *0#1 23 ( +4 ⋅ !"# ⋅ !05 ⋅ 3 ( 自然 合成 26 ' 26 ( 7 ' & ( & ' *05*"#ドメイン 識別器 *"# $% ' , $% ( : $% を用いてドメインを正しく識別させる損失 *901 話者 認証器
  • 11. • 認識モデルの Domain-Advarsarial Training (DAT) [Ganin+, 2016] • ドメイン識別器 !"# : $% からドメイン & ' と & ( を識別 • 本発表では, コーパス & ) と & ( をドメインとみなして学習 • 2. *+, *- の更新: ./ = .1#2 − 4/."# の最小化 ドメイン識別器に敵対する音声認識モデル学習 8/17 *+ ⋅ 6 ⋅ 7 ' 7 ( $% ' $% ( .1#2 89 ( *- ⋅ !"# ⋅ !1: ⋅ 9 ( 自然 合成 8; ' 8; ( < ' & ( & ' .1:−."#ドメイン 識別器 .=12 −."# $% ' , $% ( : $% を用いてドメインを誤まって識別させる損失 (潜在変数のドメイン不変性を制約とした学習) 話者 認証器
  • 12. • 1. !"#, !%& の更新: '"#, '%& の最小化 • 2. (), (*, + の更新: ' = '- + '/ の最小化 音声認識・生成モデルの同時敵対学習 9/17 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '%&'"# '<%6 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '="&−'"# '<%6
  • 13. • 1. !"#, !%& の更新: '"#, '%& の最小化 • 2. (), (*, + の更新: ' = '- + '/ の最小化 音声認識・生成モデルの同時敵対学習 9/17 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '%&'"# '<%6 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '="&−'"# '<%6
  • 15. 提案法の効果2: PPG の話者依存性緩和 11/17 従来法 提案法 (GAN) 提案法 (DAT-GAN) 変換元話者 A 変換元話者 B 音素インデックス フレーム DAT により, 話者の違いに対して頑健な PPG を学習!
  • 17. 実験条件 学習データ ! " : CSJ コーパス [Maekawa+, 2000] ! # : NICT 声優対話コーパス [Sugiura+, 2015] 変換元話者 (パラレル1発話) ATR デジタル音声データベース C セット (男性10名, 女性10名) [Kurematsu+, 1990] DNNの入出力 (詳細は原稿参照) 音声認識: 13次 MFCC (+ Δ) → 43次元 PPG 音声生成: 43次元 PPG → 1—39次メルケプ 話者認証: 1—39次メルケプ → 認証結果 ドメイン識別: 256次元潜在変数 → 識別結果 初期化 CSJ コーパスの全学習データを用いた 音声認識モデルの事前学習 (1エポック) 比較手法 従来法: 個別学習 [Sun+, 2016] 提案法 (GAN): 同時敵対学習 ω% = 0.5, ω+ = 0.0 提案法 (DAT-GAN): 同上 ω% = 0.5, ω+ = 0.25 最適化手法 学習率 0.01 の AdaGrad [Duchi+, 2011] 13/17
  • 18. 変換音声の自然性に関する MOS スコア • 被験者: クラウドソーシングで集めた30名 • 10 (変換元) × 2 (女 → 女, 男 → 女) × 3 (手法) = 60 サンプル 14/17 評価結果 ± 95%信頼区間 女 → 女 男 → 女 従来法 2.703 ± 0.124 2.510 ± 0.113 提案法 (GAN) 2.997 ± 0.131 2.553 ± 0.116 提案法 (DAT-GAN) 2.953 ± 0.125 2.747 ± 0.119 提案法 (DAT-GAN) により, 同性/異性間VC両方で有意に自然性を改善
  • 19. 変換音声の話者類似性に関する XAB スコア • 被験者: クラウドソーシングで集めた30名 • 10 (変換元) × 2 (女 → 女, 男 → 女) × 2 (比較) = 40 サンプル • リファレンス音声: 目的話者の学習に用いていない1発話 15/17 提案法 (DAT-GAN) により, 従来法 / 提案法 (GAN) と比較して有意に話者類似性も改善 Method A 評価結果 (女 → 女) Method B 従来法 0.317 vs. 0.683 提案法 (DAT-GAN) 提案法 (GAN) 0.387 vs. 0.623 提案法 (DAT-GAN) Method A 評価結果 (男 → 女) Method B 従来法 0.283 vs. 0.717 提案法 (DAT-GAN) 提案法 (GAN) 0.373 vs. 0.627 提案法 (DAT-GAN)
  • 20. 変換音声サンプル (抜粋) 女1 女2 女3 男1 男2 男3 従来法 提案法 (GAN) 提案法 (DAT-GAN) 16/17 リファレンス:
  • 21. まとめ 17/17 • 研究目的: 多対一音声変換 (VC) の高品質化 • 従来法: 音素事後確率 (PPG*) を用いた多対一 VC [Sun+, 2016] • 音声認識・生成モデルを結合し, 多対一 VCを実現 • 問題点: 変換音声の品質劣化 • 合成音声特徴量の過剰な平滑化 & PPG の話者依存性が原因 • 提案法: 音声認識・生成モデルの同時敵対学習 • 1. 話者認証器に敵対する音声生成モデル学習 • 2. ドメイン識別器に敵対する音声認識モデル学習 • 3. 音声認識・生成モデルの同時学習 • 結果: 提案法による変換音声の品質改善 • 今後: 提案法のハイパーパラメータが与える影響を調査