Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

493 vues

Publié le

日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

Publié dans : Technologie
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

  1. 1. Moment-matching networkに基づく 一期一会音声合成における発話間変動の評価 ○高道 慎之介†1,郡山 知樹†2,齋藤 佑樹†1,猿渡 洋†1 日本音響学会 2017年 秋季研究発表会 1-8-9 (†1:東大院・情報理工,†2:東工大)
  2. 2. /12 概要  発話間変動 – 同一コンテキストに対する音声の変動  一期一会音声合成 [Takamichi et al., INTERSPEECH2017.] – Moment-matching networkに基づく音響モデリング – 音質を劣化させずに,音声パラメータをランダム生成可能  本報告:一期一会音声合成の発話間変動を定量的に評価 – 繰り返し発話された自然音声と比較 2 “Hello” “Hello”
  3. 3. /12 通常のDNN音声合成 (Mean squared errorの最小化) 3 Mean squared error Linguistic feats. Static-delta mean vectors ⋯ ⋯ ⋯ ⋯ time 𝑡 = 1 ⋯ ⋯ ⋯ ⋯ ⋯ time 𝑡 = 𝑇 ⋯ Generated speech params. Natural speech params. Parameter generation ⋯ [Wu et al., 2016.] 𝒚𝒚 𝒙 条件付き分布𝑃 𝒚|𝒙 として正規分布を仮定した最尤推定
  4. 4. /12 一期一会音声合成 (条件付きMMDの最小化) 4 Conditional MMD Linguistic feats. 𝒚 Static-delta mean vectors 𝒚 ⋯ Generated speech params. Natural speech params. Parameter generation ⋯ 𝑁 𝟎, 𝑰 Frame-wise noise generator time 𝑡 = 1 time 𝑡 = 𝑇 𝒙 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ モーメントマッチングによる経験分布表現に基づくサンプリング
  5. 5. /12 MMD (Maximum Mean Discrepancy) 5  2つのデータセットの統計量の不一致指標   Moment-matching network [Li et al., 2015.] – MMDを最小化するように、ノイズ入力のDNNを学習 𝑁 𝟎, 𝑰 𝒚 𝒚 MMD = Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 + Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 − 2Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 𝒚, 𝒚 のグラム行列 𝒚, 𝒚 𝒚, 𝒚 ⋯ ⋯ ⋯ ⋯
  6. 6. /12 条件付きMMD (CMMD: Conditional MMD)  条件付き分布の統計量の不一致を計算 [Ren et al., 2016.]  Conditional moment-matching network [Ren et al., 2016.] – CMMDを最小化するように、 𝒙 &ノイズを入力とするDNNを学習 6 𝒙, 𝒙 のグラム行列の逆行列を含む行列 𝑁 𝟎, 𝑰 𝒚 𝒙 ⋯ ⋯ ⋯ ⋯ 𝒚 CMMD = Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 + Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 − 2Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 𝒙
  7. 7. /12 前回までの報告と今回の報告  前回までの報告:音質評価 – 1. 通常のDNN音声合成より,一期一会音声合成は高品質 – 2. スペクトルのランダム生成は,最尤生成と同程度の音質  今回の報告 – そのランダム性 (発話間変動) を定量評価 – 繰り返し音声を新たに収録 7
  8. 8. 実験的評価 8
  9. 9. /12 実験条件 9 項目 値・設定 学習データ 女性1名,日本語4000文 評価データ ATR音素バランスJセット53文 (後述) 入力特徴量 442次元コンテキスト 出力特徴量 40次元メルケプストラム,連続対数F0,有声/無声 ラベル,5帯域非周期性指標 入力ノイズ 5次元/フレーム.正規分布からランダム生成 ネットワーク構造 Feed-Forward グラム行列の カーネル ガウスカーネル (予備実験で線形カーネル・多項式 カーネルも使用したが,大きな変化はなし)
  10. 10. /12 発話間変動の評価法  評価用データセットの作成 – 自然音声:評価データ (Jセット53文) を5回ずつ繰り返し収録 – 合成音声:各文に対して100回ランダム生成  評価対象手法 – 動的特徴量を考慮したパラメータ生成 [Tokuda et al., 2000.] あり/なし • なしの場合は,静的特徴量を直接推定 – スペクトル,連続対数F0,有声/無声ラベル,音素継続長生成  評価法 – 自然音声同士,合成音声同士で発話間変動を計算 • スペクトル:メルケプストラム歪み • 連続対数F0・継続長:二乗誤差 • 有声/無声ラベル:誤りフレーム数 10
  11. 11. /12 評価結果 11 パラメータ パラメータ生成 発話間変動 自然音声の発話 間変動との比 スペクトル あり 0.095 1.6 [%] なし 0.202 3.4 [%] 連続対数F0 あり 0.60e-5 0.014 [%] なし 1.85e-5 0.042 [%] 有声/無声 - 4.02e-3 2.7 [%] 音素継続長 - 0.557 17.3 [%] ・生成した音素継続長は,自然音声と比較して17%程度の発話間変動 - 他のパラメータは数%程度 ・パラメータ生成を入れない方が,発話間変動は改善
  12. 12. /12 まとめ  一期一会音声合成 – 合成するごとに異なる音声パラメータを生成 – → 発話間変動を有する合成音声  実験的評価・結果 – 合成音声パラメータの発話間変動を定量的に評価 – → 自然音声と比較して,音素継続長は17%程度の変動 – → それ以外の特徴量は数%程度  今後の予定 – 発話間変動の主観評価 – 発話間変動の改善 12

×