Saito21asj Autumn Meeting

©Yuki Saito, Sep. 07, 2021
日本音響学会 2021年秋季研究発表会 1-3Q-14
End-to-End 音声合成の
Continual Learning における
破滅的忘却の影響の調査
○齋藤佑樹, 猿渡洋 (東大院・情報理工)
(Google Slides へのリンク & 音声サンプルのページ)

本発表のハイライト
● やりたいこと
○ これまでに学習したことを忘れずに , 継続的に学習可能な音声合成の実現
● やったこと
○ Continual Learning (CL) に基づく End-to-End 音声合成の提案
■ 複数の音声コーパスで単一の音声合成モデルを逐次的に学習
■ これまでに学習した知識の破滅的忘却を防ぐための手法を検討
○ FastSpeech 型音声合成の学習 w/ JSUT コーパスでの実験的評価
● 結果
○ 破滅的忘却の影響は , 音声特徴量の予測誤差悪化で顕著
○ リハーサル法 (古いデータを一部再利用 ) に基づく CL は, 破滅的忘却の影響を緩和
2

Continual Learning (CL) [Chen+16]
● AI が継続的・階層的・追加的に知識を学習するための枠組み
○ 学習された既知のドメインと未知のドメイン両方に対する性能改善が目的
○ 人間にとっては容易だが , AI にとっては困難
○ 音声認識 [Chang+21], 音響イベント分類 [Wang+21] などの認識タスクにおける先行研究は存在
○ 生成タスクにおける先行研究は少数 (話者適応 for TTS [Hemati+21] or VC [Koshizuka+21])
● DNN における CL の難しさ: 過去に学習した知識の破滅的忘却 [French99]
○ 与えられたデータセットを用いた勾配法での学習 → 当該データセットのみに適合
■ 複数データセットで逐次的に学習する CL では, 古い知識を保持する保証がない
AI の CL (古い知識を忘却)
人間の CL (古い知識を保持)
3

本発表で評価する音声合成モデル & CL 手法
● 音響モデル: FastSpeech 2 [Ren+21]
○ 音素列からメルスペクトログラムを予測
○ F0, energy は音素単位で平均したものを予測
(FastPitch [Lancucki+21] を参考)
○ Wataru-Nakata による日本語音声合成向け
オープンソース実装を参考
● 波形生成モデル: HiFi-GAN [Kong+20]
○ jik876 により公開されている UNIVERSAL_V1 事前学習モデルを使用 (CL は適用せず)
● 用いる CL 手法: リハーサル法 (古いデータの一部を再利用) [Robins95]
○ データの選択基準は , 音声認識における先行研究 [Chang+21] を参考に Median Length を採用
(データセット中で発話長が中央値に近い音声データを優先的に再利用 )
4

実験条件 (詳細は原稿を参照)
● データセット: JSUT コーパス [Takamichi+20]
○ 単一女性話者による日本語音声約 10h (実験では countersuffix26 サブセットは除外)
○ voiceactress100 サブセットは学習データから除外 (未知のドメインとみなす )
● 比較手法
○ Full: 全てのサブセットで 200k steps 学習
○ basic5000: 最もデータが多い basic5000 (5000文) だけで 200k steps 学習
○ Cont. : 右の表に示す順番・ステップ数で CL
○ Cont. w/ rehearsal: リハーサル法を用いた CL
■ 追加データ量の上限 M = { 5, 40, 400 } MB
● 評価指標: 合成音声の Mel-Cepstral Distortion
○ 各タスク終了時点でのモデルを用いて計算(“Best” = 最良, “Last” = 最終の評価値)
5

評価結果 (太字/下線字は各行で最良/最悪の評価値)
● Cont. の評価結果: 多くのサブセットに対して最悪の評価値
○ 特に, “Best” と “Last” の評価値に大きな差を観測 → 破滅的忘却の影響
● Cont. w/ rehearsal の評価結果: 破滅的忘却の影響を緩和
○ M > 40MB の場合, 全サブセットを学習に用いる Full を上回る性能も達成可能
講演論文集掲載の結果に一部誤りあり
→ 著者版原稿にて修正 6

本発表のハイライト (再掲)
● やりたいこと
○ これまでに学習したことを忘れずに , 継続的に学習可能な音声合成の実現
● やったこと
○ Continual Learning (CL) に基づく End-to-End 音声合成の提案
○ FastSpeech 型音声合成の学習 w/ JSUT コーパスでの実験的評価
● 結果
○ 破滅的忘却の影響は , 音声特徴量の予測誤差悪化で顕著
○ リハーサル法に基づく CL は, 破滅的忘却の影響を緩和
● 今後
○ 知識蒸留やモデルパラメータ正則化に基づく CL の検討
7

Saito21asj Autumn Meeting

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Plus de Yuki Saito

Plus de Yuki Saito (20)

Saito21asj Autumn Meeting