Nishimura22slp03 presentation

第140回音声言語情報処理研究会 (SIG-SLP)
西邑勇人1
・齋藤佑樹1
・高道慎之介1
・橘健太郎2
・猿渡洋1
1: 東京大学 2: LINE株式会社
対話履歴の韻律情報を考慮した共
感的対話音声合成

対話とは: 向かい合って話し合うこと [デジタル大辞泉]
タスク指向型対話: ユーザーの要求に答えることが目的
例: 旅行案内，レストラン予約
非タスク指向型対話: コミュニケーションが目的
例: 雑談
共感とは:
相手の内側に入り込もうとする能動的な試み [Davis+18]
≠ 同調: 相手と感情を同一化する
研究背景
01/25

共感的対話音声合成: [齋藤+22]
共感の主要素である，感情と韻律を音声合成に付与すること
対話相手との対話履歴を考慮し，次の応答に寄与する音声特徴量を推定
実現のためには:
テキスト情報だけでなく音声情報も必要 (クロスモーダル)
人間は，対話の言語的・韻律的特徴から文脈を理解し応答する
研究背景
02/25
どうした？
先生，悲しいお知らせが ...
なになに?

従来法: 対話履歴のテキスト情報を用いた対話音声合成 [Guo+20]
対話履歴を BERT に入力し embedding として音響モデルへ条件付け
問題点: テキスト情報のみの利用に留まる
音声のふるまいは考慮できない
提案法: テキスト・音声情報両方を用いた対話音声合成
テキスト情報は従来法と同様に利用
音声情報も embedding とすることでテキスト情報と同様の扱いをする
結果: 従来法より自然な対話音声合成を実現
本発表の概要
03/25

研究背景
従来法: 対話履歴のテキスト情報を利用した対話音声合成
テキスト・音声情報を利用した対話音声合成
実験的評価
まとめ
目次
04/25

DNN音声合成: DNN音響モデルでテキストから音声を合成する
共感とは:
FastSpeech2 (FS2): [Ren+21]
pitch, energy を明示的にモデル化
Encoder-Decoder 型
非自己回帰型モデルで高速
本研究のベースモデル
DNN音声合成
Pythonで学ぶ音声合成機械学習実践シリーズ: 山本, 高道 05/25

全体図:
Encoder-Decoder 型モデルで利用可能なアーキテクチャ
Guo+20 06/25

Step1: 対話履歴のテキスト情報を BERT を用いて embedding とする
以降，これを Chat history と呼ぶ
Guo+20 07/25

Guo+20
Step2: Chat history を Conversational Context Encoder (CCE) へ入力し，音響モ
デルへ条件付ける
CCEでは過去の系列のみを圧縮している
08/25

研究背景
実験的評価
まとめ
目次
09/25

提案法の動機
テキスト音声合成における，one-to-many 問題
例: どうしたの？
対話履歴の音声情報も考慮し，音声特徴量の推定を容易にしたい
テキスト情報・音声情報のクロスモーダルの活用
独立にテキストと音声を処理するのではなく，うまく組み合わせたい
10/25

テキスト情報・音声情報両方の利用
音声情報はメルスペクトログラムとして利用
Prosody encoder によりテキスト同様に音声を embedding として扱う
クロスモーダルを活かすための Attention 機構の導入
当該発話のテキスト情報を音声に活用するため Attention を導入
学習を容易にするための Curriculum Learning の導入
通常通りの一度での学習は困難であった
音響モデルは別途学習することで学習を容易にする工夫
提案法: テキスト・音声情報を利用した対話音声合成
11/25

対話履歴のテキスト・音声情報を Cross Modal CCE (CMCCE) へ入力し，出力され
た Context embedding を音響モデルへ条件づける
提案法: 全体図
合成対象(利用不可)
12/25

テキスト情報は Sentence BERT (従来法)，音声情報は Prosody encoder へ入力
出力された Sentence/Prosody embedding を従来法と同様の CCE へ入力
提案法: Cross-Modal CCE
CCE
13/25

Prosody encoder (左図):
メルスペクトログラムから Prosody embedding を出力
Cross-Modal CCE w/ Attention (中央，右図):
Attention の query として用いることでテキスト情報を音声情報にも活用
提案法: Prosody encoder & Cross-Modal CCE w/ Attention
音声テキスト
14/25

動機: 対話履歴を考慮した一度での学習の困難さ
パラメータ数を減らし学習を容易にするための工夫を導入
提案法: Curriculum Learning
15/25

Stage1: 当該発話の音声 (正解音声) の Prosody embedding によって FS2 を条件
付けし，Prosody encoder と FS2 を学習
16/25

Stage2: 対話履歴を CCE によって Content embeding へと変換
Content embedding と Prosody embedding の間の MSE Loss を計算し学習
17/25

研究背景
実験的評価
まとめ
目次
18/25

実験的評価: 実験条件
データセット STUDIES [齋藤+22]
学習 / 検証 / 評価データ 2,209文 / 221文 / 211文
事前学習用データ JSUT [Takamichi+20]
音声パラメータ 80次元のメルスペクトログラム
最適化アルゴリズム Adam [Kingma+15] (学習率 0.0625)
音響モデル FastSpeech2 (FS2) [Ren+21]
波形生成 HiFi-GAN [Kong+20]
対話履歴の長さ 10 (テキスト情報はシチュエーション情報も含む )
Teacher forcing あり (対話履歴に用いた音声は，正解音声のもの )
比較手法 TMCCE: 従来法 [Guo+20]．テキスト情報を用いたもの
SMCCE: 提案法1．音声情報のみ用いたもの
CMCCE: 提案法2．テキスト・音声情報を用いたもの
19/25

考慮する条件:
Attn: CCEにおいて，Attention を利用したもの．SM では利用できない
CL: Curriculum Learning の略
MS: Prosody encoder の事前学習を行ったかどうか
評価手法:
発話自然性: その発話が自然かどうかを5段階で評価
対話自然性: 一連の対話が自然なものであったかを5段階で評価
評価するべき手法の数が多かったため，2段階で評価を行った
評価方法
20/25

Step1: 各手法毎にMOS評価を行い，発話自然性と対話自然性の平均が最良の組
み合わせを選択した(太字)
評価者数: 50名 × 2 (発話・対話) × 3 (各手法) = 300名 (手法毎に4発話評価)
実験的評価: 各手法内での主観評価結果
21/25

Step2: Step1 で選択された手法に従来法などを混ぜて主観評価を行った
提案法2による従来法からの自然性の改善
実験的評価: 最良手法間での主観評価結果
http://sython.org/Corpus/STUDIES/demo_empTTS.html
(従来法)
(提案法1)
(提案法2)
(正解音声で条件付)
(従来法+CL)
(FastSpeech2)
22/25

Step2: Step1 で選択された手法に従来法などを混ぜて主観評価を行った
音声の対話履歴のみ(提案法1)でも従来法と同等の対話自然性を達成
実験的評価: 最良手法間での主観評価結果
http://sython.org/Corpus/STUDIES/demo_empTTS.html
(従来法)
(提案法1)
(提案法2)
(正解音声で条件付)
(従来法+CL)
(FastSpeech2)
23/25

研究背景
実験的評価
まとめ
目次
24/25

目的: 共感的対話音声合成の品質改善
提案手法:
テキスト情報・音声情報両方の利用
クロスモーダルを活かすための Attention 機構の導入
学習を容易にするための Curriculum Learning の導入
結果: 従来法より自然な対話音声合成を実現
今後の予定:
発話単位の embedding から，文単位の embedding への変更
Prosody encoder の強化 (自己教師ありモデルの採用 e.g. Wav2vec2.0)
まとめ
25/25

Nishimura22slp03 presentation

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Plus de Yuki Saito

Plus de Yuki Saito (20)

Nishimura22slp03 presentation