SlideShare une entreprise Scribd logo
1  sur  26
Télécharger pour lire hors ligne
第140回 音声言語情報処理研究会 (SIG-SLP)
西邑勇人1
・齋藤佑樹1
・高道慎之介1
・橘健太郎2
・猿渡洋1
1: 東京大学 2: LINE株式会社
対話履歴の韻律情報を考慮した共
感的対話音声合成
対話とは: 向かい合って話し合うこと [デジタル大辞泉]
タスク指向型対話: ユーザーの要求に答えることが目的
例: 旅行案内,レストラン予約
非タスク指向型対話: コミュニケーションが目的
例: 雑談
共感とは:
相手の内側に入り込もうとする能動的な試み [Davis+18]
≠ 同調: 相手と感情を同一化する
研究背景
01/25
共感的対話音声合成: [齋藤+22]
共感の主要素である,感情と韻律を音声合成に付与すること
対話相手との対話履歴を考慮し,次の応答に寄与する音声特徴量を推定
実現のためには:
テキスト情報だけでなく音声情報も必要 (クロスモーダル)
人間は,対話の言語的・韻律的特徴から文脈を理解し応答する
研究背景
02/25
どうした?
先生,悲しいお知らせが ...
なになに?
従来法: 対話履歴のテキスト情報を用いた対話音声合成 [Guo+20]
対話履歴を BERT に入力し embedding として音響モデルへ条件付け
問題点: テキスト情報のみの利用に留まる
音声のふるまいは考慮できない
提案法: テキスト・音声情報両方を用いた対話音声合成
テキスト情報は従来法と同様に利用
音声情報も embedding とすることでテキスト情報と同様の扱いをする
結果: 従来法より自然な対話音声合成を実現
本発表の概要
03/25
研究背景
従来法: 対話履歴のテキスト情報を利用した対話音声合成
テキスト・音声情報を利用した対話音声合成
実験的評価
まとめ
目次
04/25
DNN音声合成: DNN音響モデルでテキストから音声を合成する
共感とは:
FastSpeech2 (FS2): [Ren+21]
pitch, energy を明示的にモデル化
Encoder-Decoder 型
非自己回帰型モデルで高速
本研究のベースモデル
DNN音声合成
Pythonで学ぶ音声合成 機械学習実践シリーズ: 山本, 高道 05/25
全体図:
Encoder-Decoder 型モデルで利用可能なアーキテクチャ
従来法: 対話履歴のテキスト情報を利用した対話音声合成
Guo+20 06/25
Step1: 対話履歴のテキスト情報を BERT を用いて embedding とする
以降,これを Chat history と呼ぶ
従来法: 対話履歴のテキスト情報を利用した対話音声合成
Guo+20 07/25
従来法: 対話履歴のテキスト情報を利用した対話音声合成
Guo+20
Step2: Chat history を Conversational Context Encoder (CCE) へ入力し,音響モ
デルへ条件付ける
CCEでは過去の系列のみを圧縮している
08/25
研究背景
従来法: 対話履歴のテキスト情報を利用した対話音声合成
テキスト・音声情報を利用した対話音声合成
実験的評価
まとめ
目次
09/25
提案法の動機
テキスト音声合成における,one-to-many 問題
例: どうしたの?
対話履歴の音声情報も考慮し,音声特徴量の推定を容易にしたい
テキスト情報・音声情報のクロスモーダルの活用
独立にテキストと音声を処理するのではなく,うまく組み合わせたい
10/25
テキスト情報・音声情報両方の利用
音声情報はメルスペクトログラムとして利用
Prosody encoder によりテキスト同様に音声を embedding として扱う
クロスモーダルを活かすための Attention 機構の導入
当該発話のテキスト情報を音声に活用するため Attention を導入
学習を容易にするための Curriculum Learning の導入
通常通りの一度での学習は困難であった
音響モデルは別途学習することで学習を容易にする工夫
提案法: テキスト・音声情報を利用した対話音声合成
11/25
対話履歴のテキスト・音声情報を Cross Modal CCE (CMCCE) へ入力し,出力され
た Context embedding を音響モデルへ条件づける
提案法: 全体図
合成対象(利用不可)
12/25
テキスト情報は Sentence BERT (従来法),音声情報は Prosody encoder へ入力
出力された Sentence/Prosody embedding を従来法と同様の CCE へ入力
提案法: Cross-Modal CCE
CCE
13/25
Prosody encoder (左図):
メルスペクトログラムから Prosody embedding を出力
Cross-Modal CCE w/ Attention (中央,右図):
Attention の query として用いることでテキスト情報を音声情報にも活用
提案法: Prosody encoder & Cross-Modal CCE w/ Attention
音声 テキスト
14/25
動機: 対話履歴を考慮した一度での学習の困難さ
パラメータ数を減らし学習を容易にするための工夫を導入
提案法: Curriculum Learning
15/25
Stage1: 当該発話の音声 (正解音声) の Prosody embedding によって FS2 を条件
付けし,Prosody encoder と FS2 を学習
提案法: Curriculum Learning
16/25
Stage2: 対話履歴を CCE によって Content embeding へと変換
Content embedding と Prosody embedding の間の MSE Loss を計算し学習
提案法: Curriculum Learning
17/25
研究背景
従来法: 対話履歴のテキスト情報を利用した対話音声合成
テキスト・音声情報を利用した対話音声合成
実験的評価
まとめ
目次
18/25
実験的評価: 実験条件
データセット STUDIES [齋藤+22]
学習 / 検証 / 評価データ 2,209文 / 221文 / 211文
事前学習用データ JSUT [Takamichi+20]
音声パラメータ 80次元のメルスペクトログラム
最適化アルゴリズム Adam [Kingma+15] (学習率 0.0625)
音響モデル FastSpeech2 (FS2) [Ren+21]
波形生成 HiFi-GAN [Kong+20]
対話履歴の長さ 10 (テキスト情報はシチュエーション情報も含む )
Teacher forcing あり (対話履歴に用いた音声は,正解音声のもの )
比較手法 TMCCE: 従来法 [Guo+20].テキスト情報を用いたもの
SMCCE: 提案法1.音声情報のみ用いたもの
CMCCE: 提案法2.テキスト・音声情報を用いたもの
19/25
考慮する条件:
Attn: CCEにおいて,Attention を利用したもの.SM では利用できない
CL: Curriculum Learning の略
MS: Prosody encoder の事前学習を行ったかどうか
評価手法:
発話自然性: その発話が自然かどうかを5段階で評価
対話自然性: 一連の対話が自然なものであったかを5段階で評価
評価するべき手法の数が多かったため,2段階で評価を行った
評価方法
20/25
Step1: 各手法毎にMOS評価を行い,発話自然性と対話自然性の平均が最良の組
み合わせを選択した(太字)
評価者数: 50名 × 2 (発話・対話) × 3 (各手法) = 300名 (手法毎に4発話評価)
実験的評価: 各手法内での主観評価結果
21/25
Step2: Step1 で選択された手法に従来法などを混ぜて主観評価を行った
提案法2による従来法からの自然性の改善
実験的評価: 最良手法間での主観評価結果
http://sython.org/Corpus/STUDIES/demo_empTTS.html
(従来法)
(提案法1)
(提案法2)
(正解音声で条件付)
(従来法+CL)
(FastSpeech2)
22/25
Step2: Step1 で選択された手法に従来法などを混ぜて主観評価を行った
音声の対話履歴のみ(提案法1)でも従来法と同等の対話自然性を達成
実験的評価: 最良手法間での主観評価結果
http://sython.org/Corpus/STUDIES/demo_empTTS.html
(従来法)
(提案法1)
(提案法2)
(正解音声で条件付)
(従来法+CL)
(FastSpeech2)
23/25
研究背景
従来法: 対話履歴のテキスト情報を利用した対話音声合成
テキスト・音声情報を利用した対話音声合成
実験的評価
まとめ
目次
24/25
目的: 共感的対話音声合成の品質改善
提案手法:
テキスト情報・音声情報両方の利用
クロスモーダルを活かすための Attention 機構の導入
学習を容易にするための Curriculum Learning の導入
結果: 従来法より自然な対話音声合成を実現
今後の予定:
発話単位の embedding から,文単位の embedding への変更
Prosody encoder の強化 (自己教師ありモデルの採用 e.g. Wav2vec2.0)
まとめ
25/25

Contenu connexe

Tendances

リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Keisuke Imoto
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法NU_I_TODALAB
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情Shinnosuke Takamichi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習Shinnosuke Takamichi
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...Daichi Kitamura
 
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...Deep Learning JP
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正Shinnosuke Takamichi
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワークNU_I_TODALAB
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 

Tendances (20)

リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 

Plus de Yuki Saito

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdfYuki Saito
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_ascYuki Saito
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfYuki Saito
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUSYuki Saito
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn MeetingYuki Saito
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 readingYuki Saito
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumnYuki Saito
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020Yuki Saito
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_publishedYuki Saito
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNAYuki Saito
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会Yuki Saito
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asjYuki Saito
 

Plus de Yuki Saito (20)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
 

Nishimura22slp03 presentation