Soumettre la recherche
Mettre en ligne
Nishimura22slp03 presentation
•
0 j'aime
•
310 vues
Y
Yuki Saito
Suivre
Presentation at SLP (Mar. 01, 2022)
Lire moins
Lire la suite
Sciences
Signaler
Partager
Signaler
Partager
1 sur 26
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
Saito2103slp
Saito2103slp
Yuki Saito
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
NU_I_TODALAB
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
Recommandé
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
Saito2103slp
Saito2103slp
Yuki Saito
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
NU_I_TODALAB
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
NU_I_TODALAB
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
Daichi Kitamura
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
Deep Learning JP
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正
Shinnosuke Takamichi
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
NU_I_TODALAB
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
hirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
fujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito
Contenu connexe
Tendances
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
NU_I_TODALAB
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
Daichi Kitamura
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
Deep Learning JP
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正
Shinnosuke Takamichi
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
NU_I_TODALAB
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
Tendances
(20)
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
Interspeech2022 参加報告
Interspeech2022 参加報告
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
統計的ボイチェン研究事情
統計的ボイチェン研究事情
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
音情報処理における特徴表現
音情報処理における特徴表現
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
深層学習を利用した音声強調
深層学習を利用した音声強調
外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Plus de Yuki Saito
hirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
fujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
Yuki Saito
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Yuki Saito
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
Interspeech2020 reading
Interspeech2020 reading
Yuki Saito
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
Saito20asj s slide_published
Saito20asj s slide_published
Yuki Saito
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
Saito19asj_s
Saito19asj_s
Yuki Saito
Une18apsipa
Une18apsipa
Yuki Saito
Saito18sp03
Saito18sp03
Yuki Saito
Saito18asj_s
Saito18asj_s
Yuki Saito
Saito17asjA
Saito17asjA
Yuki Saito
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
Yuki Saito
miyoshi17sp07
miyoshi17sp07
Yuki Saito
miyoshi2017asj
miyoshi2017asj
Yuki Saito
Plus de Yuki Saito
(20)
hirai23slp03.pdf
hirai23slp03.pdf
fujii22apsipa_asc
fujii22apsipa_asc
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
saito22research_talk_at_NUS
saito22research_talk_at_NUS
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Interspeech2020 reading
Interspeech2020 reading
Saito20asj_autumn
Saito20asj_autumn
ICASSP読み会2020
ICASSP読み会2020
Saito20asj s slide_published
Saito20asj s slide_published
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Saito19asj_s
Saito19asj_s
Une18apsipa
Une18apsipa
Saito18sp03
Saito18sp03
Saito18asj_s
Saito18asj_s
Saito17asjA
Saito17asjA
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
miyoshi17sp07
miyoshi17sp07
miyoshi2017asj
miyoshi2017asj
Nishimura22slp03 presentation
1.
第140回 音声言語情報処理研究会 (SIG-SLP) 西邑勇人1 ・齋藤佑樹1 ・高道慎之介1 ・橘健太郎2 ・猿渡洋1 1:
東京大学 2: LINE株式会社 対話履歴の韻律情報を考慮した共 感的対話音声合成
2.
対話とは: 向かい合って話し合うこと [デジタル大辞泉] タスク指向型対話:
ユーザーの要求に答えることが目的 例: 旅行案内,レストラン予約 非タスク指向型対話: コミュニケーションが目的 例: 雑談 共感とは: 相手の内側に入り込もうとする能動的な試み [Davis+18] ≠ 同調: 相手と感情を同一化する 研究背景 01/25
3.
共感的対話音声合成: [齋藤+22] 共感の主要素である,感情と韻律を音声合成に付与すること 対話相手との対話履歴を考慮し,次の応答に寄与する音声特徴量を推定 実現のためには: テキスト情報だけでなく音声情報も必要 (クロスモーダル) 人間は,対話の言語的・韻律的特徴から文脈を理解し応答する 研究背景 02/25 どうした? 先生,悲しいお知らせが
... なになに?
4.
従来法: 対話履歴のテキスト情報を用いた対話音声合成 [Guo+20] 対話履歴を
BERT に入力し embedding として音響モデルへ条件付け 問題点: テキスト情報のみの利用に留まる 音声のふるまいは考慮できない 提案法: テキスト・音声情報両方を用いた対話音声合成 テキスト情報は従来法と同様に利用 音声情報も embedding とすることでテキスト情報と同様の扱いをする 結果: 従来法より自然な対話音声合成を実現 本発表の概要 03/25
5.
研究背景 従来法: 対話履歴のテキスト情報を利用した対話音声合成 テキスト・音声情報を利用した対話音声合成 実験的評価 まとめ 目次 04/25
6.
DNN音声合成: DNN音響モデルでテキストから音声を合成する 共感とは: FastSpeech2 (FS2):
[Ren+21] pitch, energy を明示的にモデル化 Encoder-Decoder 型 非自己回帰型モデルで高速 本研究のベースモデル DNN音声合成 Pythonで学ぶ音声合成 機械学習実践シリーズ: 山本, 高道 05/25
7.
全体図: Encoder-Decoder 型モデルで利用可能なアーキテクチャ 従来法: 対話履歴のテキスト情報を利用した対話音声合成 Guo+20
06/25
8.
Step1: 対話履歴のテキスト情報を BERT
を用いて embedding とする 以降,これを Chat history と呼ぶ 従来法: 対話履歴のテキスト情報を利用した対話音声合成 Guo+20 07/25
9.
従来法: 対話履歴のテキスト情報を利用した対話音声合成 Guo+20 Step2: Chat
history を Conversational Context Encoder (CCE) へ入力し,音響モ デルへ条件付ける CCEでは過去の系列のみを圧縮している 08/25
10.
研究背景 従来法: 対話履歴のテキスト情報を利用した対話音声合成 テキスト・音声情報を利用した対話音声合成 実験的評価 まとめ 目次 09/25
11.
提案法の動機 テキスト音声合成における,one-to-many 問題 例: どうしたの? 対話履歴の音声情報も考慮し,音声特徴量の推定を容易にしたい テキスト情報・音声情報のクロスモーダルの活用 独立にテキストと音声を処理するのではなく,うまく組み合わせたい 10/25
12.
テキスト情報・音声情報両方の利用 音声情報はメルスペクトログラムとして利用 Prosody encoder によりテキスト同様に音声を
embedding として扱う クロスモーダルを活かすための Attention 機構の導入 当該発話のテキスト情報を音声に活用するため Attention を導入 学習を容易にするための Curriculum Learning の導入 通常通りの一度での学習は困難であった 音響モデルは別途学習することで学習を容易にする工夫 提案法: テキスト・音声情報を利用した対話音声合成 11/25
13.
対話履歴のテキスト・音声情報を Cross Modal
CCE (CMCCE) へ入力し,出力され た Context embedding を音響モデルへ条件づける 提案法: 全体図 合成対象(利用不可) 12/25
14.
テキスト情報は Sentence BERT
(従来法),音声情報は Prosody encoder へ入力 出力された Sentence/Prosody embedding を従来法と同様の CCE へ入力 提案法: Cross-Modal CCE CCE 13/25
15.
Prosody encoder (左図): メルスペクトログラムから
Prosody embedding を出力 Cross-Modal CCE w/ Attention (中央,右図): Attention の query として用いることでテキスト情報を音声情報にも活用 提案法: Prosody encoder & Cross-Modal CCE w/ Attention 音声 テキスト 14/25
16.
動機: 対話履歴を考慮した一度での学習の困難さ パラメータ数を減らし学習を容易にするための工夫を導入 提案法: Curriculum
Learning 15/25
17.
Stage1: 当該発話の音声 (正解音声)
の Prosody embedding によって FS2 を条件 付けし,Prosody encoder と FS2 を学習 提案法: Curriculum Learning 16/25
18.
Stage2: 対話履歴を CCE
によって Content embeding へと変換 Content embedding と Prosody embedding の間の MSE Loss を計算し学習 提案法: Curriculum Learning 17/25
19.
研究背景 従来法: 対話履歴のテキスト情報を利用した対話音声合成 テキスト・音声情報を利用した対話音声合成 実験的評価 まとめ 目次 18/25
20.
実験的評価: 実験条件 データセット STUDIES
[齋藤+22] 学習 / 検証 / 評価データ 2,209文 / 221文 / 211文 事前学習用データ JSUT [Takamichi+20] 音声パラメータ 80次元のメルスペクトログラム 最適化アルゴリズム Adam [Kingma+15] (学習率 0.0625) 音響モデル FastSpeech2 (FS2) [Ren+21] 波形生成 HiFi-GAN [Kong+20] 対話履歴の長さ 10 (テキスト情報はシチュエーション情報も含む ) Teacher forcing あり (対話履歴に用いた音声は,正解音声のもの ) 比較手法 TMCCE: 従来法 [Guo+20].テキスト情報を用いたもの SMCCE: 提案法1.音声情報のみ用いたもの CMCCE: 提案法2.テキスト・音声情報を用いたもの 19/25
21.
考慮する条件: Attn: CCEにおいて,Attention を利用したもの.SM
では利用できない CL: Curriculum Learning の略 MS: Prosody encoder の事前学習を行ったかどうか 評価手法: 発話自然性: その発話が自然かどうかを5段階で評価 対話自然性: 一連の対話が自然なものであったかを5段階で評価 評価するべき手法の数が多かったため,2段階で評価を行った 評価方法 20/25
22.
Step1: 各手法毎にMOS評価を行い,発話自然性と対話自然性の平均が最良の組 み合わせを選択した(太字) 評価者数: 50名
× 2 (発話・対話) × 3 (各手法) = 300名 (手法毎に4発話評価) 実験的評価: 各手法内での主観評価結果 21/25
23.
Step2: Step1 で選択された手法に従来法などを混ぜて主観評価を行った 提案法2による従来法からの自然性の改善 実験的評価:
最良手法間での主観評価結果 http://sython.org/Corpus/STUDIES/demo_empTTS.html (従来法) (提案法1) (提案法2) (正解音声で条件付) (従来法+CL) (FastSpeech2) 22/25
24.
Step2: Step1 で選択された手法に従来法などを混ぜて主観評価を行った 音声の対話履歴のみ(提案法1)でも従来法と同等の対話自然性を達成 実験的評価:
最良手法間での主観評価結果 http://sython.org/Corpus/STUDIES/demo_empTTS.html (従来法) (提案法1) (提案法2) (正解音声で条件付) (従来法+CL) (FastSpeech2) 23/25
25.
研究背景 従来法: 対話履歴のテキスト情報を利用した対話音声合成 テキスト・音声情報を利用した対話音声合成 実験的評価 まとめ 目次 24/25
26.
目的: 共感的対話音声合成の品質改善 提案手法: テキスト情報・音声情報両方の利用 クロスモーダルを活かすための Attention
機構の導入 学習を容易にするための Curriculum Learning の導入 結果: 従来法より自然な対話音声合成を実現 今後の予定: 発話単位の embedding から,文単位の embedding への変更 Prosody encoder の強化 (自己教師ありモデルの採用 e.g. Wav2vec2.0) まとめ 25/25
Télécharger maintenant