Soumettre la recherche
Mettre en ligne
Saito2103slp
•
0 j'aime
•
275 vues
Y
Yuki Saito
Suivre
2021年3月SLP研究会での発表
Lire moins
Lire la suite
Sciences
Signaler
Partager
Signaler
Partager
1 sur 32
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
Recommandé
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
Saito2017icassp
Saito2017icassp
Yuki Saito
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
2019年度チュートリアルBPE
2019年度チュートリアルBPE
広樹 本間
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
有名論文から学ぶディープラーニング 2016.03.25
有名論文から学ぶディープラーニング 2016.03.25
Minoru Chikamune
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
Takahiro Kubo
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
Deep Learning JP
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
hirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
Contenu connexe
Tendances
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
Saito2017icassp
Saito2017icassp
Yuki Saito
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
2019年度チュートリアルBPE
2019年度チュートリアルBPE
広樹 本間
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
有名論文から学ぶディープラーニング 2016.03.25
有名論文から学ぶディープラーニング 2016.03.25
Minoru Chikamune
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
Takahiro Kubo
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
Deep Learning JP
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
Tendances
(20)
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
深層学習を利用した音声強調
深層学習を利用した音声強調
Saito2017icassp
Saito2017icassp
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
2019年度チュートリアルBPE
2019年度チュートリアルBPE
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
有名論文から学ぶディープラーニング 2016.03.25
有名論文から学ぶディープラーニング 2016.03.25
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
音情報処理における特徴表現
音情報処理における特徴表現
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
Plus de Yuki Saito
hirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
fujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
Yuki Saito
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Yuki Saito
Nishimura22slp03 presentation
Nishimura22slp03 presentation
Yuki Saito
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
Interspeech2020 reading
Interspeech2020 reading
Yuki Saito
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
Saito20asj s slide_published
Saito20asj s slide_published
Yuki Saito
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
Saito19asj_s
Saito19asj_s
Yuki Saito
Une18apsipa
Une18apsipa
Yuki Saito
Saito18sp03
Saito18sp03
Yuki Saito
Saito18asj_s
Saito18asj_s
Yuki Saito
Saito17asjA
Saito17asjA
Yuki Saito
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
Yuki Saito
miyoshi17sp07
miyoshi17sp07
Yuki Saito
Plus de Yuki Saito
(20)
hirai23slp03.pdf
hirai23slp03.pdf
Interspeech2022 参加報告
Interspeech2022 参加報告
fujii22apsipa_asc
fujii22apsipa_asc
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Nishimura22slp03 presentation
Nishimura22slp03 presentation
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Interspeech2020 reading
Interspeech2020 reading
Saito20asj_autumn
Saito20asj_autumn
ICASSP読み会2020
ICASSP読み会2020
Saito20asj s slide_published
Saito20asj s slide_published
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Saito19asj_s
Saito19asj_s
Une18apsipa
Une18apsipa
Saito18sp03
Saito18sp03
Saito18asj_s
Saito18asj_s
Saito17asjA
Saito17asjA
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
miyoshi17sp07
miyoshi17sp07
Dernier
Formation of low mass protostars and their circumstellar disks
Formation of low mass protostars and their circumstellar disks
Sérgio Sacani
Botany 4th semester file By Sumit Kumar yadav.pdf
Botany 4th semester file By Sumit Kumar yadav.pdf
Sumit Kumar yadav
Recombination DNA Technology (Nucleic Acid Hybridization )
Recombination DNA Technology (Nucleic Acid Hybridization )
aarthirajkumar25
GBSN - Microbiology (Unit 2)
GBSN - Microbiology (Unit 2)
Areesha Ahmad
Nanoparticles synthesis and characterization
Nanoparticles synthesis and characterization
kaibalyasahoo82800
Pests of cotton_Sucking_Pests_Dr.UPR.pdf
Pests of cotton_Sucking_Pests_Dr.UPR.pdf
PirithiRaju
GBSN - Biochemistry (Unit 1)
GBSN - Biochemistry (Unit 1)
Areesha Ahmad
SOLUBLE PATTERN RECOGNITION RECEPTORS.pptx
SOLUBLE PATTERN RECOGNITION RECEPTORS.pptx
kessiyaTpeter
Presentation Vikram Lander by Vedansh Gupta.pptx
Presentation Vikram Lander by Vedansh Gupta.pptx
gindu3009
Botany 4th semester series (krishna).pdf
Botany 4th semester series (krishna).pdf
Sumit Kumar yadav
Animal Communication- Auditory and Visual.pptx
Animal Communication- Auditory and Visual.pptx
UmerFayaz5
STERILITY TESTING OF PHARMACEUTICALS ppt by DR.C.P.PRINCE
STERILITY TESTING OF PHARMACEUTICALS ppt by DR.C.P.PRINCE
PRINCE C P
Chemistry 4th semester series (krishna).pdf
Chemistry 4th semester series (krishna).pdf
Sumit Kumar yadav
Orientation, design and principles of polyhouse
Orientation, design and principles of polyhouse
jana861314
Green chemistry and Sustainable development.pptx
Green chemistry and Sustainable development.pptx
RajatChauhan518211
Biological Classification BioHack (3).pdf
Biological Classification BioHack (3).pdf
muntazimhurra
Engler and Prantl system of classification in plant taxonomy
Engler and Prantl system of classification in plant taxonomy
Nistarini College, Purulia (W.B) India
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral Analysis
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral Analysis
Diwakar Mishra
Pests of cotton_Borer_Pests_Binomics_Dr.UPR.pdf
Pests of cotton_Borer_Pests_Binomics_Dr.UPR.pdf
PirithiRaju
GBSN - Microbiology (Unit 1)
GBSN - Microbiology (Unit 1)
Areesha Ahmad
Dernier
(20)
Formation of low mass protostars and their circumstellar disks
Formation of low mass protostars and their circumstellar disks
Botany 4th semester file By Sumit Kumar yadav.pdf
Botany 4th semester file By Sumit Kumar yadav.pdf
Recombination DNA Technology (Nucleic Acid Hybridization )
Recombination DNA Technology (Nucleic Acid Hybridization )
GBSN - Microbiology (Unit 2)
GBSN - Microbiology (Unit 2)
Nanoparticles synthesis and characterization
Nanoparticles synthesis and characterization
Pests of cotton_Sucking_Pests_Dr.UPR.pdf
Pests of cotton_Sucking_Pests_Dr.UPR.pdf
GBSN - Biochemistry (Unit 1)
GBSN - Biochemistry (Unit 1)
SOLUBLE PATTERN RECOGNITION RECEPTORS.pptx
SOLUBLE PATTERN RECOGNITION RECEPTORS.pptx
Presentation Vikram Lander by Vedansh Gupta.pptx
Presentation Vikram Lander by Vedansh Gupta.pptx
Botany 4th semester series (krishna).pdf
Botany 4th semester series (krishna).pdf
Animal Communication- Auditory and Visual.pptx
Animal Communication- Auditory and Visual.pptx
STERILITY TESTING OF PHARMACEUTICALS ppt by DR.C.P.PRINCE
STERILITY TESTING OF PHARMACEUTICALS ppt by DR.C.P.PRINCE
Chemistry 4th semester series (krishna).pdf
Chemistry 4th semester series (krishna).pdf
Orientation, design and principles of polyhouse
Orientation, design and principles of polyhouse
Green chemistry and Sustainable development.pptx
Green chemistry and Sustainable development.pptx
Biological Classification BioHack (3).pdf
Biological Classification BioHack (3).pdf
Engler and Prantl system of classification in plant taxonomy
Engler and Prantl system of classification in plant taxonomy
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral Analysis
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral Analysis
Pests of cotton_Borer_Pests_Binomics_Dr.UPR.pdf
Pests of cotton_Borer_Pests_Binomics_Dr.UPR.pdf
GBSN - Microbiology (Unit 1)
GBSN - Microbiology (Unit 1)
Saito2103slp
1.
©Yuki Saito, 2021/03/04 主観的話者間類似度を考慮した DNN話者埋め込みのための
Active Learning 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大) 第136回 音声言語情報処理研究会 (SIG-SLP)
2.
/31 1 研究背景 DNN 話者埋め込み:
DNN を用いて音声特徴量から話者表現を獲得 – 様々な応用が可能な, 音声情報処理分野における基盤技術の一つ • 話者認識や話者照合 (識別的タスク) での特徴抽出 (e.g., [Variani+14]) • 音声合成や声質変換 (生成的タスク) での声質制御 (e.g., [Jia+18]) 本発表: 生成的タスクに適した DNN 話者埋め込みの学習法 – 合成音声の品質改善 & 直感的な声質制御を実現 – 人間の話者知覚を反映するような話者表現を学習 DNN NG ASV DNN TTS Discriminative task (e.g., automatic speaker verification: ASV) Generative task (e.g., text-to-speech: TTS) DNN: Deep Neural Network
3.
/31 2 本発表の概要 従来法: 主観的話者間類似度ベース
DNN 話者埋め込み* – 話者間類似度の大規模主観スコアリングの結果を用いた学習法 – 話者認識ベースの手法よりも生成的タスクに適した話者表現を学習 問題点: 主観スコアリング実施 / DNN 話者埋め込み学習のコスト – スコアリングが必要な話者対の数は, 話者数の2乗に比例 – スコアリング後の DNN 話者埋め込み学習の時間的コストも必要 提案法: 主観スコアリングと DNN 話者埋め込みの active learning – 主観スコアリングと DNN 学習を反復し, 話者表現を逐次的に学習 – 次にスコアリングすべき話者対を決めるクエリ戦略の影響も調査 結果: コストを削減しつつ, 生成的タスクに適した話者表現を学習 *[Saito+SSW19][齋藤+ASJ2020秋]
4.
/31 3 目次 研究背景 従来法:
主観的話者間類似度ベース DNN 話者埋め込み 主観的話者間類似度ベース DNN 話者埋め込みの active learning 実験的評価 まとめ
5.
/31 1. 主観的話者間類似度の大規模スコアリング
2. 類似度スコアを用いた DNN 話者埋め込みの学習 4 従来法: 主観的話者間類似度ベース DNN 話者埋め込み DNN (Spkr. encoder) Learned similarity Speech feats. Similarity score Spkr. repr. Similarity score Perceptual similarity scoring Spkr. pairs [Saito+SSW19][齋藤+ASJ20秋] Similarity loss
6.
/31 5 主観的話者間類似度の大規模スコアリング クラウドソーシングで, 話者間の主観的な類似度をスコアリング –
JNAS [Itou+99] コーパスに含まれる153名の女性話者の発話を使用 • 各話者毎に異なる発話内容 → テキスト非依存な類似度を評価 – 合計の評価者数: 4,060 名 (ランダムに選ばれた34話者対 / 評価者) • スコアリングの評価値: -3 (似ていない) ~ +3 (似ている) • 1つの話者対を少なくとも異なる10名以上が評価 話者対の音声サンプル
7.
/31 6 主観的話者間類似度の行列表現 類似度スコア行列 𝐒
= 𝒔1, ⋯ , 𝒔𝑖, ⋯ , 𝒔𝑁s – 𝑁s: スコアリングに用いられた話者数 – 𝒔𝑖 = 𝑠𝑖,1, ⋯ , 𝑠𝑖,𝑗, ⋯ , 𝑠𝑖,𝑁s ⊤ : 𝑖番目の話者の類似度スコアベクトル • 𝑠𝑖,𝑗: 𝑖番目の話者と𝑗番目の話者の類似度スコア −𝑣 ≤ 𝑠𝑖,𝑗 ≤ 𝑣 3 2 1 0 −1 −2 −3 (a) Full score matrix (153 females) (b) Sub-matrix of (a) (13 females) 本発表で用いた類似度行列は http://sython.org/demo/JSPS-DC1/index.html で公開 これまでに, 類似度スコアを用いた3つの学習法を提案
8.
/31 音声特徴量から類似度スコアベクトルを予測するように学習 7 学習法1: 類似度ベクトル埋め込み 𝐿SIM (vec) 𝒔,
𝒔 = 1 𝑁𝑠 𝒔 − 𝒔 ⊤ 𝒔 − 𝒔 Spkr. encoder 𝐿SIM (vec) 𝒔 𝒔 𝐒 Sim. score vector Sim. score matrix Speech feats. Similarity vector prediction 𝒅
9.
/31 話者表現の Gram
行列を類似度スコア行列に近づけるように学習 8 学習法2: 類似度行列埋め込み 𝐿SIM (mat) 𝐿SIM (mat) 𝐃, 𝐒 = 1 𝑍s 𝐊𝐃 − 𝐒 𝐹 2 𝐊𝐃 Gram matrix Calc. kernel 𝑘 ⋅,⋅ 𝑍s: 話者数の影響を正規化するための係数 ( ⋅ は, 当該行列の対角成分を除いた行列) 𝐒 Sim. score matrix Speech feats. 𝒅 Spkr. encoder
10.
/31 𝑎𝑖,𝑗 話者表現の対から類似度グラフの辺の有無を予測するように学習 9 学習法3: 類似度グラフ埋め込み 𝐿SIM graph 𝒅𝑖,
𝒅𝑗 = −𝑎𝑖,𝑗 log 𝑝𝑖,𝑗 − 1 − 𝑎𝑖,𝑗 log 1 − 𝑝𝑖,𝑗 Spkr. sim. graph Edge prediction 0: no edge 1: exist edge 𝐿SIM (graph) 𝑝𝑖,𝑗 = exp − 𝒅𝑖 − 𝒅𝑗 2 2 : 辺の生起確率 ([Li+18] を参照に定義) 𝐒 Sim. score matrix Speech feats. 𝒅 Spkr. encoder
11.
/31 10 目次 研究背景 従来法:
主観的話者間類似度ベース DNN 話者埋め込み 主観的話者間類似度ベース DNN 話者埋め込みの active learning 実験的評価 まとめ
12.
/31 11 提案法の動機 従来法: 主観スコアリング
/ DNN 話者埋め込みの直列型学習 – 全ての類似度スコアの観測後に, DNN 話者埋め込みの学習を開始 – 問題点1: 主観スコアリングの金銭的コスト • スコアリング作業の数は, 話者数の2乗に比例 • 評価者1人あたりの作業数を増やせばコストは削減可能だが, 評価者の負担は増加 (スコアリング結果の信頼性低下の可能性) – 問題点2: DNN 話者埋め込み学習の時間的コスト • 全ての類似度スコアを用いた学習の反復に多大な計算時間が必要 動機: 直列型学習からの脱却 & コストの削減 – 主観スコアリングと DNN 話者埋め込み学習を逐次的に実行 – 次にスコア付けすべき話者対の優先度を適切に決定すれば, 少ない観測スコア / 学習反復回数で良い話者表現が得られるのでは?
13.
/31 12 Active learning [Settle10]
目的: ラベル付けのコストを削減しつつ, 高い性能のモデルを学習 – 少数のラベル付きデータと多数のラベル無しデータを使用 – 逐次的に学習される機械学習モデルの予測結果に基づき, 次にラベル付けすべきデータの優先度を決定 Pool-based active learning のサイクル (図は [Settle10] の Fig. 1 より引用)
14.
/31 13 提案法: 主観スコアリングと DNN
話者埋め込みの active learning 主観スコアリングと DNN 話者埋め込みの学習を交互に反復 – スコアリング / 学習のコストを削減しつつ, より良い話者表現を学習 Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs
15.
/31 14 スコア付けされた話者対のデータを用いた DNN 話者埋め込み学習 部分的にスコア付けされたデータで
spkr. encoder を学習 – 学習法: 類似度 { ベクトル, 行列, グラフ } 埋め込みのいずれか Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph
16.
/31 15 学習された話者表現を用いた類似度スコア予測 スコア付けされてない話者対に対して仮の類似度スコアを予測 – Spkr.
encoder から出力される話者表現の対で類似度スコアを計算 : +3 : 0 : -2 Predicted Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph
17.
/31 16 予測された類似度スコアを用いたクエリ選択 スコアの予測結果に基づき, 次にスコア付けする話者対を選択 –
クエリ戦略: どういった基準で話者対を選択するのかを決定 : +3 : 0 : -2 Predicted : HSF : MSF : LSF Selected Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph Query strategy { Higher, Middle, Lower }-Similarity First
18.
/31 17 選択されたクエリに対するスコアリング 評価者にクエリの音声サンプルを提示し, 類似度スコア付けを依頼 –
新たにスコア付けされた話者対をスコア済みデータのプールに追加 : +3 : 0 : -2 Predicted : HSF : MSF : LSF Selected Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph Query strategy : +1
19.
/31 18 考察 提案法: human-in-the-loop
型の DNN 話者埋め込み学習 – 人間の知覚評価が計算ループに内在し, 解釈しやすい話者表現を学習 • (c.f., 人間の知覚評価に基づく敵対的生成ネットワーク [Fujii+20][Ueda+21]) クエリ戦略 = 類似度の識別精度を改善すべき話者対の優先順位 – LSF / HSF: 非類似話者対 / 類似話者対の識別精度を優先 – MSF: 類似 / 非類似の判定が困難な話者対の識別精度を優先 Similarity score −3 −1 −2 0 +2 +3 +1 Frequency 40,000 30,000 20,000 10,000 0 Cumulative ratio 0.0 0.2 0.4 0.6 0.8 1.0 LSF HSF MSF 類似度スコアのヒストグラムの図は [Saito+SSW19] より引用
20.
/31 19 目次 研究背景 従来法:
主観的話者間類似度ベース DNN 話者埋め込み 主観的話者間類似度ベース DNN 話者埋め込みの active learning 実験的評価 まとめ
21.
/31 実験条件 20 データセット (16 kHz sampling) JNAS
[Itou+99] の女性話者153名 主観スコアリング用: 5発話 DNN 話者埋め込みの学習 / 評価用: 約130発話 / 約15発話 (F001 ~ F013 の13名は, 学習データから除外 = 未知話者) 主観スコアリングの値 -3 (似ていない) ~ +3 (似ている) の整数 (DNN 話者埋め込み学習時には [-1, +1] か [0, 1] に正規化) 音声特徴量 40次メルケプストラム, F0, 非周期性指標 DNN アーキテクチャ すべて Feed-Forward 型ネットワーク (詳細は原稿を参照) 話者表現の次元 8 Active learning の設定 Pool-based simulation (未観測スコアは binary masking で損失関数計算から除外) 学習法 (1) Sim. (vec): 類似度ベクトル埋め込み (2) Sim. (mat): 類似度行列埋め込み (3) Sim. (graph): 類似度グラフ埋め込み
22.
/31 21 客観評価指標: 話者表現を用いた類似話者対識別の AUC 目的:
話者表現由来の類似度と主観的な類似度との整合性を評価 – Receiver Operating Characteristic (ROC) curve • 様々な閾値設定を用いた場合の2値分類器の false / true positive rate の変化を可視化 – Area Under the ROC Curve (AUC): ROC curve の下面積 (0.5 ~ 1.0) • 値が1に近ければ近いほど, 良い識別性能であることを意味 学習話者同士の対 学習話者-未知話者の対 0 1 False positive rate True positive rate 0 1 0 1 ROC curve [Brown+06], AUC [Hanley+82], d-vector [Variani+14] d-vector Sim. (vec) Sim. (mat) Sim. (graph)
23.
/31 22 Active learning の反復による
AUC の改善 各学習法毎に, active learning とクエリ戦略の影響を調査 – 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか 1反復毎のクエリ数: 43 FS (100%) PS (50%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU LSF HSF MSF PS (50%) FS (100%) MSF に基づく active learning は, LSF / HSF よりも安定して動作! 1 (50%) 30 (62.5%) 60 (75%) 90 (87.5%) 115 (100%) 0.70 0.65 0.60 0.55 0.50 0.90 0.85 0.80 0.75 0.78 0.76 0.74 0.72 0.94 0.92 0.90 0.88 0.86 0.84 0.82 0.82 0.80 0.78 0.76 0.72 0.70 0.68 0.66 0.64 0.62 0.60 Sim. (vec) Sim. (mat) Sim. (graph)
24.
/31 23 Active learning の反復による
AUC の改善 各学習法毎に, active learning とクエリ戦略の影響を調査 – 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか FS (100%) PS (50%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU LSF HSF MSF PS (50%) FS (100%) Active learning により, FS と同程度の AUC を少ない反復回数で達成! 1 (50%) 30 (62.5%) 60 (75%) 90 (87.5%) 115 (100%) 0.70 0.65 0.60 0.55 0.50 0.90 0.85 0.80 0.75 0.78 0.76 0.74 0.72 0.94 0.92 0.90 0.88 0.86 0.84 0.82 0.82 0.80 0.78 0.76 0.72 0.70 0.68 0.66 0.64 0.62 0.60 Sim. (vec) Sim. (mat) Sim. (graph) 1反復毎のクエリ数: 43
25.
/31 24 Active learning の反復による
AUC の改善 各学習法毎に, active learning とクエリ戦略の影響を調査 – 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか FS (100%) PS (50%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU LSF HSF MSF PS (50%) FS (100%) 学習-未知話者対 (i.e., open data) の類似度識別精度が劣化 1 (50%) 30 (62.5%) 60 (75%) 90 (87.5%) 115 (100%) 0.70 0.65 0.60 0.55 0.50 0.90 0.85 0.80 0.75 0.78 0.76 0.74 0.72 0.94 0.92 0.90 0.88 0.86 0.84 0.82 0.82 0.80 0.78 0.76 0.72 0.70 0.68 0.66 0.64 0.62 0.60 Sim. (vec) Sim. (mat) Sim. (graph) 1反復毎のクエリ数: 43
26.
/31 25 主観評価指標: VAE に基づく多話者音響モデリングの合成音声品質 VAE
に基づく多話者音響モデリング [Saito+AST21] – 事前学習済みの音声認識モデルと speaker encoder により, 音韻と話者性を分離して VAE 多話者音響モデルを学習 VAE: Variational AutoEncoder [Kingma+13], PPG: Phonetic PosteriorGrams [Sun+16] VAE encoder VAE decoder Pre-trained speech recognition あ a i u PPG Spkr. repr. Pre-trained spkr. encoder VAE latent var. Input speech feats. Generated speech feats. 本発表では, 未知話者 (i.e., F001 ~ F013) の音声の auto-encoding の品質を評価
27.
/31 26 MSF に基づく active
learning の主観評価 合成音声の話者類似性に関する DMOS テスト w/ 50 listeners – PS (50%) / FS / MSF で学習された話者表現を比較 • 表の (xx%): スコア付けされた話者対の割合 – 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成 Sim. (vec) Sim. (mat) Sim. (graph) PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13 MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13 (75%) 3.04±0.14 3.00±0.13 3.02±0.13 (87.5%) 3.05±0.14 3.03±0.13 3.06±0.13 FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14 24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし
28.
/31 27 MSF に基づく active
learning の主観評価 合成音声の話者類似性に関する DMOS テスト w/ 50 listeners – PS (50%) / FS / MSF で学習された話者表現を比較 • 表の (xx%): スコア付けされた話者対の割合 – 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成 Sim. (vec) Sim. (mat) Sim. (graph) PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13 MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13 (75%) 3.04±0.14 3.00±0.13 3.02±0.13 (87.5%) 3.05±0.14 3.03±0.13 3.06±0.13 FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14 24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし MSF に基づく active learning は, FS と同程度の DMOS をより少ないスコアリング / 学習反復回数で達成!
29.
/31 28 MSF に基づく active
learning の主観評価 合成音声の話者類似性に関する DMOS テスト w/ 50 listeners – PS (50%) / FS / MSF で学習された話者表現を比較 • 表の (xx%): スコア付けされた話者対の割合 – 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成 Sim. (vec) Sim. (mat) Sim. (graph) PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13 MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13 (75%) 3.04±0.14 3.00±0.13 3.02±0.13 (87.5%) 3.05±0.14 3.03±0.13 3.06±0.13 FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14 24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし PS / MSF / FS の DMOS に有意差なし
30.
/31 29 より少ないスコア済みデータを用いた active learning の評価
5% のスコア済みデータを用いて active learning を開始 – クエリ戦略としては MSF のみを使用 FS (100%) PS (5%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU MSF PS (5%) FS (100%) 50% のスコア済みデータを用いた場合と同様の AUC 改善 / 劣化 を確認 1 (5%) 47 (25%) 104 (50%) 160 (75%) 217 (100%) 0.85 0.80 0.75 0.70 0.65 0.90 0.85 0.80 0.75 0.75 0.70 0.65 0.90 0.85 0.80 0.75 0.70 0.82 0.78 0.76 0.74 0.80 0.75 0.70 0.65 0.60 0.55 Sim. (vec) Sim. (mat) Sim. (graph) 1反復毎のクエリ数: 43 0.60 0.55 0.70 0.65 0.72 0.70 0.80 N/A N/A
31.
/31 30 目次 研究背景 従来法:
主観的話者間類似度ベース DNN 話者埋め込み 主観的話者間類似度ベース DNN 話者埋め込みの active learning 実験的評価 まとめ
32.
/31 31 まとめ 目的: 低コストの主観的話者間類似度ベース
DNN 話者埋め込み – 主観スコアリング / DNN 話者埋め込み学習のコストを削減 提案法: 主観スコアリングと DNN 話者埋め込みの active learning – 主観スコアリングと DNN 学習を反復し, 話者表現を逐次的に学習 – 次にスコアリングすべき話者対を決めるクエリ戦略の影響も調査 結果: コストを削減しつつ, 生成的タスクに適した話者表現を学習 今後の予定 – Active learning におけるハイパーパラメータの影響を調査 • 1反復あたりのクエリ数, クエリ選択の頻度, etc... – 異なるクエリ戦略を用いた場合の性能評価 • (e.g., uncertainty sampling [Lewis+94]) これまでの研究成果をまとめた論文 (IEEE/ACM TASLP 誌) →
Télécharger maintenant