SlideShare une entreprise Scribd logo
1  sur  32
Télécharger pour lire hors ligne
©Yuki Saito, 2021/03/04
主観的話者間類似度を考慮した
DNN話者埋め込みのための Active Learning
齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大)
第136回 音声言語情報処理研究会 (SIG-SLP)
/31
1
研究背景
 DNN 話者埋め込み: DNN を用いて音声特徴量から話者表現を獲得
– 様々な応用が可能な, 音声情報処理分野における基盤技術の一つ
• 話者認識や話者照合 (識別的タスク) での特徴抽出 (e.g., [Variani+14])
• 音声合成や声質変換 (生成的タスク) での声質制御 (e.g., [Jia+18])
 本発表: 生成的タスクに適した DNN 話者埋め込みの学習法
– 合成音声の品質改善 & 直感的な声質制御を実現
– 人間の話者知覚を反映するような話者表現を学習
DNN
NG
ASV
DNN
TTS
Discriminative task
(e.g., automatic speaker verification: ASV)
Generative task
(e.g., text-to-speech: TTS)
DNN: Deep Neural Network
/31
2
本発表の概要
 従来法: 主観的話者間類似度ベース DNN 話者埋め込み*
– 話者間類似度の大規模主観スコアリングの結果を用いた学習法
– 話者認識ベースの手法よりも生成的タスクに適した話者表現を学習
 問題点: 主観スコアリング実施 / DNN 話者埋め込み学習のコスト
– スコアリングが必要な話者対の数は, 話者数の2乗に比例
– スコアリング後の DNN 話者埋め込み学習の時間的コストも必要
 提案法: 主観スコアリングと DNN 話者埋め込みの active learning
– 主観スコアリングと DNN 学習を反復し, 話者表現を逐次的に学習
– 次にスコアリングすべき話者対を決めるクエリ戦略の影響も調査
 結果: コストを削減しつつ, 生成的タスクに適した話者表現を学習
*[Saito+SSW19][齋藤+ASJ2020秋]
/31
3
目次
 研究背景
 従来法: 主観的話者間類似度ベース DNN 話者埋め込み
 主観的話者間類似度ベース DNN 話者埋め込みの active learning
 実験的評価
 まとめ
/31
 1. 主観的話者間類似度の大規模スコアリング
 2. 類似度スコアを用いた DNN 話者埋め込みの学習
4
従来法:
主観的話者間類似度ベース DNN 話者埋め込み
DNN
(Spkr. encoder)
Learned
similarity
Speech
feats.
Similarity
score
Spkr.
repr.
Similarity
score
Perceptual
similarity
scoring
Spkr.
pairs
[Saito+SSW19][齋藤+ASJ20秋]
Similarity
loss
/31
5
主観的話者間類似度の大規模スコアリング
 クラウドソーシングで, 話者間の主観的な類似度をスコアリング
– JNAS [Itou+99] コーパスに含まれる153名の女性話者の発話を使用
• 各話者毎に異なる発話内容 → テキスト非依存な類似度を評価
– 合計の評価者数: 4,060 名 (ランダムに選ばれた34話者対 / 評価者)
• スコアリングの評価値: -3 (似ていない) ~ +3 (似ている)
• 1つの話者対を少なくとも異なる10名以上が評価
話者対の音声サンプル
/31
6
主観的話者間類似度の行列表現
 類似度スコア行列 𝐒 = 𝒔1, ⋯ , 𝒔𝑖, ⋯ , 𝒔𝑁s
– 𝑁s: スコアリングに用いられた話者数
– 𝒔𝑖 = 𝑠𝑖,1, ⋯ , 𝑠𝑖,𝑗, ⋯ , 𝑠𝑖,𝑁s
⊤
: 𝑖番目の話者の類似度スコアベクトル
• 𝑠𝑖,𝑗: 𝑖番目の話者と𝑗番目の話者の類似度スコア −𝑣 ≤ 𝑠𝑖,𝑗 ≤ 𝑣
3
2
1
0
−1
−2
−3
(a) Full score matrix
(153 females)
(b) Sub-matrix of (a)
(13 females)
本発表で用いた類似度行列は http://sython.org/demo/JSPS-DC1/index.html で公開
これまでに, 類似度スコアを用いた3つの学習法を提案
/31
 音声特徴量から類似度スコアベクトルを予測するように学習
7
学習法1: 類似度ベクトル埋め込み
𝐿SIM
(vec)
𝒔, 𝒔 =
1
𝑁𝑠
𝒔 − 𝒔 ⊤
𝒔 − 𝒔
Spkr. encoder
𝐿SIM
(vec)
𝒔
𝒔
𝐒
Sim. score
vector Sim. score
matrix
Speech
feats.
Similarity
vector
prediction
𝒅
/31
 話者表現の Gram 行列を類似度スコア行列に近づけるように学習
8
学習法2: 類似度行列埋め込み
𝐿SIM
(mat)
𝐿SIM
(mat)
𝐃, 𝐒 =
1
𝑍s
𝐊𝐃 − 𝐒 𝐹
2
𝐊𝐃
Gram
matrix
Calc.
kernel
𝑘 ⋅,⋅
𝑍s: 話者数の影響を正規化するための係数 ( ⋅ は, 当該行列の対角成分を除いた行列)
𝐒
Sim. score
matrix
Speech
feats.
𝒅
Spkr. encoder
/31
𝑎𝑖,𝑗
 話者表現の対から類似度グラフの辺の有無を予測するように学習
9
学習法3: 類似度グラフ埋め込み
𝐿SIM
graph
𝒅𝑖, 𝒅𝑗 = −𝑎𝑖,𝑗 log 𝑝𝑖,𝑗 − 1 − 𝑎𝑖,𝑗 log 1 − 𝑝𝑖,𝑗
Spkr. sim.
graph
Edge
prediction 0: no edge
1: exist edge
𝐿SIM
(graph)
𝑝𝑖,𝑗 = exp − 𝒅𝑖 − 𝒅𝑗 2
2
: 辺の生起確率 ([Li+18] を参照に定義)
𝐒
Sim. score
matrix
Speech
feats.
𝒅
Spkr. encoder
/31
10
目次
 研究背景
 従来法: 主観的話者間類似度ベース DNN 話者埋め込み
 主観的話者間類似度ベース DNN 話者埋め込みの active learning
 実験的評価
 まとめ
/31
11
提案法の動機
 従来法: 主観スコアリング / DNN 話者埋め込みの直列型学習
– 全ての類似度スコアの観測後に, DNN 話者埋め込みの学習を開始
– 問題点1: 主観スコアリングの金銭的コスト
• スコアリング作業の数は, 話者数の2乗に比例
• 評価者1人あたりの作業数を増やせばコストは削減可能だが,
評価者の負担は増加 (スコアリング結果の信頼性低下の可能性)
– 問題点2: DNN 話者埋め込み学習の時間的コスト
• 全ての類似度スコアを用いた学習の反復に多大な計算時間が必要
 動機: 直列型学習からの脱却 & コストの削減
– 主観スコアリングと DNN 話者埋め込み学習を逐次的に実行
– 次にスコア付けすべき話者対の優先度を適切に決定すれば,
少ない観測スコア / 学習反復回数で良い話者表現が得られるのでは?
/31
12
Active learning [Settle10]
 目的: ラベル付けのコストを削減しつつ, 高い性能のモデルを学習
– 少数のラベル付きデータと多数のラベル無しデータを使用
– 逐次的に学習される機械学習モデルの予測結果に基づき,
次にラベル付けすべきデータの優先度を決定
Pool-based active learning のサイクル (図は [Settle10] の Fig. 1 より引用)
/31
13
提案法: 主観スコアリングと DNN 話者埋め込みの
active learning
 主観スコアリングと DNN 話者埋め込みの学習を交互に反復
– スコアリング / 学習のコストを削減しつつ, より良い話者表現を学習
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
/31
14
スコア付けされた話者対のデータを用いた
DNN 話者埋め込み学習
 部分的にスコア付けされたデータで spkr. encoder を学習
– 学習法: 類似度 { ベクトル, 行列, グラフ } 埋め込みのいずれか
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
Vector Matrix Graph
/31
15
学習された話者表現を用いた類似度スコア予測
 スコア付けされてない話者対に対して仮の類似度スコアを予測
– Spkr. encoder から出力される話者表現の対で類似度スコアを計算
: +3
: 0
: -2
Predicted
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
Vector Matrix Graph
/31
16
予測された類似度スコアを用いたクエリ選択
 スコアの予測結果に基づき, 次にスコア付けする話者対を選択
– クエリ戦略: どういった基準で話者対を選択するのかを決定
: +3
: 0
: -2
Predicted
: HSF
: MSF
: LSF
Selected
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
Vector Matrix Graph
Query
strategy
{ Higher, Middle, Lower }-Similarity First
/31
17
選択されたクエリに対するスコアリング
 評価者にクエリの音声サンプルを提示し, 類似度スコア付けを依頼
– 新たにスコア付けされた話者対をスコア済みデータのプールに追加
: +3
: 0
: -2
Predicted
: HSF
: MSF
: LSF
Selected
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
Vector Matrix Graph
Query
strategy
: +1
/31
18
考察
 提案法: human-in-the-loop 型の DNN 話者埋め込み学習
– 人間の知覚評価が計算ループに内在し, 解釈しやすい話者表現を学習
• (c.f., 人間の知覚評価に基づく敵対的生成ネットワーク [Fujii+20][Ueda+21])
 クエリ戦略 = 類似度の識別精度を改善すべき話者対の優先順位
– LSF / HSF: 非類似話者対 / 類似話者対の識別精度を優先
– MSF: 類似 / 非類似の判定が困難な話者対の識別精度を優先
Similarity score
−3 −1
−2 0 +2 +3
+1
Frequency
40,000
30,000
20,000
10,000
0
Cumulative
ratio
0.0
0.2
0.4
0.6
0.8
1.0
LSF HSF
MSF
類似度スコアのヒストグラムの図は [Saito+SSW19] より引用
/31
19
目次
 研究背景
 従来法: 主観的話者間類似度ベース DNN 話者埋め込み
 主観的話者間類似度ベース DNN 話者埋め込みの active learning
 実験的評価
 まとめ
/31
実験条件
20
データセット
(16 kHz sampling)
JNAS [Itou+99] の女性話者153名
主観スコアリング用: 5発話
DNN 話者埋め込みの学習 / 評価用: 約130発話 / 約15発話
(F001 ~ F013 の13名は, 学習データから除外 = 未知話者)
主観スコアリングの値
-3 (似ていない) ~ +3 (似ている) の整数
(DNN 話者埋め込み学習時には [-1, +1] か [0, 1] に正規化)
音声特徴量 40次メルケプストラム, F0, 非周期性指標
DNN アーキテクチャ すべて Feed-Forward 型ネットワーク (詳細は原稿を参照)
話者表現の次元 8
Active learning の設定
Pool-based simulation
(未観測スコアは binary masking で損失関数計算から除外)
学習法
(1) Sim. (vec): 類似度ベクトル埋め込み
(2) Sim. (mat): 類似度行列埋め込み
(3) Sim. (graph): 類似度グラフ埋め込み
/31
21
客観評価指標:
話者表現を用いた類似話者対識別の AUC
 目的: 話者表現由来の類似度と主観的な類似度との整合性を評価
– Receiver Operating Characteristic (ROC) curve
• 様々な閾値設定を用いた場合の2値分類器の
false / true positive rate の変化を可視化
– Area Under the ROC Curve (AUC): ROC curve の下面積 (0.5 ~ 1.0)
• 値が1に近ければ近いほど, 良い識別性能であることを意味
学習話者同士の対 学習話者-未知話者の対
0
1
False positive rate
True
positive
rate
0 1 0 1
ROC curve [Brown+06], AUC [Hanley+82], d-vector [Variani+14]
d-vector
Sim. (vec)
Sim. (mat)
Sim. (graph)
/31
22
Active learning の反復による AUC の改善
 各学習法毎に, active learning とクエリ戦略の影響を調査
– 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか
1反復毎のクエリ数: 43
FS
(100%)
PS
(50%)
学習-学習
学習-未知
Active learning iteration (w/ % of observed scores)
類似話者対識別の
ACU
LSF HSF MSF PS (50%) FS (100%)
MSF に基づく active learning は, LSF / HSF よりも安定して動作!
1
(50%)
30
(62.5%)
60
(75%)
90
(87.5%)
115
(100%)
0.70
0.65
0.60
0.55
0.50
0.90
0.85
0.80
0.75
0.78
0.76
0.74
0.72
0.94
0.92
0.90
0.88
0.86
0.84
0.82
0.82
0.80
0.78
0.76
0.72
0.70
0.68
0.66
0.64
0.62
0.60
Sim. (vec) Sim. (mat) Sim. (graph)
/31
23
Active learning の反復による AUC の改善
 各学習法毎に, active learning とクエリ戦略の影響を調査
– 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか
FS
(100%)
PS
(50%)
学習-学習
学習-未知
Active learning iteration (w/ % of observed scores)
類似話者対識別の
ACU
LSF HSF MSF PS (50%) FS (100%)
Active learning により, FS と同程度の AUC を少ない反復回数で達成!
1
(50%)
30
(62.5%)
60
(75%)
90
(87.5%)
115
(100%)
0.70
0.65
0.60
0.55
0.50
0.90
0.85
0.80
0.75
0.78
0.76
0.74
0.72
0.94
0.92
0.90
0.88
0.86
0.84
0.82
0.82
0.80
0.78
0.76
0.72
0.70
0.68
0.66
0.64
0.62
0.60
Sim. (vec) Sim. (mat) Sim. (graph)
1反復毎のクエリ数: 43
/31
24
Active learning の反復による AUC の改善
 各学習法毎に, active learning とクエリ戦略の影響を調査
– 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか
FS
(100%)
PS
(50%)
学習-学習
学習-未知
Active learning iteration (w/ % of observed scores)
類似話者対識別の
ACU
LSF HSF MSF PS (50%) FS (100%)
学習-未知話者対 (i.e., open data) の類似度識別精度が劣化
1
(50%)
30
(62.5%)
60
(75%)
90
(87.5%)
115
(100%)
0.70
0.65
0.60
0.55
0.50
0.90
0.85
0.80
0.75
0.78
0.76
0.74
0.72
0.94
0.92
0.90
0.88
0.86
0.84
0.82
0.82
0.80
0.78
0.76
0.72
0.70
0.68
0.66
0.64
0.62
0.60
Sim. (vec) Sim. (mat) Sim. (graph)
1反復毎のクエリ数: 43
/31
25
主観評価指標:
VAE に基づく多話者音響モデリングの合成音声品質
 VAE に基づく多話者音響モデリング [Saito+AST21]
– 事前学習済みの音声認識モデルと speaker encoder により,
音韻と話者性を分離して VAE 多話者音響モデルを学習
VAE: Variational AutoEncoder [Kingma+13], PPG: Phonetic PosteriorGrams [Sun+16]
VAE
encoder
VAE
decoder
Pre-trained
speech
recognition
あ
a
i
u
PPG
Spkr. repr.
Pre-trained
spkr.
encoder
VAE
latent var.
Input
speech
feats.
Generated
speech
feats.
本発表では, 未知話者 (i.e., F001 ~ F013) の音声の auto-encoding の品質を評価
/31
26
MSF に基づく active learning の主観評価
 合成音声の話者類似性に関する DMOS テスト w/ 50 listeners
– PS (50%) / FS / MSF で学習された話者表現を比較
• 表の (xx%): スコア付けされた話者対の割合
– 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成
Sim. (vec) Sim. (mat) Sim. (graph)
PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13
MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13
(75%) 3.04±0.14 3.00±0.13 3.02±0.13
(87.5%) 3.05±0.14 3.03±0.13 3.06±0.13
FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14
24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし
/31
27
MSF に基づく active learning の主観評価
 合成音声の話者類似性に関する DMOS テスト w/ 50 listeners
– PS (50%) / FS / MSF で学習された話者表現を比較
• 表の (xx%): スコア付けされた話者対の割合
– 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成
Sim. (vec) Sim. (mat) Sim. (graph)
PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13
MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13
(75%) 3.04±0.14 3.00±0.13 3.02±0.13
(87.5%) 3.05±0.14 3.03±0.13 3.06±0.13
FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14
24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし
MSF に基づく active learning は,
FS と同程度の DMOS をより少ないスコアリング / 学習反復回数で達成!
/31
28
MSF に基づく active learning の主観評価
 合成音声の話者類似性に関する DMOS テスト w/ 50 listeners
– PS (50%) / FS / MSF で学習された話者表現を比較
• 表の (xx%): スコア付けされた話者対の割合
– 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成
Sim. (vec) Sim. (mat) Sim. (graph)
PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13
MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13
(75%) 3.04±0.14 3.00±0.13 3.02±0.13
(87.5%) 3.05±0.14 3.03±0.13 3.06±0.13
FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14
24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし
PS / MSF / FS の DMOS に有意差なし
/31
29
より少ないスコア済みデータを用いた
active learning の評価
 5% のスコア済みデータを用いて active learning を開始
– クエリ戦略としては MSF のみを使用
FS
(100%)
PS
(5%)
学習-学習
学習-未知
Active learning iteration (w/ % of observed scores)
類似話者対識別の
ACU
MSF PS (5%) FS (100%)
50% のスコア済みデータを用いた場合と同様の AUC 改善 / 劣化 を確認
1
(5%)
47
(25%)
104
(50%)
160
(75%)
217
(100%)
0.85
0.80
0.75
0.70
0.65
0.90
0.85
0.80
0.75
0.75
0.70
0.65
0.90
0.85
0.80
0.75
0.70
0.82
0.78
0.76
0.74
0.80
0.75
0.70
0.65
0.60
0.55
Sim. (vec) Sim. (mat) Sim. (graph)
1反復毎のクエリ数: 43
0.60
0.55
0.70
0.65
0.72
0.70
0.80
N/A
N/A
/31
30
目次
 研究背景
 従来法: 主観的話者間類似度ベース DNN 話者埋め込み
 主観的話者間類似度ベース DNN 話者埋め込みの active learning
 実験的評価
 まとめ
/31
31
まとめ
 目的: 低コストの主観的話者間類似度ベース DNN 話者埋め込み
– 主観スコアリング / DNN 話者埋め込み学習のコストを削減
 提案法: 主観スコアリングと DNN 話者埋め込みの active learning
– 主観スコアリングと DNN 学習を反復し, 話者表現を逐次的に学習
– 次にスコアリングすべき話者対を決めるクエリ戦略の影響も調査
 結果: コストを削減しつつ, 生成的タスクに適した話者表現を学習
 今後の予定
– Active learning におけるハイパーパラメータの影響を調査
• 1反復あたりのクエリ数, クエリ選択の頻度, etc...
– 異なるクエリ戦略を用いた場合の性能評価
• (e.g., uncertainty sampling [Lewis+94])
 これまでの研究成果をまとめた論文 (IEEE/ACM TASLP 誌) →

Contenu connexe

Tendances

WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
Saito2017icassp
Saito2017icasspSaito2017icassp
Saito2017icasspYuki Saito
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech RecognitionYosukeKashiwagi1
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...Deep Learning JP
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE広樹 本間
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組みAtsushi_Ando
 
有名論文から学ぶディープラーニング 2016.03.25
有名論文から学ぶディープラーニング 2016.03.25有名論文から学ぶディープラーニング 2016.03.25
有名論文から学ぶディープラーニング 2016.03.25Minoru Chikamune
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピTakahiro Kubo
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured PredictionDeep Learning JP
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 

Tendances (20)

WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
Saito2017icassp
Saito2017icasspSaito2017icassp
Saito2017icassp
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
有名論文から学ぶディープラーニング 2016.03.25
有名論文から学ぶディープラーニング 2016.03.25有名論文から学ぶディープラーニング 2016.03.25
有名論文から学ぶディープラーニング 2016.03.25
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 

Plus de Yuki Saito

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdfYuki Saito
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_ascYuki Saito
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfYuki Saito
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUSYuki Saito
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentationYuki Saito
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn MeetingYuki Saito
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 readingYuki Saito
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumnYuki Saito
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020Yuki Saito
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_publishedYuki Saito
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNAYuki Saito
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会Yuki Saito
 

Plus de Yuki Saito (20)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 

Dernier

Formation of low mass protostars and their circumstellar disks
Formation of low mass protostars and their circumstellar disksFormation of low mass protostars and their circumstellar disks
Formation of low mass protostars and their circumstellar disksSérgio Sacani
 
Botany 4th semester file By Sumit Kumar yadav.pdf
Botany 4th semester file By Sumit Kumar yadav.pdfBotany 4th semester file By Sumit Kumar yadav.pdf
Botany 4th semester file By Sumit Kumar yadav.pdfSumit Kumar yadav
 
Recombination DNA Technology (Nucleic Acid Hybridization )
Recombination DNA Technology (Nucleic Acid Hybridization )Recombination DNA Technology (Nucleic Acid Hybridization )
Recombination DNA Technology (Nucleic Acid Hybridization )aarthirajkumar25
 
GBSN - Microbiology (Unit 2)
GBSN - Microbiology (Unit 2)GBSN - Microbiology (Unit 2)
GBSN - Microbiology (Unit 2)Areesha Ahmad
 
Nanoparticles synthesis and characterization​ ​
Nanoparticles synthesis and characterization​  ​Nanoparticles synthesis and characterization​  ​
Nanoparticles synthesis and characterization​ ​kaibalyasahoo82800
 
Pests of cotton_Sucking_Pests_Dr.UPR.pdf
Pests of cotton_Sucking_Pests_Dr.UPR.pdfPests of cotton_Sucking_Pests_Dr.UPR.pdf
Pests of cotton_Sucking_Pests_Dr.UPR.pdfPirithiRaju
 
GBSN - Biochemistry (Unit 1)
GBSN - Biochemistry (Unit 1)GBSN - Biochemistry (Unit 1)
GBSN - Biochemistry (Unit 1)Areesha Ahmad
 
SOLUBLE PATTERN RECOGNITION RECEPTORS.pptx
SOLUBLE PATTERN RECOGNITION RECEPTORS.pptxSOLUBLE PATTERN RECOGNITION RECEPTORS.pptx
SOLUBLE PATTERN RECOGNITION RECEPTORS.pptxkessiyaTpeter
 
Presentation Vikram Lander by Vedansh Gupta.pptx
Presentation Vikram Lander by Vedansh Gupta.pptxPresentation Vikram Lander by Vedansh Gupta.pptx
Presentation Vikram Lander by Vedansh Gupta.pptxgindu3009
 
Botany 4th semester series (krishna).pdf
Botany 4th semester series (krishna).pdfBotany 4th semester series (krishna).pdf
Botany 4th semester series (krishna).pdfSumit Kumar yadav
 
Animal Communication- Auditory and Visual.pptx
Animal Communication- Auditory and Visual.pptxAnimal Communication- Auditory and Visual.pptx
Animal Communication- Auditory and Visual.pptxUmerFayaz5
 
STERILITY TESTING OF PHARMACEUTICALS ppt by DR.C.P.PRINCE
STERILITY TESTING OF PHARMACEUTICALS ppt by DR.C.P.PRINCESTERILITY TESTING OF PHARMACEUTICALS ppt by DR.C.P.PRINCE
STERILITY TESTING OF PHARMACEUTICALS ppt by DR.C.P.PRINCEPRINCE C P
 
Chemistry 4th semester series (krishna).pdf
Chemistry 4th semester series (krishna).pdfChemistry 4th semester series (krishna).pdf
Chemistry 4th semester series (krishna).pdfSumit Kumar yadav
 
Orientation, design and principles of polyhouse
Orientation, design and principles of polyhouseOrientation, design and principles of polyhouse
Orientation, design and principles of polyhousejana861314
 
Green chemistry and Sustainable development.pptx
Green chemistry  and Sustainable development.pptxGreen chemistry  and Sustainable development.pptx
Green chemistry and Sustainable development.pptxRajatChauhan518211
 
Biological Classification BioHack (3).pdf
Biological Classification BioHack (3).pdfBiological Classification BioHack (3).pdf
Biological Classification BioHack (3).pdfmuntazimhurra
 
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral Analysis
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral AnalysisRaman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral Analysis
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral AnalysisDiwakar Mishra
 
Pests of cotton_Borer_Pests_Binomics_Dr.UPR.pdf
Pests of cotton_Borer_Pests_Binomics_Dr.UPR.pdfPests of cotton_Borer_Pests_Binomics_Dr.UPR.pdf
Pests of cotton_Borer_Pests_Binomics_Dr.UPR.pdfPirithiRaju
 
GBSN - Microbiology (Unit 1)
GBSN - Microbiology (Unit 1)GBSN - Microbiology (Unit 1)
GBSN - Microbiology (Unit 1)Areesha Ahmad
 

Dernier (20)

Formation of low mass protostars and their circumstellar disks
Formation of low mass protostars and their circumstellar disksFormation of low mass protostars and their circumstellar disks
Formation of low mass protostars and their circumstellar disks
 
Botany 4th semester file By Sumit Kumar yadav.pdf
Botany 4th semester file By Sumit Kumar yadav.pdfBotany 4th semester file By Sumit Kumar yadav.pdf
Botany 4th semester file By Sumit Kumar yadav.pdf
 
Recombination DNA Technology (Nucleic Acid Hybridization )
Recombination DNA Technology (Nucleic Acid Hybridization )Recombination DNA Technology (Nucleic Acid Hybridization )
Recombination DNA Technology (Nucleic Acid Hybridization )
 
GBSN - Microbiology (Unit 2)
GBSN - Microbiology (Unit 2)GBSN - Microbiology (Unit 2)
GBSN - Microbiology (Unit 2)
 
Nanoparticles synthesis and characterization​ ​
Nanoparticles synthesis and characterization​  ​Nanoparticles synthesis and characterization​  ​
Nanoparticles synthesis and characterization​ ​
 
Pests of cotton_Sucking_Pests_Dr.UPR.pdf
Pests of cotton_Sucking_Pests_Dr.UPR.pdfPests of cotton_Sucking_Pests_Dr.UPR.pdf
Pests of cotton_Sucking_Pests_Dr.UPR.pdf
 
GBSN - Biochemistry (Unit 1)
GBSN - Biochemistry (Unit 1)GBSN - Biochemistry (Unit 1)
GBSN - Biochemistry (Unit 1)
 
SOLUBLE PATTERN RECOGNITION RECEPTORS.pptx
SOLUBLE PATTERN RECOGNITION RECEPTORS.pptxSOLUBLE PATTERN RECOGNITION RECEPTORS.pptx
SOLUBLE PATTERN RECOGNITION RECEPTORS.pptx
 
Presentation Vikram Lander by Vedansh Gupta.pptx
Presentation Vikram Lander by Vedansh Gupta.pptxPresentation Vikram Lander by Vedansh Gupta.pptx
Presentation Vikram Lander by Vedansh Gupta.pptx
 
Botany 4th semester series (krishna).pdf
Botany 4th semester series (krishna).pdfBotany 4th semester series (krishna).pdf
Botany 4th semester series (krishna).pdf
 
Animal Communication- Auditory and Visual.pptx
Animal Communication- Auditory and Visual.pptxAnimal Communication- Auditory and Visual.pptx
Animal Communication- Auditory and Visual.pptx
 
STERILITY TESTING OF PHARMACEUTICALS ppt by DR.C.P.PRINCE
STERILITY TESTING OF PHARMACEUTICALS ppt by DR.C.P.PRINCESTERILITY TESTING OF PHARMACEUTICALS ppt by DR.C.P.PRINCE
STERILITY TESTING OF PHARMACEUTICALS ppt by DR.C.P.PRINCE
 
Chemistry 4th semester series (krishna).pdf
Chemistry 4th semester series (krishna).pdfChemistry 4th semester series (krishna).pdf
Chemistry 4th semester series (krishna).pdf
 
Orientation, design and principles of polyhouse
Orientation, design and principles of polyhouseOrientation, design and principles of polyhouse
Orientation, design and principles of polyhouse
 
Green chemistry and Sustainable development.pptx
Green chemistry  and Sustainable development.pptxGreen chemistry  and Sustainable development.pptx
Green chemistry and Sustainable development.pptx
 
Biological Classification BioHack (3).pdf
Biological Classification BioHack (3).pdfBiological Classification BioHack (3).pdf
Biological Classification BioHack (3).pdf
 
Engler and Prantl system of classification in plant taxonomy
Engler and Prantl system of classification in plant taxonomyEngler and Prantl system of classification in plant taxonomy
Engler and Prantl system of classification in plant taxonomy
 
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral Analysis
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral AnalysisRaman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral Analysis
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral Analysis
 
Pests of cotton_Borer_Pests_Binomics_Dr.UPR.pdf
Pests of cotton_Borer_Pests_Binomics_Dr.UPR.pdfPests of cotton_Borer_Pests_Binomics_Dr.UPR.pdf
Pests of cotton_Borer_Pests_Binomics_Dr.UPR.pdf
 
GBSN - Microbiology (Unit 1)
GBSN - Microbiology (Unit 1)GBSN - Microbiology (Unit 1)
GBSN - Microbiology (Unit 1)
 

Saito2103slp

  • 1. ©Yuki Saito, 2021/03/04 主観的話者間類似度を考慮した DNN話者埋め込みのための Active Learning 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大) 第136回 音声言語情報処理研究会 (SIG-SLP)
  • 2. /31 1 研究背景  DNN 話者埋め込み: DNN を用いて音声特徴量から話者表現を獲得 – 様々な応用が可能な, 音声情報処理分野における基盤技術の一つ • 話者認識や話者照合 (識別的タスク) での特徴抽出 (e.g., [Variani+14]) • 音声合成や声質変換 (生成的タスク) での声質制御 (e.g., [Jia+18])  本発表: 生成的タスクに適した DNN 話者埋め込みの学習法 – 合成音声の品質改善 & 直感的な声質制御を実現 – 人間の話者知覚を反映するような話者表現を学習 DNN NG ASV DNN TTS Discriminative task (e.g., automatic speaker verification: ASV) Generative task (e.g., text-to-speech: TTS) DNN: Deep Neural Network
  • 3. /31 2 本発表の概要  従来法: 主観的話者間類似度ベース DNN 話者埋め込み* – 話者間類似度の大規模主観スコアリングの結果を用いた学習法 – 話者認識ベースの手法よりも生成的タスクに適した話者表現を学習  問題点: 主観スコアリング実施 / DNN 話者埋め込み学習のコスト – スコアリングが必要な話者対の数は, 話者数の2乗に比例 – スコアリング後の DNN 話者埋め込み学習の時間的コストも必要  提案法: 主観スコアリングと DNN 話者埋め込みの active learning – 主観スコアリングと DNN 学習を反復し, 話者表現を逐次的に学習 – 次にスコアリングすべき話者対を決めるクエリ戦略の影響も調査  結果: コストを削減しつつ, 生成的タスクに適した話者表現を学習 *[Saito+SSW19][齋藤+ASJ2020秋]
  • 4. /31 3 目次  研究背景  従来法: 主観的話者間類似度ベース DNN 話者埋め込み  主観的話者間類似度ベース DNN 話者埋め込みの active learning  実験的評価  まとめ
  • 5. /31  1. 主観的話者間類似度の大規模スコアリング  2. 類似度スコアを用いた DNN 話者埋め込みの学習 4 従来法: 主観的話者間類似度ベース DNN 話者埋め込み DNN (Spkr. encoder) Learned similarity Speech feats. Similarity score Spkr. repr. Similarity score Perceptual similarity scoring Spkr. pairs [Saito+SSW19][齋藤+ASJ20秋] Similarity loss
  • 6. /31 5 主観的話者間類似度の大規模スコアリング  クラウドソーシングで, 話者間の主観的な類似度をスコアリング – JNAS [Itou+99] コーパスに含まれる153名の女性話者の発話を使用 • 各話者毎に異なる発話内容 → テキスト非依存な類似度を評価 – 合計の評価者数: 4,060 名 (ランダムに選ばれた34話者対 / 評価者) • スコアリングの評価値: -3 (似ていない) ~ +3 (似ている) • 1つの話者対を少なくとも異なる10名以上が評価 話者対の音声サンプル
  • 7. /31 6 主観的話者間類似度の行列表現  類似度スコア行列 𝐒 = 𝒔1, ⋯ , 𝒔𝑖, ⋯ , 𝒔𝑁s – 𝑁s: スコアリングに用いられた話者数 – 𝒔𝑖 = 𝑠𝑖,1, ⋯ , 𝑠𝑖,𝑗, ⋯ , 𝑠𝑖,𝑁s ⊤ : 𝑖番目の話者の類似度スコアベクトル • 𝑠𝑖,𝑗: 𝑖番目の話者と𝑗番目の話者の類似度スコア −𝑣 ≤ 𝑠𝑖,𝑗 ≤ 𝑣 3 2 1 0 −1 −2 −3 (a) Full score matrix (153 females) (b) Sub-matrix of (a) (13 females) 本発表で用いた類似度行列は http://sython.org/demo/JSPS-DC1/index.html で公開 これまでに, 類似度スコアを用いた3つの学習法を提案
  • 8. /31  音声特徴量から類似度スコアベクトルを予測するように学習 7 学習法1: 類似度ベクトル埋め込み 𝐿SIM (vec) 𝒔, 𝒔 = 1 𝑁𝑠 𝒔 − 𝒔 ⊤ 𝒔 − 𝒔 Spkr. encoder 𝐿SIM (vec) 𝒔 𝒔 𝐒 Sim. score vector Sim. score matrix Speech feats. Similarity vector prediction 𝒅
  • 9. /31  話者表現の Gram 行列を類似度スコア行列に近づけるように学習 8 学習法2: 類似度行列埋め込み 𝐿SIM (mat) 𝐿SIM (mat) 𝐃, 𝐒 = 1 𝑍s 𝐊𝐃 − 𝐒 𝐹 2 𝐊𝐃 Gram matrix Calc. kernel 𝑘 ⋅,⋅ 𝑍s: 話者数の影響を正規化するための係数 ( ⋅ は, 当該行列の対角成分を除いた行列) 𝐒 Sim. score matrix Speech feats. 𝒅 Spkr. encoder
  • 10. /31 𝑎𝑖,𝑗  話者表現の対から類似度グラフの辺の有無を予測するように学習 9 学習法3: 類似度グラフ埋め込み 𝐿SIM graph 𝒅𝑖, 𝒅𝑗 = −𝑎𝑖,𝑗 log 𝑝𝑖,𝑗 − 1 − 𝑎𝑖,𝑗 log 1 − 𝑝𝑖,𝑗 Spkr. sim. graph Edge prediction 0: no edge 1: exist edge 𝐿SIM (graph) 𝑝𝑖,𝑗 = exp − 𝒅𝑖 − 𝒅𝑗 2 2 : 辺の生起確率 ([Li+18] を参照に定義) 𝐒 Sim. score matrix Speech feats. 𝒅 Spkr. encoder
  • 11. /31 10 目次  研究背景  従来法: 主観的話者間類似度ベース DNN 話者埋め込み  主観的話者間類似度ベース DNN 話者埋め込みの active learning  実験的評価  まとめ
  • 12. /31 11 提案法の動機  従来法: 主観スコアリング / DNN 話者埋め込みの直列型学習 – 全ての類似度スコアの観測後に, DNN 話者埋め込みの学習を開始 – 問題点1: 主観スコアリングの金銭的コスト • スコアリング作業の数は, 話者数の2乗に比例 • 評価者1人あたりの作業数を増やせばコストは削減可能だが, 評価者の負担は増加 (スコアリング結果の信頼性低下の可能性) – 問題点2: DNN 話者埋め込み学習の時間的コスト • 全ての類似度スコアを用いた学習の反復に多大な計算時間が必要  動機: 直列型学習からの脱却 & コストの削減 – 主観スコアリングと DNN 話者埋め込み学習を逐次的に実行 – 次にスコア付けすべき話者対の優先度を適切に決定すれば, 少ない観測スコア / 学習反復回数で良い話者表現が得られるのでは?
  • 13. /31 12 Active learning [Settle10]  目的: ラベル付けのコストを削減しつつ, 高い性能のモデルを学習 – 少数のラベル付きデータと多数のラベル無しデータを使用 – 逐次的に学習される機械学習モデルの予測結果に基づき, 次にラベル付けすべきデータの優先度を決定 Pool-based active learning のサイクル (図は [Settle10] の Fig. 1 より引用)
  • 14. /31 13 提案法: 主観スコアリングと DNN 話者埋め込みの active learning  主観スコアリングと DNN 話者埋め込みの学習を交互に反復 – スコアリング / 学習のコストを削減しつつ, より良い話者表現を学習 Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs
  • 15. /31 14 スコア付けされた話者対のデータを用いた DNN 話者埋め込み学習  部分的にスコア付けされたデータで spkr. encoder を学習 – 学習法: 類似度 { ベクトル, 行列, グラフ } 埋め込みのいずれか Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph
  • 16. /31 15 学習された話者表現を用いた類似度スコア予測  スコア付けされてない話者対に対して仮の類似度スコアを予測 – Spkr. encoder から出力される話者表現の対で類似度スコアを計算 : +3 : 0 : -2 Predicted Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph
  • 17. /31 16 予測された類似度スコアを用いたクエリ選択  スコアの予測結果に基づき, 次にスコア付けする話者対を選択 – クエリ戦略: どういった基準で話者対を選択するのかを決定 : +3 : 0 : -2 Predicted : HSF : MSF : LSF Selected Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph Query strategy { Higher, Middle, Lower }-Similarity First
  • 18. /31 17 選択されたクエリに対するスコアリング  評価者にクエリの音声サンプルを提示し, 類似度スコア付けを依頼 – 新たにスコア付けされた話者対をスコア済みデータのプールに追加 : +3 : 0 : -2 Predicted : HSF : MSF : LSF Selected Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph Query strategy : +1
  • 19. /31 18 考察  提案法: human-in-the-loop 型の DNN 話者埋め込み学習 – 人間の知覚評価が計算ループに内在し, 解釈しやすい話者表現を学習 • (c.f., 人間の知覚評価に基づく敵対的生成ネットワーク [Fujii+20][Ueda+21])  クエリ戦略 = 類似度の識別精度を改善すべき話者対の優先順位 – LSF / HSF: 非類似話者対 / 類似話者対の識別精度を優先 – MSF: 類似 / 非類似の判定が困難な話者対の識別精度を優先 Similarity score −3 −1 −2 0 +2 +3 +1 Frequency 40,000 30,000 20,000 10,000 0 Cumulative ratio 0.0 0.2 0.4 0.6 0.8 1.0 LSF HSF MSF 類似度スコアのヒストグラムの図は [Saito+SSW19] より引用
  • 20. /31 19 目次  研究背景  従来法: 主観的話者間類似度ベース DNN 話者埋め込み  主観的話者間類似度ベース DNN 話者埋め込みの active learning  実験的評価  まとめ
  • 21. /31 実験条件 20 データセット (16 kHz sampling) JNAS [Itou+99] の女性話者153名 主観スコアリング用: 5発話 DNN 話者埋め込みの学習 / 評価用: 約130発話 / 約15発話 (F001 ~ F013 の13名は, 学習データから除外 = 未知話者) 主観スコアリングの値 -3 (似ていない) ~ +3 (似ている) の整数 (DNN 話者埋め込み学習時には [-1, +1] か [0, 1] に正規化) 音声特徴量 40次メルケプストラム, F0, 非周期性指標 DNN アーキテクチャ すべて Feed-Forward 型ネットワーク (詳細は原稿を参照) 話者表現の次元 8 Active learning の設定 Pool-based simulation (未観測スコアは binary masking で損失関数計算から除外) 学習法 (1) Sim. (vec): 類似度ベクトル埋め込み (2) Sim. (mat): 類似度行列埋め込み (3) Sim. (graph): 類似度グラフ埋め込み
  • 22. /31 21 客観評価指標: 話者表現を用いた類似話者対識別の AUC  目的: 話者表現由来の類似度と主観的な類似度との整合性を評価 – Receiver Operating Characteristic (ROC) curve • 様々な閾値設定を用いた場合の2値分類器の false / true positive rate の変化を可視化 – Area Under the ROC Curve (AUC): ROC curve の下面積 (0.5 ~ 1.0) • 値が1に近ければ近いほど, 良い識別性能であることを意味 学習話者同士の対 学習話者-未知話者の対 0 1 False positive rate True positive rate 0 1 0 1 ROC curve [Brown+06], AUC [Hanley+82], d-vector [Variani+14] d-vector Sim. (vec) Sim. (mat) Sim. (graph)
  • 23. /31 22 Active learning の反復による AUC の改善  各学習法毎に, active learning とクエリ戦略の影響を調査 – 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか 1反復毎のクエリ数: 43 FS (100%) PS (50%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU LSF HSF MSF PS (50%) FS (100%) MSF に基づく active learning は, LSF / HSF よりも安定して動作! 1 (50%) 30 (62.5%) 60 (75%) 90 (87.5%) 115 (100%) 0.70 0.65 0.60 0.55 0.50 0.90 0.85 0.80 0.75 0.78 0.76 0.74 0.72 0.94 0.92 0.90 0.88 0.86 0.84 0.82 0.82 0.80 0.78 0.76 0.72 0.70 0.68 0.66 0.64 0.62 0.60 Sim. (vec) Sim. (mat) Sim. (graph)
  • 24. /31 23 Active learning の反復による AUC の改善  各学習法毎に, active learning とクエリ戦略の影響を調査 – 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか FS (100%) PS (50%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU LSF HSF MSF PS (50%) FS (100%) Active learning により, FS と同程度の AUC を少ない反復回数で達成! 1 (50%) 30 (62.5%) 60 (75%) 90 (87.5%) 115 (100%) 0.70 0.65 0.60 0.55 0.50 0.90 0.85 0.80 0.75 0.78 0.76 0.74 0.72 0.94 0.92 0.90 0.88 0.86 0.84 0.82 0.82 0.80 0.78 0.76 0.72 0.70 0.68 0.66 0.64 0.62 0.60 Sim. (vec) Sim. (mat) Sim. (graph) 1反復毎のクエリ数: 43
  • 25. /31 24 Active learning の反復による AUC の改善  各学習法毎に, active learning とクエリ戦略の影響を調査 – 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか FS (100%) PS (50%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU LSF HSF MSF PS (50%) FS (100%) 学習-未知話者対 (i.e., open data) の類似度識別精度が劣化 1 (50%) 30 (62.5%) 60 (75%) 90 (87.5%) 115 (100%) 0.70 0.65 0.60 0.55 0.50 0.90 0.85 0.80 0.75 0.78 0.76 0.74 0.72 0.94 0.92 0.90 0.88 0.86 0.84 0.82 0.82 0.80 0.78 0.76 0.72 0.70 0.68 0.66 0.64 0.62 0.60 Sim. (vec) Sim. (mat) Sim. (graph) 1反復毎のクエリ数: 43
  • 26. /31 25 主観評価指標: VAE に基づく多話者音響モデリングの合成音声品質  VAE に基づく多話者音響モデリング [Saito+AST21] – 事前学習済みの音声認識モデルと speaker encoder により, 音韻と話者性を分離して VAE 多話者音響モデルを学習 VAE: Variational AutoEncoder [Kingma+13], PPG: Phonetic PosteriorGrams [Sun+16] VAE encoder VAE decoder Pre-trained speech recognition あ a i u PPG Spkr. repr. Pre-trained spkr. encoder VAE latent var. Input speech feats. Generated speech feats. 本発表では, 未知話者 (i.e., F001 ~ F013) の音声の auto-encoding の品質を評価
  • 27. /31 26 MSF に基づく active learning の主観評価  合成音声の話者類似性に関する DMOS テスト w/ 50 listeners – PS (50%) / FS / MSF で学習された話者表現を比較 • 表の (xx%): スコア付けされた話者対の割合 – 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成 Sim. (vec) Sim. (mat) Sim. (graph) PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13 MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13 (75%) 3.04±0.14 3.00±0.13 3.02±0.13 (87.5%) 3.05±0.14 3.03±0.13 3.06±0.13 FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14 24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし
  • 28. /31 27 MSF に基づく active learning の主観評価  合成音声の話者類似性に関する DMOS テスト w/ 50 listeners – PS (50%) / FS / MSF で学習された話者表現を比較 • 表の (xx%): スコア付けされた話者対の割合 – 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成 Sim. (vec) Sim. (mat) Sim. (graph) PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13 MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13 (75%) 3.04±0.14 3.00±0.13 3.02±0.13 (87.5%) 3.05±0.14 3.03±0.13 3.06±0.13 FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14 24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし MSF に基づく active learning は, FS と同程度の DMOS をより少ないスコアリング / 学習反復回数で達成!
  • 29. /31 28 MSF に基づく active learning の主観評価  合成音声の話者類似性に関する DMOS テスト w/ 50 listeners – PS (50%) / FS / MSF で学習された話者表現を比較 • 表の (xx%): スコア付けされた話者対の割合 – 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成 Sim. (vec) Sim. (mat) Sim. (graph) PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13 MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13 (75%) 3.04±0.14 3.00±0.13 3.02±0.13 (87.5%) 3.05±0.14 3.03±0.13 3.06±0.13 FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14 24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし PS / MSF / FS の DMOS に有意差なし
  • 30. /31 29 より少ないスコア済みデータを用いた active learning の評価  5% のスコア済みデータを用いて active learning を開始 – クエリ戦略としては MSF のみを使用 FS (100%) PS (5%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU MSF PS (5%) FS (100%) 50% のスコア済みデータを用いた場合と同様の AUC 改善 / 劣化 を確認 1 (5%) 47 (25%) 104 (50%) 160 (75%) 217 (100%) 0.85 0.80 0.75 0.70 0.65 0.90 0.85 0.80 0.75 0.75 0.70 0.65 0.90 0.85 0.80 0.75 0.70 0.82 0.78 0.76 0.74 0.80 0.75 0.70 0.65 0.60 0.55 Sim. (vec) Sim. (mat) Sim. (graph) 1反復毎のクエリ数: 43 0.60 0.55 0.70 0.65 0.72 0.70 0.80 N/A N/A
  • 31. /31 30 目次  研究背景  従来法: 主観的話者間類似度ベース DNN 話者埋め込み  主観的話者間類似度ベース DNN 話者埋め込みの active learning  実験的評価  まとめ
  • 32. /31 31 まとめ  目的: 低コストの主観的話者間類似度ベース DNN 話者埋め込み – 主観スコアリング / DNN 話者埋め込み学習のコストを削減  提案法: 主観スコアリングと DNN 話者埋め込みの active learning – 主観スコアリングと DNN 学習を反復し, 話者表現を逐次的に学習 – 次にスコアリングすべき話者対を決めるクエリ戦略の影響も調査  結果: コストを削減しつつ, 生成的タスクに適した話者表現を学習  今後の予定 – Active learning におけるハイパーパラメータの影響を調査 • 1反復あたりのクエリ数, クエリ選択の頻度, etc... – 異なるクエリ戦略を用いた場合の性能評価 • (e.g., uncertainty sampling [Lewis+94])  これまでの研究成果をまとめた論文 (IEEE/ACM TASLP 誌) →