カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調

カートシスマッチングと深層学習に基づく
低ミュージカルノイズ音声強調
東京大学大学院情報理工学系研究科
☆溝口聡齋藤佑樹高道慎之介猿渡洋
日本音響学会
2018 年秋季研究発表会 2-1-17
9 月 13 日

概要
背景：ハンズフリー音声通信
◦ マイクと人の距離が遠く，音声に雑音が混入
◦ マイクは単一チャネルである場合，非線形な信号処理による
音声強調が必要
目的：聴覚的に良質な音声強調
◦ 雑音のパワー：小
◦ 音声の歪み：小
◦ ミュージカルノイズ発生量：小
従来法：DNN ソフトマスク音声強調
◦ DNN を用いた教師あり音声強調
◦ モデルの高い表現力によって高性能な雑音抑圧が可能
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 2/17

概要
問題点：ミュージカルノイズの発生
◦ 非線系処理による残存ノイズが発生し，聴覚的に不愉快
提案法：カートシスマッチングの導入
◦ ミュージカルノイズがカートシスと相関を持つことに着目
◦ 強調前後での非音声区間のカートシス変動に対する正則化
結果
◦ ミュージカルノイズ発生量が低減
◦ 雑音抑圧性能は従来法に比肩

従来法
ソフトマスクベースの DNN 音声強調 [e.g., Chen+17]
◦ 入力：観測信号のスペクトログラム
◦ 出力：雑音抑圧のための時間周波数ソフトマスク
◦ 損失関数：ターゲットの音声と強調後の音声の距離
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調
DNN
Freq.
Time
T-F soft mask
×
Loss
Noisy speech Clean speech (target)
4/17

問題点：ミュージカルノイズの発生
ミュージカルノイズ [Cappe94, Goh+98]
◦ 非線形な信号処理によって発生する聴覚的に不愉快なノイズ
◦ カートシス（四次統計量）と相関あり [Uemura+08]
◦ カートシス
◦ [Uemura+08] はパワーの零まわりのカートシスを採用しているが，
本発表では振幅の平均周りのカートシスを採用
◦ 赤点線で囲った部分のまだら状の雑音が増えるとカートシスが上昇
音声強調
ミュージカルノイズ
5/17

提案手法
カートシスマッチングを
考慮した DNN 音声強調
6/17

提案法：overview
損失関数：
強調音声とターゲットの距離
7/17
カートシスの解離度（正則化項）
T-F soft mask
×
T inverse
hard mask
×
×
Clean speechNoisy speech

提案法：マスク推定部分（従来法と同様）
損失
◦ ターゲットの音声と強調後の音声の距離
T inverse
hard mask
×
×
T-F soft mask
×

提案法：非音声区間の判定
非音声区間を判定するためのハードマスクを生成
◦ 音声成分が局在する帯域について，時間フレームごとに，
ソフトマスクの周波数方向の平均値より判定
×
×
×
T-F soft mask T inverse
hard mask

提案法：非音声区間のカートシスマッチング
カートシスの乖離度
◦ 強調前後における時間周波数領域の音声のカートシスの変化の度合い
◦ は周波数について分割して適宜重み付けしたカートシス
T-F soft mask
×
T inverse
hard mask
×
×

提案法：overview（再掲）
損失関数：
強調音声とターゲットの距離
11/17
カートシスの解離度（正則化項）
T-F soft mask
×
T inverse
hard mask
×
×

ターゲット観測従来法提案法
実際の強調音声の例
音声と対数振幅スペクトログラムのサンプル
従来法提案法
12/17
提案法において，まだら状が雑音が減少

客観評価実験
従来手法と提案手法についての比較実験
◦ 条件
学習データ JNAS より 50 文 + 非音声区間
テストデータ JSUT より 100 文+ 非音声区間
サンプルレート 16 kHz
雑音：入力 SN 比正規乱数：0, 5, 10 dB
窓関数 Hanning
FFT 長 1024
ホップ長 80
DNN アーキテクチャ
（詳細な構造）
U-Net [Ronneberger+15]
（[Jansson+17] に倣う）
パッチ長 256
最適化手法 Adam [Kingma+14]
バッチサイズ 32
13/17

雑音抑圧性能と音声歪み発生量の評価
Signal-to-Distortion Ratio (SDR)
良
提案法と従来法に優位差はほとんど見られない．
20
18
16
14
12
SDR[dB]
0 5 10
Input SNR [dB]
14/17
提
案
法
従
来
法

ミュージカルノイズ発生量の客観指標の評価
時間周波数領域のカートシスの解離度（非音声区間）
良
提案法は，従来法に比べて優位に小さい．
0 5 10
Input SNR [dB]
200
150
100
50
0
Time-frequencydomain
kurtosisdiscrepancy
15/17
従
来
法
提
案
法

時間領域における雑音の統計的性質の評価
時間領域の尖度（非音声区間）
提案法は，カートシスの意味で，雑音の統計的性質を保存
ガウス性雑音
における理論値
0 5 10
Input SNR [dB]
3
5
9
7
Time-domainkurtosis
16/17
提
案
法
従
来
法

結論と今後の課題
結論
◦ ミュージカルノイズの発生量が小さい音声強調を，カートシスマッ
チングを反映した DNN 雑音抑圧によって定式化
◦ 実験的評価によって提案手法がカートシス上昇を抑制させる
ことを確認
◦ 実験的評価によって提案手法が従来手法に雑音抑圧性能で
劣らないことを確認
今後の展望
◦ 雑音の種類を増やして，入力雑音に対する頑健性を向上
◦ より直接的なミュージカルノイズ発生量の客観指標の探求

カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調

Recommandé

Recommandé

Contenu connexe

Plus de Shinnosuke Takamichi

Plus de Shinnosuke Takamichi (20)

Dernier

Dernier (7)

カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調