多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調

多様なカートシスを持つ雑音に対応した
低ミュージカルノイズDNN音声強調
東京大学大学院情報理工学系研究科
◎溝口聡齋藤佑樹高道慎之介猿渡洋
日本音響学会
2019 年春季研究発表会 1-6-6
3 月 5 日

概要
背景：ハンズフリー音声通信
◦ マイクと人の距離が遠く，音声に雑音が混入
◦ マイクは単一チャネルである場合，非線形な信号処理による
音声強調が必要
目的：聴覚的に良質な音声強調
◦ 雑音のパワー：小
◦ 音声の歪み：小
◦ ミュージカルノイズ発生量：小
従来法：低ミュージカルノイズ DNN 音声強調
◦ DNN を用いた教師あり音声強調
◦ モデルの高い表現力によって高性能な雑音抑圧が可能
◦ カートシスマッチングによってミュージカルノイズの
発生を低減
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 2/19

概要
問題点：多様な雑音への対応性
◦ 複数種類の雑音を用いて学習すると，カートシスの値が過小
評価される雑音があり，ミュージカルノイズの低減が困難
提案法：カートシスマッチングの改良
◦ カートシスの値そのものに依存しない
◦ カートシスの変動のみを多様な雑音に対して平等に評価
結果
◦ 多様な雑音音声についてミュージカルノイズ発生量が低減
◦ 雑音抑圧性能は従来法に比肩
◦ 主観評価によって残留雑音の自然性を保証

従来法
ソフトマスクベースの DNN 音声強調 [e.g., Chen+17]
◦ 入力：観測信号のスペクトログラム
◦ 出力：雑音抑圧のための時間周波数ソフトマスク
◦ 損失関数：ターゲットの音声と強調後の音声の距離
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
DNN
Freq.
Time
T-F soft mask
×
Loss
Noisy speech Clean speech (target)
4/19

問題点：ミュージカルノイズの発生
ミュージカルノイズ [Cappe94, Goh+98]
◦ 非線形な信号処理によって発生する聴覚的に不愉快なノイズ
◦ カートシス（四次統計量）と相関あり [Uemura+08]
◦ カートシス
◦ [Uemura+08] はパワーの零まわりのカートシスを採用しているが，
本発表では振幅の平均周りのカートシスを採用
◦ 赤点線で囲った部分のまだら状の雑音が増えるとカートシスが上昇
音声強調
ミュージカルノイズ
5/19

従来法
低ミュージカルノイズ DNN 音声強調 [溝口ら18]
◦ 損失関数：
Kurtosis discrepancy（正則化項）
T-F soft mask
×
T inverse
hard mask
×
×
Clean speechNoisy speech
6/19

問題点：多様な雑音への対応性
Kurtosis discrepancy
◦ 多様な雑音を学習に用いたときに，カートシスの値に
損失関数が大きく影響される
◦ ゆえに，カートシスの変動を平等に評価できない
雑音ごとに値に大きな差異がある
7/19

提案手法
多様な雑音に対応した
カートシスマッチング
8/17

提案法：改良点
Kurtosis discrepancy
Scaled kurtosis discrepancy
◦ スケールフリーにカートシスの変動を捉えることが可能
◦ カートシス比 [Uemura+08] と 1 の差の絶対値に等価
元のカートシスでスケーリング
9/19

提案法：overview
損失関数：
Scaled kurtosis discrepancy
T-F soft mask
×
T inverse
hard mask
×
×
10/19

提案法：マスク推定部分（従来法と同様）
損失
◦ ターゲットの音声と強調後の音声の距離
T inverse
hard mask
×
×
T-F soft mask
×
11/19

提案法：非音声区間の判定
非音声区間を判定するためのハードマスクを生成
◦ ターゲット音声から直接決定
×
×
×
Noisy speech
T-F soft mask T inverse
hard mask
Clean speech
12/19

提案法：非音声区間のカートシスマッチング
Scaled kurtosis discrepancy による正則化
◦ カートシスの変動を抑制
◦ 多様な雑音に対応
T-F soft mask
×
Clean speech
13/19
Noisy speech
T inverse
hard mask
×
×

比較手法
◦ ソフトマスクベース（正則化なし）
◦ 提案法（SKD による正則化）
◦ KD による正則化は予備実験 [溝口+15]で有効でないことを検証済
実験条件
学習データ JNAS より 31890 文+ 非音声区間
テストデータ JSUT [Sonobe+15] より 200 文 + 非音声区間
サンプルレート 16 kHz
雑音 DEMAND より 5 種とガウス性雑音
入力 SN 比 -5, 0 dB（5, 10 dB については原稿参照）
FFT 長 1024
ホップ長 80
DNN アーキテクチャ U-Net [Ronneberger+15]
14/19

雑音抑圧性能の評価
Signal-to-Distortion Ratio improvement [dB]
提案法と従来法に比肩する．
15/19
良
Input SNR [dB]

音声歪み発生量の評価
Cepstral Distortion [dB]
良
提案法が従来法に比べ悪くなることがある．
16/19
Input SNR [dB]

ミュージカルノイズ発生量の客観評価
Kurtosis ratio
提案法は従来法に比べて良い．
17/19
良
1
Input SNR [dB]

ミュージカルノイズ発生量の主観評価
受聴評価実験
◦ 非音声区間についてそれぞれ 24 人が受聴
◦ 「雑音としてどちらが自然か」を選択
◦ 提案法の選択率
提案法が良

結論と今後の課題
結論
◦ ミュージカルノイズの発生量が小さい音声強調を，多様な
雑音に対応できるように改良
◦ 客観評価によって提案手法がカートシス上昇を抑制させる
ことを確認
◦ 客観評価によって提案手法が従来手法に雑音抑圧性能で
劣らないことを確認
◦ 主観評価によって，提案手法の残留雑音の自然性を確認
今後の展望
◦ 恣意的でないミュージカルノイズ発生量の客観指標の探求

多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調

Editor's Notes