SlideShare a Scribd company logo
1 of 19
多様なカートシスを持つ雑音に対応した
低ミュージカルノイズDNN音声強調
東京大学大学院情報理工学系研究科
◎溝口 聡 齋藤 佑樹 高道 慎之介 猿渡 洋
日本音響学会
2019 年 春季研究発表会 1-6-6
3 月 5 日
概要
背景:ハンズフリー音声通信
◦ マイクと人の距離が遠く,音声に雑音が混入
◦ マイクは単一チャネルである場合,非線形な信号処理による
音声強調が必要
目的:聴覚的に良質な音声強調
◦ 雑音のパワー:小
◦ 音声の歪み:小
◦ ミュージカルノイズ発生量:小
従来法:低ミュージカルノイズ DNN 音声強調
◦ DNN を用いた教師あり音声強調
◦ モデルの高い表現力によって高性能な雑音抑圧が可能
◦ カートシスマッチングによってミュージカルノイズの
発生を低減
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 2/19
概要
問題点:多様な雑音への対応性
◦ 複数種類の雑音を用いて学習すると,カートシスの値が過小
評価される雑音があり,ミュージカルノイズの低減が困難
提案法:カートシスマッチングの改良
◦ カートシスの値そのものに依存しない
◦ カートシスの変動のみを多様な雑音に対して平等に評価
結果
◦ 多様な雑音音声についてミュージカルノイズ発生量が低減
◦ 雑音抑圧性能は従来法に比肩
◦ 主観評価によって残留雑音の自然性を保証
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 3/19
従来法
ソフトマスクベースの DNN 音声強調 [e.g., Chen+17]
◦ 入力:観測信号のスペクトログラム
◦ 出力:雑音抑圧のための時間周波数ソフトマスク
◦ 損失関数:ターゲットの音声 と強調後の音声 の距離
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
DNN
Freq.
Time
T-F soft mask
×
Loss
Noisy speech Clean speech (target)
4/19
問題点:ミュージカルノイズの発生
ミュージカルノイズ [Cappe94, Goh+98]
◦ 非線形な信号処理によって発生する聴覚的に不愉快なノイズ
◦ カートシス(四次統計量)と相関あり [Uemura+08]
◦ カートシス
◦ [Uemura+08] はパワーの零まわりのカートシスを採用しているが,
本発表では振幅の平均周りのカートシスを採用
◦ 赤点線で囲った部分のまだら状の雑音が増えるとカートシスが上昇
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
音声強調
ミュージカルノイズ
5/19
従来法
低ミュージカルノイズ DNN 音声強調 [溝口ら18]
◦ 損失関数:
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
Kurtosis discrepancy(正則化項)
T-F soft mask
×
T inverse
hard mask
×
×
Clean speechNoisy speech
6/19
問題点:多様な雑音への対応性
Kurtosis discrepancy
◦ 多様な雑音を学習に用いたときに,カートシスの値に
損失関数が大きく影響される
◦ ゆえに,カートシスの変動を平等に評価できない
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
雑音ごとに値に大きな差異がある
7/19
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
提案手法
多様な雑音に対応した
カートシスマッチング
8/17
提案法:改良点
Kurtosis discrepancy
Scaled kurtosis discrepancy
◦ スケールフリーにカートシスの変動を捉えることが可能
◦ カートシス比 [Uemura+08] と 1 の差の絶対値に等価
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
元のカートシスでスケーリング
9/19
提案法:overview
損失関数:
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
Scaled kurtosis discrepancy
T-F soft mask
×
T inverse
hard mask
×
×
Clean speechNoisy speech
10/19
提案法:マスク推定部分(従来法と同様)
損失
◦ ターゲットの音声と強調後の音声の距離
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
T inverse
hard mask
×
×
T-F soft mask
×
Clean speechNoisy speech
11/19
提案法:非音声区間の判定
非音声区間を判定するためのハードマスクを生成
◦ ターゲット音声から直接決定
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
×
×
×
Noisy speech
T-F soft mask T inverse
hard mask
Clean speech
12/19
提案法:非音声区間のカートシスマッチング
Scaled kurtosis discrepancy による正則化
◦ カートシスの変動を抑制
◦ 多様な雑音に対応
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
T-F soft mask
×
Clean speech
13/19
Noisy speech
T inverse
hard mask
×
×
比較手法
◦ ソフトマスクベース(正則化なし)
◦ 提案法(SKD による正則化)
◦ KD による正則化は予備実験 [溝口+15]で有効でないことを検証済
実験条件
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
学習データ JNAS より 31890 文+ 非音声区間
テストデータ JSUT [Sonobe+15] より 200 文 + 非音声区間
サンプルレート 16 kHz
雑音 DEMAND より 5 種 と ガウス性雑音
入力 SN 比 -5, 0 dB(5, 10 dB については原稿参照)
FFT 長 1024
ホップ 長 80
DNN アーキテクチャ U-Net [Ronneberger+15]
14/19
雑音抑圧性能の評価
Signal-to-Distortion Ratio improvement [dB]
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
提案法と従来法に比肩する.
15/19
良
Input SNR [dB]
音声歪み発生量の評価
Cepstral Distortion [dB]
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
良
提案法が従来法に比べ悪くなることがある.
16/19
Input SNR [dB]
ミュージカルノイズ発生量の客観評価
Kurtosis ratio
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
提案法は従来法に比べて良い.
17/19
良
1
Input SNR [dB]
ミュージカルノイズ発生量の主観評価
受聴評価実験
◦ 非音声区間についてそれぞれ 24 人が受聴
◦ 「雑音としてどちらが自然か」を選択
◦ 提案法の選択率
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 18/19
提案法が良
結論と今後の課題
結論
◦ ミュージカルノイズの発生量が小さい音声強調を,多様な
雑音に対応できるように改良
◦ 客観評価によって提案手法がカートシス上昇を抑制させる
ことを確認
◦ 客観評価によって提案手法が従来手法に雑音抑圧性能で
劣らないことを確認
◦ 主観評価によって,提案手法の残留雑音の自然性を確認
今後の展望
◦ 恣意的でないミュージカルノイズ発生量の客観指標の探求
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 19/19

More Related Content

What's hot

Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...Daichi Kitamura
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...Yui Sudo
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...Daichi Kitamura
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...Daichi Kitamura
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測Kitamura Laboratory
 
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離奈良先端大 情報科学研究科
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
バイアス付きMMSE-STSA推定器の理論解析およびミュージカルノイズフリー雑音抑圧への拡張
バイアス付きMMSE-STSA推定器の理論解析およびミュージカルノイズフリー雑音抑圧への拡張バイアス付きMMSE-STSA推定器の理論解析およびミュージカルノイズフリー雑音抑圧への拡張
バイアス付きMMSE-STSA推定器の理論解析およびミュージカルノイズフリー雑音抑圧への拡張奈良先端大 情報科学研究科
 
私がビギナーの頃を振り返って ~20代の代表として~
私がビギナーの頃を振り返って~20代の代表として~私がビギナーの頃を振り返って~20代の代表として~
私がビギナーの頃を振り返って ~20代の代表として~Shinnosuke Takamichi
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測Kitamura Laboratory
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法NU_I_TODALAB
 

What's hot (20)

Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
 
Kameoka2017 ieice03
Kameoka2017 ieice03Kameoka2017 ieice03
Kameoka2017 ieice03
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
 
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
バイアス付きMMSE-STSA推定器の理論解析およびミュージカルノイズフリー雑音抑圧への拡張
バイアス付きMMSE-STSA推定器の理論解析およびミュージカルノイズフリー雑音抑圧への拡張バイアス付きMMSE-STSA推定器の理論解析およびミュージカルノイズフリー雑音抑圧への拡張
バイアス付きMMSE-STSA推定器の理論解析およびミュージカルノイズフリー雑音抑圧への拡張
 
私がビギナーの頃を振り返って ~20代の代表として~
私がビギナーの頃を振り返って~20代の代表として~私がビギナーの頃を振り返って~20代の代表として~
私がビギナーの頃を振り返って ~20代の代表として~
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 

多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調

Editor's Notes

  1. 東京大学大学院の溝口と申します.標記の題目で発表いたします.
  2. まず,概要をご説明します.ハンズフリー音声通信においては,マイクと人の距離が遠いために音声に雑音が交じることがあり,聴覚的に良質な音声強調を行う必要があります.このとき,マイクが単一チャネルであれば,非線形な信号処理を行うことは避けられません.ここで,非線形な信号処理によって,ミュージカルノイズと呼ばれるアーティファクトが発生します. 聴覚的に良質な音声強調を行うためには,音声の歪みやミュージカルノイズが発生しないように,雑音を抑圧する必要があります. 例えば,強力な非線形音声強調手法の一つである DNN ソフトマスク音声強調について,我々は以前低ミュージカルノイズな改良を加えた手法を提案しました.これは,カートシスマッチングという正則化によるものでした.
  3. しかしながら,以前我々が提案した低ミュージカルノイズ DNN 音声強調は多様な雑音に対応していません.カートシスの値が元々小さいガウス性雑音などが学習データに含まれていると,抑圧後の雑音のカートシスが過小評価され,ミュージカルノイズの発生を抑圧できず,聴覚印象を損なう可能性があります. そこで,我々はカートシスマッチングを多様な雑音に対応させるための手法を考案しました. その結果として,改良されたカートシスマッチングが多様な雑音に対して雑音抑圧性能を損なわないままにミュージカルノイズの発生を低減させる効果があるということを発表します. また,主観評価による残留雑音の自然性の保証についても述べます.
  4. 改めて,大元の手法であるソフトマスクベースの DNN 音声強調について説明いたします. 観測信号のスペクトログラム X を入力,雑音抑圧のための時間周波数ソフトマスク S を出力として,出力と入力の積 SX が強調音声となるように DNN を学習します.このとき,損失関数は強調後の音声 SX とターゲットの音声 Y の距離で与えます.
  5. このとき,問題点として,ミュージカルノイズの発生が挙げられます.ミュージカルノイズとは,非線形な信号処理によって発生する音程を含んだ雑音であり,聴覚的に好ましくないことが知られています. 従来法による強調前の音声と,強調後の音声をそれぞれスペクトログラムに表示しました.強調後の音声について,高域に縞状のノイズが散見されますが,これがミュージカルノイズです. また,ミュージカルノイズの発生量は,四次統計量,すなわちカートシスと強い相関があるということが Uemura らによって知られています.ただし,本発表では,Uemura らとは異なる定義のカートシスを採用しています.
  6. つづいて,我々が以前発表した低ミュージカルノイズ DNN 音声強調について述べます. これは,カートシスの変動を抑えるために,カートシスディスクレパンシーによる正則化を行うことで,ミュージカルノイズの発生を低減させるというものです.
  7. しかしながら,カートシスディスクレパンシーには,カートシスの値そのものによって値が大きく左右されるという難点があります. 多様な雑音の含まれるような音声をもちいて学習を行った場合,雑音のカートシスがそれぞれ異なることによって,雑音ごとのカートシスの変動を損失関数に平等に加味できず,ミュージカルノイズの発生を抑制できないような雑音が現れる可能性があります.
  8. つづいて,提案手法について説明します.
  9. 提案手法では,カートシスディスクレパンシーの問題点を取り除くために,強調前のカートシスでスケーリングした,スケールドカートシスディスクレパンシーを利用しています. これによって,雑音のカートシスそのものの大きさに関係なく,カートシスの変動のみを平等に損失関数に加味できることが期待でき,多様な雑音に対応した低ミュージカルノイズ DNN 音声強調の達成が期待されます. このスケールドカートシスディスクレパンシーは,カートシス比と 1 の距離に等価であるため,以前の研究とも矛盾がありません.
  10. 提案法の学習について詳細を述べます.強調音声とターゲットの距離 L と,観測音声と強調音声の非音声区間におけるスケールドカートシスディスクレパンシー SKD の重み付き和によって損失関数を定義し,これの最小化によって学習を行います. これによって,DNN の表現力による高い雑音抑圧性能を得るとともに,カートシスの変動を抑制することによってミュージカルノイズの発生量を低減させることができます.
  11. 音声強調部分では,ソフトマスクを出力とするような DNN を用意します.入力 X が観測信号,出力 S がソフトマスクです.入力と出力の積が強調音声のターゲット Y に近づくように学習を行います.
  12. 次に,カートシスマッチングを行うために非音声区間の判定のためのハードマスクを生成します. これは,クリーンな音声から直接決定することができます.
  13. つづいて,カートシスマッチングについて説明します.先程生成したハードマスクによって得られる観測信号の非音声区間 MX と,強調信号の非音声区間 MSX について,カートシスマッチングを行います.ここでは,提案法であるスケールドカートシスディスクレパンシーを用います.
  14. 最後に,従来法と提案法を比較する客観評価実験を行いました.学習データ,テストデータとしてそれぞれ別の話者の音声に非音声区間を付加し,さらに正規性雑音を重畳したものを,用意しました. 入力SN比は学習データ,テストデータともに -5 dB, 0 dB のものを用意しました.学習は,すべてのSN比,すべての雑音のデータを一つのデータセットとして行いました.DNNの構造にはU-Netを採用しました. その他の条件と,5 dB,10 dB のときの結果については,こちらの表ないし原稿を御覧ください.
  15. まず,雑音抑圧性能を評価するためにテストデータのSDR改善量を比較しました.いずれの入力SN比の場合も,提案法と従来法に明確な有意差はありませんでした.ここから,雑音抑圧性能や音声歪みの発生量については,提案法は従来法に劣らないことが示唆されます.
  16. つぎに,音声歪みの少なさを評価するためにテストデータのケプストラム歪みを比較しました. ここでは,提案法が従来法に比べて劣化する場合があることを確認できます.
  17. つづいて,ミュージカルノイズの発生量を評価するためにカートシスレシオを比較しました.いずれのケースに置いても提案法は従来法に比べて良くなることがわかります.
  18. 最後に,強調後の音声のミュージカルノイズ発生量を主観評価によって比較しました. 6 種類の雑音 と 2 パターンの SN 比,合計 12 パターンについて,24 人に非音声区間を聞いてもらい,どちらの雑音が自然か選んでもらいました. 結果として,ガウス性の場合を除き,ほとんどの場合では提案法が従来法に比べて自然であるという結果が得られました.
  19. 結論を述べます. 以上です.