Submit Search
Upload
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
•
Download as PPTX, PDF
•
0 likes
•
1,175 views
Shinnosuke Takamichi
Follow
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Read less
Read more
Technology
Report
Share
Report
Share
1 of 19
Download now
Recommended
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
Daichi Kitamura
ILRMA 20170227 danwakai
ILRMA 20170227 danwakai
SaruwatariLabUTokyo
Recommended
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
Daichi Kitamura
ILRMA 20170227 danwakai
ILRMA 20170227 danwakai
SaruwatariLabUTokyo
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
Kameoka2017 ieice03
Kameoka2017 ieice03
kame_hirokazu
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Yui Sudo
Asj2017 3invited
Asj2017 3invited
SaruwatariLabUTokyo
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
Daichi Kitamura
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
Kitamura Laboratory
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
奈良先端大 情報科学研究科
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
バイアス付きMMSE-STSA推定器の理論解析およびミュージカルノイズフリー雑音抑圧への拡張
バイアス付きMMSE-STSA推定器の理論解析およびミュージカルノイズフリー雑音抑圧への拡張
奈良先端大 情報科学研究科
私がビギナーの頃を振り返って~20代の代表として~
私がビギナーの頃を振り返って~20代の代表として~
Shinnosuke Takamichi
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
Kitamura Laboratory
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
NU_I_TODALAB
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
More Related Content
What's hot
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
Kameoka2017 ieice03
Kameoka2017 ieice03
kame_hirokazu
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Yui Sudo
Asj2017 3invited
Asj2017 3invited
SaruwatariLabUTokyo
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
Daichi Kitamura
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
Kitamura Laboratory
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
奈良先端大 情報科学研究科
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
バイアス付きMMSE-STSA推定器の理論解析およびミュージカルノイズフリー雑音抑圧への拡張
バイアス付きMMSE-STSA推定器の理論解析およびミュージカルノイズフリー雑音抑圧への拡張
奈良先端大 情報科学研究科
私がビギナーの頃を振り返って~20代の代表として~
私がビギナーの頃を振り返って~20代の代表として~
Shinnosuke Takamichi
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
Kitamura Laboratory
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
NU_I_TODALAB
What's hot
(20)
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Kameoka2017 ieice03
Kameoka2017 ieice03
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Asj2017 3invited
Asj2017 3invited
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
バイアス付きMMSE-STSA推定器の理論解析およびミュージカルノイズフリー雑音抑圧への拡張
バイアス付きMMSE-STSA推定器の理論解析およびミュージカルノイズフリー雑音抑圧への拡張
私がビギナーの頃を振り返って~20代の代表として~
私がビギナーの頃を振り返って~20代の代表として~
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
More from Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
More from Shinnosuke Takamichi
(20)
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
統計的ボイチェン研究事情
統計的ボイチェン研究事情
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
1.
多様なカートシスを持つ雑音に対応した 低ミュージカルノイズDNN音声強調 東京大学大学院情報理工学系研究科 ◎溝口 聡 齋藤
佑樹 高道 慎之介 猿渡 洋 日本音響学会 2019 年 春季研究発表会 1-6-6 3 月 5 日
2.
概要 背景:ハンズフリー音声通信 ◦ マイクと人の距離が遠く,音声に雑音が混入 ◦ マイクは単一チャネルである場合,非線形な信号処理による 音声強調が必要 目的:聴覚的に良質な音声強調 ◦
雑音のパワー:小 ◦ 音声の歪み:小 ◦ ミュージカルノイズ発生量:小 従来法:低ミュージカルノイズ DNN 音声強調 ◦ DNN を用いた教師あり音声強調 ◦ モデルの高い表現力によって高性能な雑音抑圧が可能 ◦ カートシスマッチングによってミュージカルノイズの 発生を低減 2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 2/19
3.
概要 問題点:多様な雑音への対応性 ◦ 複数種類の雑音を用いて学習すると,カートシスの値が過小 評価される雑音があり,ミュージカルノイズの低減が困難 提案法:カートシスマッチングの改良 ◦ カートシスの値そのものに依存しない ◦
カートシスの変動のみを多様な雑音に対して平等に評価 結果 ◦ 多様な雑音音声についてミュージカルノイズ発生量が低減 ◦ 雑音抑圧性能は従来法に比肩 ◦ 主観評価によって残留雑音の自然性を保証 2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 3/19
4.
従来法 ソフトマスクベースの DNN 音声強調
[e.g., Chen+17] ◦ 入力:観測信号のスペクトログラム ◦ 出力:雑音抑圧のための時間周波数ソフトマスク ◦ 損失関数:ターゲットの音声 と強調後の音声 の距離 2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 DNN Freq. Time T-F soft mask × Loss Noisy speech Clean speech (target) 4/19
5.
問題点:ミュージカルノイズの発生 ミュージカルノイズ [Cappe94, Goh+98] ◦
非線形な信号処理によって発生する聴覚的に不愉快なノイズ ◦ カートシス(四次統計量)と相関あり [Uemura+08] ◦ カートシス ◦ [Uemura+08] はパワーの零まわりのカートシスを採用しているが, 本発表では振幅の平均周りのカートシスを採用 ◦ 赤点線で囲った部分のまだら状の雑音が増えるとカートシスが上昇 2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 音声強調 ミュージカルノイズ 5/19
6.
従来法 低ミュージカルノイズ DNN 音声強調
[溝口ら18] ◦ 損失関数: 2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 Kurtosis discrepancy(正則化項) T-F soft mask × T inverse hard mask × × Clean speechNoisy speech 6/19
7.
問題点:多様な雑音への対応性 Kurtosis discrepancy ◦ 多様な雑音を学習に用いたときに,カートシスの値に 損失関数が大きく影響される ◦
ゆえに,カートシスの変動を平等に評価できない 2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 雑音ごとに値に大きな差異がある 7/19
8.
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 提案手法 多様な雑音に対応した カートシスマッチング 8/17
9.
提案法:改良点 Kurtosis discrepancy Scaled kurtosis
discrepancy ◦ スケールフリーにカートシスの変動を捉えることが可能 ◦ カートシス比 [Uemura+08] と 1 の差の絶対値に等価 2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 元のカートシスでスケーリング 9/19
10.
提案法:overview 損失関数: 2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 Scaled kurtosis
discrepancy T-F soft mask × T inverse hard mask × × Clean speechNoisy speech 10/19
11.
提案法:マスク推定部分(従来法と同様) 損失 ◦ ターゲットの音声と強調後の音声の距離 2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 T
inverse hard mask × × T-F soft mask × Clean speechNoisy speech 11/19
12.
提案法:非音声区間の判定 非音声区間を判定するためのハードマスクを生成 ◦ ターゲット音声から直接決定 2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 × × × Noisy
speech T-F soft mask T inverse hard mask Clean speech 12/19
13.
提案法:非音声区間のカートシスマッチング Scaled kurtosis discrepancy
による正則化 ◦ カートシスの変動を抑制 ◦ 多様な雑音に対応 2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 T-F soft mask × Clean speech 13/19 Noisy speech T inverse hard mask × ×
14.
比較手法 ◦ ソフトマスクベース(正則化なし) ◦ 提案法(SKD
による正則化) ◦ KD による正則化は予備実験 [溝口+15]で有効でないことを検証済 実験条件 2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 学習データ JNAS より 31890 文+ 非音声区間 テストデータ JSUT [Sonobe+15] より 200 文 + 非音声区間 サンプルレート 16 kHz 雑音 DEMAND より 5 種 と ガウス性雑音 入力 SN 比 -5, 0 dB(5, 10 dB については原稿参照) FFT 長 1024 ホップ 長 80 DNN アーキテクチャ U-Net [Ronneberger+15] 14/19
15.
雑音抑圧性能の評価 Signal-to-Distortion Ratio improvement
[dB] 2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 提案法と従来法に比肩する. 15/19 良 Input SNR [dB]
16.
音声歪み発生量の評価 Cepstral Distortion [dB] 2019/3/5
多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 良 提案法が従来法に比べ悪くなることがある. 16/19 Input SNR [dB]
17.
ミュージカルノイズ発生量の客観評価 Kurtosis ratio 2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 提案法は従来法に比べて良い. 17/19 良 1 Input
SNR [dB]
18.
ミュージカルノイズ発生量の主観評価 受聴評価実験 ◦ 非音声区間についてそれぞれ 24
人が受聴 ◦ 「雑音としてどちらが自然か」を選択 ◦ 提案法の選択率 2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 18/19 提案法が良
19.
結論と今後の課題 結論 ◦ ミュージカルノイズの発生量が小さい音声強調を,多様な 雑音に対応できるように改良 ◦ 客観評価によって提案手法がカートシス上昇を抑制させる ことを確認 ◦
客観評価によって提案手法が従来手法に雑音抑圧性能で 劣らないことを確認 ◦ 主観評価によって,提案手法の残留雑音の自然性を確認 今後の展望 ◦ 恣意的でないミュージカルノイズ発生量の客観指標の探求 2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 19/19
Editor's Notes
東京大学大学院の溝口と申します.標記の題目で発表いたします.
まず,概要をご説明します.ハンズフリー音声通信においては,マイクと人の距離が遠いために音声に雑音が交じることがあり,聴覚的に良質な音声強調を行う必要があります.このとき,マイクが単一チャネルであれば,非線形な信号処理を行うことは避けられません.ここで,非線形な信号処理によって,ミュージカルノイズと呼ばれるアーティファクトが発生します. 聴覚的に良質な音声強調を行うためには,音声の歪みやミュージカルノイズが発生しないように,雑音を抑圧する必要があります. 例えば,強力な非線形音声強調手法の一つである DNN ソフトマスク音声強調について,我々は以前低ミュージカルノイズな改良を加えた手法を提案しました.これは,カートシスマッチングという正則化によるものでした.
しかしながら,以前我々が提案した低ミュージカルノイズ DNN 音声強調は多様な雑音に対応していません.カートシスの値が元々小さいガウス性雑音などが学習データに含まれていると,抑圧後の雑音のカートシスが過小評価され,ミュージカルノイズの発生を抑圧できず,聴覚印象を損なう可能性があります. そこで,我々はカートシスマッチングを多様な雑音に対応させるための手法を考案しました. その結果として,改良されたカートシスマッチングが多様な雑音に対して雑音抑圧性能を損なわないままにミュージカルノイズの発生を低減させる効果があるということを発表します. また,主観評価による残留雑音の自然性の保証についても述べます.
改めて,大元の手法であるソフトマスクベースの DNN 音声強調について説明いたします. 観測信号のスペクトログラム X を入力,雑音抑圧のための時間周波数ソフトマスク S を出力として,出力と入力の積 SX が強調音声となるように DNN を学習します.このとき,損失関数は強調後の音声 SX とターゲットの音声 Y の距離で与えます.
このとき,問題点として,ミュージカルノイズの発生が挙げられます.ミュージカルノイズとは,非線形な信号処理によって発生する音程を含んだ雑音であり,聴覚的に好ましくないことが知られています. 従来法による強調前の音声と,強調後の音声をそれぞれスペクトログラムに表示しました.強調後の音声について,高域に縞状のノイズが散見されますが,これがミュージカルノイズです. また,ミュージカルノイズの発生量は,四次統計量,すなわちカートシスと強い相関があるということが Uemura らによって知られています.ただし,本発表では,Uemura らとは異なる定義のカートシスを採用しています.
つづいて,我々が以前発表した低ミュージカルノイズ DNN 音声強調について述べます. これは,カートシスの変動を抑えるために,カートシスディスクレパンシーによる正則化を行うことで,ミュージカルノイズの発生を低減させるというものです.
しかしながら,カートシスディスクレパンシーには,カートシスの値そのものによって値が大きく左右されるという難点があります. 多様な雑音の含まれるような音声をもちいて学習を行った場合,雑音のカートシスがそれぞれ異なることによって,雑音ごとのカートシスの変動を損失関数に平等に加味できず,ミュージカルノイズの発生を抑制できないような雑音が現れる可能性があります.
つづいて,提案手法について説明します.
提案手法では,カートシスディスクレパンシーの問題点を取り除くために,強調前のカートシスでスケーリングした,スケールドカートシスディスクレパンシーを利用しています. これによって,雑音のカートシスそのものの大きさに関係なく,カートシスの変動のみを平等に損失関数に加味できることが期待でき,多様な雑音に対応した低ミュージカルノイズ DNN 音声強調の達成が期待されます. このスケールドカートシスディスクレパンシーは,カートシス比と 1 の距離に等価であるため,以前の研究とも矛盾がありません.
提案法の学習について詳細を述べます.強調音声とターゲットの距離 L と,観測音声と強調音声の非音声区間におけるスケールドカートシスディスクレパンシー SKD の重み付き和によって損失関数を定義し,これの最小化によって学習を行います. これによって,DNN の表現力による高い雑音抑圧性能を得るとともに,カートシスの変動を抑制することによってミュージカルノイズの発生量を低減させることができます.
音声強調部分では,ソフトマスクを出力とするような DNN を用意します.入力 X が観測信号,出力 S がソフトマスクです.入力と出力の積が強調音声のターゲット Y に近づくように学習を行います.
次に,カートシスマッチングを行うために非音声区間の判定のためのハードマスクを生成します. これは,クリーンな音声から直接決定することができます.
つづいて,カートシスマッチングについて説明します.先程生成したハードマスクによって得られる観測信号の非音声区間 MX と,強調信号の非音声区間 MSX について,カートシスマッチングを行います.ここでは,提案法であるスケールドカートシスディスクレパンシーを用います.
最後に,従来法と提案法を比較する客観評価実験を行いました.学習データ,テストデータとしてそれぞれ別の話者の音声に非音声区間を付加し,さらに正規性雑音を重畳したものを,用意しました. 入力SN比は学習データ,テストデータともに -5 dB, 0 dB のものを用意しました.学習は,すべてのSN比,すべての雑音のデータを一つのデータセットとして行いました.DNNの構造にはU-Netを採用しました. その他の条件と,5 dB,10 dB のときの結果については,こちらの表ないし原稿を御覧ください.
まず,雑音抑圧性能を評価するためにテストデータのSDR改善量を比較しました.いずれの入力SN比の場合も,提案法と従来法に明確な有意差はありませんでした.ここから,雑音抑圧性能や音声歪みの発生量については,提案法は従来法に劣らないことが示唆されます.
つぎに,音声歪みの少なさを評価するためにテストデータのケプストラム歪みを比較しました. ここでは,提案法が従来法に比べて劣化する場合があることを確認できます.
つづいて,ミュージカルノイズの発生量を評価するためにカートシスレシオを比較しました.いずれのケースに置いても提案法は従来法に比べて良くなることがわかります.
最後に,強調後の音声のミュージカルノイズ発生量を主観評価によって比較しました. 6 種類の雑音 と 2 パターンの SN 比,合計 12 パターンについて,24 人に非音声区間を聞いてもらい,どちらの雑音が自然か選んでもらいました. 結果として,ガウス性の場合を除き,ほとんどの場合では提案法が従来法に比べて自然であるという結果が得られました.
結論を述べます. 以上です.
Download now