Soumettre la recherche
Mettre en ligne
カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調
•
2 j'aime
•
908 vues
Shinnosuke Takamichi
Suivre
日本音響学会 2018秋 研究発表会
Lire moins
Lire la suite
Technologie
Signaler
Partager
Signaler
Partager
1 sur 17
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
Kitamura Laboratory
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
RyoAIHARA1
ICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOK
Atsushi_Ando
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
Recommandé
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
Kitamura Laboratory
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
RyoAIHARA1
ICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOK
Atsushi_Ando
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Contenu connexe
Plus de Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
Plus de Shinnosuke Takamichi
(20)
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
統計的ボイチェン研究事情
統計的ボイチェン研究事情
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Dernier
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Dernier
(7)
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調
1.
カートシスマッチングと深層学習に基づく 低ミュージカルノイズ音声強調 東京大学大学院情報理工学系研究科 ☆溝口 聡 齋藤
佑樹 高道 慎之介 猿渡 洋 日本音響学会 2018 年 秋季研究発表会 2-1-17 9 月 13 日
2.
概要 背景:ハンズフリー音声通信 ◦ マイクと人の距離が遠く,音声に雑音が混入 ◦ マイクは単一チャネルである場合,非線形な信号処理による 音声強調が必要 目的:聴覚的に良質な音声強調 ◦
雑音のパワー:小 ◦ 音声の歪み:小 ◦ ミュージカルノイズ発生量:小 従来法:DNN ソフトマスク音声強調 ◦ DNN を用いた教師あり音声強調 ◦ モデルの高い表現力によって高性能な雑音抑圧が可能 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 2/17
3.
概要 問題点:ミュージカルノイズの発生 ◦ 非線系処理による残存ノイズが発生し,聴覚的に不愉快 提案法:カートシスマッチングの導入 ◦ ミュージカルノイズがカートシスと相関を持つことに着目 ◦
強調前後での非音声区間のカートシス変動に対する正則化 結果 ◦ ミュージカルノイズ発生量が低減 ◦ 雑音抑圧性能は従来法に比肩 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 3/17
4.
従来法 ソフトマスクベースの DNN 音声強調
[e.g., Chen+17] ◦ 入力:観測信号のスペクトログラム ◦ 出力:雑音抑圧のための時間周波数ソフトマスク ◦ 損失関数:ターゲットの音声 と強調後の音声 の距離 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 DNN Freq. Time T-F soft mask × Loss Noisy speech Clean speech (target) 4/17
5.
問題点:ミュージカルノイズの発生 ミュージカルノイズ [Cappe94, Goh+98] ◦
非線形な信号処理によって発生する聴覚的に不愉快なノイズ ◦ カートシス(四次統計量)と相関あり [Uemura+08] ◦ カートシス ◦ [Uemura+08] はパワーの零まわりのカートシスを採用しているが, 本発表では振幅の平均周りのカートシスを採用 ◦ 赤点線で囲った部分のまだら状の雑音が増えるとカートシスが上昇 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 音声強調 ミュージカルノイズ 5/17
6.
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 提案手法 カートシスマッチングを 考慮した DNN
音声強調 6/17
7.
提案法:overview 損失関数: 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 強調音声とターゲットの距離 7/17 カートシスの解離度(正則化項) T-F soft
mask × T inverse hard mask × × Clean speechNoisy speech
8.
提案法:マスク推定部分(従来法と同様) 損失 ◦ ターゲットの音声と強調後の音声の距離 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調
8/17 T inverse hard mask × × T-F soft mask × Clean speechNoisy speech
9.
提案法:非音声区間の判定 非音声区間を判定するためのハードマスクを生成 ◦ 音声成分が局在する帯域について,時間フレームごとに, ソフトマスクの周波数方向の平均値より判定 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調
9/17 × × × Clean speechNoisy speech T-F soft mask T inverse hard mask
10.
提案法:非音声区間のカートシスマッチング カートシスの乖離度 ◦ 強調前後における時間周波数領域の音声のカートシスの変化の度合い ◦ は周波数について分割して適宜重み付けしたカートシス 2018/9/13
カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 10/17 T-F soft mask × Clean speechNoisy speech T inverse hard mask × ×
11.
提案法:overview(再掲) 損失関数: 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 強調音声とターゲットの距離 11/17 カートシスの解離度(正則化項) T-F soft
mask × T inverse hard mask × × Clean speechNoisy speech
12.
ターゲット 観測 従来法
提案法 実際の強調音声の例 音声と対数振幅スペクトログラムのサンプル 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 従来法 提案法 12/17 提案法において,まだら状が雑音が減少
13.
客観評価実験 従来手法と提案手法についての比較実験 ◦ 条件 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 学習データ
JNAS より 50 文 + 非音声区間 テストデータ JSUT より 100 文+ 非音声区間 サンプルレート 16 kHz 雑音:入力 SN 比 正規乱数:0, 5, 10 dB 窓関数 Hanning FFT 長 1024 ホップ 長 80 DNN アーキテクチャ (詳細な構造) U-Net [Ronneberger+15] ([Jansson+17] に倣う) パッチ長 256 最適化手法 Adam [Kingma+14] バッチサイズ 32 13/17
14.
雑音抑圧性能と音声歪み発生量の評価 Signal-to-Distortion Ratio (SDR) 2018/9/13
カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 良 提案法と従来法に優位差はほとんど見られない. 20 18 16 14 12 SDR[dB] 0 5 10 Input SNR [dB] 14/17 提 案 法 従 来 法
15.
ミュージカルノイズ発生量の客観指標の評価 時間周波数領域のカートシスの解離度(非音声区間) 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 良 提案法は,従来法に比べて優位に小さい. 0 5
10 Input SNR [dB] 200 150 100 50 0 Time-frequencydomain kurtosisdiscrepancy 15/17 従 来 法 提 案 法
16.
時間領域における雑音の統計的性質の評価 時間領域の尖度(非音声区間) 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 提案法は,カートシスの意味で,雑音の統計的性質を保存 ガウス性雑音 における理論値 0 5
10 Input SNR [dB] 3 5 9 7 Time-domainkurtosis 16/17 提 案 法 従 来 法
17.
結論と今後の課題 結論 ◦ ミュージカルノイズの発生量が小さい音声強調を,カートシスマッ チングを反映した DNN
雑音抑圧によって定式化 ◦ 実験的評価によって提案手法がカートシス上昇を抑制させる ことを確認 ◦ 実験的評価によって提案手法が従来手法に雑音抑圧性能で 劣らないことを確認 今後の展望 ◦ 雑音の種類を増やして,入力雑音に対する頑健性を向上 ◦ より直接的なミュージカルノイズ発生量の客観指標の探求 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 17/17
Télécharger maintenant