SlideShare une entreprise Scribd logo
1  sur  30
Music Signal Separation Using Supervised
Nonnegative Matrix Factorization with Orthogonality
and Maximum-divergence Penalties
直交化及び距離最大化則条件を用いた
教師あり非負値行列因子分解による音楽信号分離
北村大地, 猿渡洋, 八木浩介, 鹿野清宏
(奈良先端科学技術大学院大学)
高橋祐, 近藤多伸
(ヤマハ株式会社)
発表の流れ
• 研究背景
• 従来手法
– 非負値行列因子分解
– 教師あり非負値行列因子分解
– 従来手法の問題点
• 提案手法
– 罰則条件付き教師あり非負値行列因子分解
• 基底直交化罰則条件
• 基底間距離最大化罰則条件
• 評価実験
– 2音源混合信号
– 4音源混合信号
• まとめ 2
発表の流れ
• 研究背景
• 従来手法
– 非負値行列因子分解
– 教師あり非負値行列因子分解
– 従来手法の問題点
• 提案手法
– 罰則条件付き教師あり非負値行列因子分解
• 基底直交化罰則条件
• 基底間距離最大化罰則条件
• 評価実験
– 2音源混合信号
– 4音源混合信号
• まとめ 3
• 音源分離技術
– 複数の音源が混合された信号を個々の音源に分離する信号処理
– 音声と雑音の分離,個々の音源の編集,音拡張現実感への基盤技術
• 代表的な音源分離方法
– 時間-周波数表現されたスペクトログラム上で音源ごとに分解
研究背景
特定音源の
分離・抽出
Time
Frequency
2つの音が存在
最初の音
2番目の音
分離
4
発表の流れ
• 研究背景
• 従来手法
– 非負値行列因子分解
– 教師あり非負値行列因子分解
– 従来手法の問題点
• 提案手法
– 罰則条件付き教師あり非負値行列因子分解
• 基底直交化罰則条件
• 基底間距離最大化罰則条件
• 評価実験
– 2音源混合信号
– 4音源混合信号
• まとめ 5
• 非負値行列因子分解 (nonnegative matrix factorization: NMF)
– スパース分解表現による特徴量抽出手法
• 分解された基底を音源毎に選別する教師無しNMFは非常に困難
従来手法: 非負値行列因子分解 [Lee, et al., 2012]
Amplitude
Amplitude
観測行列
(スペクトログラム)
基底行列
(頻出スペクトルパターン)
アクティベーション行列
(時間的なゲイン変化)
Time
Ω: 周波数ビン数
𝑇: 時間フレーム数
𝐾: 基底数
Time
Frequency
Frequency
6
パーツ,基底
従来手法: 教師ありNMF (SNMF) [Smaragdis, et al., 2007]
• 分離したい目的音の教師 (サンプル) 音を事前に学習
– 学習プロセスで教師スペクトル基底 (dictionary) を作成
– 分離プロセスで目的音 と,非目的音 に分離
分離プロセス 最適化
学習プロセス
教師音から作成した教師スペクトル基底分離目的音の教師音
7
固定
音階情報等
目的音 非目的音混合音
従来手法の問題点
• SNMFにおける基底共有問題
– 教師基底 とその他の基底 の間には特に制約が無い
– 目的音のスペクトルがその他の基底 に現れる可能性がある
– 推定した目的音には欠損が生じる
– コスト関数が混合信号 と の距離のみで定義さ
れているため
8
推定目的音 推定非目的音本来の目的信号
その他の基底 に教師と同じスペクトルが現れた場合
基底共有問題: SNMFによる分離例
9
目的音のみの
信号 (理想)
混合信号
従来手法
SNMFで
分離
基底共有問題: SNMFによる分離例
10
非目的音
目的音のみの
信号 (理想)
混合信号
従来手法
SNMFで
分離
基底共有問題: SNMFによる分離例
11
目的音のみの
信号 (理想)
混合信号 分離信号
分離信号には目的成分
の欠損が生じている
従来手法
SNMFで
分離
発表の流れ
• 研究背景
• 従来手法
– 非負値行列因子分解
– 教師あり非負値行列因子分解
– 従来手法の問題点
• 提案手法
– 罰則条件付き教師あり非負値行列因子分解
• 基底直交化罰則条件
• 基底間距離最大化罰則条件
• 評価実験
– 2音源混合信号
– 4音源混合信号
• まとめ 12
提案手法: 罰則条件付きSNMF
• 教師と同じスペクトル基底がその他の基底に現れる
• その他の基底 を教師基底 と (できるだけ) 無相関に
する罰則条件をコスト関数に付与する
• 罰則条件付きSNMF (Penalized SNMF: PSNMF)
13
基底共有問題が発生,分離した目的音が欠落
目的音 非目的音混合音 固定
なるべく と無相関となるように最適化
SNMFの分解モデルとコスト関数
14
分解モデル:
SNMFのコスト関数:
一般化距離関数: -divergence [Eguchi, et al., 2001]
教師基底 (固定)
PSNMFの分解モデルとコスト関数
15
無相関にする罰則項を付与
2種類の罰則項を提案する
分解モデル:
SNMFのコスト関数:
PSNMFのコスト関数:
教師基底 (固定)
基底直交化罰則条件
• 教師基底 とその他の基底 の内積ができるだけ小さ
くなる を求める
– 類似した基底が現れると は大きな値になる
• 基底は全て周波数方向の総和が1になる制限を与える
– NMFにおけるスケールの任意性を無くすため
• コスト関数に付与する際に重み係数 を与える
16
通常のNMFは
スケールが任意
基底間距離最大化罰則条件
• 教師基底 とできるだけ遠いその他の基底 を求める
– 類似した基底が現れると距離値は小さな値になる
• 基底は全て周波数方向の総和が1になる制限を与える
• コスト関数に付与する際に負号を反転した指数関数とし
重み係数 と感度パラメータ を与える
– NMF項と合わせて罰則項も最小化問題とするため
– 罰則項の最小値を0とするため 17
PSNMFの最適化更新式の導出
• コスト関数を最小化する変数 を求める
• 導出には補助関数法を用いる
– コスト関数 の上限を与える補助関数 を定義
– 補助変数と目的変数を交互に最小化してコスト関数を間接的に
最小化
– と の補助関数を設計する
18
PSNMFの最適化更新式の導出
• コスト関数を最小化する変数 を求める
• 第二項と第三項は の値に応じて凸関数 (Convex) か
凹関数 (Concave) になる
– 凸関数: Jensenの不等式
– 凹関数: 接線不等式
19
但し,
PSNMFの最適化更新式の導出
• コスト関数を最小化する変数 を求める
• 常に凸関数になる
– 凸関数: Jensenの不等式
20
但し, は補助変数
PSNMFの最適化更新式の導出
• コスト関数を最小化する変数 を求める
• 設計した補助関数 を各変数で偏微分
21
PSNMFの最適化更新式
• 直交化罰則条件の更新式
22
但し,
PSNMFの最適化更新式
• 距離最大化罰則条件の更新式
23
但し,
発表の流れ
• 研究背景
• 従来手法
– 非負値行列因子分解
– 教師あり非負値行列因子分解
– 従来手法の問題点
• 提案手法
– 罰則条件付き教師あり非負値行列因子分解
• 基底直交化罰則条件
• 基底間距離最大化罰則条件
• 評価実験
– 2音源混合信号
– 4音源混合信号
• まとめ 24
• MIDI信号で作成したモノラル音源
• Clarinet, Oboe, Piano, Celloの4種類
• 2音源混合と4音源混合の信号で評価
– 2音源は全12パターン,4音源は全4パターンの平均評価値を算出
• 教師音は分離目的音の音域をカバーする同じMIDIの音階情報
実験条件
25
教師用
音源信号
目的音源の音域をカバーする2オクターブの24音階
• その他の実験条件
• 評価値はSDRを用いる [Vincent, 2006]
– 分離した目的音の音質や分離度合を含む総合的な品質の尺度
– 値が大きい方が良い
実験条件
観測信号 2音源混合及び4音源混合した信号
教師信号
目的音源と同じMIDI信号で音域をカバーす
る2オクターブの24音階からなる信号
距離規範 の全ての組み合わせ
基底数 教師基底 : 100, その他の基底 : 50
重み係数 実験的に調整して定めた値
比較手法 従来手法のSNMFと提案手法PSNMF
26
0
2
4
6
8
10
12
14
16
SDR[dB]
0
2
4
6
8
10
12
14
16
SDR[dB]
0
2
4
6
8
10
12
14
16
SDR[dB]
• 全12パターンの平均評価値を算出
• 全ての において従来手法から大きく改善された
– 基底共有問題を防ぐことができたため
– 直交化罰則と距離最大化罰則に大きな差はない
実験結果: 2音源混合
27
従来
SNMF
PSNMF
(直交化)
PSNMF
(距離最大化)
PSNMF
(直交化)
PSNMF
(距離最大化) PSNMF
(直交化)
PSNMF
(距離最大化)
0 1 2 0 1 2 0 1 2
従来
SNMF
従来
SNMF
• 全4パターンの平均評価値を算出
• 2音源混合と同様に大きく改善された
0
2
4
6
8
10
12
14
SDR[dB]
0
2
4
6
8
10
12
14
SDR[dB]
0
2
4
6
8
10
12
14
SDR[dB]
実験結果: 4音源混合
28
PSNMF
(直交化)
PSNMF
(距離最大化)
PSNMF
(直交化)
PSNMF
(距離最大化) PSNMF
(直交化)
PSNMF
(距離最大化)
0 1 2 0 1 2 0 1 2
従来
SNMF
従来
SNMF
従来
SNMF
直交化PSNMFによる分離例 (Cello と Oboe)
29
従来手法
SNMFで
分離
目的音のみ
混合信号
提案手法
直交化
PSNMF
で分離
まとめ
• 従来の教師ありNMFによる音源分離では,教師基底と
同じスペクトルがその他の基底に現れる基底共有問題
があった
• その他の基底が教師基底とできるだけ無相関となるよう
に最適化する罰則条件付き教師ありNMF (PSNMF) を
提案
– 基底直交化罰則条件と基底間距離最大化罰則条件を提案
• 従来手法と比較して高い精度で音源分離を達成
30

Contenu connexe

Tendances

非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法Daichi Kitamura
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離奈良先端大 情報科学研究科
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析Kitamura Laboratory
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...Daichi Kitamura
 
Structured Light 技術俯瞰
Structured Light 技術俯瞰Structured Light 技術俯瞰
Structured Light 技術俯瞰Teppei Kurita
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類Keisuke Imoto
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...Deep Learning JP
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...Deep Learning JP
 

Tendances (20)

非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
Slp201702
Slp201702Slp201702
Slp201702
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
 
Ea2015 7for ss
Ea2015 7for ssEa2015 7for ss
Ea2015 7for ss
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
Kameoka2017 ieice03
Kameoka2017 ieice03Kameoka2017 ieice03
Kameoka2017 ieice03
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
 
Structured Light 技術俯瞰
Structured Light 技術俯瞰Structured Light 技術俯瞰
Structured Light 技術俯瞰
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
 

En vedette

Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Daichi Kitamura
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Daichi Kitamura
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)Daichi Kitamura
 
Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Daichi Kitamura
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...Daichi Kitamura
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)Daichi Kitamura
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Daichi Kitamura
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceDaichi Kitamura
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...Daichi Kitamura
 
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)徹 上野山
 

En vedette (11)

Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
 
Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
 
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
 

Similaire à Music signal separation using supervised nonnegative matrix factorization with orthogonality and maximum-divergence penalties (in Japanese)

Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Daichi Kitamura
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)KoueiYamaoka
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムYuki Saito
 
信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化Shunsuke Ono
 
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Daichi Kitamura
 

Similaire à Music signal separation using supervised nonnegative matrix factorization with orthogonality and maximum-divergence penalties (in Japanese) (6)

Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
 
Discriminative SNMF EA201603
Discriminative SNMF EA201603Discriminative SNMF EA201603
Discriminative SNMF EA201603
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
 
信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化
 
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
 

Plus de Daichi Kitamura

スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価Daichi Kitamura
 
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Daichi Kitamura
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...Daichi Kitamura
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)Daichi Kitamura
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)Daichi Kitamura
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Daichi Kitamura
 
Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...Daichi Kitamura
 

Plus de Daichi Kitamura (9)

スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
 
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...
 
Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...
 

Music signal separation using supervised nonnegative matrix factorization with orthogonality and maximum-divergence penalties (in Japanese)

Notes de l'éditeur

  1. 音源分離技術とは,複数の音源が多重に混合されて録音された信号を,それぞれの音源毎に分離する信号処理技術です. 例えば音声と雑音の分離や,個々の音源の編集など様々な技術へと応用することができます. この音源分離の代表的な手法は,このように時間と周波数で表現されたスペクトログラム上で,音源毎に分離するというものです. 例えばこのスペクトログラムを,最初の音と2番目の音のように分離することができれば,音源分離が達成されます.
  2. スペクトログラムから特徴量を抽出する手法として,非負値行列因子分解,通称NMFがあります. NMFは,この式のように,スペクトログラムYを,別の二つの非負値行列FとGの行列積に近似して分解表現する手法です. このとき,始めの行列の列ベクトルには,スペクトログラム中に頻出するスペクトルパターンが,観測行列Yを表すパーツ,基底として出現し,後ろの行列にはそれぞれのパーツの時間的なゲイン変化が行ベクトルに現れます. 従って,始めの分解行列Fを基底行列,後ろの行列Gをアクティベーション行列と呼びます. この分解された基底が何の音源に対応するかが分かれば,音源分離ができますが,そのような基底の選別は非常に困難な逆問題になります.
  3. そこで,分解対象の教師情報を用いる教師ありNMF,SNMFが提案されました. 教師ありNMFでは分離したい目的音の教師音,サンプル音を事前に学習します. 例えば,この混合音からピアノを分解したいとき,ピアノの音階情報などが含まれる教師音を先にNMFで分解し,ピアノの教師スペクトル基底Fを作ります. そして,作成した教師基底Fを用いて,分離プロセスで混合音源をFG+HUと分解します. 結果,FGにはピアノの音源が得られ,それ以外の音源はHUに現れます.
  4. しかし,従来のSNMFでは,基底共有という問題が生じてしまいます. 従来のSNMFでは,教師基底Fとその他の基底Hの間に何の制約もないため,目的音のスペクトル成分がその他の基底Hに現れる可能性もあります. 例えば,本来の目的信号がこの基底とこのアクティベーションで表現される時,目的音の信号なのでFは教師スペクトルを持っています. ここで,同じ基底がHにも現れると,このようにアクティベーション間で取り合いになってしまいます. 従って,推定目的音であるFGだけを取り出すと,HUに取られた分だけ欠損が生じてしまいます. これはコスト関数が混合信号YとFG+HUの距離のみで定義されており,目的成分が分散されても,コスト関数の値が変わらないことが原因です.
  5. こちらは混合信号のスペクトログラムと,その中の目的音のみのスペクトログラムです.見比べるとわかりますが,
  6. このあたりが非目的音成分になっています.これをSNMFで分離すると,
  7. 先程の基底共有問題によって,分離信号には目的成分の欠損が生じてしまいます.
  8. 従来のSNMFでは,教師情報と同じスペクトル基底がその他の基底Hに現れることで,基底共有の問題が発生し,分離目的音の欠落が生じていました. そこで,その他の基底Hが教師基底Fとできるだけ無相関になるような罰則条件をコスト関数に付与します.これを罰則条件付き教師ありNMF,PSNMFと呼びます. 教師あり手法では,教師基底は固定していますので,HがなるべくFと無相関になるように最適化していきます.
  9. 従来のSNMFの分解モデルはY=FG+HUです. このコスト関数は従来のSNMFのものです.本研究では距離関数にβ-divergenceを用います.これはこの式で与えられます. これは一般化された距離関数であり,βの値によってユークリッド距離,KLダイバージェンス,板倉斎藤擬距離を取ります.
  10. 提案手法のPSNMFも分解モデルは同じです. コスト関数には,その他の基底を無相関にする罰則項をこのように付与します. 本研究においては,2種類の罰則項を提案します.
  11. 一つ目は基底直交化罰則条件です. これは,教師基底Fとその他の基底Hの内積を求め,その値ができるだけ小さくなるようなHを求める手法です. 内積はフロベニウスノルムを用いてこのように与えられます. もしHにFと類似した基底が現れると,この内積値は大きな値を取るため,これを避けることができます. また,基底は全て周波数方向の総和が1になる制限を与えます. NMF分解は行列の積になりますので,スケールの任意性があります.つまり,片方を小さな値にしてもう片方を大きくしても変わらないということです. この罰則条件においてこのスケール任意性があると,Hのスケールを小さくするだけで内積値が下がりますので,このような制限を与えます. 最後に,この罰則項をコスト関数に付与する時には重み係数mu1を与えます.
  12. 二つ目は基底間距離最大化罰則条件です. これは,教師基底Fとできるだけ遠いその他の基底Hを求める手法です.距離関数にはβ-divergenceを用います. もしHとFが類似していると,距離値は小さくなります. 先程と同様に,基底は全て周波数方向の総和が1になる制限を与えます. さらに,コスト関数に付与する時には最小化問題にするために符号を反転し,指数の肩に載せます. 重み係数mu2の他に感度パラメータλも与えます. 指数関数にする理由は,罰則項の最小値を0とする為です.
  13. この二つのコスト関数を最小化する変数G, H, Uを求めます. この導出は,そのまま変数で微分するのは難しい為,補助関数を用います. これは,それぞれのコスト関数の上限を与える補助関数を定義し,補助変数と目的変数を交互に最小化してコスト関数を間接的に最小化させる手法です. この導出では,NMFのメインとなる距離関数の項と直交化罰則項に対して補助関数を設計する必要があります. まずは距離の項の補助関数について説明します.
  14. この距離関数の項はβ-divergenceで書き直すとこのようになります. 式中の第二項と第三項はそれぞれβの値に応じて凸関数か凹関数になります. 凸関数の時にはこちらのイェンゼンの不等式,凹関数の時には接線不等式を用いて補助関数を設計できます. 補助関数JNMF+は複雑な形になりますので詳細は原稿をご参照ください.
  15. 次に直交化罰則項の補助関数を設計します. こちらは常に変数に対して凸関数になっている為,イェンゼンの不等式だけで補助関数をこのように設計できます.
  16. 以上より,J1とJ2の補助関数J1+とJ2+ができましたので,これを各変数で微分して整理することで更新式を導出することができます.
  17. こちらが直交化罰則条件の更新式になります.その他の基底Hの式中のこの部分が直交化罰則に対応しています.
  18. こちらは距離最大化罰則条件の更新式になります.こちらも同様に,その他の基底Hの式中のこの部分が距離最大化罰則に対応しています. アクティベーションGとUの更新式は先ほどと同じです.
  19. 実験ではMIDI信号でモノラルの音源を作成します. 用いた楽器はクラリネット,オーボエ,ピアノ,チェロの4種類で,それぞれこの楽譜の通りに演奏しています. ここから,2楽器混合して1つを取り出すという2音源混合実験と,4つ全てを混合して1つを取り出す4音源混合実験を行いました. それぞれの実験ですべての組み合わせに関して平均評価値を算出します. また,教師信号は同じMIDI信号で作成した2オクターブの音階情報としています.
  20. その他の実験条件です. 距離関数のβの値は分離精度を大きく左右するため,0,1,2の3通りを行いました. これらはそれぞれ板倉斎藤距離,KLダイバージェンス,ユークリッド距離に対応しています. また距離最大化罰則における距離規範βmも同様に3種類とします. 教師基底数は100,その他の基底数は50に設定し,重み係数と感度パラメータは実験的に調整した値を用います. 従来のSNMFと提案手法のPSNMFを比較します. 評価値にはSDRを用いました. これは,分離度合や品質を含む総合的な尺度であり,高い方が良い結果を示しています.
  21. これは2音源混合時の実験結果のグラフです. グラフは左からβが0, 1, 2の時の結果です. 青が従来のSNMF,赤が直交化のPSNMF,緑が距離最大化のPSNMFで,最大化する距離規範のβmが0, 1, 2のときを示しています. 結果を見ると,全てのβにおいて従来手法から大きく改善されていることが分かります. これは教師基底とその他の基底間で基底を共有する問題を防ぐことができたためです. また,直交化と距離最大化に大きな性能差はありませんでした.
  22. 4音源混合の時の結果です. 非目的音源が多いので全体的な評価値は下がりますが,やはり提案手法は大きく改善されていることが確認できます.
  23. 最後に,チェロとオーボエの混合信号から分離した例を示します. 従来手法では基底共有問題により目的音の欠損が生じていましたが,PSNMFでは目的音の成分を抽出できていることが確認できます. それでは音を鳴らしたいと思います. 始めにチェロとオーボエの混合信号です. 次にチェロのみの真の信号です. そして,混合信号から従来手法でチェロを分離した信号です.基底共有が起こってかなり欠けているのが分かると思います. 最後にPSNMFです.欠落はほとんどなく,けし残り成分もほとんど聞こえないと思います.
  24. この問題の解決策として,私は過去に基底変形型教師ありNMFを提案しました. これは教師音より得られるスペクトル基底に対して,変形項を導入し,目的音に適応させる分解手法です. NMFの分解モデルはすべて非負の行列でしたが,この手法の分解モデルには正負の変形成分を表す項を導入しています. ここに示した赤と黒のスペクトルはそれぞれ本物のピアノ音とMIDIデータによる人工的なピアノ音を示しており,基本周波数のピークで同じ高さに正規化しています. このとき,倍音のピークには強度の違いや微妙な周波数のずれ等が生じており,このような教師音と目的音の差分を,正負の変形項で吸収するモデルです. しかし,この提案手法は決定論的な変形・適応手法であり,初期値によってはうまく適応されない場合があります. また,用意した教師音が目的音にあまり類似していない場合,うまく適応されないという問題もあります.
  25. ここで,分解した変数行列FとGをどのようにして求めるか,ということについてですが,NMFでは観測行列Yと近似行列FGの距離をコスト関数として定義します. そして,この距離を最小化するFとGを求めることで,最適化できます. 例えば距離関数にユークリッド距離を用いた場合はコスト関数をこのように定義できます. このとき,FとGの要素は全て0以上という非負の制約が与えられます. これを最小化するFとGは,このような反復更新式によって求まります.
  26. このNMFを用いた音源分離についてですが,いま,分解したラージK本の基底がそれぞれどの音源に対応するかが分かれば,音源分離を実現することができます. 例えば,ピアノの基底とフルートの基底が存在している中で,ピアノの基底だけを選ぶことができれば,その基底と対応するアクティベーションを用いて,ピアノのみが含まれるスペクトログラムを再構成することができます. このように,信号の持つなんらかの制約に基づいて基底を選別する「教師無し手法」が広く研究されていますが,これらは非常に困難な逆問題になります.
  27. 従来の教師ありNMFの問題点について説明します. 教師無しNMFによる音源分離は,非常に困難な逆問題であり,頑健に動作する手法は未だ提案されていません. 教師ありNMF,SNMFは目的音の教師情報を用いるため,頑健に動作しますが,新たに「基底共有」という問題が生じます.これについて詳しく説明します.
  28. SDR is the total evaluation score as the performance of separation.