Music signal separation using supervised nonnegative matrix factorization with orthogonality and maximum-divergence penalties (in Japanese)

Music Signal Separation Using Supervised
Nonnegative Matrix Factorization with Orthogonality
and Maximum-divergence Penalties
直交化及び距離最大化則条件を用いた
教師あり非負値行列因子分解による音楽信号分離
北村大地, 猿渡洋, 八木浩介, 鹿野清宏
（奈良先端科学技術大学院大学）
高橋祐, 近藤多伸
（ヤマハ株式会社）

発表の流れ
• 研究背景
• 従来手法
– 非負値行列因子分解
– 教師あり非負値行列因子分解
– 従来手法の問題点
• 提案手法
– 罰則条件付き教師あり非負値行列因子分解
• 基底直交化罰則条件
• 基底間距離最大化罰則条件
• 評価実験
– 2音源混合信号
• まとめ 2

発表の流れ
• 研究背景
• 従来手法
• 提案手法
• 評価実験
• まとめ 3

• 音源分離技術
– 複数の音源が混合された信号を個々の音源に分離する信号処理
– 音声と雑音の分離，個々の音源の編集，音拡張現実感への基盤技術
• 代表的な音源分離方法
– 時間-周波数表現されたスペクトログラム上で音源ごとに分解
研究背景
特定音源の
分離・抽出
Time
Frequency
2つの音が存在
最初の音
2番目の音
分離
4

発表の流れ
• 研究背景
• 従来手法
• 提案手法
• 評価実験
• まとめ 5

• 非負値行列因子分解 (nonnegative matrix factorization: NMF)
– スパース分解表現による特徴量抽出手法
• 分解された基底を音源毎に選別する教師無しNMFは非常に困難
従来手法: 非負値行列因子分解 [Lee, et al., 2012]
Amplitude
Amplitude
観測行列
(スペクトログラム)
基底行列
(頻出スペクトルパターン)
アクティベーション行列
(時間的なゲイン変化)
Time
Ω: 周波数ビン数
𝑇: 時間フレーム数
𝐾: 基底数
Time
Frequency
Frequency
6
パーツ，基底

従来手法: 教師ありNMF (SNMF) [Smaragdis, et al., 2007]
• 分離したい目的音の教師 (サンプル) 音を事前に学習
– 学習プロセスで教師スペクトル基底 (dictionary) を作成
– 分離プロセスで目的音と，非目的音に分離
分離プロセス最適化
学習プロセス
教師音から作成した教師スペクトル基底分離目的音の教師音
7
固定
音階情報等
目的音非目的音混合音

従来手法の問題点
• SNMFにおける基底共有問題
– 教師基底とその他の基底の間には特に制約が無い
– 目的音のスペクトルがその他の基底に現れる可能性がある
– 推定した目的音には欠損が生じる
– コスト関数が混合信号との距離のみで定義さ
れているため
8
推定目的音推定非目的音本来の目的信号
その他の基底に教師と同じスペクトルが現れた場合

基底共有問題: SNMFによる分離例
9
目的音のみの
信号 (理想)
混合信号
従来手法
SNMFで
分離

10
非目的音
目的音のみの
信号 (理想)
混合信号
従来手法
SNMFで
分離

11
目的音のみの
信号 (理想)
混合信号分離信号
分離信号には目的成分
の欠損が生じている
従来手法
SNMFで
分離

発表の流れ
• 研究背景
• 従来手法
• 提案手法
• 評価実験
• まとめ 12

提案手法: 罰則条件付きSNMF
• 教師と同じスペクトル基底がその他の基底に現れる
• その他の基底を教師基底と (できるだけ) 無相関に
する罰則条件をコスト関数に付与する
• 罰則条件付きSNMF (Penalized SNMF: PSNMF)
13
基底共有問題が発生，分離した目的音が欠落
目的音非目的音混合音固定
なるべくと無相関となるように最適化

SNMFの分解モデルとコスト関数
14
分解モデル:
SNMFのコスト関数:
一般化距離関数: -divergence [Eguchi, et al., 2001]
教師基底 (固定)

PSNMFの分解モデルとコスト関数
15
無相関にする罰則項を付与
2種類の罰則項を提案する
分解モデル:
SNMFのコスト関数:
PSNMFのコスト関数:
教師基底 (固定)

基底直交化罰則条件
• 教師基底とその他の基底の内積ができるだけ小さ
くなるを求める
– 類似した基底が現れるとは大きな値になる
• 基底は全て周波数方向の総和が1になる制限を与える
– NMFにおけるスケールの任意性を無くすため
• コスト関数に付与する際に重み係数を与える
16
通常のNMFは
スケールが任意

基底間距離最大化罰則条件
• 教師基底とできるだけ遠いその他の基底を求める
– 類似した基底が現れると距離値は小さな値になる
• 基底は全て周波数方向の総和が1になる制限を与える
• コスト関数に付与する際に負号を反転した指数関数とし
重み係数と感度パラメータを与える
– NMF項と合わせて罰則項も最小化問題とするため
– 罰則項の最小値を0とするため 17

PSNMFの最適化更新式の導出
• コスト関数を最小化する変数を求める
• 導出には補助関数法を用いる
– コスト関数の上限を与える補助関数を定義
– 補助変数と目的変数を交互に最小化してコスト関数を間接的に
最小化
– との補助関数を設計する
18

• 第二項と第三項はの値に応じて凸関数 (Convex) か
凹関数 (Concave) になる
– 凸関数: Jensenの不等式
– 凹関数: 接線不等式
19
但し，

• 常に凸関数になる
– 凸関数: Jensenの不等式
20
但し，は補助変数

• 設計した補助関数を各変数で偏微分
21

PSNMFの最適化更新式
• 直交化罰則条件の更新式
22
但し，

PSNMFの最適化更新式
• 距離最大化罰則条件の更新式
23
但し，

発表の流れ
• 研究背景
• 従来手法
• 提案手法
• 評価実験
• まとめ 24

• MIDI信号で作成したモノラル音源
• Clarinet, Oboe, Piano, Celloの4種類
• 2音源混合と4音源混合の信号で評価
– 2音源は全12パターン，4音源は全4パターンの平均評価値を算出
• 教師音は分離目的音の音域をカバーする同じMIDIの音階情報
実験条件
25
教師用
音源信号
目的音源の音域をカバーする2オクターブの24音階

• その他の実験条件
• 評価値はSDRを用いる [Vincent, 2006]
– 分離した目的音の音質や分離度合を含む総合的な品質の尺度
– 値が大きい方が良い
実験条件
観測信号 2音源混合及び4音源混合した信号
教師信号
目的音源と同じMIDI信号で音域をカバーす
る2オクターブの24音階からなる信号
距離規範の全ての組み合わせ
基底数教師基底 : 100, その他の基底 : 50
重み係数実験的に調整して定めた値
比較手法従来手法のSNMFと提案手法PSNMF
26

0
2
4
6
8
10
12
14
16
SDR[dB]
0
2
4
6
8
10
12
14
16
SDR[dB]
0
2
4
6
8
10
12
14
16
SDR[dB]
• 全12パターンの平均評価値を算出
• 全てのにおいて従来手法から大きく改善された
– 基底共有問題を防ぐことができたため
– 直交化罰則と距離最大化罰則に大きな差はない
実験結果: 2音源混合
27
従来
SNMF
PSNMF
(直交化)
PSNMF
(距離最大化)
PSNMF
(直交化)
PSNMF
(距離最大化) PSNMF
(直交化)
PSNMF
(距離最大化)
0 1 2 0 1 2 0 1 2
従来
SNMF
従来
SNMF

• 全4パターンの平均評価値を算出
• 2音源混合と同様に大きく改善された
0
2
4
6
8
10
12
14
SDR[dB]
0
2
4
6
8
10
12
14
SDR[dB]
0
2
4
6
8
10
12
14
SDR[dB]
実験結果: 4音源混合
28
PSNMF
(直交化)
PSNMF
(距離最大化)
PSNMF
(直交化)
PSNMF
(距離最大化) PSNMF
(直交化)
PSNMF
(距離最大化)
0 1 2 0 1 2 0 1 2
従来
SNMF
従来
SNMF
従来
SNMF

直交化PSNMFによる分離例 (Cello と Oboe)
29
従来手法
SNMFで
分離
目的音のみ
混合信号
提案手法
直交化
PSNMF
で分離

まとめ
• 従来の教師ありNMFによる音源分離では，教師基底と
同じスペクトルがその他の基底に現れる基底共有問題
があった
• その他の基底が教師基底とできるだけ無相関となるよう
に最適化する罰則条件付き教師ありNMF (PSNMF) を
提案
– 基底直交化罰則条件と基底間距離最大化罰則条件を提案
• 従来手法と比較して高い精度で音源分離を達成
30

Music signal separation using supervised nonnegative matrix factorization with orthogonality and maximum-divergence penalties (in Japanese)

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (11)

Similaire à Music signal separation using supervised nonnegative matrix factorization with orthogonality and maximum-divergence penalties (in Japanese)

Similaire à Music signal separation using supervised nonnegative matrix factorization with orthogonality and maximum-divergence penalties (in Japanese) (6)

Plus de Daichi Kitamura

Plus de Daichi Kitamura (9)

Music signal separation using supervised nonnegative matrix factorization with orthogonality and maximum-divergence penalties (in Japanese)

Notes de l'éditeur