Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

Divergence optimization based on trade-off between
separation and extrapolation abilities in
superresolution-based nonnegative matrix factorization
超解像型非負値行列因子分解における分離性能と外挿能力の
トレードオフに基づく最適なダイバージェンスの検討
☆北村大地, 猿渡洋, 中村哲
（奈良先端科学技術大学院大学）

高橋祐, 近藤多伸
（ヤマハ株式会社）

背景: 非負値行列因子分解による音源分離
• 音源分離: 複数の音源から成る混合音から特定の音源を分離
• 非負値行列因子分解（nonnegative matrix factorization: NMF）[Lee, 2001]

Amplitude

Frequency

Frequency

– スパース分解表現による特徴量抽出手法

Time

観測スペクトログラム

Time

Amplitude

アクティベーション行列

基底スペクトル行列

Ω: 周波数ビン数
𝑇: 時間フレーム数
𝐾: 基底数

• 一般に各音源毎に基底を選別することは困難
• 目的音源の基底を学習する教師ありNMF [Smaragdis, 2010], [Yagi, 2012]
2

本発表における目的
• 頑健なマルチチャネル信号分離手法として，超解像型教師あり
NMF及びそのハイブリッド手法を提案 [Kitamura, 2013]
方位に関
する分解

L

超解像型
教師ありNMF

R

 超解像型教師ありNMFに関して，コスト関数をパラメトリックに
拡張した一般化アルゴリズムを提案する
 「スパース分解表現」と「教師による超解像処理」が統合された
技術において，最適なコスト関数がどのようなメカニズムで決
まるかを明らかにする
3

従来法：教師ありNMFによる音源分離
• 分離したい目的音の教師(サンプル)音を事前に学習
• 学習プロセスで教師スペクトル基底（dictionary）を作成
• 分離プロセスで目的音
と，非目的音
に分離
学習プロセス

分離目的音の教師音

教師音から作成した教師スペクトル基底
教師基底を固定し，他の変数を最適化

分離プロセス

無相関にする罰則条件

最適化

4

提案法：超解像型NMF及びハイブリッド手法
• 方位クラスタリング [Araki, 2007], [Miyabe, 2009]
Center cluster
Left cluster
Right cluster

L

R

• ハイブリッド手法 [Kitamura, 2013]
方位クラス
タリング

L

L-ch amplitude

– ステレオ信号による方位情報のクラスタリングを用いた分解手法
：音源成分
：重心ベクトル

R-ch amplitude

超解像型
教師ありNMF

R

方位情報を用いた分解

スペクトル情報を用いた分解
5

• 前段: 方位クラスタリング
– スペクトログラム上でのハードクラスタリング

目的
方位成分

1 0 0 0 0 0 0
0 1 1 0 0 1 1
1 0 0 0 0 0 0

0 1 0 1 1 0 1
1 0 0 0 0 0 0

分離された目的クラスタ
Frequency

非目的
方位成分

バイナリマスク
Frequency

Frequency

入力スペクトログラム

: 欠落

1 1 1 0 1 1 0

Time

要素毎の積

Time

Time

• 後段：超解像型教師ありNMF [Kitamura, 2013]
–
–
–
–

前段処理によって生成されるバイナリマスクを用いる
欠落したグリッドを無視し，残った成分だけに教師ありNMFを適用
欠落した目的音源成分は教師スペクトルによって外挿され復元
同一方位に存在する非目的音源成分を分離
6

方位クラス
タリング

Time

Frequency


バイナリ
マスク
: 欠落
Time

Frequency

復元された目的成分

超解像型
教師ありNMF

外挿して復元

Time

教師スペクトル
基底

目的音源

(a) Input

signal

Left
Frequency of
source component

目的
方位成分

非目的
方位成分

Right

Center
Direction

(b) After
directional
clustering

z

Left
Frequency of
source component

Frequency

入力スペクトログラム

Frequency of
source component


Center
Direction

Right

(c) After
superresolutionbased SNMF

Left

外挿された
目的音源成分

Center
Direction

Right
7

教師基底外挿における正則化
• 欠落が極端に多いフレームでは外挿誤りを起こす危険がある
• 超解像処理としての正則化が必要
外挿誤りの例

: 欠落
Time

4
Frequency [kHz]

Frequency


3
2
1
0
0

1

2
3
Time [s]

4

目的成分がほぼ欠落したフレーム

フロベニウスノルム最小化による正則化

: それぞれ行列
の要素,
: フロベニウスノルム

: 論理反転,
8

分解モデルとコスト関数
分解モデル:
教師スペクトル基底（固定）

コスト関数(ユークリッド距離規準):

正則化項

: 論理反転,

: それぞれ行列
: 正則化項と罰則項の重み係数,

罰則項
の要素,
: フロベニウスノルム

• 従来は「ユークリッド距離」と「一般化KLダイバージェンス」規準
のみが検討されていた
9

コスト関数の一般化
一般化コスト関数:

罰則項
正則化項

•

: -divergence関数 [Eguchi, 2001]
– パラメータの値に応じてダイバージェンスが変化
– 特に，
の時にユークリッド距離，
の時に一般化KLダイバー
ジェンス，
の時に板倉-斎藤擬距離に対応
– 振幅ドメインのNMFによる
音源分離では，
程度が高精度
10

一般化コスト関数に基づく更新式
• コスト関数を最小化することで変数
の反復型更新式
が得られる
• 最小化問題は補助関数法を用いて解くことができる
更新式:

11

最適距離規範の確認実験実験条件
• 4つのメロディからなるステレオの混合音源を作成
• 中央に2つ，左右15°に1つずつ音源を配置
• 3種の楽器編成のMIDI信号を用意，計36パターンの平均評価値

Left

Center

２
Dataset
No. 1
No. 2
No. 3

Melody 1
Oboe
Trumpet
Horn

Melody 2 Midrange
Bass
Flute
Piano
Trombone
Violin
Harpsichord Fagotto
Clarinet
Piano
Cello

４
１

目的音源
Right

３

教師用
音源信号

目的音源の音域をカバーする2オクターブの24音階
12

最適距離規範の確認実験実験条件
• その他の実験条件
観測信号
教師信号
分解ドメイン
基底数
重み係数
比較手法

3種のデータセット，合計36パターンのステレオMIDI信号
目的音源と同じMIDI信号で音域をカバーする2オクターブ
の24音階からなる信号
振幅スペクトログラム
教師基底: 100, その他の基底: 30
実験的に調整して定めた値
モノラルにミックスダウンした信号に罰則条件付き教師あり
NMF (PSNMF)を適用

• NMFコストのダイバージェンス
と正則化コストのダ
イバージェンス
のすべての組み合わせ（16通り）で
実験を行い，最適な
を検討
–

は教師基底学習時と超解像時で常に統一

• 評価値はSDR, SIR, SARを用いる [Vincent, 2006]
SDR ：分離した目的音の品質
総合的な分離精度
SIR ：目的音と非目的音の分離度合
SAR ：一連の処理で生じた歪みの少なさ

13

最適距離規範の確認実験実験結果
• 各手法における評価値の平均を算出
0

Good

PSNMF
Proposed hybrid method (reg = 0)

12

8

6
4

15

SAR [dB]

SIR [dB]

SDR [dB]

8

10
5

2
0

10

20

10

Bad


0

1
2
Value of  NMF

3

0

6
4
2

0

1
2
Value of  NMF

3

0

0

1
2
Value of  NMF

3

• 従来の教師ありNMFでは
が最適だったが，超解像型教
師ありNMF及びそのハイブリッド手法では
が最適
– 最適なダイバージェンスがシフトしている

• 正則化コストのダイバージェンスは
他の値はほとんど差が無い

が極端に性能が悪く，
14

最適ダイバージェンスシフトの原因の仮説
•

超解像型教師ありNMFには2つのタスクがある
超解像型
教師ありNMF

音源の分離

教師基底を用いた外挿

• 仮説: 音源分離と基底外挿のそれぞれのタスクにおいて最適な
NMFコストのダイバージェンス
が異なるのではないか？
• 正味の外挿能力を測る実験
目的音源のみの信号

成分が欠落した信号

バイナリ
マスク

– 正則化コストの

復元された信号

超解像
NMF

は最適値であった1に固定して実験
15

外挿能力の確認実験結果
• 正則化コストのダイバージェンス
Good

は最適値の1に固定

20

SAR [dB]

15
10
5

Bad

0

0

1
2
3
Value of  NMF

4

• NMFコストのダイバージェンス
は1よりも少し高い方が，外
挿能力が高くなる
• ダイバージェンスが0に近づくと，学習された教師基底がスパー
スになる傾向がある
0
-2
-4
-6
-8
-10
0

Amplitude [dB]

Amplitude [dB]

0
-2
-4
-6
-8
-10
0

1

2
3
4
Frequency [kHz]

5

1

2
3
4
Frequency [kHz]

5

16

ダイバージェンスの違いによる基底の変化

Amplitude [dB]

0
-2
-4
-6
-8
-10
0

Amplitude

• 事前学習時において
の値が小さいと，教師基底はピークと
スパース性が重視され，より局所的な特徴を捉える

Decay
1

2
3
4
Frequency [kHz]

5

Attack

Sustain

Release

Time

Amplitude [dB]

0
-2
-4
-6
-8
-10
0

Amplitude

• 逆に事前学習において
の値が大きいと，教師基底は少し滑
らかになり，より大局的な特徴を捉える

Decay
1

2
3
4
Frequency [kHz]

5

Attack

Sustain

Release

Time
17

最適ダイバージェンスのトレードオフ

Performance

• 超解像型教師ありNMF及びそのハイブリッド手法における最適な
ダイバージェンスは音源分離能力と外挿能力のトレードオフとなる
総合性能
分離能力

外挿能力

Value of
0
-2
-4
-6
-8
-10
0

Amplitude [dB]

Amplitude [dB]

0
-2
-4
-6
-8
-10
0

1

2
3
4
Frequency [kHz]

5

スパース性: 強

1

2
3
4
Frequency [kHz]

5

スパース性: 弱

– 振幅スペクトログラムにおける従来の教師ありNMF分離では
が
高性能であったが，ハイブリッド手法では
が高い性能となる
18

まとめ
• 超解像型教師ありNMFのコスト関数において，NMFコス
トと正則化コストを -divergenceで一般化
• 超解像型教師ありNMF及びそのハイブリッド手法におけ
る最適なダイバージェンスを実験的に確認
• 音源分離能力と教師基底外挿能力のトレードオフから，
最適なダイバージェンスがシフトする現象を確認

19

Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (12)

Plus de 奈良先端大情報科学研究科

Plus de 奈良先端大情報科学研究科 (20)