コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離

コサイン類似度罰則条件付き
非負値行列因子分解に基づく
音楽音源分離
Music source separation based on nonnegative
matrix factorization with cosine similarity penalty
香川高専創造工学専攻
北村研究室
岩瀬佑太
特別研究Ⅱ 最終報告

研究背景
• 音源分離
– 複数音源が混合した観測信号から混合前の音源の信号を抽出
– 音声認識，自動採譜等の前段処理
– 非負値行列因子分解（nonnegative matrix factorization: NMF）
に基づく音源分離を取り扱う
• 深層ニューラルネットワークのように莫大なデータセット
が必要ない 1

短時間フーリエ変換 (short-time Fourier transform: STFT)
• STFTの概要
2
時間領域
フーリエ変換長
時間周波数領域
時間波形
…
離散フーリエ変換
シフト長
複素スペクトログラム
複素数要素を持つ行列
周波数
時間
…
非負振幅スペクトログラム
非負（ゼロ以上）の実数要素の行列
要素毎の絶対値
窓関数

NMF [Lee+, 1999]
• 非負行列を二つの非負行列との行列積で近似
3
非負の観測行列
(音の時間周波数強度)
基底行列
(音色パーツ)
アクティベーション行列
(音量と音価)
: 周波数ビン数
: 時間フレーム数
: 基底数
基底行列：観測信号中の頻出スペクトルパターン
アクティベーション行列：基底行列中の
各スペクトルパターンの時間的な強度変化
振幅
時間
時間
周波数
振幅
周波数
振幅
周波数
振幅
時間

NMFの変数行列の推定
• NMFにおける変数の最適化
– 観測とモデルの距離をコストとし変数について最小化
– 一般化KLダイバージェンスのコスト関数
• 音源分離タスクで高い性能を出すことが多い
距離関数
4

半教師ありNMF（semi-supervised NMF: SNMF） [Smaragdis+,2007]
• 目的音源の基底行列のみをあらかじめ学習
– 目的音源と非目的音源に類似スペクトルがある場合，目的音
源の一部がに取られるリスクがある 5
分離ステージ
学習ステージ
学習ステージで得た目的音
の基底行列
目的音の
基底行列
（音色辞書）
その他の基底
分離目的音のサン
プル音（教師音）
は固定し , , のみ求める

SNMFにおける問題
• 似たような音はどちらの行列にも入りうる
6
分離ステージ
学習ステージ
混入
目的音非目的音

罰則項の案①
• 内積罰則項を付与する
– すべてのとのペア対してを
の下で最小となるを決定し，
全ペアの内積総和が最小となる行列を求める
7
この幅が狭ければ
内積は小さくなる
（ベクトルは類似しなくなる）

従来手法
• 罰則条件付きSNMF (penalized SNMF: PSNMF)
– 内積型PSNMF [Kitamura+, 2014]
• とを直交に近づける内積罰則項を追加する
– ②の罰則項は（は微小値）としてをゼロ行列
に近づけるだけで小さくなる
• ①の距離関数項はとすれば増加しない
8
内積罰則項
重み係数
②
①
①
距離関数項

• コサイン類似度罰則項を付与する
– すべてのとのペアに対してコサイン類似度を
の下で最小となるを決定し，
全ペアのの総和が最小となるような行列を求める
罰則項の案②
9

提案手法
– 対数コサイン類似度型PSNMF（log-cos型PSNMF）[岩瀬+, 2020]
• コサイン類似度の対数和を罰則条件としてSNMFに付与
• 内積型PSNMFのスケール不定問題を解決
– コサイン類似度が0の時，log 0となって数値不安定性が生じる
– 距離関数項①は下限が0，罰則項③は下限がという
アンバランスさの問題
10
対数コサイン類似度罰則項
距離関数項
③
①

①
提案手法
– コサイン類似度型PSNMF（cos型PSNMF）[岩瀬+, 2021]
• Log-cos型PSNMFの罰則項から対数を排除
– 内積型PSNMF及びlog-cos型PSNMFの問題を解消
11
コサイン類似度罰則項

実験条件
使用する楽器音信号公開データセットより2楽器音の混合信号を90曲作成
オーボエ (Ob.), トランペット (Tp.), ホルン (Hr.), フ
ルート (Fl.),ヴァイオリン (Vn.), クラリネット (Cl.), ピア
ノ (Pf.), チェロ (Vc.),ハープシコード (Hp.), トロンボー
ン (Tb.), ファゴット (Fg.)
最適な重み係数を探索す
るための学習データ
90曲の中からランダムに45曲選出
最適なを使う音源分離テ
ストデータ
学習データ以外の残りの45曲
12
Ob. or Tp. or Hr.
Fl. or Cl. or Vn.
Pf. or Hp.
Fg. or Tb. or Vc.
音色学習信号（上昇音階）
混合信号のメロディ

13
音源対歪み比（source-to-distortion: SDR） [Vincent+, 2006]
：全楽器の混合音の時間信号
：目的音の時間信号
：非目的音の時間信号
に対して音源分離を適用して得られる目的音の推定信号をとすると
：目的音源成分
：推定した目的音源信号に残留した非目的音源成分
：音源分離によって生じた人工的な歪み

45曲の学習データによる最適重みの探索結果
• 各手法の最適な重み係数の探索
– 学習データ45曲のSDRの平均値を算出
– SDRが最大となる重み係数を最適値とする
14
音源分離性能
Good
Poor

実験結果
• 各手法の評価
– 学習データで得た最適な重み係数を固定
– テストデータ45曲より各手法の中央値と数値データ分布を得る
15
Log-cos型PSNMF
（BNなし）
SNMF 内積型PSNMF Log-cos型PSNMF Cos型PSNMF

統計的検定
• 2種類の検定を行う
帰無仮説はそれぞれ下記である
– Welchの（片側）検定[Welch, 1947]
• 各々の正規分布に従う2つの母集団
及びの平均値をそれぞれ及び
とするとき，である
– Brunner-Munzel（BM）検定[Brunner+, 2000]
• 2つの母集団及びから抽出した
標本をそれぞれ及びとするとき
及びとなる
確率が等しい
16

検定結果
17
• 各検定での評価
– Welchの（片側）検定より得られた値
– Brunner-Munzel検定より得られた値

まとめ
• SNMFによる音源分離性能を向上させる3つのPSNMF
の比較実験を行った
• 提案手法（Log-cos型及びCos型PSNMF）が従来手法
（内積型PSNMF）より有効かを確かめるために2種類の
統計的検定を行った
• 検定結果より提案手法の有効性を示すことができた
• 研究業績
岩瀬佑太, 北村大地, "コサイン類似度罰則条件付き半教師あり非負値行列因子分解,“
日本音響学会 2020年春季研究発表会講演論文集, pp. 425–428, 埼玉, 2020年3月（査読無）.
岩瀬佑太, 北村大地,"コサイン類似度罰則条件付き非負値行列因子分解に基づく音源分離の実験的評価,“
日本音響学会 2021年秋季研究発表会講演論文集, 2-1P-4, pp. 287–290, オンライン, 2021年9月（査読無）.
岩瀬佑太, 北村大地,"コサイン類似度罰則条件付き非負値行列因子分解に基づく音源分離の仮説検定,"
第24回日本音響学会関西支部若手研究者交流研究発表会, pp. 33, オンライン, 2021年12月（査読無）.
Yuta Iwase and Daichi Kitamura, "Supervised audio source separation based on nonnegative matrix
factorization with cosine similarity penalty," IEICE Transactions on Fundamentals of Electronics,
Communications and Computer Sciences, vol. E105-A, no. 6, Jun 2022(in press). 18

コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離

Similaire à コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離 (8)

Plus de Kitamura Laboratory

Plus de Kitamura Laboratory (20)

コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離

Notes de l'éditeur