非負値行列因子分解を用いた被り音の抑圧

非負値行列因子分解を用いた
被り音の抑圧
溝渕悠朔，北村大地(香川高専)
中村友彦，猿渡洋(東大)
高橋祐，近藤多伸(ヤマハ)
情報処理学会第132回音楽情報科学研究会（夏のシンポジウム）
2021年9月17日 13:00-14:40 【一般発表】音楽音響信号処理
24.

• 研究背景
– ブラインド音源分離
– 被り音とその抑圧問題
• 従来手法
– 短時間フーリエ変換（STFT）と非負値行列因子分解（NMF）
– 独立低ランク行列分析（ILRMA）
– 線形分離領域多チャネルNMF（DMNMF）
– 時間チャネルNMF（TCNMF）
• 提案手法
– 相対漏れゲインに対する事前分布の導入
– 最大事後確率に基づくパラメータ推定
• 実験
• まとめ
本発表の概要
2

• 研究背景
• 従来手法
• 提案手法
• 実験
• まとめ
本発表の概要
3

• ブラインド音源分離（blind source separation: BSS）
– 音源やマイクロホンの空間的な配置が不明な状態で分離系を
推定する技術
• 混合系が不明な条件で分離系を推定
• 音楽信号を対象としたBSSの応用
– 音楽信号解析や自動採譜の前段処理
– ライブ演奏における質の高いミキシングやモニター（SR）
– 音楽スタジオでのレコーディングの高品質化
4
研究背景
分離系
混合系

• 一般的なマイクの配置
– 演奏者やアンプに専用のマイクを近接
– 近接させた音源のみを録音するため
• 近接させた音源を
そのマイクの「目的音源」と呼ぶ
• 被り音（クロストーク）
– 実際には目的音源以外の音（被り音，bleeding sound）が混入
研究背景
5
マイクロホンの目的音源
マイクロホンにおける
その他の音源からの被り音
：マイクロホン

• 被り音の抑圧問題
– 各マイクに混入する被り音を除去し，目的音源成分だけを残す
– 多チャネル信号のBSSと類似
• 録音条件に起因する特徴
(a) 観測信号の信号対雑音（SN）比が比較的高い
各マイクを各目的音源に近接させているため
(b) 各マイクにおける目的音源は既知
各マイクの信号には「音源ラベル」が付与されている
(c) マイク間の距離が空間的に離れている
空間エイリアシングが発生
マイク間の距離が大きすぎて，信号の位相が信用できなくなる
位相情報を用いるBSSは基本的に失敗する
(d) 音楽信号が対象なので高品質なBSSが要求される
芸術的価値を損なわない信号処理が必要
研究背景
6

• 研究背景
• 従来手法
• 提案手法
• 実験
• まとめ
本発表の概要
7

振幅スペクトログラムの低ランクモデリング手法
• 非負値行列因子分解（nonnegative matrix factorization: NMF）[Lee+, 1999]
– 非負制約付きの任意基底数（本）による低ランク近似
• 限られた数の非負基底ベクトルとそれらの非負係数を抽出
– STFTで得られる振幅スペクトログラムを観測行列として適用
• 頻出するスペクトルパターンとそれらの時間的な強度変化が得られる
9
Amplitude
Amplitude
混合された観測行列
(振幅スペクトログラム)
基底行列
(スペクトルパターン)
アクティベーション行列
(時間的強度変化)
Time
: 周波数ビン数
: 時間フレーム数
: 基底数
Time
Frequency
Frequency 基底アクティベーション

• NMFにおける変数の最適化
– 観測とモデルの距離をコストとし変数について最小化
– 距離関数は任意
• 二乗ユークリッド距離，KLダイバージェンス，板倉斎藤擬距離，・・・
• 本研究ではKLダイバージェンスを用いる
– 効率的な反復更新による最適化アルゴリズム
• 例：補助関数法に基づく乗算型更新式
振幅スペクトログラムの低ランクモデリング手法
10
（コスト関数が二乗ユークリッド距離の時の更新式）

• 独立低ランク行列分析（independent low-rank matrix analysis: ILRMA）
– 振幅と位相を用いて周波数毎の複素分離行列を推定
– 分離信号のパワースペクトログラムが低ランクとなるように誘導
従来手法：位相情報を用いたBSS（ILRMA）
11
[Kitamura+, 2016]
分離信号
…
…
…
観測信号分離行列
観測信号
周波数毎の
分離行列
分離信号
Time
Frequency
Frequency
Time
分離信号が「互いに独立」かつ「低ランクな時
間周波数構造」を持つように分離行列を更新
STFT
NMFによる低ランク近似
観測信号に空間エイリアシングが生じる場合，BSSは困難
各時間周波数での
混合モデル
複素数

• 線形分離領域多チャネルNMF（Linear demixed domain multichannel NMF: DMNMF）
– パワーのみを用いて周波数毎の実数分離行列を推定
– 分離信号のパワースペクトログラムが低ランクとなるように誘導
– 信号の時間周波数パワーのみを用いる（位相は用いない）
従来手法：位相情報を用いないBSS（DMNMF）
12
[Taniguchi+,
2017]
推定信号
…
…
…
観測信号分離行列
各時間周波数での混合
モデル（パワー近似）
観測信号に空間エイリアシングが生じる場合でも
BSSできる可能性あり
実数（非負）

• 時間チャネルNMF（time-channel NMF: TCNMF） [Togami+, 2010]
– 観測信号の振幅スペクトログラムの周波数毎の時間チャネル
行列（）のそれぞれにNMFを適用
– 周波数毎のゲイン行列と音源時間行列を推定
– 信号の時間周波数振幅のみを用いる（位相は用いない）
従来手法：位相情報を用いないBSS（TCNMF）
13
距離関数
時間
周波数
音源
時間
周波数
時間
周波数
観測信号の振幅
スペクトログラム（チャネル毎）
非負混合行列
（ゲイン行列）
音源毎の音量行列
（音源時間行列）
スペクトログラム（周波数毎）
観測信号に空間エイリアシングが生じる場合でも
BSSできる可能性あり

• が単位行列のとき自明解（，）が存在
– この自明解では，BSSは未達成
• 自明解を避けるため，時間毎のスパース正則化を導入
• :正則化重み係数
• ：の時間軸方向ベクトル
• ：ノルム
従来手法：位相情報を用いないBSS（TCNMF）
14
目的関数
正則化項
時間
周波数
音源
非負混合行列
…
…

• 研究背景
• 従来手法
• 提案手法
• 実験
• まとめ
本発表の概要
15

提案手法：動機
• TCNMFにおける問題
– TCNMFでは，の自明解を避けるためにを音源方向に
スパース正則化を導入
• W-disjoint仮定：複数の音源が混合しても，各時間周波数スロットでは
高々1つの音源が支配的という仮定（音声信号ではそれなりに成立）
• 音楽信号は同じ周波数で複数の音源が衝突（ハーモニー）するため，
音源方向のスパース正則化は分離音の音質低下を招く
• 提案手法のアプローチ
– 音質を担保しつつ自明解（）を避けるため，の代わりに
を正則化
• 対角要素の値を1に固定
• 非対角要素の値を比較的小さな値
（0.1～0.5程度）になるように正則化
16
1
1
1
1
対角要素
は1に固定
非対角要素
は小さな値
周波数毎の被り音の相対的な
音量（相対漏れゲイン）を正則化

• 従来手法と同様に，多チャネル観測信号の振幅スペクト
ログラムにTCNMFを適用
– 但し，分離信号の音質劣化を防ぐため，音源時間行列の
スパース正則化は用いない
• ゲイン行列の対角・非対角要素に事前分布を導入
– 事前分布に基づく最大事後確率（maximum a posteriori: MAP）推定
提案手法：MAP推定TCNMF
17
時間
周波数
音源
時間
周波数
非負混合行列
スペクトログラム（周波数毎）
従来のTCNMFはを
音源方向にスパース化
提案のTCNMFはの
相対漏れゲインを正則化

• 非負混合行列に次の事前分布生成モデルを導入
– 形状母数をとすると
非対角要素がに
なる現象（自明解）を回避
可能
18
Diracのデルタ分布（対角要素をに制約）
Random variable
Probabilistic
density
function
ガンマ分布：（は形状母数，は尺度母数）
対角要素
非対角要素

19
• 音源時間行列には非負制約の事前分布を導入
– 推定される振幅スペクトログラムが非負になることを保証
：正規化係数
：引数が真ならば1，偽ならば0を返す指示関数

• は周波数，チャネル，及び音源の全てに関して
互いに独立と仮定
• の事前分布は次式
• は周波数，音源，及び時間の全てに関して互いに
独立と仮定
• の事前分布は右式
20
対角要素の
事前分布
非対角要素の
事前分布
非負性を保証
するための制約

提案手法：MAP推定TCNMFの最適化問題
• 事後分布に基づく目的関数
– 上式を最小化することでの推定が可能（MAP推定）
21
右辺の負の対数を取る
前頁の事前分布を代入
：引数が真なら0，偽ならを返す指示関数
等価
対角要素の
事前分布由来
の項
非対角要素の事前
分布由来の項

• の最小化は以下の問題と等価
– 最適化には補助関数法[Hunter+, 2004]を用いる 22
データ近似項
正則化項

• 目的関数の上限関数の導出
– は補助変数（を満たす）
23
Jensen’s
不等式
変数で偏微分した後に，解析的に
解けなくなる項（分母に総和が残る）

提案手法：MAP推定TCNMFの更新式
• 反復最適化更新式
– ：要素ごとの乗算
– 分数：要素ごとの除算
– ：要素がすべて1の行列
– ：引数の行列の対角成分
– ：引数の行列の転置
24

• ①KLダイバージェンスは次の性質が成り立つ
• ②ゲイン行列の対角成分を1に固定
– 非対角要素は被り音の相対漏れゲイン
• 上記①及び②より
– 観測信号のゲインが目的関数のデータ近似項と正則化項との
バランスに影響
提案手法：スケールに依存する正則化の問題
25
：任意の非負実数
データ近似項正則化項

• 2項のバランスを制御する重み係数を追加
– が小さいと正則化項の影響が強くなる
• 事前に観測信号を正規化
– のダイナミックレンジがとなるようにゲインを調整
• 複素数の観測信号に対してWienerフィルタを適用
提案手法：スケール依存性の解決
26
Wienerフィルタ

• 研究背景
• 従来手法
• 提案手法
• 実験
• まとめ
本発表の概要
27

Ob.
Cl.
Pf.
Tb.
実験条件
• 音楽信号の被り音抑圧性能を従来手法と比較
– 比較手法
• IVA，ILRMA，DMNMF，従来TCNMF（音源方向スパース正則化）
– 信号対歪み比（SDR）[Vincent+, 2006]の改善量で評価
• SDR改善量＝分離後のSDR －分離前のSDR [dB]
• 音源信号（ドライソース）
– 人工音楽データセット“songKitamura” [Kitamura+, 2015]
• Ob.，Cl.，Pf.，Tb.の4楽器を用いて4チャネルの観測信号を作成
28

1
1
1
1
実験条件
• 被り音を含む観測信号のシミュレーション
– 音源信号に周波数毎の非負実数乱数ゲイン行列を乗じる
– 10種類の乱数シードを用いて10個の実験データを用意
• 観測信号の平均SDR
– Ob.音源＋被り音：18.8 [dB]
– Cl.音源＋被り音：15.0 [dB]
– Pf.音源＋被り音：14.7 [dB]
– Tb.音源＋被り音：8.6 [dB]
29
観測信号の時点でSDRはかなり高い
このSDRからの改善量を評価
（SDR改善量＝分離後のSDR－分離前のSDR）
対角要素は1に固定
非対角要素は区間
（0, 0.2）の一様乱数
周波数
音源時間
周波数
ドライソースの
複素スペクトログラム
非負混合行列
時間
周波数
観測信号の
複素スペクトログラム
：Ob.
：Cl.
：Pf.
：Tb.

実験条件
• その他の実験条件
30
パラメータ設定値
サンプリング周波数 44.1 kHz
窓関数 Hamming窓
窓長 4096 点（約92.9 ms）
シフト長 2049 点（約46.5 ms）
反復回数 200 回
ゲイン行列の反復最適化初期値
（DMNMF，従来TCNMF，提案TCNMF）
対角成分は1，
非対角成分は区間（0，0.1）の一様乱数
音源時間行列の反復最適化初期値区間（0，1）の一様乱数
提案TCNMFのガンマ分布の形状母数 1.25
提案TCNMFのガンマ分布の尺度母数 0.6
提案TCNMFの正則化重み係数 0.006
従来TCNMFの正則化重み係数 0.56
ILRMAとDMNMFの基底数 10，30，80 本

実験結果
31
複素分離行列を求める手法
（位相に依存するBSS）
非負分離行列を求める手法
（位相を無視するBSS）

実験結果
32
Ob. Cl. Pf. Tb.
観測信号
従来
TCNMF
提案
TCNMF
• デモンストレーション

• 研究背景
• 従来手法
• 提案手法
• 実験
• まとめ
本発表の概要
33

まとめ
• 目的：音楽信号における被り音の抑圧
– 観測時点で高いSN比
– 空間エイリアシングが生じる前提のマイクセットアップ
• 動機1：複素分離行列を求める位相依存BSSが動かない
– IVAやILRMAの実験結果からも明らか
• 動機2：位相非依存BSSのDMNMFがあるが動かない
– パラメータの多い非凸最適化（最尤推定）の難しさ
• 動機3：位相非依存BSSのTCNMFは被り音抑圧に有効
– 但し，音源時間行列への正則化が分離音の音質を劣化させる
• 提案手法：TCNMFのゲイン行列に事前分布を導入
– 被り音の音量（相対漏れゲイン）が比較的小さいという仮定
• 結果：提案TCNMFは従来TCNMFより良い性能を達成
34

非負値行列因子分解を用いた被り音の抑圧

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à 非負値行列因子分解を用いた被り音の抑圧

Similaire à 非負値行列因子分解を用いた被り音の抑圧 (10)

Plus de Kitamura Laboratory

Plus de Kitamura Laboratory (20)

非負値行列因子分解を用いた被り音の抑圧

Notes de l'éditeur