Contenu connexe
Similaire à 非負値行列因子分解を用いた被り音の抑圧 (10)
Plus de Kitamura Laboratory (20)
非負値行列因子分解を用いた被り音の抑圧
- 2. • 研究背景
– ブラインド音源分離
– 被り音とその抑圧問題
• 従来手法
– 短時間フーリエ変換(STFT)と非負値行列因子分解(NMF)
– 独立低ランク行列分析(ILRMA)
– 線形分離領域多チャネルNMF(DMNMF)
– 時間チャネルNMF(TCNMF)
• 提案手法
– 相対漏れゲインに対する事前分布の導入
– 最大事後確率に基づくパラメータ推定
• 実験
• まとめ
本発表の概要
2
- 3. • 研究背景
– ブラインド音源分離
– 被り音とその抑圧問題
• 従来手法
– 短時間フーリエ変換(STFT)と非負値行列因子分解(NMF)
– 独立低ランク行列分析(ILRMA)
– 線形分離領域多チャネルNMF(DMNMF)
– 時間チャネルNMF(TCNMF)
• 提案手法
– 相対漏れゲインに対する事前分布の導入
– 最大事後確率に基づくパラメータ推定
• 実験
• まとめ
本発表の概要
3
- 4. • ブラインド音源分離(blind source separation: BSS)
– 音源やマイクロホンの空間的な配置が不明な状態で分離系を
推定する技術
• 混合系 が不明な条件で分離系 を推定
• 音楽信号を対象としたBSSの応用
– 音楽信号解析や自動採譜の前段処理
– ライブ演奏における質の高いミキシングやモニター(SR)
– 音楽スタジオでのレコーディングの高品質化
4
研究背景
分離系
混合系
- 5. • 一般的なマイクの配置
– 演奏者やアンプに専用のマイクを近接
– 近接させた音源のみを録音するため
• 近接させた音源を
そのマイクの「目的音源」と呼ぶ
• 被り音(クロストーク)
– 実際には目的音源以外の音(被り音,bleeding sound)が混入
研究背景
5
マイクロホン の目的音源
マイクロホン における
その他の音源からの被り音
:マイクロホン
- 6. • 被り音の抑圧問題
– 各マイクに混入する被り音を除去し,目的音源成分だけを残す
– 多チャネル信号のBSSと類似
• 録音条件に起因する特徴
(a) 観測信号の信号対雑音(SN)比が比較的高い
各マイクを各目的音源に近接させているため
(b) 各マイクにおける目的音源は既知
各マイクの信号には「音源ラベル」が付与されている
(c) マイク間の距離が空間的に離れている
空間エイリアシングが発生
マイク間の距離が大きすぎて,信号の位相が信用できなくなる
位相情報を用いるBSSは基本的に失敗する
(d) 音楽信号が対象なので高品質なBSSが要求される
芸術的価値を損なわない信号処理が必要
研究背景
6
- 7. • 研究背景
– ブラインド音源分離
– 被り音とその抑圧問題
• 従来手法
– 短時間フーリエ変換(STFT)と非負値行列因子分解(NMF)
– 独立低ランク行列分析(ILRMA)
– 線形分離領域多チャネルNMF(DMNMF)
– 時間チャネルNMF(TCNMF)
• 提案手法
– 相対漏れゲインに対する事前分布の導入
– 最大事後確率に基づくパラメータ推定
• 実験
• まとめ
本発表の概要
7
- 8. 振幅スペクトログラムの低ランクモデリング手法
• 非負値行列因子分解(nonnegative matrix factorization: NMF)[Lee+, 1999]
– 非負制約付きの任意基底数( 本)による低ランク近似
• 限られた数の非負基底ベクトルとそれらの非負係数を抽出
– STFTで得られる振幅スペクトログラムを観測行列として適用
• 頻出するスペクトルパターンとそれらの時間的な強度変化が得られる
9
Amplitude
Amplitude
混合された観測行列
(振幅スペクトログラム)
基底行列
(スペクトルパターン)
アクティベーション行列
(時間的強度変化)
Time
: 周波数ビン数
: 時間フレーム数
: 基底数
Time
Frequency
Frequency 基底 アクティベーション
- 9. • NMFにおける変数の最適化
– 観測 とモデル の距離をコストとし変数について最小化
– 距離関数は任意
• 二乗ユークリッド距離,KLダイバージェンス,板倉斎藤擬距離,・・・
• 本研究ではKLダイバージェンスを用いる
– 効率的な反復更新による最適化アルゴリズム
• 例:補助関数法に基づく乗算型更新式
振幅スペクトログラムの低ランクモデリング手法
10
(コスト関数が二乗ユークリッド距離 の時の更新式)
- 10. • 独立低ランク行列分析(independent low-rank matrix analysis: ILRMA)
– 振幅と位相を用いて周波数毎の複素分離行列を推定
– 分離信号のパワースペクトログラムが低ランクとなるように誘導
従来手法:位相情報を用いたBSS(ILRMA)
11
[Kitamura+, 2016]
分離信号
…
…
…
観測信号 分離行列
観測信号
周波数毎の
分離行列
分離信号
Time
Frequency
Frequency
Time
分離信号が「互いに独立」かつ「低ランクな時
間周波数構造」を持つように分離行列を更新
STFT
NMFによる低ランク近似
観測信号に空間エイリアシングが生じる場合,BSSは困難
各時間周波数での
混合モデル
複素数
- 11. • 線形分離領域多チャネルNMF(Linear demixed domain multichannel NMF: DMNMF)
– パワーのみを用いて周波数毎の実数分離行列を推定
– 分離信号のパワースペクトログラムが低ランクとなるように誘導
– 信号の時間周波数パワーのみを用いる(位相は用いない)
従来手法:位相情報を用いないBSS(DMNMF)
12
[Taniguchi+,
2017]
推定信号
…
…
…
観測信号 分離行列
各時間周波数での混合
モデル(パワー近似)
観測信号に空間エイリアシングが生じる場合でも
BSSできる可能性あり
実数(非負)
- 12. • 時間チャネルNMF(time-channel NMF: TCNMF) [Togami+, 2010]
– 観測信号の振幅スペクトログラムの周波数毎の時間チャネル
行列( )のそれぞれにNMFを適用
– 周波数毎のゲイン行列 と音源時間行列 を推定
– 信号の時間周波数振幅のみを用いる(位相は用いない)
従来手法:位相情報を用いないBSS(TCNMF)
13
距離関数
時間
周波数
音源
時間
周波数
時間
周波数
観測信号の振幅
スペクトログラム(チャネル毎)
非負混合行列
(ゲイン行列)
音源毎の音量行列
(音源時間行列)
観測信号の振幅
スペクトログラム(周波数毎)
観測信号に空間エイリアシングが生じる場合でも
BSSできる可能性あり
- 13. • が単位行列 のとき自明解( , )が存在
– この自明解では,BSSは未達成
• 自明解を避けるため,時間毎のスパース正則化を導入
• :正則化重み係数
• : の時間軸方向ベクトル
• : ノルム
従来手法:位相情報を用いないBSS(TCNMF)
14
目的関数
正則化項
時間
周波数
音源
非負混合行列
(ゲイン行列)
音源毎の音量行列
(音源時間行列)
…
…
- 14. • 研究背景
– ブラインド音源分離
– 被り音とその抑圧問題
• 従来手法
– 短時間フーリエ変換(STFT)と非負値行列因子分解(NMF)
– 独立低ランク行列分析(ILRMA)
– 線形分離領域多チャネルNMF(DMNMF)
– 時間チャネルNMF(TCNMF)
• 提案手法
– 相対漏れゲインに対する事前分布の導入
– 最大事後確率に基づくパラメータ推定
• 実験
• まとめ
本発表の概要
15
- 15. 提案手法:動機
• TCNMFにおける問題
– TCNMFでは, の自明解を避けるために を音源方向に
スパース正則化を導入
• W-disjoint仮定:複数の音源が混合しても,各時間周波数スロットでは
高々1つの音源が支配的という仮定(音声信号ではそれなりに成立)
• 音楽信号は同じ周波数で複数の音源が衝突(ハーモニー)するため,
音源方向のスパース正則化は分離音の音質低下を招く
• 提案手法のアプローチ
– 音質を担保しつつ自明解( )を避けるため, の代わりに
を正則化
• 対角要素の値を1に固定
• 非対角要素の値を比較的小さな値
(0.1~0.5程度)になるように正則化
16
1
1
1
1
対角要素
は1に固定
非対角要素
は小さな値
周波数毎の被り音の相対的な
音量(相対漏れゲイン)を正則化
- 16. • 従来手法と同様に,多チャネル観測信号の振幅スペクト
ログラム にTCNMFを適用
– 但し,分離信号の音質劣化を防ぐため,音源時間行列 の
スパース正則化は用いない
• ゲイン行列 の対角・非対角要素に事前分布を導入
– 事前分布に基づく最大事後確率(maximum a posteriori: MAP)推定
提案手法:MAP推定TCNMF
17
時間
周波数
音源
時間
周波数
非負混合行列
(ゲイン行列)
音源毎の音量行列
(音源時間行列)
観測信号の振幅
スペクトログラム(周波数毎)
従来のTCNMFは を
音源方向にスパース化
提案のTCNMFは の
相対漏れゲインを正則化
- 17. • 非負混合行列 に次の事前分布生成モデルを導入
– 形状母数を とすると
非対角要素が に
なる現象(自明解)を回避
可能
提案手法:MAP推定TCNMF
18
Diracのデルタ分布(対角要素を に制約)
Random variable
Probabilistic
density
function
ガンマ分布: ( は形状母数, は尺度母数)
対角要素
非対角要素
- 25. • 2項のバランスを制御する重み係数 を追加
– が小さいと正則化項の影響が強くなる
• 事前に観測信号 を正規化
– のダイナミックレンジが となるようにゲインを調整
• 複素数の観測信号に対してWienerフィルタを適用
提案手法:スケール依存性の解決
26
Wienerフィルタ
- 26. • 研究背景
– ブラインド音源分離
– 被り音とその抑圧問題
• 従来手法
– 短時間フーリエ変換(STFT)と非負値行列因子分解(NMF)
– 独立低ランク行列分析(ILRMA)
– 線形分離領域多チャネルNMF(DMNMF)
– 時間チャネルNMF(TCNMF)
• 提案手法
– 相対漏れゲインに対する事前分布の導入
– 最大事後確率に基づくパラメータ推定
• 実験
• まとめ
本発表の概要
27
- 27. Ob.
Cl.
Pf.
Tb.
実験条件
• 音楽信号の被り音抑圧性能を従来手法と比較
– 比較手法
• IVA,ILRMA,DMNMF,従来TCNMF(音源方向スパース正則化)
– 信号対歪み比(SDR)[Vincent+, 2006]の改善量で評価
• SDR改善量 = 分離後のSDR - 分離前のSDR [dB]
• 音源信号(ドライソース)
– 人工音楽データセット“songKitamura” [Kitamura+, 2015]
• Ob.,Cl.,Pf.,Tb.の4楽器を用いて4チャネルの観測信号を作成
28
- 28. 1
1
1
1
実験条件
• 被り音を含む観測信号のシミュレーション
– 音源信号に周波数毎の非負実数乱数ゲイン行列を乗じる
– 10種類の乱数シードを用いて10個の実験データを用意
• 観測信号の平均SDR
– Ob.音源+被り音:18.8 [dB]
– Cl.音源+被り音:15.0 [dB]
– Pf.音源+被り音:14.7 [dB]
– Tb.音源+被り音:8.6 [dB]
29
観測信号の時点でSDRはかなり高い
このSDRからの改善量を評価
(SDR改善量=分離後のSDR-分離前のSDR)
対角要素は1に固定
非対角要素は区間
(0, 0.2)の一様乱数
周波数
音源 時間
周波数
ドライソースの
複素スペクトログラム
非負混合行列
(ゲイン行列)
時間
周波数
観測信号の
複素スペクトログラム
:Ob.
:Cl.
:Pf.
:Tb.
- 29. 実験条件
• その他の実験条件
30
パラメータ 設定値
サンプリング周波数 44.1 kHz
窓関数 Hamming窓
窓長 4096 点 (約92.9 ms)
シフト長 2049 点 (約46.5 ms)
反復回数 200 回
ゲイン行列 の反復最適化初期値
(DMNMF,従来TCNMF,提案TCNMF)
対角成分は1,
非対角成分は区間(0,0.1)の一様乱数
音源時間行列 の反復最適化初期値 区間(0,1)の一様乱数
提案TCNMFのガンマ分布の形状母数 1.25
提案TCNMFのガンマ分布の尺度母数 0.6
提案TCNMFの正則化重み係数 0.006
従来TCNMFの正則化重み係数 0.56
ILRMAとDMNMFの基底数 10,30,80 本
- 32. • 研究背景
– ブラインド音源分離
– 被り音とその抑圧問題
• 従来手法
– 短時間フーリエ変換(STFT)と非負値行列因子分解(NMF)
– 独立低ランク行列分析(ILRMA)
– 線形分離領域多チャネルNMF(DMNMF)
– 時間チャネルNMF(TCNMF)
• 提案手法
– 相対漏れゲインに対する事前分布の導入
– 最大事後確率に基づくパラメータ推定
• 実験
• まとめ
本発表の概要
33
- 33. まとめ
• 目的:音楽信号における被り音の抑圧
– 観測時点で高いSN比
– 空間エイリアシングが生じる前提のマイクセットアップ
• 動機1:複素分離行列を求める位相依存BSSが動かない
– IVAやILRMAの実験結果からも明らか
• 動機2:位相非依存BSSのDMNMFがあるが動かない
– パラメータの多い非凸最適化(最尤推定)の難しさ
• 動機3:位相非依存BSSのTCNMFは被り音抑圧に有効
– 但し,音源時間行列への正則化が分離音の音質を劣化させる
• 提案手法:TCNMFのゲイン行列に事前分布を導入
– 被り音の音量(相対漏れゲイン)が比較的小さいという仮定
• 結果:提案TCNMFは従来TCNMFより良い性能を達成
34
Notes de l'éditeur
- それでは,非負値行列因子分解を用いた被り音の抑圧という題目で,香川高専の溝渕が発表いたします.
- 本発表の概要です。
始めに研究背景として,本研究で取り扱う問題について説明し,その後,従来手法をいくつか紹介します.さらに,提案手法の動機と詳細な説明を行った後,実験により各手法の性能を評価します.最後にまとめます.
- まずは研究の背景から説明します。
ここま約30秒
- 本研究では,音源分離問題について取り扱います.これは,人の声や楽器音等,複数の音源が混合した観測信号から,混合前の音源信号を分離・推定する技術です.
とくに,ブラインド音源分離,通称BSSと呼ばれる技術課題を取り扱います.
BSSとは,音響信号を収録する際のマイクロホンの配置や音源の位置等の空間的な事前情報を用いることなく,観測信号のみから音源を推定する技術です.
中央の図は,左端の4つの楽器音が混合した状態で,4本のマイクにより録音されるイメージを表しています.
BSSでは,この4つの観測信号に対して,混合系Aや各音源の学習データ等を用いることなく分離系を推定し適用することで,混合前の楽器音を得ることを目標とします.
従って,近年盛んに研究されている深層学習を使う手法などは,BSSの対象外とし,本研究では扱いません.
音楽信号に対してBSSのような音源分離ができると,その後の処理として(コード進行推定やジャンル推定等の)音楽信号解析を適用したり,(楽譜を自動的に作る)自動採譜が実現できたりします.
また,ライブ演奏では,音源分離を適用することで,質の高いミキシングやモニターを実現したり,音楽スタジオでのレコーディングの品質を上げたりすることが可能になります.
# ブラインドの利点
・マイクの位置情報等の面倒な設定が不要
# 音楽信号解析とは
・コード、テンポ、ジャンルの推定
約40秒
- このような音楽の収録に対する音源分離を考えた場合,実際のライブや録音の現場では,演奏者や楽器本体,あるいはアンプ等に対して,その音を収録する専用のマイクロホンを近接して置くことが多いです.
例えば右上の図のようなマイキングを行います.
このとき,近接させた音源の信号を,そのマイクの「目的音」と呼びます.
しかしながら,実際には録音は複数の楽器が演奏している環境で行われるため,近接させたマイクロホンには目的音だけではなく,それ以外の音源の信号も混ざってしまいます.
これらの不要な音はクロストークや,被り音,bleeding sound,と呼ばれています.
この被り音が入ってしまうと,例えばピアノに近接させたマイクロホンの信号にドラムの音などが入ってしまいますので,ピアノの音の編集の品質が下がる等の問題が生じてしまいます.
従って,サウンドエンジニアは極力被り音が入らないようなマイキングを行いますが,完全に被り音を防ぐことはほとんど不可能です.
約30秒
- そこで本研究では,観測信号のみを用いて,各マイクに混入している被り音を抑圧し,目的音の成分だけを残すという問題について取り組みます.
この問題は多チャネルBSSとよく似ていますが,次に示す点で,被り音抑圧問題ならではの特徴があります.
まず初めに挙げられるのは観測信号のSN比が比較的高いという特徴です.これは各マイクを各目的音源に近接させていることに起因します.
次に,どのマイクをどの音源に近接させたかは事前に分かりますので,各マイクにおける目的音源は既知,という特徴もあります.
また,通常のマイキングでは,マイク間の距離が1mや2m等,空間的にかなり離れるため,観測信号の位相情報が信用できなくなる,という特徴もあります.
即ち,観測信号には空間エイリアシングが発生してしまいます.
この特徴のせいで,位相情報を用いるBSSでは,基本的に被り音の抑圧に失敗してしまいます.
最後に,本研究では音楽信号を対象としますので,高品質なBSSが要求される,という特徴もあります.
つまり,音楽の芸術的な価値を保持する必要があり,分離信号に歪みなどが残らないようにする必要があります.
以上が本研究の背景です.
約70秒
# 空間エイリアシング:位相が何回転したか分からなくなって,位相情報を使うような手法がうまく動かなくなる
- 次に,本研究に関連する従来手法について説明していきます.
ここまで訳4分
- 一般的な音響信号処理では,信号の時間的に変化する周波数構造を見るために,短時間フーリエ変換,通称STFTを適用します.
STFTの処理をアニメーションで説明します.
まず,音の時間波形を(クリック)このように短時間区間で区切ります.
このときの短時間長とずらし幅は(クリック)このようになります.
その後,(クリック)各短時間信号に窓関数を乗じて,(クリック)離散フーリエ変換していき,(クリック)周波数スペクトルを時間方向に並べます.
こうして得られる複素数の時間周波数行列をスペクトログラムと呼びます.
(クリック)手法によっては,複素数の絶対値又はその2乗のパワー値を計算し,振幅,又はパワースペクトログラムを得ます.
これは複素数ではなく非負の実数行列となります.
従って,(クリック)STFTは時間領域から(クリック)時間周波数領域への変換といえます.
30秒
- まずは,非負値行列因子分解,通称NMFについて紹介します.
NMFは振幅やパワースペクトログラムをモデル化する手法であり,非負のスペクトログラムXを,別の2つの非負行列の行列積,(図ではT×V)で近似します.
(これによって,Xの中に頻繁に出現する小数のスペクトルパターンと,それらの時間的な強度変化が推定できます.)
(ポインタで指定しながら)図の左端が振幅スペクトログラムXです.ここでは,最初にある高さの音が鳴り,それが鳴りやまぬうちに,途中から別の高さの音が鳴っている振幅スペクトログラムです.
このXをNMFでT×Vに分解すると,図のようなTとVが得られます.Tには,Xに含まれる2つの音のスペクトルパターンが現れ,Vには,それらがいつ生じたかという「楽譜のような情報」が現れます.
TとVはマイナスの値を持たないように非負制約が課せられています.
ここで,以後統一して,iは周波数,jは時間フレーム,kは基底数のインデクスを表します.
約40秒
次に,この振幅やパワースペクトログラムをモデル化する手法である,非負値行列因子分解,通称NMFについて紹介します.
NMFでは,非負のスペクトログラムXを,別の2つの非負行列の行列積,図ではT×Vで近似します.
これによって,Xの中に頻繁に出現する小数のスペクトルパターンと,それらの時間的な強度変化が推定できます.
(ポインタで指定しながら)図の左端が振幅スペクトログラムXです.ここでは,最初にある高さの音が鳴り,それが鳴りやまぬうちに,途中から別の高さの音が鳴っている振幅スペクトログラムです.
このXをNMFでT×Vに分解すると,図のようなTとVが得られます.Tには,Xに含まれる2つの音のスペクトルパターンが現れ,Vには,それらがいつ生じたかという「楽譜のような情報」が現れます.
TとVはマイナスの値を持たないように非負制約が課せられています.
ここで,以後統一して,iは周波数,jは時間フレーム,kは基底数のインデクスを表します.
- このNMFにおけるTとVの推定方法は,非負制約の下での「XとTVの距離最小化」となります.
ここで,用いる距離関数は数式ではDですが,これは任意です.本研究では,音響信号処理でよく使われる「KLダイバージェンス」を用います.
この最適化問題は解析的には解けませんが,反復的に距離を小さくしていくアルゴリズムが提案されており,補助関数法と呼ばれています.
例えば,距離関数が2乗誤差の場合は,このような反復計算の更新式が得られます.
スペクトルのピークに注目して
- 次に,多チャネルBSSの代表手法として,独立低ランク行列分析,ILRMAについて紹介します.
ILRMAは,観測信号の振幅と位相の両方を用いて,周波数毎の「複素」分離行列を推定します.
コチラの図のように,観測信号の複素スペクトログラムXに対して,周波数毎の分離行列Wiを用意し,これをXに乗じた結果が分離信号になるように最適化します.
また,分離信号のパワースペクトログラムはNMFでモデル化されますので,分離後の信号の時間周波数構造が低ランクになるように誘導しています.
しかしながら,空間エイリアシングが生じる被り音抑圧問題においては,位相情報を必要とするILRMAを用いてもBSSは非常に困難です.
これについては,実験でも確認します.
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
# スライド戻ってきたとき用
ここでスライド戻して)先ほどは複素数の信号に対して,複素数の分離行列を求めていましたが(ここで戻す),DMNMFは観測の「パワー」スペクトログラム,X二乗に対して,
非負実数の分離行列Wiを推定します.
※なんでILRMAやDMNMFでNMFするん
NMFによる低ランク近似をしないとパーミュテーション問題が解けない
- 一方,ILRMAをパワースペクトログラムのみのモデル化に近似した手法も提案されています.
これは線形分離領域多チャネルNMFと呼ばれ,本発表ではDMNMFと呼びます.
先ほどのILRMAのモデルと比較すると,(ここでスライド戻して)先ほどは複素数の信号に対して,複素数の分離行列を求めていましたが(ここで戻す),
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
DMNMFは観測の「パワー」スペクトログラム,X二乗に対して,非負実数の分離行列Wiを推定します.
ILRMAと同様に,分離信号YのパワースペクトログラムはNMFで低ランク近似されるモデルです.
DMNMFは位相を使わずに,パワー情報のみを用いて周波数毎の非負実数分離行列を推定します.
なので,この手法は空間エイリアシングが生じているような多チャネル観測信号に対してもBSSできる可能性があり,被り音抑圧問題にも利用できるかもしれません.
約40秒
- さらに,DMNMFの他にも位相情報を用いないBSSとして,時間チャネルNMF,TCNMFがあります.
この手法は提案手法と関係が深いので詳しく説明します.
TCNMFでは,観測信号の振幅スペクトログラムに対して,視点を変えて,周波数毎の時間チャネル行列を観測とみなします.
つまり,真ん中の図の左端のように,チャネル毎の時間周波数行列ではなく,(ポインタでさしながら)周波数毎の時間チャネル行列にNMFを適用します.
このとき,Ai×Siという行列で近似しますが,(指しながら)Aiはチャネル×音源の非負正方行列となります.これを,ゲイン行列と呼び,周波数毎の各マイクへの音量の係数が含まれます.
また,行列Siには,音源×時間の成分が含まれ,理想的には完全に分離された音源の信号となります.
AiとSiの推定は,NMFと同様であり,(指しながら)この距離関数のようにXiとAiSiのKLダイバージェンス最小化で行われます.
従って,TCNMFも位相情報を全く用いないことから,空間エイリアシングが生じる観測信号を分離できる可能性があります.
約45秒
- 但し,TCNMFには問題があります.先ほどの行列分解において,ゲイン行列Aiが正方であり,低ランク近似にはなっていません.
そのため,このモデルでは,ゲイン行列Aが単位行列のとき,観測信号の振幅スペクトログラムと音源時間行列Sの値が等しくなり,音源を分離できない無意味な解となってしまいます.
このような自明解を避けるために,TCNMFでは,周波数ごとの音源時間行列Siに,時間フレーム毎のスパース正則化を導入しています.
この正則化付きTCNMFの目的関数は中央の式になります.(指しながら)
ここで,ミューはスパース正則化の重み係数です.正則化項は,右下の図のように,Siのある時間フレームの音源をまとめたベクトルsijに対してL0.5ノルムを取っています.
従って,ある時間周波数スロットでは,高々1つの音源がアクティブであるという,いわゆるダブルディスジョイント仮定を置いています.
約45秒
- 次に,本研究の提案手法について説明します.
ここまでで9分半だとちょうどいい
- まずは,提案手法の動機について紹介します.
先程説明したTCNMFでは,ゲイン行列Aiの自明解を避けるために,音源時間行列Siの音源方向にスパース正則化を導入していました.
しかしながら,スパース正則化は,ダブルディスジョイント仮定が成立する前提で導入されています.
これは,複数の音声が混合する観測信号では成り立つことが多いですが,音楽信号は基本的に同じ時間周波数で複数の音源が衝突し,ハーモニーとなりますので,このスパース正則化では,分離音の音質の劣化や分離精度の劣化を招いてしまう恐れがあります.
そこで,今回提案する手法では,分離音の音質を損なわずに自明解を避けるために,音源時間行列Siのかわりに,ゲイン行列Aiを正則化することを考えます.
具体的には,ゲイン行列Aiの対角要素を1から動かないよう制約し,さらに非対角要素は比較的小さな値となるように正則化します.
ゲイン行列Aiの非対角要素は,被り音の音量を表す成分ですので,この正則化は,周波数毎の被り音の相対的な音量,即ち相対漏れゲインを正則化していることになります.
約60秒
- ここからは,提案手法である最大事後確率推定TCNMF,通称MAP推定TCNMFについて説明します.
本手法では,従来のTCNMFと同様に,多チャネル観測信号の「振幅スペクトログラム」にTCNMFを適用します.
そして,動機で説明したように,Aiの自明解を避けつつ,分離信号の音質を保つため,音源時間行列Siではなく,ゲイン行列Aiに事前分布を導入し,正則化を施します.
この事前分布に基づいて,MAP推定の枠組みでAiとSiを最適化していきます.
- それではr,ゲイン行列Aiに導入する事前分布について,説明します.
まず,対角要素には,ディラックのデルタ分布を導入し,必ず1になるような制約をかけます.
次に,非対角要素については,非負の確率変数を持つガンマ分布を導入します.
ガンマ分布は,(さしながら)このような確率密度関数で表され,パラメータとして形状母数kと尺度母数θを持ちます.
右下に,形状母数kを1より大きくした場合のガンマ分布の密度関数を示しています.
このように,kが1より大きいと,非対角要素の値は0より大きい数値となるため,自明解を回避でき,さらに0.2~0.5程度の値をなるべく持つように誘導することができます.
(ガンマ分布を採用している理由はKLNMFの生成モデルであるポアソン分布の共役事前分布であるから.共役事前分布を用いると事前分布と事後分布が同じ形になってくれて嬉しい)
- 一方,音源時間行列Siについては,非負性だけを保証するように事前分布を定めます.
これは,分離信号の振幅スペクトログラムを非負に制約することに対応し,負の値の確率を0とした片側一様分布となっています.
- ゲイン行列Aiの要素が,周波数とチャネルと音源の全てに関して互いに独立と仮定すると,行列Aiの事前分布は真ん中の式のようになります.
これは,対角要素の事前分布と非対角要素の事前分布の積となっています.
また,音源時間行列Siの事前分布も同様に要素毎の独立性を仮定することで,下の式のようにあらわすことができます.
- 先程示した事前分布に基づき,ゲイン行列Aiと音源行列SiをMAP推定で求めることを考えます.
事後分布は,ベイズの定理により,このように尤度と事前分布の積に比例します.
この式の右辺の負対数を取ると,最小化をする目的関数Jがこのように得られます.
式中の第1項であるlog p Xiは,KLダイバージェンスと等価になります.(Xiの各成分がポアソン分布から生成されるという仮定を置くと)
第2項と第3項に,先ほどのAiとSiの事前分布をそれぞれ代入すると,下の式のように正則化項が導かれます.
赤色で書いた項は,Aiの対角要素が1になるという制約を与え,青色で書いた項は,Aiの非対角要素の正則化項になります.
提案手法では,このJを最小化するAiとSiを求めていきます.
- 先ほどの式の最小化は,上側の式の最小化問題と等価になります.
即ち,KLダイバージェンスからなるデータ近似項と,ゲイン行列Aiの非対角要素の事前分布に対応する正則化項の和の最小化となっています.
この最小化問題を解くために,本研究ではNMFで良く用いられる補助関数法を適用します.
- まず,KLダイバージェンスの中の赤色で示したlog sum項は,そのまま変数で偏微分しても解くことができません.
そこで,良くあるテクニックですが,いぇんぜんの不等式を用いて,log sum項の上限関数に置き換え,KLダイバージェンスの補助関数をこの式のように設計し,目的関数の代わりにこちらを最小化します.
ここで,くしー(くさい)はこの条件を満たす正の補助変数です.(条件式を指しながら)
なお,正則化項の方は,そのまま偏微分して反復最適化アルゴリズムを導出することができます.
- 詳細は割愛しますが,先程の補助関数を最小化することで得られる更新式はスライドの通りになります.
この更新式は行列形式で表されており,⊙は要素ごとの乗算,分数は要素ごとの除算を示しています.
なお,1つめの式でAiの対角要素が更新されていますが,直後に対角要素を1で上書きすることで,効率的な実装となっています.
この反復更新式は補助関数法に基づいていますので,目的関数の値が単調非増加であることが保証されています.
大丈夫。コスト関数の制約で対角は1にならんといかん。本来は要素ごとの更新式を更新するが、ここで示しているのは計算速度をあげるために要素にアクセスせずに行列全体を一気に更新している。理論的にはコスト関数の収束が保証されている。
- 最後に,提案手法には少し問題があります.
まず,KLダイバージェンスは,大きさが引数のスケールに依存して変動します.
上の式で表しているように,aとbの距離を測るときに,それぞれにα倍すると,距離自体がα倍されます.
また,ゲイン行列Aiの対角成分を1に固定していることから,Aiの非対角要素は,被り音の「相対的な」漏れゲインに相当します.
これらの性質より,観測信号のゲインそのものが,目的関数のデータ近似項と正規化項のバランスに影響してしまいます.
※質問用
分離音の音量はSにあらわれている(Aを固定しているため)。 正則化項RはSの値に依存しないので大きさは変わらない。
しかし,音量が大きくなるとXとSともに大きくなるから①よりデータ近似項の値は大きくなってしまう。
- このスケール依存性の問題を回避するために,観測信号を正規化した上でゲインをパラメータ化します.
正規化の方法はこの式の通りです(ポインタで指しながら).観測信号を信号の最大値で割った後,αを乗じることで信号のダイナミックレンジを±αに制限しています.
なので,重み係数(ゲインパラメータ)αの値が小さければ正則化項の影響が強くなり,大きければデータ近似項の影響が強くなります.
最後に,提案手法では,従来TCNMFと同様に,複素数の観測信号xに対してWienerフィルタを適用することで,複素数の推定信号yを復元します.
(Wienerフィルタをかけ,逆STFTして得られた推定信号にv/αを乗じることでゲインの復元ができるよ)
パラメータは2つでいいのでは?
そのとおり。実験を行った際,3つのパラメータを変動させ確認したが.将来的には2つに落とせそう
- それでは,実験について説明します.
ここまでで16分前後だとちょうどいい
- 本実験では,音楽信号の被り音抑圧性能を従来手法と提案手法で比較しました.
比較対象は独立ベクトル分析IVA,ILRMA,DMNMF,従来TCNMF,及び提案TCNMFの5つのBSSです.
そして,性能は信号対歪み比SDRの改善量を用いて評価しました.
SDR改善量は観測信号のSDRからの改善量で求めます.
また,音源信号には,下に示す楽譜をみでぃ音源で鳴らしたデータセットである“songKitamura”を使いました.
今回はOb.,Cl.,Pf.,Tb.の4楽器を用いました.
※被り音だから分離前でもSDR高め
Ob.:オーボエ
Cl.:クラリネット
Pf:ピアノ
Tb:トロンボーン
- 今回の実験では,被り音を含む観測信号を模擬するために,先ほどの音源信号に周波数毎の非負実数の乱数ゲイン行列を乗じました.
中央の図に示すように,各楽器音を(右下の乱数行列をさしながら)このような周波数毎の乱数行列で混ぜ合わせて,観測信号を生成しています.
乱数行列は対角要素が1で,非対角要素が0~0.2の一様乱数です.
この観測信号を,乱数を変えて10個用意し,平均性能を比較します.
なお,観測信号のSN比は観測時点で高く,平均SDRは,(Ob.のマイクで18.8dB,Cl.で15dB,ピアノで14.7dB,トロンボーンで8.6dB)でした.
このSDR値からの改善量を比較します.
- その他の条件はこの表のとおりです.
提案手法のガンマ分pぬのパラメータは,形状母数を1.25,尺度母数を0.6としました.これは(クリック)このような形状のガンマ分布となります.
また,従来TCNMFのスパース正則化重み係数ミューは0.56としました.
いずれも,パラメータを総当たり的に変動させ,最高性能を記録したパラメータとなっています.
説明するかどうかは時間次第
※大事なやつだけ説明
- コチラが実験結果です.平均SDR改善量を手法毎に示しています.
棒グラフの違いは手法の違い,縦軸が平均SDR改善量であり,高いほど良い結果を示します.
(クリック)左側のIVAとILRMAは位相に依存するBSSであり,複素数の分離行列を求める手法です.
今回は観測信号の位相が全く役に立たない観測信号のため,これらの手法は分離が全くできませんでした.
(クリック)右側のDMNMFとTCNMFは位相を用いないBSSです.
しかしながら,DMNMFは観測信号以上のSDRを達成することはできませんした.
これはパラメータが多いことによる最適化の困難さが原因と予想されます.
一方,TCNMFは提案手法が従来手法を大きく上回り,音源時間行列Siではなくゲイン行列Aiに正則化を掛けたことの効果が現れたと思われます.
- 次にデモンストレーションを行います.実験で得られたトロンボーンの音源について観測信号,従来TCNMF,提案TCNMFの順番で再生します.
- 最後にまとめです
-
時間ありゃ読む
※パーミューテーション問題について
従来TCNMFも対角成分を1に初期化することで問題を解決していた(音を聞く限り起きていない)
提案手法は対角成分を1に固定することでパーミュテーション問題を回避している(被り音の方が大きい場合は起こりうる?)