SlideShare une entreprise Scribd logo
1  sur  91
独立低ランク行列分析に基づく
音源分離とその発展
Audio source separation based on
independent low-rank matrix analysis and its extensions
香川高等専門学校 電気情報工学科 助教
北村大地
信号処理研究会
2021年8月24日
[招待講演]
• 音源分離(audio source separation)
– 複数の音源が混合された信号を音源毎に分離する信号処理
– 音声認識,雑音抑圧,補聴器,会議アーカイブ etc.
– ほぼ全ての音響システムのフロントエンドに応用可能
• 観測信号から有意な因子を抽出する技術
– 知能情報学の一大トピック
• 例:音楽信号の音源分離
– ユーザによる既存音楽の再編集,自動採譜技術,
楽器演奏における教育支援,超臨場感音場再現の制御 等
研究の背景
2
音楽CD
音源分離
実演奏の録音
研究の背景
• ブラインド音源分離(blind source separation: BSS)
– 混合系 や音源情報が未知(事前学習をしない)
• 優決定条件(マイク数≧音源数)BSS
– 音源間の独立性に基づく分離系 の推定
– 独立成分分析(independent component analysis: ICA)の系譜
• 劣決定条件(マイク数<音源数)BSS
– 混合系 の推定+ポストフィルタやソフトマスク
– Sparse coding,到来方向クラスタリング,空間相関行列推定等
• 単一チャネル条件(マイク数=1)BSS
– 各音源の時間周波数成分の推定
– 非負値行列因子分解(nonnegative matrix factorization: NMF)等 3
混合系 分離系
本日の内容
スペクトル減算
時間周波数マスキング
その他各種
ビームフォーミング
スパースコーディング
時間周波数マスキング
到来方向クラスタリング
その他各種
音源分離の歴史と発展(本発表に関連する手法のみ掲載)
4
1994
1998
2013
1999
2012
パーミュテーション問題
の解決
数理モデルの拡張
生成モデル的解釈の発見
周波数領域ICA (FDICA)
板倉斎藤擬距離NMF (ISNMF)
独立ベクトル分析 (IVA)
2016
2009
2006
2011 補助関数IVA (AuxIVA)
非負値行列因子分解 (NMF)
独立低ランク行列分析 (ILRMA)
時変複素ガウスIVA
多チャネルNMF
2018 独立深層学習行列分析 (IDLMA)
単一チャネル条件
空間相関行列モデル
多チャネルNMF+DNN 深層ニューラルネットワーク
(DNN)
独立成分分析 (ICA)
[Comon],[Bell and Sejnowski],
[Cardoso], [Amari], [Cichocki], …
[Smaragdis]
[Saruwatari], [Murata],
[Morgan], [Sawada], …
[Hiroe], [Kim]
[Ono]
[Ono]
[Kitamura] [Nugraha]
[Ozerov, Sawada]
[Duong]
[Févotte]
[Lee]
[Virtanen], [Smaragdis],
[Kameoka], [Ozerov], …
[Hinton], …
2010
劣決定条件
優決定条件
[Kitamura]
2020 スペクトログラム無矛盾ILRMA
[偉大なる先人達]
[偉大なる先人達]
[Mogami]
本日の発表の概要
• ICAに基づく空間分離行列(空間モデル)の推定
– 周波数領域ICA,パーミュテーション問題,独立ベクトル分析
• NMFに基づく音源時間周波数構造(音源モデル)の推定
– NMFによる低ランク近似と生成モデル,多チャネルNMF
• 独立低ランク行列分析(ILRMA)
– ICA空間モデル+NMF音源モデル,多チャネルNMFとの関係
• 独立深層学習行列分析(IDLMA)
– NMF音源モデル→DNN音源モデル(教師あり拡張)
• スペクトログラム無矛盾ILRMA(consistent ILRMA)
– 無矛盾性によるパーミュテーション問題緩和,ILRMAへの導入
• まとめ
5
本日の発表の概要
• ICAに基づく空間分離行列(空間モデル)の推定
– 周波数領域ICA,パーミュテーション問題,独立ベクトル分析
• NMFに基づく音源時間周波数構造(音源モデル)の推定
– NMFによる低ランク近似と生成モデル,多チャネルNMF
• 独立低ランク行列分析(ILRMA)
– ICA空間モデル+NMF音源モデル,多チャネルNMFとの関係
• 独立深層学習行列分析(IDLMA)
– NMF音源モデル→DNN音源モデル(教師あり拡張)
• スペクトログラム無矛盾ILRMA(consistent ILRMA)
– 無矛盾性によるパーミュテーション問題緩和,ILRMAへの導入
• まとめ
6
スペクトル減算
時間周波数マスキング
その他各種
ビームフォーミング
スパースコーディング
時間周波数マスキング
到来方向クラスタリング
その他各種
音源分離の歴史と発展(本発表に関連する手法のみ掲載)
7
1994
1998
2013
1999
2012
パーミュテーション問題
の解決
数理モデルの拡張
生成モデル的解釈の発見
周波数領域ICA (FDICA)
板倉斎藤擬距離NMF (ISNMF)
独立ベクトル分析 (IVA)
2016
2009
2006
2011 補助関数IVA (AuxIVA)
非負値行列因子分解 (NMF)
独立低ランク行列分析 (ILRMA)
時変複素ガウスIVA
多チャネルNMF
2018 独立深層学習行列分析 (IDLMA)
単一チャネル条件
空間相関行列モデル
多チャネルNMF+DNN 深層ニューラルネットワーク
(DNN)
独立成分分析 (ICA)
[Comon],[Bell and Sejnowski],
[Cardoso], [Amari], [Cichocki], …
[Smaragdis]
[Saruwatari], [Murata],
[Morgan], [Sawada], …
[Hiroe], [Kim]
[Ono]
[Ono]
[Kitamura] [Nugraha]
[Ozerov, Sawada]
[Duong]
[Févotte]
[Lee]
[Virtanen], [Smaragdis],
[Kameoka], [Ozerov], …
[Hinton], …
2010
劣決定条件
優決定条件
[Kitamura]
2020 スペクトログラム無矛盾ILRMA
[偉大なる先人達]
[偉大なる先人達]
[Mogami]
• 独立成分分析(independent component analysis: ICA)
– 混合行列 が未知の条件で分離行列 を推定
– 3つの仮定を用いて分離行列 を推定
• 1. 独立成分は互いに独立(音源は多くの場合独立)
• 2. 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)
• 3. 混合行列は可逆で時不変(優決定,音源やマイクは移動しない)
音源間の独立性に基づくBSS:ICA
8
混合行列
音源信号 混合信号
1. 互いに独立
2. 非ガウス分布
3. 可逆で時不変
分離行列
逆行列
• ICAの推定理論
– 推定信号間の独立性を最大化
– 対数尤度関数
音源間の独立性に基づくBSS:ICA
12
近づける
:音源の非ガウスな分布
未知なものなので,適当に与える必要がある(音声はラプラス分布等)
音源間の独立性に基づくBSS:ICA
• ICAの不確定性
– 2つの任意性が存在
• 1. 独立成分の分散(パワー)は決定できない(音量が分からない)
• 2. 独立成分の順序は決定できない(順番が変わりうる)
11
混合信号
独立成分
混合信号
独立成分
推定信号
推定信号
混合行列 分離行列
混合行列 分離行列
ICAに基づくBSSの耐残響性の向上
• 周波数領域ICA(FDICA)[Smaragdis, 1998]
– 各周波数ビンの複素時系列に対して独立なICAを適用
11
スペクトログラム
ICA1
ICA2
ICA3
…
…
ICA
Frequency
bin
Time frame
…
逆行列
周波数領域の時不変
瞬時混合行列
耐残響性の向上:周波数領域ICA(FDICA)
12
ICA
全て時間周波数
領域の信号
音源1
音源2
観測1
観測2
Permutation
Solver
分離信号1
分離信号2
Time
• FDICAにおけるパーミュテーション問題
– 各周波数ビンで推定信号の順序がバラバラになる
– 様々なパーミュテーションソルバが検討された
※分散(スケール)もバラバラになるが,これは容易に戻すことが可能
FDICAにおけるパーミュテーション解決法
• 独立ベクトル分析(independent vector analysis: IVA)[Hiroe, 2006], [Kim, 2006]
– 分離フィルタ推定(周波数毎のICAの最適化)
– パーミュテーション問題の解決(ポスト処理)
– ICAを多変量(多次元)分布モデルへ拡張( )
– 周波数ベクトルの確率変数に対するICA
13
1つの問題の
最適化で実現
…
…
混合行列
…
…
…
観測信号
分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー 周波数ベクトル
• FDICAの仮定する音源の事前分布
– 例:零平均単変量複素ラプラス分布×周波数(全て独立)
• IVAの仮定する音源の事前分布
– 例:零平均多変量複素ラプラス分布
– (互いに無相関)の場合でも, が周波数間で依存
• 球対称な分布を仮定していることに起因
• 高次相関性(共起性)が生じる
IVAにおける音源分布と高次相関
14
周波数毎に独立な
音源分布
周波数間で高次相関
をもつ音源分布
分散共分散行列
のとき
ベクトルノルム
にのみ依存
• 図は [Kim, 2007] より引用
• 球対称音源分布の(かなりざっくりとした)定性的な説明
– 周波数間で同じ時間変動を持つ成分を一つの音源として
まとめる傾向にある パーミュテーション問題の回避
IVAにおける音源分布と高次相関
15
x1とx2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1とx2は互いに無相関だが
依存関係がある
球対称な
二変数ラプラ
ス分布
互いに独立な
二変数ラプラス
分布
c c c
FDICAとIVAの分離原理比較
• FDICAの分離原理
• IVAの分離原理
16
観測信号
推定信号の分布形状があらかじめ仮定した非ガウス
な音源分布に近づくように分離フィルタを更新
推定信号
分離フィルタ
推定信号の
現在の分布形状
非ガウスな
音源分布
STFT
Frequency
Time
Frequency
Time
観測信号 推定信号
分離フィルタ
推定信号の
現在の分布形状
STFT
Frequency
Time
Frequency
Time
非ガウスな
球対称多変量
音源分布
スカラーの
確率変数
ベクトルの多変量
確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな
球対称の音源分布に近づくように分離フィルタを更新
中心極限定理より,混合信号
はガウス分布に近い信号
本来の音源信号は
非ガウス分布に従う
互いに
独立
互いに
独立
• 初期のIVAの分離行列の最適化は自然勾配法
– ステップサイズパラメータ を調整する必要あり
• 補助関数法に基づくIVA(auxiliary-function-based IVA: AuxIVA)
– 反復射影法(iterative projection: IP)
– 分離行列を行毎( 毎)に更新
より高速・安定なIVA
17
…
更新
固定
分散 の更新
固定
…
固定
更新
固定
…
固定
固定
更新
番目の要素が1,
他が0の縦ベクトル
[Ono, 2011]
本日の発表の概要
• ICAに基づく空間分離行列(空間モデル)の推定
– 周波数領域ICA,パーミュテーション問題,独立ベクトル分析
• NMFに基づく音源時間周波数構造(音源モデル)の推定
– NMFによる低ランク近似と生成モデル,多チャネルNMF
• 独立低ランク行列分析(ILRMA)
– ICA空間モデル+NMF音源モデル,多チャネルNMFとの関係
• 独立深層学習行列分析(IDLMA)
– NMF音源モデル→DNN音源モデル(教師あり拡張)
• スペクトログラム無矛盾ILRMA(consistent ILRMA)
– 無矛盾性によるパーミュテーション問題緩和,ILRMAへの導入
• まとめ
18
スペクトル減算
時間周波数マスキング
その他各種
ビームフォーミング
スパースコーディング
時間周波数マスキング
到来方向クラスタリング
その他各種
音源分離の歴史と発展(本発表に関連する手法のみ掲載)
19
1994
1998
2013
1999
2012
パーミュテーション問題
の解決
数理モデルの拡張
生成モデル的解釈の発見
周波数領域ICA (FDICA)
板倉斎藤擬距離NMF (ISNMF)
独立ベクトル分析 (IVA)
2016
2009
2006
2011 補助関数IVA (AuxIVA)
非負値行列因子分解 (NMF)
独立低ランク行列分析 (ILRMA)
時変複素ガウスIVA
多チャネルNMF
2018 独立深層学習行列分析 (IDLMA)
単一チャネル条件
空間相関行列モデル
多チャネルNMF+DNN 深層ニューラルネットワーク
(DNN)
独立成分分析 (ICA)
[Comon],[Bell and Sejnowski],
[Cardoso], [Amari], [Cichocki], …
[Smaragdis]
[Saruwatari], [Murata],
[Morgan], [Sawada], …
[Hiroe], [Kim]
[Ono]
[Ono]
[Kitamura] [Nugraha]
[Ozerov, Sawada]
[Duong]
[Févotte]
[Lee]
[Virtanen], [Smaragdis],
[Kameoka], [Ozerov], …
[Hinton], …
2010
劣決定条件
優決定条件
[Kitamura]
2020 スペクトログラム無矛盾ILRMA
[偉大なる先人達]
[偉大なる先人達]
[Mogami]
非負値行列の低ランク近似理論
• 非負値行列因子分解(NMF) [Lee, 1999], [Lee, 2000]
– 非負制約付きの任意基底数( 本)による低ランク近似
• 限られた数の非負基底ベクトルとそれらの非負係数を抽出
– STFTで得られるパワースペクトログラムに適用
• 頻出するスペクトルパターンとそれらの時間的な強度変化
20
Amplitude Amplitude
観測行列
(パワースペクトログラム)
基底行列
(スペクトルパターン)
アクティベーション行列
(時間的強度変化)
Time
: 周波数ビン数
: 時間フレーム数
: 基底数
Time
Frequency
Frequency
基底 アクティベーション
• NMFにおける変数の最適化
– 観測 とモデル の距離をコストとし最小化
– 距離関数は任意
• 二乗ユークリッド距離,KLダイバージェンス,板倉斎藤擬距離,・・・
– いずれの距離関数でも閉形式の解は未発見
– 効率的な反復更新による最適化アルゴリズム
• 補助関数法に基づく乗算型更新式(最も有名) [Lee, 2000]
NMFのパラメータ推定
21
(コスト関数が二乗ユークリッド距離の場合)
板倉斎藤擬距離基準NMF(ISNMF)
• 従来のNMF分解の問題点
– データ行列(非負実数)は1本の基底と1本のアクティベーション
からなるランク1行列の線形結合として表現
– は振幅スペクトログラムなのか?あるいはパワーなのか?
– いずれにしても線形結合(加法性)は成り立たない
• 時間波形の混合は複素スペクトログラムの加法
– 位相スペクトログラムはどうするのか?
• ISNMFでは下記のように解釈される
– 複素スペクトログラムに対する生成モデルを与えられる
• 個の複素数成分の線形結合を仮定( )
– 位相は一様分布でモデル化(=生成モデルは原点対称分布)
• 無情報なので最尤推定量は観測の位相そのもの 22
• ISNMF[Févotte, 2009]
• この生成モデルはガウス分布の再生性を用いて分解可
– とおくと
板倉斎藤擬距離基準NMF(ISNMF)
23
最小化は等価 原点対称零平均複素ガウス分布
観測の複素数値
複素ガウスの分散
• を複素スペクトログラムとすると各時間周波数要素
は複素要素 を 個足し合わせたもの
– 複素ガウス分布の確率変数の和なので も複素ガウス分布
• ガウス分布の再生性
• の複素ガウス分布の分散は
– 時間周波数毎に分散が変動する複素ガウス分布生成モデル
板倉斎藤擬距離基準NMF(ISNMF)
24
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均,分散 の原点対称複素ガウス
時間周波数
要素(複素数)
• パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準NMF(ISNMF)
25
Frequency
bin
Time frame
: パワースペクトログラム
パワーが小=分散が小
殆ど0付近の複素数しか
生成しない
パワーが大=分散が大
大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布
巨視的(マクロ)に考えると分散が変動する為,スペクト
ログラム全体の密度分布 はスーパーガウシアン
(カートシスがガウス分布より大)な分布になっている
濃淡が濃い方が
大きなパワーを示す
• NMFを多チャネルの信号に適用できれば面白い
– アレー信号処理やICAのように空間特徴量を活用できる
• アクティベーション共有型多チャネルNMF [Kitamura, 2014]
– チャネル間の音量比(アクティベーション)を保つNMF
– 空間特徴量を壊すことなく低ランク近似
• DOAクラスタリングとSNMFのハイブリッド法 [Kitamura, 2015]
– 音楽信号を音量比でクラスタリングしてSNMFを適用
– クラスタリングで欠損した成分を外挿・復元しながら音源分離
• 多チャネルNMF [Ozerov, 2010], [Sawada, 2013]
– 音源の時間周波数構造を低ランク近似し,そのパーツを
空間特徴量で音源毎にクラスタリング
– 理論的には劣決定条件(マイク<音源数)でもBSS可能
NMFの多チャネル信号への拡張
26
• 多チャネルNMF(multichannel NMF: MNMF) [Sawada, 2013]
NMFの多チャネル信号への拡張
27
時間周波数毎の
観測チャンネル間相関
多チャネル観測信号
音源周波数毎の
チャンネル間相関 基底行列 アクティベーション行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネル
ベクトル
瞬時空間相関行列
• 空間相関行列 又は 空間共分散行列 [Duong, 2010]
– 「Full-covariance model」や「Duong model」等とも呼ばれる
– 音源とマイク間の伝達系と音響的拡散度合を表す特徴量
– ステアリングベクトル の拡張
– 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
28
ソースイメージ
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系
に寄与する時不変な成分
(空間相関行列)
音源毎の
空間共分散
観測の
空間共分散
観測の
生成モデル
多チャネル
Wiener filter
時変分散と音源毎の空間共分散
から音源分離が可能(劣決定も可)
時間周波数で分散共分散が
変動する多変量ガウス分布
• 空間相関行列:瞬時空間相関の期待値の時不変成分
– 時不変空間相関行列のランクが1とは?
– 時不変な1本の空間基底:ステアリングベクトル
– 時不変空間相関行列のランクが1より大きい(フルランク)
• ステアリングベクトルのような1本の空間基底では表現不可
• 複数本の空間基底になる(空間基底の数=空間相関行列のランク)
• 周波数領域での瞬時混合仮定は成り立たない
空間相関行列のランク
29
音源毎の
空間共分散
伝達系が時不変な1本の空間基底でモデル化できる
ランク1
空間モデル
音響信号の拡散,音響放射特性の変動,長い残響
という瞬時混合の式で書けない
• MNMF [Sawada, 2013] はISNMFの純粋な多次元拡張
• 尤度関数
– 時間周波数毎に分散変動する零平均多変量複素ガウス分布
• 負の対数尤度関数
– Logdet divergence [Kulis, 2006]やStein’s loss [James, 1961]と呼ばれる
– 板倉斎藤擬距離の多次元版
– 変数の最適化更新式は計算量が比較的大きい
NMFの多チャネル信号の最適化
30
とおくと
観測 に対して,パラメタを
本日の発表の概要
• ICAに基づく空間分離行列(空間モデル)の推定
– 周波数領域ICA,パーミュテーション問題,独立ベクトル分析
• NMFに基づく音源時間周波数構造(音源モデル)の推定
– NMFによる低ランク近似と生成モデル,多チャネルNMF
• 独立低ランク行列分析(ILRMA)
– ICA空間モデル+NMF音源モデル,多チャネルNMFとの関係
• 独立深層学習行列分析(IDLMA)
– NMF音源モデル→DNN音源モデル(教師あり拡張)
• スペクトログラム無矛盾ILRMA(consistent ILRMA)
– 無矛盾性によるパーミュテーション問題緩和,ILRMAへの導入
• まとめ
31
スペクトル減算
時間周波数マスキング
その他各種
ビームフォーミング
スパースコーディング
時間周波数マスキング
到来方向クラスタリング
その他各種
音源分離の歴史と発展(本発表に関連する手法のみ掲載)
32
1994
1998
2013
1999
2012
パーミュテーション問題
の解決
数理モデルの拡張
生成モデル的解釈の発見
周波数領域ICA (FDICA)
板倉斎藤擬距離NMF (ISNMF)
独立ベクトル分析 (IVA)
2016
2009
2006
2011 補助関数IVA (AuxIVA)
非負値行列因子分解 (NMF)
独立低ランク行列分析 (ILRMA)
時変複素ガウスIVA
多チャネルNMF
2018 独立深層学習行列分析 (IDLMA)
単一チャネル条件
空間相関行列モデル
多チャネルNMF+DNN 深層ニューラルネットワーク
(DNN)
独立成分分析 (ICA)
[Comon],[Bell and Sejnowski],
[Cardoso], [Amari], [Cichocki], …
[Smaragdis]
[Saruwatari], [Murata],
[Morgan], [Sawada], …
[Hiroe], [Kim]
[Ono]
[Ono]
[Kitamura] [Nugraha]
[Ozerov, Sawada]
[Duong]
[Févotte]
[Lee]
[Virtanen], [Smaragdis],
[Kameoka], [Ozerov], …
[Hinton], …
2010
劣決定条件
優決定条件
[Kitamura]
2020 スペクトログラム無矛盾ILRMA
[偉大なる先人達]
[偉大なる先人達]
[Mogami]
動機
• ICAで仮定される非ガウス音源分布
– 分離行列を推定する唯一の手がかり:音源モデル
– 正確な音源モデル 高精度な分離行列の推定
• ISNMFは音源の時間周波数
構造を分散の変動で表現
• 低ランク時間周波数構造をICAの音源モデルに導入
独立低ランク行列分析(ILRMA)[Kitamura, 2016] 33
混合行列
音源
モデル
分離行列
34
Frequency
Time
IVAの
音源モデル
Frequency
Time
周波数方向には一様な分散
時変な成分
Frequency
Basis
Basis
Time
基底数(音源モデルのランク数)は任意
Frequency
Time
ILRMAの
音源モデル
時間周波数上での分散の変動を
ISNMFで低ランク表現
濃淡が分散の大小
分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
IVAとNMFを融合したBSS
• 独立低ランク行列分析(independent low-rank matrix analysis: ILRMA)
– 時間周波数で分散が変動する複素ガウス分布を仮定
– 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
35
イ ル マ
非ガウス分布
複素ガウス分布
Frequency
Basis
Basis
Time
基底数(音源モデルのランク数)は任意
Frequency
Time
ILRMAの
音源モデル
時間周波数変動分散
(低ランク音源モデル)
Frequency
Time
IVAとNMFを融合したBSS
• FDICA,IVA,及びILRMAの比較
36
Frequency
Time
FDICAの音源モデル
スカラー変数の非ガウス分布
IVAの音源モデル
ベクトル変数の多変量な
球対称非ガウス分布
ILRMAの音源モデル
NMFによる低ランクな
時間周波数構造 低ランクな時間周波数構造を
持つように分離フィルタを更新
観測信号 推定信号
分離
フィルタ
ILRMAの分離原理
1. 音源間の独立性を最大化(混合信号は独立になっていない)
2. 音源毎の時間周波数構造は低ランク(混合信号の時間周波数構造は高ランク)
• ILRMAのコスト(対数尤度)関数
– IVAの反復更新式
– NMFの反復更新式
• 音源の適切なランク数を潜在変数で推定することも可能
– 例:ボーカルはあまり低ランクにならず,ドラムは低ランク
ILRMAのコスト関数と潜在変数の導入
37
分離信号:
ISNMFのコスト関数
(音源モデルの推定に寄与)
IVAのコスト関数
(空間分離フィルタの推定に寄与)
2つの交互最適化反復で
全変数を容易に推定可能
潜在変数の導入
0~1の値をとる潜在変数
ILRMAの最適化
• ILRMAの反復更新式(最尤推定)
– 分離行列の最適化は補助関数IVAの反復射影法 [Ono, 2011]
– NMF変数の最適化は補助関数法に基づく乗法更新式
– 反復更新における尤度の単調非減少が保証されている 38
空間分離フィルタと分離信号の更新 音源モデルの更新
但し, ,
は 番目の要素のみ1で 他
は0の縦ベクトル
反復射影法(IP)
ILRMAの更新のイメージ
• 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
– 音源毎の時間周波数構造を正確に捉えることで,独立性基準
での線形時不変な空間分離の性能向上が期待できる
39
空間分離フィルタ
の学習
混合信号
分離信号
音源モデル
の更新
NMF
NMF
音源モデル
の学習
IVA・MNMF・ILRMAの関連性
• MNMF [Sawada, 2013] からみると
– 混合系の推定を分離行列の推定に変換(高速・初期値頑健)
• IVAからみると
– 音源モデルの基底数を1から任意数に拡張
40
分離行列
混合系
Frequency
Time
Frequency
Basis
Basis
Time
IVA ILRMA
MNMF ILRMA
IVA・MNMF・ILRMAの関連性
• 独立に発展したIVAとMNMFの2つの流れが,実は密接
に関連している事実を発見
41
音源モデル
空間モデル
柔軟
限定的
柔軟
限定的
IVA
多チャネル
NMF
ILRMA
NMFの音源
モデルを導入
空間相関行列を
ランク1行列に制限
分離行列に変数変換
音楽音源分離実験の条件
• 実験条件
42
音源信号
SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス
応答で畳み込んで作成,2チャンネルで2音源の混合信号
窓長(FFT長) 512 ms,ハニング窓
シフト長 128 ms (1/4シフト)
基底数 1音源につき30本(ILRMA1),全音源で60本(ILRMA2)
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
5.66cm
50 50
Source 2
2 m
Source 1
5.66cm
60 60
Source 2
Impulse response E2A
(reverberation time: 300 ms)
Impulse response JR2
(reverberation time: 470 ms)
実験結果: fort_minor-remember_the_name
43
16
12
8
4
0
-4
-8
SDR
improvement
[dB]
Sawada’s
MNMF
補助関数
IVA
Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
ILRMA
ILRMA
w/o
partitioning
function
ILRMA
with
partitioning
function
Directional
clustering
Sawada’s
MNMF
補助関数
IVA
Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
ILRMA
ILRMA
w/o
partitioning
function
ILRMA
with
partitioning
function
Directional
clustering
16
12
8
4
0
-4
-8
SDR
improvement
[dB]
Violin synth. Vocals
Violin synth. Vocals
E2A
(T60 = 300 ms)
Poor
Good
Poor
Good
JR2
(T60 = 470 ms)
実験結果: ultimate_nz_tour
44
20
15
10
5
0
-5
SDR
improvement
[dB]
20
15
10
5
0
-5
SDR
improvement
[dB]
Guitar Synth.
Guitar Synth.
Poor
Good
Poor
Good
Sawada’s
MNMF
補助関数
IVA
Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
ILRMA
ILRMA
w/o
partitioning
function
ILRMA
with
partitioning
function
Directional
clustering
Sawada’s
MNMF
補助関数
IVA
Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
ILRMA
ILRMA
w/o
partitioning
function
ILRMA
with
partitioning
function
Directional
clustering
E2A
(T60 = 300 ms)
JR2
(T60 = 470 ms)
12
10
8
6
4
2
0
-2
SDR
improvement
[dB]
400
300
200
100
0
Iteration steps
IVA
MNMF
ILRMA
ILRMA
• SiSECデータベース収録のプロ音楽信号
– ファイル名: bearlin-roads__snip_85_99,14 s(16kHzサンプル)
– 音源: acoustic_guit_main, bass, vocalsの3音源
各手法の性能と計算コストの比較例
45
(潜在変数無)
(潜在変数有)
11.5 s
15.1 s 60.7 s
7647.3 s
Poor
Good
補助関数IVA
本日の発表の概要
• ICAに基づく空間分離行列(空間モデル)の推定
– 周波数領域ICA,パーミュテーション問題,独立ベクトル分析
• NMFに基づく音源時間周波数構造(音源モデル)の推定
– NMFによる低ランク近似と生成モデル,多チャネルNMF
• 独立低ランク行列分析(ILRMA)
– ICA空間モデル+NMF音源モデル,多チャネルNMFとの関係
• 独立深層学習行列分析(IDLMA)
– NMF音源モデル→DNN音源モデル(教師あり拡張)
• スペクトログラム無矛盾ILRMA(consistent ILRMA)
– 無矛盾性によるパーミュテーション問題緩和,ILRMAへの導入
• まとめ
46
スペクトル減算
時間周波数マスキング
その他各種
ビームフォーミング
スパースコーディング
時間周波数マスキング
到来方向クラスタリング
その他各種
音源分離の歴史と発展(本発表に関連する手法のみ掲載)
47
1994
1998
2013
1999
2012
パーミュテーション問題
の解決
数理モデルの拡張
生成モデル的解釈の発見
周波数領域ICA (FDICA)
板倉斎藤擬距離NMF (ISNMF)
独立ベクトル分析 (IVA)
2016
2009
2006
2011 補助関数IVA (AuxIVA)
非負値行列因子分解 (NMF)
独立低ランク行列分析 (ILRMA)
時変複素ガウスIVA
多チャネルNMF
2018 独立深層学習行列分析 (IDLMA)
単一チャネル条件
空間相関行列モデル
多チャネルNMF+DNN 深層ニューラルネットワーク
(DNN)
独立成分分析 (ICA)
[Comon],[Bell and Sejnowski],
[Cardoso], [Amari], [Cichocki], …
[Smaragdis]
[Saruwatari], [Murata],
[Morgan], [Sawada], …
[Hiroe], [Kim]
[Ono]
[Ono]
[Kitamura] [Nugraha]
[Ozerov, Sawada]
[Duong]
[Févotte]
[Lee]
[Virtanen], [Smaragdis],
[Kameoka], [Ozerov], …
[Hinton], …
2010
劣決定条件
優決定条件
[Kitamura]
2020 スペクトログラム無矛盾ILRMA
[偉大なる先人達]
[偉大なる先人達]
[Mogami]
• 不適切な音源モデルを仮定してしまうと分離精度が劣化
– 例:ボーカルや音声は楽器音ほど低ランクではない
(ダイナミックにピッチが変動するため)
• 音源モデルの教師あり学習
– DNNに基づく単一チャネルの音源分離モデル
• 音楽や音声など「ソロ音源の学習データ」は利用可能な時代
• 空間モデルは学習可能?
– 部屋の形状,残響時間,マイクロホン位置,音源位置,音速等
膨大な物理要因に依存 非現実的!
– 独立性に基づくブラインドな推定は有用
動機
48
Drums Guitar
Vocals
• 独立低ランク行列分析(ILRMA)
• 独立深層学習行列分析(independent deeply learned matrix analysis: IDLMA)
– 統計的独立性と教師ありDNN音源モデルに基づく音源分離
ILRMAの音源モデルの教師あり化
49
観測信号
周波数毎の
分離行列
分離信号 DNN音源モデルによる分散推定
Time
Frequency
Frequency
Time
STFT
Time
Frequency
Frequency
Time
観測信号
周波数毎の
分離行列
分離信号
Time
Frequency
Frequency
Time
分離信号が「互いに独立」かつ「低ランクな時
間周波数構造」を持つように分離行列を更新
STFT
NMFによる低ランク近似
分離信号が「互いに独立」かつ「学習済みの
DNNで表現されるような時間周波数構造」を
持つように分離行列を更新
音源モデルをDNNで教師あり化
• DNNの特徴量
• DNNの損失関数
DNN音源モデルの学習
50
Frequency
Time
Frequency
Time
ランダムな
振幅値
を乗じて混合
音源1(学習データ)
音源2(学習データ)
混合ベクトル
正解
ベクトル
推定
ベクトル
損失関数
最小化
最小化
損失関数
( )
音源2を分離
するDNN
音源1を分離
するDNN
正解 推定 微小値
板倉斎藤擬距離を使うことで
複素ガウス分布生成モデル
の最尤推定となる
• 原点対称複素ガウス分布の負対数尤度
分離行列と分散行列の最適化
51
現在の分離信号 を学習済の
DNN音源モデルに入力して分散
を更新することで最小化可能
音源モデルの更新
ILRMAと同様に反復射影法(IP)
を適用し分離行列 を更新する
ことで最小化可能
空間モデルの更新
• 原点対称複素ガウス分布の負対数尤度
• 反復射影法(iterative projection: IP) [Ono, 2011]
– 分離行列を行毎( 毎)に更新
分離行列と分散行列の最適化
52
現在の分離信号 を学習済の
DNN音源モデルに入力して分散
を更新することで最小化可能
音源モデルの更新
ILRMAと同様に反復射影法(IP)
を適用し分離行列 を更新する
ことで最小化可能
空間モデルの更新
…
更新
固定
分散 の更新
固定
…
固定
更新
固定
…
固定
固定
更新
番目の要素が1,
他が0の縦ベクトル
• 原点対称複素ガウス分布の負対数尤度
• 学習済DNN音源モデルの適用
– 分離信号 を入力し分散を推定
– IPの数値安定性向上のためフロア処理
分離行列と分散行列の最適化
53
現在の分離信号 を学習済の
DNN音源モデルに入力して分散
を更新することで最小化可能
音源モデルの更新
ILRMAと同様に反復射影法(IP)
を適用し分離行列 を更新する
ことで最小化可能
空間モデルの更新
要素毎のmax演算
を施した行列を返す
微小フロアリング値
Time
Frequency
Time
Frequency
Time
Frequency
フロア
処理
音楽音源分離実験の条件
54
学習信号
SiSEC2016 DSD100音楽データセット
開発データ50曲(Ba., Vo., Dr.の3音源)
評価信号
SiSEC2016 DSD100音楽データセット
テストデータ25曲のBa./Vo.及びDr./Vo.をRWCPデータベース
収録のE2Aインパルス応答で畳み込んで観測した信号
サンプリング周波数 8 kHzにダウンサンプリング
STFTの設定
窓長128, 256, 512, 1024 msのハミング窓
シフト長は常に窓長の半分
評価指標 信号対歪み比(signal-to-distortion ratio: SDR)の改善量
2 m
Vo.
5.66cm
40
40
Ba. or Dr.
RWCP収録
E2Aインパルス応答
T60 = 300ms
音楽音源分離実験の条件
55
DNNの構造
全結合型フィードフォワード
隠れ層4層,各層のユニット数1024
活性化関数 ReLU(隠れ層及び出力層)
比較手法
ILRMA(ブラインド),DNN+WF,
MNMF+DNN,提案手法(IDLMA)
ILRMA:
DNN+WF:
MNMF+DNN:
IDLMA:
ブラインド多チャネル分離
分離行列 をIPで推定
音源モデル教師あり単一チャネル分離,
各音源のDNN出力からWienerフィルタを構築・適用
音源モデル教師あり多チャネル分離,
音源モデルにDNNを活用,
混合系(フルランク空間相関行列)をEMで推定
音源モデル教師あり多チャネル分離
音源モデルにDNNを活用
分離行列 をIPで推定
[Kitamura, 2016]
[Uhlich, 2015]
[Nagraha, 2016]
[Makishima, 2018]
実験結果(1/4)
56
真の分散
(Ba.)
DNN推定分散
(Ba.)
真の分散
(Vo.)
DNN推定分散
(Vo.)
• 様々な窓長に対する性能比較(25曲の平均)
実験結果(2/4)
57
0
2
4
6
8
10
12
14
128 256 512 1024
SDR
improvement
[dB]
Window length in STFT [ms]
0
2
4
6
8
10
12
14
128 256 512 1024
SDR
improvement
[dB]
Window length in STFT [ms]
Ba./Vo.の分離結果 Dr./Vo.の分離結果
IDLMA
IDLMA
MNMF+DNN
MNMF+DNN
ILRMA(ブラインド)
ILRMA(ブラインド)
DNN+WF(単一チャネル)
DNN+WF(単一チャネル)
• 反復回数に対する性能比較(25曲の平均)
14
12
10
8
6
4
2
0
SDR
improvement
[dB]
100
90
80
70
60
50
40
30
20
10
0
Iteration step
ILRMA
DNN+WF
Duong+DNN
IDLMA
実験結果(3/4)
58
Ba./Vo.の分離結果(512 ms窓)
14
12
10
8
6
4
2
0
SDR
improvement
[dB]
100
90
80
70
60
50
40
30
20
10
0
Iteration step
ILRMA
DNN+WF
Duong+DNN
IDLMA
IDLMA
MNMF+DNN
DNN+WF
ILRMA
IDLMA
MNMF+DNN
DNN+WF
ILRMA
DNNによる
性能改善
DNNによる
性能改善
Dr./Vo.の分離結果(256 ms窓)
• 100回更新時の計算時間例比較(30秒の観測信号)
– Python 3.5.2+Chainer 2.1.0環境
– Intel Core i7-6850K(3.60 GHz,6コア)
– DNN音源モデルによる分散推定はGeForce GTX 1080Ti
実験結果(4/4)
59
0
50
100
150
200
250
300
350
ILRMA MNMF+DNN IDLMA
Computational
time
[s]
23.31 s 26.56 s
287.06 s
本日の発表の概要
• ICAに基づく空間分離行列(空間モデル)の推定
– 周波数領域ICA,パーミュテーション問題,独立ベクトル分析
• NMFに基づく音源時間周波数構造(音源モデル)の推定
– NMFによる低ランク近似と生成モデル,多チャネルNMF
• 独立低ランク行列分析(ILRMA)
– ICA空間モデル+NMF音源モデル,多チャネルNMFとの関係
• 独立深層学習行列分析(IDLMA)
– NMF音源モデル→DNN音源モデル(教師あり拡張)
• スペクトログラム無矛盾ILRMA(consistent ILRMA)
– 無矛盾性によるパーミュテーション問題緩和,ILRMAへの導入
• まとめ
60
スペクトル減算
時間周波数マスキング
その他各種
ビームフォーミング
スパースコーディング
時間周波数マスキング
到来方向クラスタリング
その他各種
音源分離の歴史と発展(本発表に関連する手法のみ掲載)
61
1994
1998
2013
1999
2012
パーミュテーション問題
の解決
数理モデルの拡張
生成モデル的解釈の発見
周波数領域ICA (FDICA)
板倉斎藤擬距離NMF (ISNMF)
独立ベクトル分析 (IVA)
2016
2009
2006
2011 補助関数IVA (AuxIVA)
非負値行列因子分解 (NMF)
独立低ランク行列分析 (ILRMA)
時変複素ガウスIVA
多チャネルNMF
2018 独立深層学習行列分析 (IDLMA)
単一チャネル条件
空間相関行列モデル
多チャネルNMF+DNN 深層ニューラルネットワーク
(DNN)
独立成分分析 (ICA)
[Comon],[Bell and Sejnowski],
[Cardoso], [Amari], [Cichocki], …
[Smaragdis]
[Saruwatari], [Murata],
[Morgan], [Sawada], …
[Hiroe], [Kim]
[Ono]
[Ono]
[Kitamura] [Nugraha]
[Ozerov, Sawada]
[Duong]
[Févotte]
[Lee]
[Virtanen], [Smaragdis],
[Kameoka], [Ozerov], …
[Hinton], …
2010
劣決定条件
優決定条件
[Kitamura]
2020 スペクトログラム無矛盾ILRMA
[偉大なる先人達]
[偉大なる先人達]
[Mogami]
• FDICAに基づくBSSにおけるパーミュテーション問題
– 分離行列 ( は周波数インデクス)が周波数間で非依存
周波数毎に分離信号の順番がバラバラになる
パーミュテーション問題(再掲)
62
分離
行列
音源1
音源2
観測1
観測2
パーミュテーション
の整合
分離信号1
分離信号2
Time
動機
• 解決すべき問題
– IVAやILRMAでもパーミュテーション問題解決にしばしば失敗
• 統計モデル(音源モデル)の改良,DNN等の教師あり化,etc.
• 新たな手掛かり
– スペクトログラム無矛盾性(spectrogram consistency)
• 時間周波数領域の信号の近傍共起関係の一貫性
• Consistent FDICA [Yatabe, 2020]
– FDICAでスペクトログラム無矛盾性を考慮するとパーミュテーション問題が緩和
• Consistent IVA [Yatabe, 2020]
– IVAではスペクトログラム無矛盾性による性能向上を確認
• ILRMAにもスペクトログラム無矛盾性を導入
– 反復毎のプロジェクションバックの必要性についても調査
• プロジェクションバック:周波数毎のスケールの補正処理[Matsuoka, 2001]
– 実録音環境における分離性能の改善量を調査 63
[Le Roux, 2010], [Le Roux, 2013]
スペクトログラム無矛盾性
• 短時間フーリエ変換(STFT)で得られるスペクトログラム
には本来一貫した近傍共起関係がある
• 無矛盾なスペクトログラム
– 時間と周波数の両方向に滲んでいる(共起している)
– STFTの窓関数乗算やオーバーラップシフトが原因
矛盾(inconsistent) 無矛盾(consistent)
64
Frequency
Frequency
Time Time
スペクトログラム無矛盾性
• 集合によるイメージ
時間信号の集合
スペクトログラム
(時間周波数信号)の集合
周波数
時間
時間
65
無矛盾なスペクト
ログラムの集合
スペクトログラム無矛盾性
• 集合によるイメージ
STFT
時間信号の集合
スペクトログラム
(時間周波数信号)の集合
逆STFT
66
STFTの完全再構成
条件を仮定
※
無矛盾なスペクト
ログラムの集合
スペクトログラム無矛盾性
• 集合によるイメージ
時間信号の集合
スペクトログラム
(時間周波数信号)の集合
矛盾したスペクトログラム
(共起関係に一貫性がない)
BSS等の何らかの
信号処理
67
STFTの完全再構成
条件を仮定
※
スペクトログラム無矛盾性
• 集合によるイメージ
時間信号の集合
スペクトログラム
(時間周波数信号)の集合
射影
逆STFT
68
STFTの完全再構成
条件を仮定
※
スペクトログラム無矛盾性
• 集合によるイメージ
時間信号の集合
スペクトログラム
(時間周波数信号)の集合
射影
逆STFT
69
STFT
STFTの完全再構成
条件を仮定
※
矛盾スペクトログラムは
「逆STFT→STFT」で
無矛盾スペクトログラム
に変換できる
スペクトログラム無矛盾性
• 矛盾したスペクトログラムは逆STFTしてSTFTすることで
無矛盾なスペクトログラムに変換可能
– 但しSTFTが完全再構成条件を満たす条件が必要
矛盾(inconsistent) 無矛盾(consistent)
70
スペクトログラム無矛盾BSS [K. Yatabe, 2020]
• IVAやILRMAの分離信号のスペクトログラム無矛盾性を
反復最適化で担保
– パーミュテーション問題発生=とても矛盾したスペクトログラム
– 周波数の滲みの強調によりパーミュテーション問題が緩和
71
スペクトログラム無矛盾性の導入
• ILRMAの出力にスペクトログラム無矛盾性を担保
– 周波数毎の分離行列 とNMF低ランク音源モデル の
交互反復最適化の途中で逆STFT&STFTを挿入
– 無矛盾性が担保された分離信号をNMFで低ランクモデリング
72
空間モデル
学習
混合信号
分離信号
音源モデル
更新
NMF
NMF
音源モデル
学習
逆STFT&
STFT
逆STFT&
STFT
無矛盾性の
担保
反復最適化アルゴリズムの比較
従来手法:ILRMA 提案手法:Consistent ILRMA
73
反復最適化アルゴリズムの比較
従来手法:ILRMA 提案手法:Consistent ILRMA
74
NMF低ランク
モデルの更新
分離行列の更新
(AuxIVA [Ono, 2011] と同様)
反復最適化アルゴリズムの比較
従来手法:ILRMA 提案手法:Consistent ILRMA
75
NMF低ランク
モデルの更新
分離行列の更新
(AuxIVA [Ono, 2011] と同様)
分離信号 を逆STFT→STFTし
無矛盾スペクトログラムに変換
分離信号の大きさを全周波数で
統一するスケール補正(プロジェ
クションバック)[Matsuoka, 2001]
• 独立性最大化基準では分離信号のスケール(音量)は
決まらない
– 分離行列 の乗算で周波数毎にスケールがバラバラになる
優決定条件BSSの難しさ
76
分離
行列
音源1
音源2
観測1
観測2
分離信号1
分離信号2
Time
プロジェクション
バック
[Matsuoka, 2001]
反復最適化アルゴリズムの比較
従来手法:ILRMA 提案手法:Consistent ILRMA
77
NMF低ランク
モデルの更新
分離行列の更新
(AuxIVA [Ono, 2011] と同様)
分離信号 を逆STFT→STFTし
無矛盾スペクトログラムに変換
分離信号の大きさを全周波数で
統一するスケール補正(プロジェ
クションバック)[Matsuoka, 2001]
実験条件(インパルス応答の畳み込み混合)
• 混合条件(2音源2マイク)
– RWCP E2Aインパルス応答
• 残響時間: = 300 ms
• 音源信号(ドライソース)
– SiSEC2011の音楽4曲の
楽器を組み合わせで10パターン
• その他の条件
78
窓関数 ハン窓
窓長 128, 256, 512, 768, 1024 ms
シフト長 窓長の1/4 (原稿には他の結果も掲載)
基底数 1音源あたり10本
初期値
単位行列
及び (0, 1) の一様乱数
反復回数 100回
試行回数 異なる乱数シードで5回
2m
5.66cm
50
音源1 音源2
50
実験結果(インパルス応答の畳み込み混合)
79
Poor
Good
実験条件(実環境録音混合)
• 混合条件(2音源2マイク)
– SiSEC2011UND liverec信号(音源位置は様々)
• 残響時間: = 250 ms
• マイク間隔:1m
• 音源信号(ドライソース)
– 音楽12パターン及び音声(男女)12パターン
• その他の条件
80
窓関数 ハン窓
窓長 512 ms
シフト長 窓長の1/4
基底数 1音源あたり:10本(音楽) or 2本(音声)
初期値
単位行列
及び (0, 1) の一様乱数
反復回数 100回
試行回数 異なる乱数シードで5回
実験結果(実環境録音混合,音楽信号)
81
Poor
Good
実験結果(実環境混合,音声信号)
82
Poor
Good
本日の発表の概要
• ICAに基づく空間分離行列(空間モデル)の推定
– 周波数領域ICA,パーミュテーション問題,独立ベクトル分析
• NMFに基づく音源時間周波数構造(音源モデル)の推定
– NMFによる低ランク近似と生成モデル,多チャネルNMF
• 独立低ランク行列分析(ILRMA)
– ICA空間モデル+NMF音源モデル,多チャネルNMFとの関係
• 独立深層学習行列分析(IDLMA)
– NMF音源モデル→DNN音源モデル(教師あり拡張)
• スペクトログラム無矛盾ILRMA(consistent ILRMA)
– 無矛盾性によるパーミュテーション問題緩和,ILRMAへの導入
• まとめ
83
まとめ
• 優決定条件BSSの本質
– 音源間独立性で空間的に分離(分離行列推定)
– 何らかの音源モデルを導入してパーミュテーション問題を解決
• ILRMA:NMFに基づく低ランク音源モデル
– D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Determined blind source
separation unifying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM
Trans. ASLP, vol. 24, no. 9, pp. 1626–1641, Sep. 2016.
– D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Determined blind source
separation with independent low-rank matrix analysis,” Audio Source Separation. Signals and
Communication Technology., S. Makino, Ed. Springer, Cham, pp. 125–155, Mar. 2018.
• IDLMA:DNNに基づく教師あり音源モデル
– S. Mogami, H. Sumino, D. Kitamura, N. Takamune, S. Takamichi, H. Saruwatari, and N. Ono,
“Independent deeply learned matrix analysis for multichannel audio source separation,” Proc.
EUSIPCO, pp. 1571–1575, Sep. 2018.
– N. Makishima, S. Mogami, N. Takamune, D. Kitamura, H. Sumino, S. Takamichi, H. Saruwatari, and
N. Ono, “Independent deeply learned matrix analysis for determined audio source separation,”
IEEE/ACM Trans. ASLP, vol. 27, no. 10, pp. 1601–1615, Oct. 2019.
• Consistent ILRMA:NMF+スペクトログラム無矛盾性
– D. Kitamura and K. Yatabe, “Consistent independent low-rank matrix analysis for determined blind
source separation,” EURASIP J. ASP, vol. 2020, no. 46, p. 35, Nov. 2020. 84
そのほかのILRMA拡張(一部)
• 優ガウス分布生成モデルへの拡張
– D. Kitamura, S. Mogami, Y. Mitsui, N. Takamune, H. Saruwatari, N. Ono, Y. Takahashi, and K. Kondo,
“Generalized independent low-rank matrix analysis using heavy-tailed distributions for blind source
separation,” EURASIP J. ASP, vol. 2018, no. 28, p. 25, May 2018.
• 劣ガウス分布生成モデルへの拡張
– S. Mogami, N. Takamune, D. Kitamura, H. Saruwatari, Y. Takahashi, K. Kondo, and N. Ono,
“Independent low-rank matrix analysis based on time-variant sub-Gaussian source model for
determined blind source separation,” IEEE/ACM Trans. ASLP, vol. 28, pp. 503–518, Dec. 2019.
• 時間周波数マスキングに基づくBSS(TFMBSS)
– K. Yatabe and D. Kitamura, “Time-frequency-masking-based determined BSS with application to
sparse IVA,” Proc. ICASSP, pp. 715–719, May 2019.
– S. Oyabu, D. Kitamura, and K. Yatabe, “Linear multichannel blind source separation based on time-
frequency mask obtained by harmonic/percussive sound separation,” Proc. ICASSP, pp. 201–205,
Jun. 2021.
– K. Yatabe and D. Kitamura, “Determined BSS based on time-frequency masking and its application to
harmonic vector analysis,” IEEE Trans. ASLP, vol. 29, pp. 1609–1625, Apr. 2021.
• ユーザインタラクション付きILRMA
– F. Oshima, M. Nakano, and D. Kitamura, “Interactive speech source separation based on independent
low-rank matrix analysis,” AST, vol. 42, no. 4, pp. 222–225, Jul. 2021.
85
その他情報
• ILRMAデモンストレーション
– http://d-kitamura.net/demo-ILRMA.html
– http://d-kitamura.net/demo-ILRMA_en.html
• IDLMAデモンストレーション
– http://d-kitamura.net/demo-IDLMA.html
– http://d-kitamura.net/demo-IDLMA_en.html
• TFMBSSデモンストレーション
– http://d-kitamura.net/demo-HVA.html
– http://d-kitamura.net/demo-HVA_en.html
• MATLABのILRMA実装例
– https://github.com/d-kitamura/ILRMA
• PythonのILRMA実装例(pyroomacoustics)
– https://pyroomacoustics.readthedocs.io/en/pypi-
release/pyroomacoustics.bss.ilrma.html#module-pyroomacoustics.bss.ilrma
86
参考文献(アルファベット順)(1/5)
• [Comon, 1994]: P. Comon, “Independent component analysis, a new concept?” Signal
Process., vol. 36, no. 3, pp. 287–314, 1994.
• [Duong, 2010]: N. Q. K. Duong, E. Vincent, and R. Gribonval, “Under-determined reverberant
audio source separation using a full-rank spatial covariance model,” IEEE Trans. Audio,
Speech, Lang. Process., vol. 18, no. 7, pp. 1830–1840, 2010.
• [Févotte, 2009]: C. Févotte, N. Bertin, and J.-L.Durrieu, “Nonnegative matrix factorization with
the Itakura-Saito divergence. With application to music analysis,” Neural Comput., vol. 21, no.
3, pp. 793–830, 2009.
• [Hiroe, 2006]: A. Hiroe, “Solution of permutation problem in frequency domain ICA using
multivariate probability density functions,” Proc. Int. Conf. Independent Compon. Anal. Blind
Source Separation, 2006, pp. 601–608.
• [James, 1961]: W. James and C. Stein, “Estimation with quadratic loss,” Proc. Berkeley
Symposium on Mathematical Statistics and Probability, vol. 1, 1961, pp. 361–379.
• [Kim, 2006]: T. Kim, T. Eltoft, and T.-W. Lee, “Independent vector analysis: An extension of
ICA to multivariate components,” Proc. Int. Conf. Independent Compon. Anal. Blind Source
Separation, 2006, pp. 165–172.
• [Kim, 2007]: T. Kim, H. T. Attias, S.-Y. Lee, and T.-W. Lee, “Blind source separation exploiting
higher-order frequency dependencies,” IEEE Trans. Audio, Speech, Lang. Process., vol. 15,
no. 1, pp. 70–79, 2007.
87
参考文献(アルファベット順)(2/5)
• [Kitamura, 2014]: T. Miyauchi, D. Kitamura, H. Saruwatari, and S. Nakamura, “Depth
estimation of sound images using directional clustering and activation-shared nonnegative
matrix factorization,” Journal of Signal Process., vol. 18, no. 4, pp. 217–220, 2014.
• [Kitamura, 2015]: D. Kitamura, H. Saruwatari, H. Kameoka, Y. Takahashi, K. Kondo, and S.
Nakamura, “Multichannel signal separation combining directional clustering and nonnegative
matrix factorization with spectrogram restoration,” IEEE/ACM Trans. on Audio, Speech, and
Lang. Process., vol. 23, no. 4, pp. 654–669, 2015.
• [Kitamura, 2016]: D. Kitamura, H. Saruwatari, H. Kameoka, Y. Takahashi, K. Kondo and S.
Nakamura, “Determined blind source separation unifying independent vector analysis and
nonnegative matrix factorization,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 24,
no. 9, pp. 1626–1641, 2016.
• [Kulis, 2006]: B. Kulis, M. Sustik, and I. Dhillon, “Learning low-rank kernel matrices,” Proc. Int.
Conf. on Machine Learning, 2006, pp. 505–512.
• [Le Roux, 2010]: J. L. Roux, H. Kameoka, N. Ono, and S. Sagayama, “Fast signal
reconstruction from magnitude STFT spectrogram based on spectrogram consistency,” Proc.
DAFx, 2010.
• [Le Roux, 2013]: J. Le Roux and E. Vincent, “Consistent Wiener filtering for audio source
separation,” IEEE Signal Process. Lett., vol. 20, no. 3, pp. 217–220, 2013.
88
参考文献(アルファベット順)(3/5)
• [Lee, 1999]: D. D. Lee and H. S. Seung, “Learning the parts of objects by non-negative matrix
factorization,” Nature, vol. 401, pp. 788–791, 1999.
• [Lee, 2000]: D. D. Lee and H. S. Seung, “Algorithms for non-negative matrix factorization,”
Proc. Adv. Neural Inform. Process. Syst., 2000, vol. 13, pp. 556–562.
• [Matsuoka, 2001]: K. Matsuoka and S. Nakashima, “Minimal distortion principle for blind
source separation,” Proc. ICA, pp. 722–727, 2001.
• [Nugraha, 2016]: A. A. Nugraha, A. Liutkus, and E. Vincent, “Multichannel audio source
separation with deep neural networks,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol.
24, no. 9, pp. 1652–1664, Sep. 2016.
• [Ono, 2011]: N. Ono, “Stable and fast update rules for independent vector analysis based on
auxiliary function technique,” Proc. IEEE Workshop on Applications of Signal Process. to
Audio and Acoust., 2011, pp. 189–192.
• [Ono, 2012]: T. Ono, N. Ono, and S. Sagayama, “User-guided independent vector analysis
with source activity tuning,” Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2012, pp.
2417–2420.
• [Ozerov, 2010]: A. Ozerov and C. Févotte, “Multichannel nonnegative matrix factorization in
convolutive mixtures for audio source separation,” IEEE Trans. Audio, Speech, and Lang.
Process., vol. 18, no. 3, pp. 550–563, 2010.
89
参考文献(アルファベット順)(4/5)
• [Saruwatari, 2000]: S. Kurita, H. Saruwatari, S. Kajita, K. Takeda, and F. Itakura, “Evaluation
of blind signal separation method using directivity pattern under reverberant conditions,” Proc.
IEEE Int. Conf. Acoust., Speech, Signal Process., 2000, pp. 3140–3143.
• [Saruwatari, 2006]: H. Saruwatari, T. Kawamura, T. Nishikawa, A. Lee, and K. Shikano, “Blind
source separation based on a fast-convergence algorithm combining ICA and beamforming,”
IEEE Trans. Audio, Speech, Lang. Process., vol. 14, no. 2, pp. 666–678, Mar. 2006.
• [Sawada, 2004]: H. Sawada, R. Mukai, S. Araki, and S.Makino, “Convolutive blind source
separation for more than two sources in the frequency domain,” Proc. IEEE Int. Conf. Acoust.,
Speech, Signal Process., 2004, pp. III-885–III-888.
• [Sawada, 2013]: H. Sawada, H.Kameoka, S.Araki, and N. Ueda, “Multichannel extensions of
non-negative matrix factorization with complex-valued data,” IEEE Trans. Audio, Speech,
Lang. Process., vol. 21, no. 5, pp. 971–982, 2013.
• [Smaragdis, 1998]: P. Smaragdis, “Blind separation of convolved mixtures in the frequency
domain,” Neurocomputing, vol. 22, pp. 21–34, 1998.
• [Smaragdis, 2007]: P. Smaragdis, B. Raj, and M. Shashanka, “Supervised and semi-
supervised separation of sounds from single-channel mixtures,” Proc. ICA, 2007, pp. 414–
421.
• [Uhlich, 2015]: S. Uhlich, F. Giron, and Y. Mitsufuji, “Deep neural network based instrument
extraction from music,” Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2015, pp.
90
参考文献(アルファベット順)(5/5)
• [Yatabe, 2020]: K. Yatabe, “Consistent ICA: Determined BSS meets spectrogram
consistency,” IEEE Signal Process. Lett., vol. 27, pp. 870–874, 2020.
91

Contenu connexe

Tendances

Tendances (20)

音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
 
Slp201702
Slp201702Slp201702
Slp201702
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
Kameoka2017 ieice03
Kameoka2017 ieice03Kameoka2017 ieice03
Kameoka2017 ieice03
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
 
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 

Similaire à 独立低ランク行列分析に基づく音源分離とその発展

Kameoka2012 talk07 1
Kameoka2012 talk07 1Kameoka2012 talk07 1
Kameoka2012 talk07 1
kame_hirokazu
 

Similaire à 独立低ランク行列分析に基づく音源分離とその発展 (15)

スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
 
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
 
Kameoka2012 talk07 1
Kameoka2012 talk07 1Kameoka2012 talk07 1
Kameoka2012 talk07 1
 
多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,
 
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
 
hosokawa m
hosokawa mhosokawa m
hosokawa m
 
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
 
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
 

Plus de Kitamura Laboratory

Plus de Kitamura Laboratory (20)

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
 
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
 
ギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズム
 
時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離
 
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
 
周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法
 
Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...
 
DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
 
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
 
Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...
 
Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...
 
Blind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure models
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
 
独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
 
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
 
ユーザーからの補助情報を用いるインタラクティブ音源分離システムの開発
ユーザーからの補助情報を用いるインタラクティブ音源分離システムの開発ユーザーからの補助情報を用いるインタラクティブ音源分離システムの開発
ユーザーからの補助情報を用いるインタラクティブ音源分離システムの開発
 

独立低ランク行列分析に基づく音源分離とその発展

Notes de l'éditeur

  1. ではまず,スペクトログラム無矛盾性について説明します. 短時間フーリエ変換,STFTで得られるスペクトログラムには本来,一貫した近傍共起関係があります. 例えば左の図は,中央の時間周波数グリッドにのみパワーがありその周囲は全て0ですが,これは矛盾したスペクトログラムであり,実は人工的に作成したものです. 時間波形をSTFTしてこのようなスペクトログラムが出てくることは通常ありません. どんなスペクトログラムがありえるかというと,右の図のように,パワーが強い成分の周囲近傍で共起している成分がある状態です.これを無矛盾スペクトログラムと呼びます. ざっくりいえば,スペクトログラムは本来,時間と周波数の両方向に滲んでいて,その滲みが無い,あるいは一貫していないものは全て矛盾したスペクトログラムと呼ばれます. この近傍共起関係が生まれる原因ですが,これはSTFTの中で窓関数の乗算が周波数方向への滲みを生み,オーバーラップシフトが時間方向への滲みを生むためです.
  2. 4:15 このスペクトログラムの矛盾と無矛盾について,集合でイメージを説明します. 赤枠が時間信号の集合,青枠がスペクトログラムの集合です. 時間周波数領域は時間領域よりも高次元であり,無矛盾なスペクトログラムの集合はこの図のように全体の一部分になります.
  3. ある時間信号sをSTFTすると,スペクトログラムSに変換されます. Sは無矛盾なスペクトログラムであり,逆STFTすると元の時間波形sに戻ります. これはいわゆる完全再構成条件であり,本研究はこれを満たすSTFTを適用しています.
  4. 無矛盾なスペクトログラムSに対して,BSS等の信号処理を加えると,通常は一貫した共起関係が崩れ, この図のように「矛盾したスペクトログラムS’」になります.
  5. この矛盾したスペクトログラムS’を逆STFTすると,S’は無矛盾なスペクトログラムに射影された上で,時間信号へと変換されます.
  6. つまり,どんな矛盾したスペクトログラムも,一度逆STFTして時間信号に戻し,もう一度STFTすることで,無矛盾なスペクトログラムに変換できます.
  7. 5:30 実は先ほどお見せしていたものも,左側は人工的に作成した矛盾スペクトログラムですが,右側は左を一度逆STFTし,もう一度STFTした結果になります.
  8. 5:45 そして,スペクトログラムの無矛盾変換は,パーミュテーション問題を緩和する能力があります. この図は,左端の2つがギターとボーカルのスペクトログラムで,真ん中の2つは周波数毎にギターとボーカルをシャッフルし,擬似的にパーミュテーション問題を起こしたものです. そして右端は,真ん中のパーミュテーション問題が残る信号を逆STFTしてSTFTし,無矛盾スペクトログラムに変換したものです. こうして眺めると,確かにパーミュテーション問題による周波数方向の不連続性がスムージングされて,真の音源信号に少しだけ近づいていることが分かります. 従って,IVAやILRMAの反復最適化の中で,分離信号を毎回無矛盾に変換するだけで,パーミュテーション問題を回避する能力が上がります. これがConsistent IVA及びConsistent ILRMAの原理になります.
  9. 7:20 従来のILRMAとConsistent ILRMAのアルゴリズムを比較したものがコチラです. 赤色の個所のみが異なります.
  10. 7:30 従来のILRMAは,4行目と5行目がNMF低ランクモデルの更新,6行目から8行目が分離行列の更新をしています. 最後の12行目は分離信号を更新しています. この流れを100回等の決められた回数反復してBSSができます.
  11. 7:45 Consistent ILRMAは,NMFと分離行列の更新は同じですが,3行目で現在の分離信号を一度逆STFTしてSTFTし,無矛盾スペクトログラムに変換します. さらに,分離行列の更新後に,分離信号の大きさを全周波数で統一する,スケール補正を毎回の反復で行います. これは,プロジェクションバックと呼ばれる処理であり,次のスライドで説明します.
  12. 8:10 独立性最大化のBSSでは,分離信号の音量,スケールが決まりません. 周波数毎に分離するIVAやILMRAでは,例え分離が成功してパーミュテーションが完璧でも,この真ん中の図のように周波数毎のスケールがバラバラになっています. これを右端のように正しく補正する処理がプロジェクションバックであり,通常は反復最適化によって分離行列を収束させた後,最後に1度だけ適用します.
  13. 8:40 周波数毎のスケールがずれていると,それだけでスペクトログラムの無矛盾性は失われます. なので,提案手法のConsistent ILRMAでは,3行目で分離信号を無矛盾スペクトログラムに変換するそのまえに,分離信号のスケールが正しく揃っている必要があるので, 9行目から11行目として反復毎にプロジェクションバックをかけています. ただ,この処理が本当に必要であったかどうかは未調査でしたので,今回はその有無についても実験で比較しました.
  14. 9:10 それでは実験について説明します. 実験はインパルス応答の畳み込み混合と,実環境録音混合の2種類を実施しています. 先に畳み込み混合の結果を報告をします. 残響時間300msの部屋で,こちらの図の配置で測定されたインパルス応答を音楽信号に畳み込んで,2音源2マイクの混合信号を10パターン作りました. 窓長は128msから1024msまで変化させ,シフト長は常に窓長の1/4としています. ILRMAは初期値によって結果が変わりますので,各混合信号で5回試行しています.
  15. 9:45 こちらが全10パターン×5回試行の50個の結果のbox plotを手法毎に描いたものです. グラフの違いは窓長であり,左端が128ms,右端が1024msです. 各グラフの横軸は手法であり,左からIVA,Consistent IVAの反復毎のプロジェクションバック無しと有り,ILRMA,Consistent ILRMAの反復毎のプロジェクションバック無しと有り,の6手法です. 縦軸は音源分離性能のSDRの改善量です. 窓長512msや768msをみると,Consistent ILRMAは明らかに性能が改善しており,さらに反復毎のプロジェクションバックの有無でも性能が変わっています. 予想通り,スペクトログラムを無矛盾に変換する前に,分離信号のスケールをプロジェクションバックで統一しておくことは非常に重要と言えます. また,Consistent ILRMAは,従来のILRMAの分離が成功する程,より大きな改善が得られるという傾向も見えます.
  16. 10:50 さらに,実環境録音混合の実験です. こちらはSiSEC2011のliverec信号を使いました. 残響時間は250ms,マイク間隔は1mで,音楽12パターンと音声12パターンで実験しました. 今回は窓長は512msに統一しています.
  17. 11:10 これが音楽信号の結果です. この結果では総合性能のSDRだけでなく,分離度合のSIRや歪みの少なさのSARも示しています. 実環境録音混合でも,プロジェクションバックするConsistent ILRMAは性能改善があります. また,SARの改善がSDR向上に大きく寄与していることが分かり,より歪みの少ない分離となっていることが分かります.
  18. 11:35 音声信号の結果です. コチラも同じく,SARが改善されており,スペクトログラム無矛盾性が歪みの少ない分離を誘導していることが分かります.