Kameoka2017 ieice03

音響分野における
ブラインド適応信号処理の展開
亀岡弘和1,2 小野順貴2 猿渡洋3
1日本電信電話株式会社
2国立情報学研究所
3東京大学
電子情報通信学会総合大会
企画講演セッション「AI‐2. 適応信号処理の基礎と展開」
13:00‐15:20 共通講義棟南506

専門：音声・音楽などの音響信号を対象とした信号処理や機械学習
連絡先： kameoka.hirokazu@lab.ntt.co.jp
略歴
東京大学大学院情報理工学系研究科
システム情報学専攻博士課程修了
日本電信電話株式会社入社
NTTコミュニケーション科学基礎研究所配属
東京大学大学院情報理工学系研究科
システム情報学専攻客員准教授
NTTコミュニケーション科学基礎研究所特別研究員
国立情報学研究所客員准教授
2007
2011～2016
2015～現在
2016～現在

ブラインド音源分離 (BlindSourceSeparation)
複数のマイクで取得した音響信号のみから各音源信号
を分離する問題
 音源信号，混合過程が
いずれも未知であること
から「ブラインド」という
 観測信号のみから音源信号
を得る最適フィルタを推定
応用場面
 音声認識のフロントエンド
 音声通信
 音を使った音環境モニタリング
 ロボット聴覚
 補聴器

ブラインド音源分離の適用例
4本のマイクロホンで同期収録した信号から各音源信号を抽出
y1 y2 y3 y4分離信号
http://www.kecl.ntt.co.jp/icl/signal/sawada/demo/bss2to4/index.html

各マイクロホンの観測信号の生成過程
畳みこみ混合
• 音源1マイク1：
マイクまでの
到達時間
音源1 音源2
マイク1 マイク2

マイクまでの
到達時間
音源1 音源2
残響があると・・・

...
音源1 音源2

...
∴ マイク1の観測信号：
マイク2の観測信号：
音源1 音源2

 畳み込み定理を利用して
畳み込み混合モデルを時間周波数領域に展開：
「時間領域の
畳み込み混合モデル」
「時間周波数領域の
瞬時混合モデル」
周波数ごとに見れば行列積
周波数
index
時刻
index
マイク
index
音源
index
音源
index

BSSは混合過程の逆問題
周波数ごとに見れば行列積
周波数
index
時刻
index
マイク
index
音源
index
音源
index

周波数
index
時刻
index
マイク
index
音源
index
音源
index

以上の生成過程の逆問題（音源分離）は不良設定
 とがともに未知
 パーミュテーションの任意性
置換行列
周波数
index
時刻
index
マイク
index
音源
index
音源
index

置換行列
周波数ごとに
個別に分離が
得られても…
時間
周波数
時間
周波数
音源 1
音源 2
時間
周波数
時間
周波数
音源 1 (仮)
音源 2 (仮)
パーミュテーション整合
周波数
index
時刻
index
マイク
index
音源
index
音源
index

置換行列
解を絞り込むための仮定が必要
周波数
index
時刻
index
マイク
index
音源
index
音源
index

BSSの従来研究
時間周波数領域BSSの代表的アプローチ
 音源数＝マイク数の場合
独立成分分析 (ICA) [Smaragdis+1998, Ikeda&Murata1998, Saruwatari+2000,...]
音源間の統計的独立性規準 g を最大化するように A の逆行列 W を推定
 音源数＞マイク数の場合
時間周波数マスキング [Yilmaz+2004, Mori+2005, Mandel+2006, Araki+2007, Izumi+2007,...]
・各時間周波数点において単一音源のみが支配的と仮定
・各時間周波数点の到来方向情報をもとに時間周波数点をクラスタリング
パーミュテーション整合のアプローチ
 音源到来方向 [Kurita+2000]，帯域間の振幅相関 [Murata+2001]，調波性
[Sawada+2004]，デルタ振幅の帯域間の同期性 [Ono+2010]に基づく手法など多数
BSSとパーミュテーションの同時解決アプローチ
 独立ベクトル分析 (IVA) [Kim+2006, Hiroe2006, Ono+2011,...]
 多チャンネルNMF [Ozerov+2010, Kameoka+2010, Sawada+2012, Kitamura+2015,...]

BSSの従来研究
優決定BSS
2000 2010
独立成分分析
ICA
優決定
多チャンネルNMF
劣決定BSS
独立ベクトル分析
IVA
優決定
（補助関数法）
IVA
劣決定
多チャンネル
FHMM
非負値行列分解
NMF
板倉齋藤距離NMF
複素NMF Factorial HMM
劣決定
モノラル音源分離
周波数領域
ICA
時間周波数
マスキング

BSSの従来研究
優決定BSS
2000 2010
独立成分分析
ICA
優決定
劣決定BSS
IVA
優決定
IVA
劣決定
多チャンネル
FHMM
NMF
板倉齋藤距離NMF
劣決定
周波数領域
ICA
時間周波数
マスキング
亀岡
亀岡，小野亀岡，小野
亀岡，小野，猿渡
亀岡
亀岡
小野猿渡
※共著者の各氏が関わった研究

独立成分分析 (IndependentComponentAnalysis)
混合行列の逆行列（分離フィルタ）を推定
どうやって？
周波数
index
時刻
index
マイク
index
音源
index
音源
index
周波数
index
時刻
index
音源
index
マイク
index
音源
index

混合行列の逆行列（分離フィルタ）を推定
どうやって？分離信号間の統計的独立性規準を最大化
周波数
index
時刻
index
マイク
index
音源
index
音源
index
周波数
index
時刻
index
音源
index
マイク
index
音源
index

統計的独立性と非ガウス性
最尤法によるICA
 音源の確率分布に非ガウス分布を仮定し分離行列を最尤推定
音源数
振幅
頻度
振幅
振幅の頻度分布が正規分布に近づいていく
（中心極限定理）
非ガウス的
ガウス的
時間
分離信号の非ガウス性の最大化により音源信号を復元可能

最尤法によるICAの定式化
分離行列を推定
観測信号の確率密度関数（の尤度関数）
 線形変換と確率密度関数
 音源信号の独立性と非Gauss性を仮定
：Laplace分布など
周波数ごとの音源分離 ⇒別途パーミュテーション整合が必要

ICAのパラメータ推定アルゴリズム
通常の勾配法
 更新則
 毎ステップ、逆行列計算が必要
自然勾配法 [Amari+1996]
 の実質的な変化分
のノルム制約下で最急降下方向を求める
 逆行列計算が不要
補助関数法＋反復射影 [Ono+2011]
 の行ごとに最適更新
 が時変ガウス分布の場合更新則が解析的に求まる
 逆行列計算が不要
（はステップサイズ）

独立ベクトル分析 (IndependentVectorAnalysis)
動機：周波数ごとの音源分離とパーミュテーション整合を同時解決
 同一音源に由来する周波数成分の大きさは同期して時間変化するはず
周波数
index
時刻
index
音源
index
マイク
index
音源
index
, の代わりに
ノルム ∑ | , | の確率分布に非ガウス分布を仮定
音源の時刻におけるパワーに相当
[Kim+2006, Hiroe+2006]

動機：周波数ごとの音源分離とパーミュテーション整合を同時解決
 同一音源に由来する周波数成分の大きさは同期して時間変化するはず
周波数
index
時刻
index
音源
index
マイク
index
音源
index
, の代わりに
ノルム ∑ | , | の確率分布に非ガウス分布を仮定
音源の時刻におけるパワーに相当
がLaplace分布に従う場合：
| 0
| 10
が大きければも大きくなる傾向
0
[Kim+2006, Hiroe+2006]

ICAとの尤度関数の比較
ICA:
IVA:
[Kim+2006]
より転載
ICAにおける音源分布 IVAにおける音源分布
音源分布に関する項
[Kim+2006, Hiroe+2006]
どの切り口を見ても
分布形状は同じ , が大きいほど
, の分布の裾
が広くなる

置換行列
周波数
index
時刻
index
マイク
index
音源
index
音源
index
解を絞り込むための仮定が必要
音源数＞マイク数の場合は？？
モノラル音源分離手法のアイディアを取り入れた手法⇒多チャンネルNMF

非負値行列因子分解 (NMF)
 「行列積」としてのスペクトログラム（時間周波数表現）
time
Frequency
[Lee+2000, Smaragdis+2003]

 「行列積」としてのスペクトログラム（時間周波数表現）
非負値行列因子分解 (NMF)
time
Frequency
各基底スペクトルのアクティベーション
基底スペクトル
[Lee+2000, Smaragdis+2003]

教師ありNMFによるモノラル音源分離
基底スペクトルの事前学習
事前学習した基底スペクトルを用いた分離
0 1 2 3 4
Time (s)
0
2
4
6
8
Frequency(kHz)
音源サンプル
0 1 2 3 4
Time (s)
0
2
4
6
8
Frequency(kHz)
Mixture
Wienerフィルタによる分離信号の獲得
[Smaragdis+2007]

非負制約のもとでとなるとを求める問題
板倉齋藤距離
混合音も複素正規分布に従う
板倉齋藤距離規準 NMF
多重音スペクトログラムの生成モデル化
複素正規分布に従うと仮定
個の要素からなる混合音
[Févotte+2009]

時変ガウス音源モデル
複素スペクトログラムの各要素が異なる分散の複素正規分布に従う
各時刻，各周波数で異なる分散（パワー）

周波数パワーが小＝分散が小
殆ど0付近の複素数しか
生成しない
パワーが大＝分散が大
大きな振幅の複素数も
生成しうる
濃い方が
パワーが大きい
時間

• , に様々なパワースペクトログラムのモデルを組み込めるのが特長
• , ∑ , , のときNMF型のモデル

多チャンネル信号の確率分布
との尤度関数
• , に様々なパワースペクトログラムのモデルを組み込めるのが特長
• , ∑ , , のときNMF型のモデル
周波数
index
時刻
index
マイク
index 音源
index
音源
index
時刻
index

時変ガウス音源モデルの優ガウス性
定理
証明略
0
すべてので分散がすべて等しい
ときのみ尖度は0になる
平均が0で分散が時変のガウス分布の時間平均分布は
優ガウス的である（尖度は0より大きい）
時変ガウス音源モデルを用いることは
音源信号の分布に優ガウス分布を仮定していることに相当

多チャンネル信号の確率密度関数
対数尤度
NMF型モデル
• 補助関数法による
パラメータ推定 [Sawada+2012]
[Ozerov+2010, Sawada+2012,...]
• EMアルゴリズムによる
パラメータ推定 [Ozerov+2010]
周波数
index 時刻
index
マイク
index
音源
index
音源
index
時刻
index

補助関数法 (EMアルゴリズムを一般化した原理)
目的関数を局所最小化するを得るための方法論
 を満たすを補助関数と定義
 パラメータ更新アルゴリズム
 収束性
[1]
[2] 目的関数補助関数
[1]
[2]

目的関数
 逆数関数は正領域で凸関数 ⇒ Jensenの不等式（非負値版）
 対数関数は凹関数 ⇒ 接線不等式
適用例1: 板倉齋藤距離最小化 [Kameoka+2006]
右辺
非負値制約

適用例2: 多チャンネルNMFアルゴリズム
目的関数
※板倉齋藤距離最小化アルゴリズム [Kameoka+2006] の行列版
[Sawada+2012]
逆数関数は正領域で凸関数より
（∵変数が正の場合の
Jensen不等式）
行列拡張
対数関数に対する接線不等式の行列版より

IVAの対数尤度（再掲）
多チャンネルNMFの対数尤度と同形
多チャンネルNMFとIVAの関係
に時変ガウス分布を仮定したら？
[Ono+2012,
Yoshioka+2011]
, と置くと等価に！

多チャンネルNMFとIVAの関係
パワースペクトログラムモデルの違い
 IVA
 多チャンネルNMF
Frequency
Time
Frequency
Basis
Basis
Time
時間周波数点ごとに
分散が異なる音源モデル
濃淡は分散値
（信号のパワー）
Frequency
Time
Frequency
Time
全周波数で共通の
分散をもつ音源モデル

ILRMA NMF型のパワースペクトログラムモデルの組み込み
[Kameoka+2010,
Kitamura+2015]
独立低ランク行列分析(ILRMA)
優決定条件の多チャンネルNMF
 IVAはパラメータ推定アルゴリズムが高速
 多チャンネルNMFは音源モデルが柔軟である代わりにアルゴリズムが
低速（各ステップの逆行列計算の回避策がいまのところない）
[Kameoka+2010,
Kitamura+2015]
時変ガウス音源モデルを用いたIVA
[Ono+2012,
Yoshioka+2011]

各種音源分離手法の分離性能・演算時間の比較
実際の音響信号＆空間混合の分離実験
 SiSECデータ（実録音・2音源混合）による分離実験結果
 演算時間はIVAを基準に正規化
ILRMAが高い分離精度と低演算時間を実現
↓[Kitamura+2016]より転載

Factorial HMMによるモノラル音源分離 [Nakano+2010]
音声や楽音のスペクトルは通常時間変化する
⇒状態遷移により各基底スペクトルが時間変化するモデル
+
Time
Frequency
Time
FrequencyFrequency
観測スペクトログラムを
複数のHMMの出力の和
で表現 Factorial HMM

多チャンネルFHMM [Higuchi+2014]
FHMMの多チャンネル拡張
（音源分離・残響除去・音声区間検出の同時解法）
53
time [s]
frequency [Hz]
frequency [Hz]
無音状態
有音状態
分離音スペクトログラム
音響イベント検出結果
元音源信号のスペクトログラム
time [s]
frequency [Hz]
time [s]
残響下の混合音スペクトログラム

各種BSS手法と関連する最適化法
2000 2010
優決定BSS
独立成分分析
ICA
劣決定BSS
IVA
NMF
周波数領域
ICA猿渡
時間周波数
マスキング
最適化手法
板倉齋藤距離最小化
自然勾配法
亀岡
優決定
ILRMA: 優決定
亀岡
亀岡，小野，猿渡
IVA
劣決定
多チャンネル
FHMM
板倉齋藤距離規準NMF
劣決定
亀岡，小野亀岡，小野
亀岡
亀岡
小野
分離行列最適化
（反復射影）
小野

参考
Alexey Ozerov, Hirokazu Kameoka, "Gaussian model based
multichannel separation," in Audio Source Separation and Speech
Enhancement, E. Vincent (Ed.), Springer, to appear in 2017.
Hirokazu Kameoka, Hiroshi Sawada, Takuya Higuchi, "General
formulation of multichannel extensions of NMF variants," in
Audio Source Separation, S. Makino (Ed.), Springer, to appear in
2017.
Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu
Kameoka, Hiroshi Saruwatari, "Determined blind source
separation with Independent low‐rank matrix analysis," in Audio
Source Separation, S. Makino (Ed.), Springer, to appear in 2017.

まとめ
各種ブラインド音源分離手法の紹介
 独立成分分析 (ICA)
 独立ベクトル分析(IVA)
 補助関数法と座標勾配法による分離行列最適化 [Ono+2011]
 非負値行列因子分解 (NMF)
 板倉齋藤距離規準NMF [Févotte+2009]
 板倉齋藤距離局所最小化アルゴリズム [Kameoka+2006, Nakano+2010]
 多チャンネルNMF
 劣決定条件
• EMアルゴリズムによる最適化 [Ozerov+2010]
• 補助関数法による最適化 [Sawada+2012]
 優決定条件 ⇒ 独立低ランク行列分析(ILRMA)
• EMアルゴリズムによる最適化 [Kameoka+2010]
• 補助関数法による最適化 [Kitamura+2015]
 Factorial HMM (FHMM) [Nakano+2011]
 多チャンネルFHMM [Higuchi+2014]

参考文献 (1/4)
[1] P. Smaragdis: “Blind separation of convolved mixtures in the frequency domain,” Neurocomputing, 22(1),
pp. 21–34, 1998.
[2] S. Ikeda and N. Murata: “A method of ICA in time‐frequency domain,” in Proc. International Workshop on
Independent Component Analysis and Blind Signal Separation (ICA), pp. 365‐371, 1999.
[3] H. Saruwatari, S. Kurita, K. Takeda, F. Itakura, and K. Shikano: “Blind source separation based on subband
ICA and beamforming,” in Proc. The International Conference on Spoken Language Processing (ICSLP), pp.
94‐97, 2000.
[4] O. Yılmaz and S. Rickard: “Blind separation of speech mixtures via time‐frequency masking,” IEEE
Transactions on Signal Processing, 52(7), pp. 1830‐1847, 2004.
[5] M.I. Mandel, D.P.W. Ellis, and T. Jebara, “An EM algorithm for localizing multiple sound sources in
reverberant environments,” in Adv. Neural Information Processing Systems, pp. 953‐960, 2006.
[6] S. Araki, H. Sawada, R. Mukai, and S. Makino, “Underdetermined blind sparse source separation for
arbitrarily arranged multiple sensors,” Signal Process., 87(8), pp. 1833‐1847, 2007.
[7] Y. Mori, H. Saruwatari, T. Takatani, S. Ukai, K. Shikano, T. Hiekata, and T. Morita,   “Real‐time
implementation of two‐stage blind source separation combining SIMO‐ICA and binary masking,” in Proc.
International  Workshop  on  Acoustic  Echo  and  Noise  Control (IWAENC), pp.229‐232, 2005.
[8] Y.  Izumi,  N.  Ono,  and  S.  Sagayama,  “Sparseness‐based 2ch  BSS using  the  EM  algorithm  in  reverberant
environment,”  in Proc.  IEEE Workshop on Applications of Signal Processing to Audio and Acoustics
(WASPAA), pp. 147‐150, 2007.
[9] H. Sawada,  S. Araki,  and S. Makino,  “Underdetermined convolutive blind source separation via frequency
bin‐wise clustering and permutation alignment,” IEEE Trans. Audio Speech Language Process., 19(3),
pp.516–527, 2010.

参考文献 (2/4)
[10] S. Kurita, H. Saruwatari, S. Kajita, K. Takeda, and F. Itakura: “Evaluation of blind signal separation method
using directivity pattern under reverberant conditions,” in Proc. IEEE International Conference on
Acoustics, Speech, and Signal Processing (ICASSP), pp. 3140‐3143, 2000.
[11] N. Murata, S. Ikeda, and A. Ziehe: “An approach to blind source separation based on temporal structure of
speech signals,” Neurocomputing, 41(1), pp. 1‐24, 2001.
[12] H. Sawada, R. Mukai, S. Araki, and S. Makino: “A robust and precise method for solving the permutation
problem of frequency‐domain blind source separation,” IEEE Transactions on Speech and Audio
Processing, 12(5), pp. 530‐538, 2004.
[13] 小野: “周波数領域ICAにおけるΔスペクトログラムに基づくパーミュテーション解法,” 日本音響学会2010年秋
季研究発表会講演論文集, 2‐10‐7, pp. 581‐582, 2010.
[14] T. Kim, T. Eltoft, and T.W. Lee: “Independent vector analysis: An extension of ICA to multivariate
components,” in Proc. International Conference on Independent Component Analysis and Signal
Separation (ICA), pp. 165–172, 2006.
[15] A. Hiroe: “Solution of permutation problem in frequency domain ICA using multivariate probability density
functions,” in Proc. Int. Conf. on Independent Component Analysis and Blind Source Separation (ICA), pp.
601‐608, 2006.
[16] T. Yoshioka, T. Nakatani, M. Miyoshi, and H.G. Okuno: "Blind separation and dereverberation of speech
mixtures by joint optimization," IEEE Transactions on Audio, Speech, and Language Processing, 19 (1), pp.
69–84, 2011.
[17] A. Ozerov and C. Fevotte: “Multichannel nonnegative matrix factorization in convolutive mixtures for
audio source separation,” IEEE Transactions on Audio, Speech, and Language Processing, 18 (3), pp. 550–
563, 2010.

参考文献 (3/4)
[18] H. Kameoka, T. Yoshioka, M. Hamamura, J. Le Roux, and K. Kashino: “Statistical model of speech signals
based on composite autoregressive system with application to blind source separation,” in Proc. of
International Conference on Latent Variable Analysis and Signal Separation (LVA/ICA), pp. 245–253, 2010.
[19] H. Sawada, H. Kameoka, S. Araki, and N. Ueda: “Efficient algorithms for multichannel extensions of Itakura‐
Saito nonnegative matrix factorization,” in Proc. IEEE International Conference on Acoustics, Speech and
Signal Processing (ICASSP), pp. 261‐264, 2012.
[20] D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari: “Efficient multichannel nonnegative
matrix factorization exploiting rank‐1 spatial model,” in Proc. IEEE International Conference on Acoustics,
Speech and Signal Processing (ICASSP), pp. 276‐280, 2015.
[21] S. Amari, A. Cichocki, and H.H. Yang: “A new learning algorithm for blind signal separation,” in Adv. Neural
Information Processing Systems, MIT Press, pp. 757‐763, 1996.
[22] N. Ono: “Stable and fast update rules for independent vector analysis based on auxiliary function
technique, in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA),
pp. 189‐192, 2011.
[23] D.D Lee and H.S. Seung: “Algorithms for non‐negative matrix factorization,” in Adv. Neural Information
Processing Systems, pp. 556–562, 2001.
[24] P. Smaragdis and J.C. Brown: “Non‐negative matrix factorization for music transcription,” in Proc. IEEE
Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), pp. 177–180, 2003.
[25] P. Smaragdis, B. Raj, and M. Shashanka, “Supervised and semi‐supervised separation of sounds from
single‐channel mixtures,” in Proc. International Conference on Independent Component Analysis and
Signal Separation (ICA 2007), pp. 414–421, 2007.
[26] C. F´evotte, N. Bertin, and J.L. Durrieu: “Nonnegative matrix factorization with the Itakura‐Saito
divergence. With application to music analysis,” Neural Computation, 21 (3), pp. 793–830, 2009.

参考文献 (4/4)
[27] H. Kameoka, M. Goto, and S. Sagayama: “Selective amplifier of periodic and nonperiodic components in
concurrent audio signals with spectral control envelopes,” in IPSJ SIG Technical Reports, 2006‐MUS‐66
(13), pp. 77–84, 2006. In Japanese.
[28] T. Ono, N. Ono, S. Sagayama: “User‐guided independent vector analysis with source activity tuning,” in
Proc. IEEE International Conference on Audio, Speech and Signal Processing (ICASSP), pp. 2417–2420,
2012.
[29] D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Determined blind source separation
unifying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM Transactions on
Audio, Speech, and Language Processing, 24(9), pp. 1626‐1641, 2016.
[30] M. Nakano, J. Le Roux, H. Kameoka, T. Nakamura, N. Ono, and S. Sagayama: “Bayesian Nonparametric
Spectrogram Modeling Based on Infinite Factorial Infinite Hidden Markov Model,” in Proc. IEEE Workshop
on Applications of Signal Processing to Audio and Acoustics (WASPAA), pp. 325‐328, 2011.
[31] T. Higuchi, H. Takeda, T. Nakamura, and H. Kameoka: “A unified approach for underdetermined blind
signal separation and source activity detection by multichannel factorial hidden Markov models,” in Proc.
The 5th Annual Conference of the International Speech Communication Association (Interspeech), pp.
850‐854, 2014.
[32] T. Higuchi and H. Kameoka, “Joint audio source separation and dereverberation based on multichannel
factorial hidden Markov model,” in Proc. The 24th IEEE International Workshop on Machine Learning for
Signal Processing (MLSP 2014), 2014.
[33] M. Nakano, H. Kameoka, J. Le Roux, Y. Kitano, N. Ono, and S. Sagayama: “Convergence‐guaranteed
multiplicative algorithms for non‐negative matrix factorization with beta‐divergence,” in Proc. IEEE
International Workshop on Machine Learning for Signal Processing (MLSP), pp. 283‐288, 2010.

Kameoka2017 ieice03

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Kameoka2017 ieice03