5. FDICA
周波数領域 ICA
(FDICA)
周波数ビン毎に ICA で分離
ICA では順番が不定になるため周波数ビンがどの音源からのも
のか判別不可能
パーミュテーション問題
周波数ビンをソートする解決策 [H. Sawada+ 2004]
パーミュテーションが起きないよう拡張(IVA,
ILRMA)
ICA
In all frequency
Source 1
Source 2
Mixture 1
Mixture 2
F
r
e
q
u
e
n
c
y
Permutation
Solver Separated signal 2
Time
Separated signal 2
F
r
e
q
Non-aligned signal 1
Non-aligned signal 2
5/18
6. ILRMA の概要
独立低ランク行列分析(ILRMA) [D. Kitamura+ 2016]
パワースペクトログラム 𝑹 の構造を推定しつつ分離
𝑻 と 𝑽 の積により近似する
𝑻 と 𝑽 の基底数は 𝐼,
𝐽 より少ない(低ランク性)
音声信号の分離には弱い
R
T V
Time
Amplitude
Amplitude
×
J
Frequency
Y
Time
Amplitude
X
W
×
W
W
1
I
Frequency
Time
J
I
I
K
K
N
×N
×
N
×N
× N
×N
×
N
×
N
×
Update cycle
Separation
NMF
6/18
9. 誤った周波数帯の直接修正
分離行列 𝑾 の振り分け先を入れ替え
スペクトルパターン行列 𝑻 の周波数帯を入れ替え
アクティベーション行列はリセット
I
N
M W1
Swap
W
I
W
Wi
Swap T2
1
×
Activation matrix
Basis matrix (spectral patterns)
Demixing matrix
T
V2
V
1
Swap Reset with
I
K
K
K
K
J
e
ib
i=ie
i=is
-1
ρ
i=ie
i=is
9/18
10. 沈黙している時間区間の指定 (a)
アクティベーション行列 𝑽 に沈黙区間を設定
スペクトルパターン行列 𝑻 をリセット
分離行列 𝑾 をリセット
I
N
M W1
W
I-1
T2
1
×
Activation matrix
Basic matrix (spectral patterns)
Demixing matrix
T
V2
V
1
I
K
K
K
K
J
Reset
Reset with ε
je
=
j
js
=
j
10/18
11. 沈黙している時間区間の指定 (b)
アクティベーション行列 𝑽 に沈黙区間を設定
アクティベーション行列 𝑽 の沈黙区間以外をリセット
スペクトルパターン行列 𝑻 をリセット
分離行列 𝑾 をリセット
I
N
M W
1
W
I-1
T2
1
×
Activation matrix
Basis pattern matrix
(spectral patterns)
Demixing matrix
T
V
1
V0
I
K
K
K
K
J
Reset
Reset with
Reset with
ε
α
je
j=
js
j=
11/18
12. 実験条件
SiSEC2011 [S. Araki+ 2012] の
UND タスクに含まれる残
響合成済み 130 ms の 6 信
号を混合
No. 1 女声 女声 10 秒
No. 2 男声 男声 10 秒
No. 3 女声 男声 10 秒
短時間フーリエ変換時には窓長 128 ms のハミング窓
を 64 ms のシフトで使用
source-to-distortion ratio
(SDR)[E. Vincent+ 2006] で評価
原信号に対する歪みを表す指標
この値が高いほどよく分離されている
ILRMA
annotation ILRMA
ILRMA
x 80
x 80
x 80
12/18