方位クラスタリングと非負値行列因子分解を用いた音像深度自動推定 Automatic depth estimation of sound images using directional clustering and nonnegative matrix factorization (in Japanese)
Presented at 2013 Autumn Meeting of Acoustical Society of Japan (domestic conference)
Tomo Miyauchi, Daichi Kitamura, Hiroshi Saruwatari, Satoshi Nakamura, "Automatic depth estimation of sound images using directional clustering and nonnegative matrix factorization," Proceedings of 2013 Autumn Meeting of Acoustical Society of Japan, 2-1-19, pp.673-676, Aichi, September 2013 (in Japanese, Student Presentation Award).
宮内智, 北村大地, 猿渡洋, 中村哲, "方位クラスタリングと非負値行列因子分解を用いた音像深度自動推定," 日本音響学会 2013年秋季研究発表会, 2-1-19, pp.673-676, Aichi, September 2013 (学生優秀発表賞受賞).
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
方位クラスタリングと非負値行列因子分解を用いた音像深度自動推定 Automatic depth estimation of sound images using directional clustering and nonnegative matrix factorization (in Japanese)
3. 研究背景
3D TV 等の普及により “深度:奥行き感” のある映像が呈示可能
音像に深度を与えることが可能な音響システムは確立していない
映像と音像の位置が一致せず知覚上の違和感が生じる
混合音全体が移動することによる違和感が生じる
問題1 映像 音像
映像 音像
: 音像
: 音像
3D TV
3D TV
一方
問題2
3
5. 方位クラスタリングに基づく方位分解
5:Source component :Spatial representative vector
L-chinputsignal
R-ch input signal
L-chinputsignal
R-ch input signal
Normalization Clustering
混合信号
L-chinputsignal
R-ch input signal
各クラスタ毎の分離信号
6. 課題と研究目的
6
DOA (direction of arrival) を用いた
マルチチャネル音源中の音像深度推定
提案手法
一次音源の深度に関する推定
どの様に音像の深度情報を取得するか?
本研究の目的
課題 既存コンテンツは定位情報が失われており
そのままでは WFS に適用することができない.
Up-mixer
一次音源の方位に関しては推定可能
逆 VBAP による一次音源の方位推定 [Hirata, et al., 2012]
7. → direction of arrival: 音の到来方向
DOA の分布を利用し音像深度の推定
Center RightLeft
Frequency
Direction of arrival
方位クラスタリングに基づく音源分離 重み付けDOA ヒストグラム
DOA
振幅値
7
方位
重み付け項
提案手法: DOA に基づく音像深度推定
18. 提案手法フロー
Input stereo signal
L-ch R-ch
STFT
Cluster RCluster CCluster L
Weighted DOA histogram
estimation
Variance
estimation
Variance
estimation
Variance
shared NMF
Activation
Frequency
DOA各クラスタのDOA ヒストグラムの分散値を
評価することにより音像深度を推定
Frequency
DOA
Frequency
DOA
shared NMF
Activation
shared NMF
Activation
18
20. 評価実験
0.0
0.5
1.0
1.5
2.0
0.0
0.5
1.0
1.5
2.0
Depth of sound source
VarianceofhistogramVarianceofhistogram
VarianceofhistogramVarianceofhistogram (d)
(a)
(c)
(b)
:Proposed
method 1
結果 3つの音源距離間で有意な推定が行われた.
全条件において提案法2の結果が若干優位
ノイズの強い音源に関しても頑健性が示唆された.
(a) signal only
(b) signal with pink
noise (SNR=30 dB)
(c) signal with pink
noise (SNR=20 dB)
(d) signal with pink
noise (SNR=10 dB)
:Proposed
method 2
0.5 m 1.5 m 2.5 m
0.0
0.5
1.0
1.5
2.0
0.0
0.5
1.0
1.5
2.0
0.5 m 1.5 m 2.5 m
0.5 m 1.5 m 2.5 m0.5 m 1.5 m 2.5 m
Depth of sound source
Depth of sound sourceDepth of sound source
20
実験条件は,二つの提案法について行います.
一つ目は重み付けのみを行ったもの,2つめは重みづけに加えてNMF処理を行ったものです.
テストソースにはギター,ボーカル,ピアノの3種類の楽器を鳴らした混合音源を用います.
評価対象の目的音源は 0.5 m, 1.5 m, 2.5 m の3位置に配置します.
目的音の他には左右に干渉音を置き,その位置は1.5 m に固定します.
音源の作成には,図中の各位置でバイノーラル収録した室内インパルス応答を用いました.
背景雑音に対する頑健性を評価するため,ピンクノイズを混合したテスト音源についても評価を行いました.
3種類の試験音の方位の組み合わせ6通り,目的音の距離の違う3通り,
ノイズ付加率の違いによる4通りを各々設定した,計72個のテストセットを評価しました.
結果です.
グラフは楽器の方向組み合わせの平均値を表しており,灰色のものが提案法1, 黒が提案法2の結果となります.
(a) は楽器音のみのもの,(b) から (d) は,信号対雑音比をそれぞれ30, 20, 10 dB で混合したものを載せています.
グラフは3位置における目的音の分散値を表していますが,0.5 m の位置の値で正規化を行っています.
すなわち,0,5 m の音源に対して 1.5 m, 2.5 m の音源がどれくらい遠くに推定されているかということを表しており,
この3つの値の差が大きければ大きいほど良い結果だということになります.
図から分かる通り,全条件において,音源深度に従い分散も大きくなり,距離間で有意な推定が行われています.
全条件において提案法2の結果が若干優位になり,ノイズの強い音源に関しても頑健性が示唆されました.
以上から,DOA による音像深度の推定が可能であることが実証され,提案法の有効性が示されました.