SlideShare une entreprise Scribd logo
1  sur  18
Télécharger pour lire hors ligne
ユーザーからの補助情報を用いる
インタラクティブ音源分離システムの
開発
中野将生
2020/2/3 1/18
音源分離の背景
混合された観測信号から元の音源信号を測定する技術
音声認識を行うデバイスで事前処理として利用される
収録音からヴォーカルやギターなど特定の音源の抽出にも応用
可能
ブラインド音源分離(blind source separation; BSS)
音源の位置関係,種類等の事前情報を用いず分離する
優決定条件(マイク数 ≥ 音源数の条件)
独立成分分析(independent component analysis; ICA) [P. Comon 1994]
周波数領域 ICA
(frequency-domain ICA; FDICA) [P. Smaragdis 1998]
独立ベクトル分析(independent vector analysis; IVA) [T. Kim+ 2007]
独立低ランク行列分析
(independent row lank matrix analysis; ILRMA)
[D. Kitamura+ 2016]
2/18
本研究の概要
IVA,
ILRMA では右図のような
ブロックパーミュテーション
問題と呼ばれる現象が起こる
周波数ビン間の関係を推定す
る際に局所最適解に陥る
Block
permutation
人間とのインタラクション
高精度かつ安定的な音源分離
提案手法を検証するため Web システムを開発
Over HTTP
Web
user interface
ILRMA
Annotation of block
permutation by user
User
Over HTTP
Interaction
3/18
音源分離の定式化
𝒙 = 𝑨 𝒔 ∈ ℂ ×
𝒚 = 𝑾 𝒙 ∈ ℂ ×
𝑾 ≈ 𝑨−
∈ ℂ ×
𝒙 は観測信号
𝒔 は原信号
𝒚 は推定された分離信号
𝐼 は周波数ビンの数
𝐽 は時間フレームの数
信号の混合を周波数の信号ベクトルで定義
時間周波数領域であるのは時間畳み込みをモデリングするため
残響は時間畳み込みであり無視できない要素
混合行列 𝑨 の逆行列を近似する 𝑾 を求める
観測信号と分離信号数は等しいと仮定
観測信号が多い場合は主成分分析で減らす
Mixing Separating
4/18
FDICA
周波数領域 ICA
(FDICA)
周波数ビン毎に ICA で分離
ICA では順番が不定になるため周波数ビンがどの音源からのも
のか判別不可能
パーミュテーション問題
周波数ビンをソートする解決策 [H. Sawada+ 2004]
パーミュテーションが起きないよう拡張(IVA,
ILRMA)
ICA
In all frequency
Source 1
Source 2
Mixture 1
Mixture 2
F
r
e
q
u
e
n
c
y
Permutation
Solver Separated signal 2
Time
Separated signal 2
F
r
e
q
Non-aligned signal 1
Non-aligned signal 2
5/18
ILRMA の概要
独立低ランク行列分析(ILRMA) [D. Kitamura+ 2016]
パワースペクトログラム 𝑹 の構造を推定しつつ分離
𝑻 と 𝑽 の積により近似する
𝑻 と 𝑽 の基底数は 𝐼,
𝐽 より少ない(低ランク性)
音声信号の分離には弱い
R
T V
Time
Amplitude
Amplitude
×
J
Frequency
Y
Time
Amplitude
X
W
×
W
W
1
I
Frequency
Time
J
I
I
K
K
N
×N
×
N
×N
× N
×N
×
N
×
N
×
Update cycle
Separation
NMF
6/18
提案手法の動機
ILRMA にはブロックパーミュテーションと呼ばれる問題が存在
一部の周波数帯域の分離先を纏まって間違える
局所最適解に陥ることで発生
時間領域に戻しても分離できてないように聞こえる
アノテーションによる局所最適解からの脱出
周波数帯域の交換
音源毎の沈黙区間の指定
沈黙区間は重要なヒント(通常被らない)
7/18
アノテーションを与える UI
サーバ・クライアント型
ドラックして作成した白い矩
形領域で選択
play で現在の分離音を再生
シークバーで再生位置変更
ラジオボタンで 2 種類の手法
を切り替え
Frequency の場合はテキスト
ボックスで本来周波数帯域が
属するべき信号のインデック
スを指定
Submit でサーバに送信
Annotation of block
permutation by user
8/18
誤った周波数帯の直接修正
分離行列 𝑾 の振り分け先を入れ替え
スペクトルパターン行列 𝑻 の周波数帯を入れ替え
アクティベーション行列はリセット
I
N
M W1
Swap
W
I
W
Wi
Swap T2
1
×
Activation matrix
Basis matrix (spectral patterns)
Demixing matrix
T
V2
V
1
Swap Reset with
I
K
K
K
K
J
e
ib
i=ie
i=is
-1
ρ
i=ie
i=is
9/18
沈黙している時間区間の指定 (a)
アクティベーション行列 𝑽 に沈黙区間を設定
スペクトルパターン行列 𝑻 をリセット
分離行列 𝑾 をリセット
I
N
M W1
W
I-1
T2
1
×
Activation matrix
Basic matrix (spectral patterns)
Demixing matrix
T
V2
V
1
I
K
K
K
K
J
Reset
Reset with ε
je
=
j
js
=
j
10/18
沈黙している時間区間の指定 (b)
アクティベーション行列 𝑽 に沈黙区間を設定
アクティベーション行列 𝑽 の沈黙区間以外をリセット
スペクトルパターン行列 𝑻 をリセット
分離行列 𝑾 をリセット
I
N
M W
1
W
I-1
T2
1
×
Activation matrix
Basis pattern matrix
(spectral patterns)
Demixing matrix
T
V
1
V0
I
K
K
K
K
J
Reset
Reset with
Reset with
ε
α
je
j=
js
j=
11/18
実験条件
SiSEC2011 [S. Araki+ 2012] の
UND タスクに含まれる残
響合成済み 130 ms の 6 信
号を混合
No. 1 女声 女声 10 秒
No. 2 男声 男声 10 秒
No. 3 女声 男声 10 秒
短時間フーリエ変換時には窓長 128 ms のハミング窓
を 64 ms のシフトで使用
source-to-distortion ratio
(SDR)[E. Vincent+ 2006] で評価
原信号に対する歪みを表す指標
この値が高いほどよく分離されている
ILRMA
annotation ILRMA
ILRMA
x 80
x 80
x 80
12/18
周波数帯修正の SDR 改善率
0 20 40 60 80 100 120 140 160
Iteration [times]
2
0
2
4
6
8
10
12
SDR
improvement
[dB] ILRMA w/ annotation (No. 1)
ILRMA only (No. 1)
ILRMA w/ annotation (No. 2)
ILRMA only (No. 2)
ILRMA w/ annotation (No. 3)
ILRMA only (No. 3)
13/18
実際のブロックパーミュテーションの例
低音域でブロックパーミュ
テーションが発生してい
る
目視での識別は非常に困
難
14/18
沈黙区間指定 (a) の SDR 改善率
0 20 40 60 80 100 120 140 160
Iteration [times]
2
0
2
4
6
8
10
12
SDR
improvement
[dB] ILRMA w/ annotation (No. 1)
ILRMA only (No. 1)
ILRMA w/ annotation (No.2)
ILRMA only (No.2)
ILRMA w/ annotation (No.3)
ILRMA only (No.3)
15/18
沈黙区間指定 (b) の SDR 改善率
0 20 40 60 80 100 120 140 160
Iteration [times]
2
0
2
4
6
8
10
12
SDR
improvement
[dB] ILRMA w/ annotation (No. 1)
ILRMA only (No. 1)
ILRMA w/ annotation (No.2)
ILRMA only (No.2)
ILRMA w/ annotation (No.3)
ILRMA only (No.3)
16/18
沈黙区間を指定する 2 手法の比較
No. 1
Data sets Data sets
No. 2 No. 1
No. 3 No. 2 No. 3
-2
0
2
4
8
10
12
SDR
improvements
[dB]
6
SDR improvements
by time annotation (a)
SDR improvements
by time annotation (b)
17/18
まとめ
優決定条件下での汎用的な音源分離手法として ILRMA が存在
ILRMA にはブロックパーミュテーションと呼ばれる問題がある
アノテーションには分離精度向上に一定の効果がある
沈黙区間を指定する場合は (b) の手法がより効果的である
目視でのブロックパーミュテーション判別は困難である
沈黙区間を指定するほうが実用的
18/18

Contenu connexe

Plus de Kitamura Laboratory

Plus de Kitamura Laboratory (20)

DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
 
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
 
多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
 
Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...
 
Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...
 
Blind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure models
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
 
独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
 
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析
 
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
 

Dernier

Top Rated Call Girls In chittoor 📱 {7001035870} VIP Escorts chittoor
Top Rated Call Girls In chittoor 📱 {7001035870} VIP Escorts chittoorTop Rated Call Girls In chittoor 📱 {7001035870} VIP Escorts chittoor
Top Rated Call Girls In chittoor 📱 {7001035870} VIP Escorts chittoor
dharasingh5698
 
AKTU Computer Networks notes --- Unit 3.pdf
AKTU Computer Networks notes ---  Unit 3.pdfAKTU Computer Networks notes ---  Unit 3.pdf
AKTU Computer Networks notes --- Unit 3.pdf
ankushspencer015
 
notes on Evolution Of Analytic Scalability.ppt
notes on Evolution Of Analytic Scalability.pptnotes on Evolution Of Analytic Scalability.ppt
notes on Evolution Of Analytic Scalability.ppt
MsecMca
 
FULL ENJOY Call Girls In Mahipalpur Delhi Contact Us 8377877756
FULL ENJOY Call Girls In Mahipalpur Delhi Contact Us 8377877756FULL ENJOY Call Girls In Mahipalpur Delhi Contact Us 8377877756
FULL ENJOY Call Girls In Mahipalpur Delhi Contact Us 8377877756
dollysharma2066
 
Call Girls in Ramesh Nagar Delhi 💯 Call Us 🔝9953056974 🔝 Escort Service
Call Girls in Ramesh Nagar Delhi 💯 Call Us 🔝9953056974 🔝 Escort ServiceCall Girls in Ramesh Nagar Delhi 💯 Call Us 🔝9953056974 🔝 Escort Service
Call Girls in Ramesh Nagar Delhi 💯 Call Us 🔝9953056974 🔝 Escort Service
9953056974 Low Rate Call Girls In Saket, Delhi NCR
 

Dernier (20)

Thermal Engineering Unit - I & II . ppt
Thermal Engineering  Unit - I & II . pptThermal Engineering  Unit - I & II . ppt
Thermal Engineering Unit - I & II . ppt
 
UNIT - IV - Air Compressors and its Performance
UNIT - IV - Air Compressors and its PerformanceUNIT - IV - Air Compressors and its Performance
UNIT - IV - Air Compressors and its Performance
 
Water Industry Process Automation & Control Monthly - April 2024
Water Industry Process Automation & Control Monthly - April 2024Water Industry Process Automation & Control Monthly - April 2024
Water Industry Process Automation & Control Monthly - April 2024
 
Design For Accessibility: Getting it right from the start
Design For Accessibility: Getting it right from the startDesign For Accessibility: Getting it right from the start
Design For Accessibility: Getting it right from the start
 
Bhosari ( Call Girls ) Pune 6297143586 Hot Model With Sexy Bhabi Ready For ...
Bhosari ( Call Girls ) Pune  6297143586  Hot Model With Sexy Bhabi Ready For ...Bhosari ( Call Girls ) Pune  6297143586  Hot Model With Sexy Bhabi Ready For ...
Bhosari ( Call Girls ) Pune 6297143586 Hot Model With Sexy Bhabi Ready For ...
 
CCS335 _ Neural Networks and Deep Learning Laboratory_Lab Complete Record
CCS335 _ Neural Networks and Deep Learning Laboratory_Lab Complete RecordCCS335 _ Neural Networks and Deep Learning Laboratory_Lab Complete Record
CCS335 _ Neural Networks and Deep Learning Laboratory_Lab Complete Record
 
Top Rated Call Girls In chittoor 📱 {7001035870} VIP Escorts chittoor
Top Rated Call Girls In chittoor 📱 {7001035870} VIP Escorts chittoorTop Rated Call Girls In chittoor 📱 {7001035870} VIP Escorts chittoor
Top Rated Call Girls In chittoor 📱 {7001035870} VIP Escorts chittoor
 
Block diagram reduction techniques in control systems.ppt
Block diagram reduction techniques in control systems.pptBlock diagram reduction techniques in control systems.ppt
Block diagram reduction techniques in control systems.ppt
 
Thermal Engineering-R & A / C - unit - V
Thermal Engineering-R & A / C - unit - VThermal Engineering-R & A / C - unit - V
Thermal Engineering-R & A / C - unit - V
 
AKTU Computer Networks notes --- Unit 3.pdf
AKTU Computer Networks notes ---  Unit 3.pdfAKTU Computer Networks notes ---  Unit 3.pdf
AKTU Computer Networks notes --- Unit 3.pdf
 
data_management_and _data_science_cheat_sheet.pdf
data_management_and _data_science_cheat_sheet.pdfdata_management_and _data_science_cheat_sheet.pdf
data_management_and _data_science_cheat_sheet.pdf
 
notes on Evolution Of Analytic Scalability.ppt
notes on Evolution Of Analytic Scalability.pptnotes on Evolution Of Analytic Scalability.ppt
notes on Evolution Of Analytic Scalability.ppt
 
NFPA 5000 2024 standard .
NFPA 5000 2024 standard                                  .NFPA 5000 2024 standard                                  .
NFPA 5000 2024 standard .
 
(INDIRA) Call Girl Aurangabad Call Now 8617697112 Aurangabad Escorts 24x7
(INDIRA) Call Girl Aurangabad Call Now 8617697112 Aurangabad Escorts 24x7(INDIRA) Call Girl Aurangabad Call Now 8617697112 Aurangabad Escorts 24x7
(INDIRA) Call Girl Aurangabad Call Now 8617697112 Aurangabad Escorts 24x7
 
Double rodded leveling 1 pdf activity 01
Double rodded leveling 1 pdf activity 01Double rodded leveling 1 pdf activity 01
Double rodded leveling 1 pdf activity 01
 
Intze Overhead Water Tank Design by Working Stress - IS Method.pdf
Intze Overhead Water Tank  Design by Working Stress - IS Method.pdfIntze Overhead Water Tank  Design by Working Stress - IS Method.pdf
Intze Overhead Water Tank Design by Working Stress - IS Method.pdf
 
VIP Model Call Girls Kothrud ( Pune ) Call ON 8005736733 Starting From 5K to ...
VIP Model Call Girls Kothrud ( Pune ) Call ON 8005736733 Starting From 5K to ...VIP Model Call Girls Kothrud ( Pune ) Call ON 8005736733 Starting From 5K to ...
VIP Model Call Girls Kothrud ( Pune ) Call ON 8005736733 Starting From 5K to ...
 
FEA Based Level 3 Assessment of Deformed Tanks with Fluid Induced Loads
FEA Based Level 3 Assessment of Deformed Tanks with Fluid Induced LoadsFEA Based Level 3 Assessment of Deformed Tanks with Fluid Induced Loads
FEA Based Level 3 Assessment of Deformed Tanks with Fluid Induced Loads
 
FULL ENJOY Call Girls In Mahipalpur Delhi Contact Us 8377877756
FULL ENJOY Call Girls In Mahipalpur Delhi Contact Us 8377877756FULL ENJOY Call Girls In Mahipalpur Delhi Contact Us 8377877756
FULL ENJOY Call Girls In Mahipalpur Delhi Contact Us 8377877756
 
Call Girls in Ramesh Nagar Delhi 💯 Call Us 🔝9953056974 🔝 Escort Service
Call Girls in Ramesh Nagar Delhi 💯 Call Us 🔝9953056974 🔝 Escort ServiceCall Girls in Ramesh Nagar Delhi 💯 Call Us 🔝9953056974 🔝 Escort Service
Call Girls in Ramesh Nagar Delhi 💯 Call Us 🔝9953056974 🔝 Escort Service
 

ユーザーからの補助情報を用いるインタラクティブ音源分離システムの開発