SlideShare une entreprise Scribd logo
1  sur  21
信号の独立性に基づく多チャンネル
音源分離
李莉
NTT コミュニケーション科学基礎研究所
名古屋大学 戸田研究室
令和4年度 電気・電子・情報関係学会 東海支部連合大会
OS2「 音響学の次世代を担う若手研究者による異分野融合セッション」
• 音声:人間が外部とコミュニケーションを取る最も基本的な手段の一つ
2
日常生活に潜めている音源分離の需要
人と人の会話 音声による機械の操作
理想的な環境
実世界に存在する問題 背景雑音
聴覚障害
干渉音
発声機能障害 信号伝達による劣化
音声強調
音源分離
• 同時に収録された様々な音からなる混合信号を個々の音に分ける技術
– 聞きたい音(ターゲット音)とその他の音(非ターゲット音)に分ければ音声強調に
も適用できる
• 音源数 とマイク数 の関係による分類
• 音源数=マイク数の場合、信号の独立性を手がかりに分離を行える
3
音源分離技術
優決定条件
音源数 <= マイク数
劣決定条件
音源数 > マイク数
シングルチャンネル: マイク数 = 1
◆ 良設定問題、解きやすい
◆ 実応用では仮定が成り立ちにくい
◆ 不良設定問題、解きにくい
◆ 実応用ではよくある条件
• 分離信号の独立性を測る規準
– 分離信号の同時確率 とそれぞれ確率の積 のカルバック・ライ
ブラダイバージェンス(Kullback-Leibler divergence: KL)
– 小さいほど分離信号が独立であることを意味する
• 周波数領域における異なる音源モデルを仮定した様々な手法
– 周波数独立成分分析(FDICA) [Smaragdis’98]
– 独立ベクトル分析(IVA) [Kim+’06, Hiroe’06]
– 独立低ランク行列分析(ILRMA) [Kitamura+’16]
– 多チャンネル変分自己符号化器法(MVAE) [Kameoka+’18, ‘19]
– 独立深層学習行列分析(IDLMA) [Mogami+’18]
4
独立性に基づく音源分離
音源モデル:分離信号の音源らしさを評価する
信号処理
深層学習
分離系を利用
• 瞬時混合モデルと局所ガウス音源モデル
– 音源信号 と観測信号 の関係:
– 局所ガウス音源モデル[Févotte+’05]:
5
周波数領域における定式化
観測信号
チャンネル
分離信号
チャンネル
分離行列
◆ 目的関数
– 分離行列と音源モデルの負対数尤度
音源モデルに関連する項
音源モデルに関連する項 分離行列に関連する項
観測信号
音源信号
周波数
フレーム
パーミュテーションの任意性が生じる
• 独立低ランク行列分析(ILRMA)[Kitamura+’16]
– 音源の低ランク性を仮定し、非負値行列因子分解
(NMF)により音源モデルを表現する
• 独立深層学習行列分析(IDLMA)[Mogami+’18]
– 多層ニューラルネットワークで各音源スペクトルの
分散への写像を学習する
• 多チャンネル変分自己符号化器法(MVAE)と
その高速アルゴリズム [Kameoka+’18, Li+’20, ’21]
– 条件付きVAE(CVAE)のデコーダ分布でスペクトロ
グラムの生成分布を学習する
6
周波数間の関係をモデリングする音源モデル
Time
Frequency
Basis
Frequency
Basis
Time
Frequency
Time
Frequency
Decoder
Frequency
Time
Time
Frequency
Frequency
Time
Frequency
Time
周波数ごとの音源分離とパーミュテーション整合の同時解決を可能となる
• 条件付き変分自己符号化器(CVAE)により音源モデル
– 深層学習の非線形表現を用いて柔軟かつ精緻なスペクトログラムの表現を可能
– 音声サンプルを用いてスペクトログラム の分布をCVAEで事前学習
7
多チャンネル変分自己符号化器法 [Kameoka+’18, ‘19]
スケール係数 分散(デコーダ出力)
潜在変数 話者ラベル
局所ガウス音源モデル 同形
正規化された複素スペ
クトログラム の生成
確率分布の分散行列
正規化された振幅
スペクトログラム
Time
Frequency
Encoder Decoder
音源ラベル CVAE音源モデル
• 目的関数の単調減少が保証される反復最適化アルゴリズム
8
多チャンネル変分自己符号化器法 [Kameoka+’18, ‘19]
Separation matrix
Decoder
Backpropagation (BP)
CVAE source model
Variance matrices
Forward calculation
Time
Frequency
Time
Frequency
Time
Normalization
STFT
Step 2. により を更新
Step 1. 誤差逆伝播法により を更新
Step 3. 反復射影法[Ono’11]により を更新
Observed signals
• しかし...
– 誤差逆伝播法による最適なパラメータ探索に多大な計算コストを要する
• キーアイディア
– 近似計算:
– 誤差逆伝播による最適化を順伝搬計算で近似的に行う
• ChimeraACVAE音源モデル
– エンコーダとクラス識別器を一体化したマルチタスクエンコーダ
9
FastMVAE2法 [Li+’21]
エンコーダ分布 クラス識別器分布
10
知識蒸留に基づく学習規準
ACVAE学習規準
① CVAEの学習規準
② デコーダ出力のクラス識別規準
③ 学習データのクラス識別規準
推定されたラベルによる算出したデコーダ出力に
対する正則化項
④ 再構築規準
⑤ クラス識別規準
知識蒸留に基づく教師と生徒モデル間の学習規準
⑥ 潜在変数分布間の類似度
⑦ 正解ラベルによるデコーダ出力が分散となる
正規分布間の類似度
⑧ 推定されたラベルによるデコーダ出力が分散
となる正規分布間の類似度
① ② ③ ④ ⑤ ⑥ ⑦ ⑧
( は重み係数)
*定式化は[Li+’21]をお参照ください
• MVAE法との違い
– 1つの順伝搬計算により を同時に更新
11
FastMVAE2法の最適化アルゴリズム
Decoder
Classifier
Encoder
Time
Frequency
Time
Frequency
Time
Observed signals
STFT
Separation matrix
Normalization
ChimeraACVAE source model
Source 1
Source 2
Step 1. マルチタスクエンコーダにより
と を同時更新
Step 2. により を更新
Step 3. 反復射影法[Ono’11]により を更新
12
任意話者分離の実験条件
学習データ WSJ0から101話者 (≈25時間)
テストデータ WSJ0から学習データと異なる18話者
混合話者数 2, 3, 6, 9, 12, 15, 18
テストサンプル数 10サンプル / 条件
残響時間 約50 ms
サンプリング周波数 16 kHz
窓長/窓シフト 256 ms / 128 ms (ハンミング窓)
比較手法 ILRMA, MVAE, FastMVAE, FastMVAE2
反復回数 60
混合行列の初期値 単位行列
ILRMAの基底数 2
• 各反復の平均計算時間
– Intel(R)Xeon(R) Gold 6130 CPU @ 2.10GHz とTesla V100 GPU
13
アルゴリズム速度
• 信号対歪み比改善量[dB]
– Source-to-distortions ratio improvement: SDRi
14
分離性能
観測信号
18話者の分離に成功
デモページ
• 分離の高精度化・高速化
– 音源モデルの精細化 [Kameoka+’18, Li+’19, Mogami+’18, Nugraha+’20, Li+’20(1), Scheibler+’21(1)]
– 分離系の更新法則 [Ono’11, Scheibler+’20(1), Ono’18, Scheibler+’20(2), Scheibler’21(2), Ikeshita’22]
• マイク数制限の緩和(マイク数≠音源数)
[Amari’99, Araki+’04, Scheibler+’19, Koldovsky+’18, Ikeshita+’20]
• 残響除去やビームフォーミングなどと統合した手法
[Yoshioka+’11, Kagami+’18, Nakatani+’20, Nakashima+’21, Saruwatari+’06, Bredel+’20, Li+’20(2)]
• パーミュテーション整合など後処理の改良
[Sawada+’04, Yamaji+’20, Oshima+’21, Li+’22]
• 深層学習ベース手法の問題
– モデルの学習方法
– 未知データに対するモデル適応
– ユニバーサル音源分離
15
関連する研究トピック
16
ご清聴ありがとうございました!
• [Smaragdis’98]: P. Smaragdis, “Blind separation of convolved mixtures in the frequency domain,” Neurocomputing, 22, pp.
21–34, 1998.
• [Kim+’06]: T. Kim, et al., "Independent vector analysis: An extension of ICA to multivariate components," in Proc. ICA, pp.
165–172, 2006.
• [Hiroe’06]: A. Hiroe, "Solution of permutation problem in frequency domain ICA using multivariate probability density
functions," in Proc. ICA, pp. 601–608, 2006.
• [Kiramura+’16]: D. Kitamura, et al., "Determined blind source separation unifying independent vector analysis and
nonnegative matrix factorization," IEEE/ACM TASLP, 24(9), pp. 1626–1641, 2016.
• [Kameoka+’18]: H. Kameoka, et al., "Semi-blind source separation with multichannel variational autoencoder,"
arXiv:1808.00892 [stat.ML], 2018.
• [Kameoka+’19]: H. Kameoka, et al., “Supervised Determined Source Separation with Multichannel Variational Autoencoder,"
Neural Computation, 31(9), pp. 1891-1914, 2019.
• [Mogami+’18]: S. Mogami, et al., “Independent deeply learned matrix analysis for multichannel audio source separation,” in
Proc. EUSIPCO, pp. 1571-1575, 2018.
• [Févotte+’05]: C. Févotte, et al., “Maximum likelihood approach for blind audio source separation using time-frequency
Gaussian models,” in Proc. WASPAA, pp. 78–81, 2005.
• [Li+’20]: L. Li, et al., "FastMVAE: A Fast Optimization Algorithm for the Multichannel Variational Autoencoder Method," IEEE
Access, vol. 8, pp. 228740-228753, 2020.
• [Li+’21]: L. Li, et al., "FastMVAE2: On improving and accelerating the fast variational autoencoder-based source separation
algorithm for determined mixtures," arXiv:2109.13496, 2021.
• [Ono’11]: N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique,” in
Proc. WASPAA, pp. 189–192, 2011.
• [Li+’19]: L. Li, et al.,"Fast MVAE: Joint separation and classification of mixed sources based on multichannel variational
autoencoder with auxiliary classifier," in Proc. ICASSP, pp. 546-550, 2019. 17
参考文献(1/3)
• [Nugraha+’20]: A. A. Nugraha, et al., “Flow-Based Independent Vector Analysis for Blind Source Separation,” IEEE SPL, 28, pp.
2173–2177, 2020.
• [Li+’20(1)]: L. Li, et al., "Determined Audio Source Separation with Multichannel Star Generative Adversarial Network," in
Proc. MLSP, 2020.
• [Scheibler+’21(1)] R. Scheibler, et al., “Surrogate Source Model Learning for Determined Source Separation,” in Proc. ICASSP,
pp. 176-180, 2021
• [Scheibler+’20(1)]: R. Scheibler, et al., “Fast independent vector extraction by iterative SINR maximization,” in Proc. ICASSP,
pp. 601-605, 2020
• [Ono’18]: N. Ono, “Fast algorithm for independent component/vector/low-rank matrix analysis with three or more sources,”
in Proc. Acoustical Society of Japan, pp. 437–438, 2018.
• [Scheibler’21(2)]: R. Scheibler, “Independent vector analysis via log-quadratically penalized quadratic minimization,” IEEE TSP,
69, pp.2509-2524, 2021. .
• [Scheibler+’20(2)]: R. Scheibler, et al., “MM algorithms for joint independent subspace analysis with application to blind
single and multi-source extraction,” arXiv:2004.03926, 2020.
• [Ikeshita+22]: R. Ikeshita, et al., “ISS2: An Extension of Iterative Source Steering Algorithm for Majorization-Minimization-
Based Independent Vector Analysis”, arXiv: arXiv:2202.00875, 2022.
• [Amari’99]: S. Amari, “Natural gradient learning for over- and undercomplete bases in ICA,” Neural computation, 11(8),
• pp. 1875–1883, 1999.
• [Araki+’04]: S. Araki, et al., “Underdetermined blind separation for speech in real environments with sparseness and ICA,” in
Proc. ICASSP, pp. iii-881, 2004.
• [Scheibler’+19]: R. Scheibler, et al., “Independent vector analysis with more microphones than sources,” in Proc. WASPAA,
pp. 185-189, 2019.
• [Koldovsky+’18] Z. Koldovsky et al., “Gradient algorithms for complex non-gaussian independent component/vector
extraction, question of convergence,” IEEE TSP, 67(4), pp. 1050–1064, 2018. 18
参考文献(2/3)
• [Ikeshita+’20]: R. Ikeshita, et al., “Overdetermined independent vector analysis,” in Proc. ICASSP, pp. 591-595, 2020.
• [Yoshioka+’11]: T. Yoshioka, et al., “Blind separation and dereverberation of speech mixtures by joint optimization,”
IEEE/ACM TASLP, 19(1), pp. 69–84, 2011.
• [Kagami+’18]: H. Kagami, et al., “Joint separation and dereverberation of reverberant mixtures with determined multichannel
non-negative matrix factorization,” in Proc. ICASSP, pp. 31–35, 2018.
• [Nakatani+’20]: T. Nakatani, et al.. “Jointly optimal denoising, dereverberation, and source separation,” IEEE/ACM TASLP, 28,
pp. 2267-2282, 2020.
• [Nakashima+’21]: T. Nakashima, et al., “Joint Dereverberation and Separation With Iterative Source Steering,” in Proc. ICASSP,
pp. 216-220, 2021
• [Saruwatari+’06]: H. Saruwatari, et al., “Blind source separation based on a fast-convergence algorithm combining ICA and
beamforming," EEE TASLP, 14(2), pp. 666-678, 2006.
• [Bredel+’20]: A. Brendel, et al., “A unified probabilistic view on spatially informed source separation and extraction based on
independent vector analysis," IEEE TSP, vol. 68, pp. 3545-3558, 2020.
• [Li+’20(2)]: L. Li, et al., “Geometrically constrained independent vector analysis for directional speech enhancement," in Proc.
ICASSP, pp. 846-850, 2020.
• [Sawada+’04]: H. Sawada, et al., “A robust and precise method for solving the permutation problem of frequency-domain
blind source separation,” IEEE TSAP, vol. 12(5), pp. 530-538, 2004.
• [Yamaji+’20]: S. Yamaji, et al., “DNN-based permutation solver for frequency-domain independent component analysis in
two-source mixture case,” in Proc. APSIPA, pp. 781-787, 2020.
• [Oshima+’21]: F. Oshima, et al., “Interactive speech source separation based on independent low-rank matrix analysis,"
Acoustical Science and Technology, vol. 42(4), pp. 222-225, 2021.
• [Li+’22]: L. Li, et al., “HBP: An efficient block permutation solver using Hungarian algorithm and spectrogram inpainting for
multichannel audio source separation,” in Proc. ICASSP, pp. 516-520, 2022.
19
参考文献(3/3)
20
補足
• MVAE法の高速アルゴリズム 約70倍高速
– 近似計算
– 音源クラス識別器付きVAE(ACVAE)により音源モデルを学習
21
FastMVAE法 [Li+’19, ‘20]
Decoder
Classifier
Encoder
Time
Frequency
Time
Frequency
Time
Observed signals
STFT
Separation matrix
Normalization
ACVAE source model
Source 1
Source 2
Step 3. により を更新
Step 4. 反復射影法[Ono’11]により を更新
Step 1. 識別器の出力により を更新
Step 2. エンコーダの平均値により を更新
エンコーダ分布 クラス識別器分布

Contenu connexe

Tendances

スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析Kitamura Laboratory
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析Kitamura Laboratory
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech RecognitionYosukeKashiwagi1
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audioDeep Learning JP
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...Daichi Kitamura
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知NU_I_TODALAB
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...Daichi Kitamura
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価Daichi Kitamura
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 

Tendances (20)

スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 

Plus de NU_I_TODALAB

The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022NU_I_TODALAB
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワークNU_I_TODALAB
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...NU_I_TODALAB
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionNU_I_TODALAB
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトNU_I_TODALAB
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?NU_I_TODALAB
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionNU_I_TODALAB
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingNU_I_TODALAB
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識NU_I_TODALAB
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法NU_I_TODALAB
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法NU_I_TODALAB
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice ConversionNU_I_TODALAB
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice ConversionNU_I_TODALAB
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法NU_I_TODALAB
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...NU_I_TODALAB
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法NU_I_TODALAB
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調NU_I_TODALAB
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離NU_I_TODALAB
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?NU_I_TODALAB
 

Plus de NU_I_TODALAB (20)

The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice Conversion
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice Conversion
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
 

信号の独立性に基づく多チャンネル音源分離

  • 1. 信号の独立性に基づく多チャンネル 音源分離 李莉 NTT コミュニケーション科学基礎研究所 名古屋大学 戸田研究室 令和4年度 電気・電子・情報関係学会 東海支部連合大会 OS2「 音響学の次世代を担う若手研究者による異分野融合セッション」
  • 3. • 同時に収録された様々な音からなる混合信号を個々の音に分ける技術 – 聞きたい音(ターゲット音)とその他の音(非ターゲット音)に分ければ音声強調に も適用できる • 音源数 とマイク数 の関係による分類 • 音源数=マイク数の場合、信号の独立性を手がかりに分離を行える 3 音源分離技術 優決定条件 音源数 <= マイク数 劣決定条件 音源数 > マイク数 シングルチャンネル: マイク数 = 1 ◆ 良設定問題、解きやすい ◆ 実応用では仮定が成り立ちにくい ◆ 不良設定問題、解きにくい ◆ 実応用ではよくある条件
  • 4. • 分離信号の独立性を測る規準 – 分離信号の同時確率 とそれぞれ確率の積 のカルバック・ライ ブラダイバージェンス(Kullback-Leibler divergence: KL) – 小さいほど分離信号が独立であることを意味する • 周波数領域における異なる音源モデルを仮定した様々な手法 – 周波数独立成分分析(FDICA) [Smaragdis’98] – 独立ベクトル分析(IVA) [Kim+’06, Hiroe’06] – 独立低ランク行列分析(ILRMA) [Kitamura+’16] – 多チャンネル変分自己符号化器法(MVAE) [Kameoka+’18, ‘19] – 独立深層学習行列分析(IDLMA) [Mogami+’18] 4 独立性に基づく音源分離 音源モデル:分離信号の音源らしさを評価する 信号処理 深層学習 分離系を利用
  • 5. • 瞬時混合モデルと局所ガウス音源モデル – 音源信号 と観測信号 の関係: – 局所ガウス音源モデル[Févotte+’05]: 5 周波数領域における定式化 観測信号 チャンネル 分離信号 チャンネル 分離行列 ◆ 目的関数 – 分離行列と音源モデルの負対数尤度 音源モデルに関連する項 音源モデルに関連する項 分離行列に関連する項 観測信号 音源信号 周波数 フレーム パーミュテーションの任意性が生じる
  • 6. • 独立低ランク行列分析(ILRMA)[Kitamura+’16] – 音源の低ランク性を仮定し、非負値行列因子分解 (NMF)により音源モデルを表現する • 独立深層学習行列分析(IDLMA)[Mogami+’18] – 多層ニューラルネットワークで各音源スペクトルの 分散への写像を学習する • 多チャンネル変分自己符号化器法(MVAE)と その高速アルゴリズム [Kameoka+’18, Li+’20, ’21] – 条件付きVAE(CVAE)のデコーダ分布でスペクトロ グラムの生成分布を学習する 6 周波数間の関係をモデリングする音源モデル Time Frequency Basis Frequency Basis Time Frequency Time Frequency Decoder Frequency Time Time Frequency Frequency Time Frequency Time 周波数ごとの音源分離とパーミュテーション整合の同時解決を可能となる
  • 7. • 条件付き変分自己符号化器(CVAE)により音源モデル – 深層学習の非線形表現を用いて柔軟かつ精緻なスペクトログラムの表現を可能 – 音声サンプルを用いてスペクトログラム の分布をCVAEで事前学習 7 多チャンネル変分自己符号化器法 [Kameoka+’18, ‘19] スケール係数 分散(デコーダ出力) 潜在変数 話者ラベル 局所ガウス音源モデル 同形 正規化された複素スペ クトログラム の生成 確率分布の分散行列 正規化された振幅 スペクトログラム Time Frequency Encoder Decoder 音源ラベル CVAE音源モデル
  • 8. • 目的関数の単調減少が保証される反復最適化アルゴリズム 8 多チャンネル変分自己符号化器法 [Kameoka+’18, ‘19] Separation matrix Decoder Backpropagation (BP) CVAE source model Variance matrices Forward calculation Time Frequency Time Frequency Time Normalization STFT Step 2. により を更新 Step 1. 誤差逆伝播法により を更新 Step 3. 反復射影法[Ono’11]により を更新 Observed signals • しかし... – 誤差逆伝播法による最適なパラメータ探索に多大な計算コストを要する
  • 9. • キーアイディア – 近似計算: – 誤差逆伝播による最適化を順伝搬計算で近似的に行う • ChimeraACVAE音源モデル – エンコーダとクラス識別器を一体化したマルチタスクエンコーダ 9 FastMVAE2法 [Li+’21] エンコーダ分布 クラス識別器分布
  • 10. 10 知識蒸留に基づく学習規準 ACVAE学習規準 ① CVAEの学習規準 ② デコーダ出力のクラス識別規準 ③ 学習データのクラス識別規準 推定されたラベルによる算出したデコーダ出力に 対する正則化項 ④ 再構築規準 ⑤ クラス識別規準 知識蒸留に基づく教師と生徒モデル間の学習規準 ⑥ 潜在変数分布間の類似度 ⑦ 正解ラベルによるデコーダ出力が分散となる 正規分布間の類似度 ⑧ 推定されたラベルによるデコーダ出力が分散 となる正規分布間の類似度 ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ( は重み係数) *定式化は[Li+’21]をお参照ください
  • 11. • MVAE法との違い – 1つの順伝搬計算により を同時に更新 11 FastMVAE2法の最適化アルゴリズム Decoder Classifier Encoder Time Frequency Time Frequency Time Observed signals STFT Separation matrix Normalization ChimeraACVAE source model Source 1 Source 2 Step 1. マルチタスクエンコーダにより と を同時更新 Step 2. により を更新 Step 3. 反復射影法[Ono’11]により を更新
  • 12. 12 任意話者分離の実験条件 学習データ WSJ0から101話者 (≈25時間) テストデータ WSJ0から学習データと異なる18話者 混合話者数 2, 3, 6, 9, 12, 15, 18 テストサンプル数 10サンプル / 条件 残響時間 約50 ms サンプリング周波数 16 kHz 窓長/窓シフト 256 ms / 128 ms (ハンミング窓) 比較手法 ILRMA, MVAE, FastMVAE, FastMVAE2 反復回数 60 混合行列の初期値 単位行列 ILRMAの基底数 2
  • 13. • 各反復の平均計算時間 – Intel(R)Xeon(R) Gold 6130 CPU @ 2.10GHz とTesla V100 GPU 13 アルゴリズム速度
  • 14. • 信号対歪み比改善量[dB] – Source-to-distortions ratio improvement: SDRi 14 分離性能 観測信号 18話者の分離に成功 デモページ
  • 15. • 分離の高精度化・高速化 – 音源モデルの精細化 [Kameoka+’18, Li+’19, Mogami+’18, Nugraha+’20, Li+’20(1), Scheibler+’21(1)] – 分離系の更新法則 [Ono’11, Scheibler+’20(1), Ono’18, Scheibler+’20(2), Scheibler’21(2), Ikeshita’22] • マイク数制限の緩和(マイク数≠音源数) [Amari’99, Araki+’04, Scheibler+’19, Koldovsky+’18, Ikeshita+’20] • 残響除去やビームフォーミングなどと統合した手法 [Yoshioka+’11, Kagami+’18, Nakatani+’20, Nakashima+’21, Saruwatari+’06, Bredel+’20, Li+’20(2)] • パーミュテーション整合など後処理の改良 [Sawada+’04, Yamaji+’20, Oshima+’21, Li+’22] • 深層学習ベース手法の問題 – モデルの学習方法 – 未知データに対するモデル適応 – ユニバーサル音源分離 15 関連する研究トピック
  • 17. • [Smaragdis’98]: P. Smaragdis, “Blind separation of convolved mixtures in the frequency domain,” Neurocomputing, 22, pp. 21–34, 1998. • [Kim+’06]: T. Kim, et al., "Independent vector analysis: An extension of ICA to multivariate components," in Proc. ICA, pp. 165–172, 2006. • [Hiroe’06]: A. Hiroe, "Solution of permutation problem in frequency domain ICA using multivariate probability density functions," in Proc. ICA, pp. 601–608, 2006. • [Kiramura+’16]: D. Kitamura, et al., "Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization," IEEE/ACM TASLP, 24(9), pp. 1626–1641, 2016. • [Kameoka+’18]: H. Kameoka, et al., "Semi-blind source separation with multichannel variational autoencoder," arXiv:1808.00892 [stat.ML], 2018. • [Kameoka+’19]: H. Kameoka, et al., “Supervised Determined Source Separation with Multichannel Variational Autoencoder," Neural Computation, 31(9), pp. 1891-1914, 2019. • [Mogami+’18]: S. Mogami, et al., “Independent deeply learned matrix analysis for multichannel audio source separation,” in Proc. EUSIPCO, pp. 1571-1575, 2018. • [Févotte+’05]: C. Févotte, et al., “Maximum likelihood approach for blind audio source separation using time-frequency Gaussian models,” in Proc. WASPAA, pp. 78–81, 2005. • [Li+’20]: L. Li, et al., "FastMVAE: A Fast Optimization Algorithm for the Multichannel Variational Autoencoder Method," IEEE Access, vol. 8, pp. 228740-228753, 2020. • [Li+’21]: L. Li, et al., "FastMVAE2: On improving and accelerating the fast variational autoencoder-based source separation algorithm for determined mixtures," arXiv:2109.13496, 2021. • [Ono’11]: N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique,” in Proc. WASPAA, pp. 189–192, 2011. • [Li+’19]: L. Li, et al.,"Fast MVAE: Joint separation and classification of mixed sources based on multichannel variational autoencoder with auxiliary classifier," in Proc. ICASSP, pp. 546-550, 2019. 17 参考文献(1/3)
  • 18. • [Nugraha+’20]: A. A. Nugraha, et al., “Flow-Based Independent Vector Analysis for Blind Source Separation,” IEEE SPL, 28, pp. 2173–2177, 2020. • [Li+’20(1)]: L. Li, et al., "Determined Audio Source Separation with Multichannel Star Generative Adversarial Network," in Proc. MLSP, 2020. • [Scheibler+’21(1)] R. Scheibler, et al., “Surrogate Source Model Learning for Determined Source Separation,” in Proc. ICASSP, pp. 176-180, 2021 • [Scheibler+’20(1)]: R. Scheibler, et al., “Fast independent vector extraction by iterative SINR maximization,” in Proc. ICASSP, pp. 601-605, 2020 • [Ono’18]: N. Ono, “Fast algorithm for independent component/vector/low-rank matrix analysis with three or more sources,” in Proc. Acoustical Society of Japan, pp. 437–438, 2018. • [Scheibler’21(2)]: R. Scheibler, “Independent vector analysis via log-quadratically penalized quadratic minimization,” IEEE TSP, 69, pp.2509-2524, 2021. . • [Scheibler+’20(2)]: R. Scheibler, et al., “MM algorithms for joint independent subspace analysis with application to blind single and multi-source extraction,” arXiv:2004.03926, 2020. • [Ikeshita+22]: R. Ikeshita, et al., “ISS2: An Extension of Iterative Source Steering Algorithm for Majorization-Minimization- Based Independent Vector Analysis”, arXiv: arXiv:2202.00875, 2022. • [Amari’99]: S. Amari, “Natural gradient learning for over- and undercomplete bases in ICA,” Neural computation, 11(8), • pp. 1875–1883, 1999. • [Araki+’04]: S. Araki, et al., “Underdetermined blind separation for speech in real environments with sparseness and ICA,” in Proc. ICASSP, pp. iii-881, 2004. • [Scheibler’+19]: R. Scheibler, et al., “Independent vector analysis with more microphones than sources,” in Proc. WASPAA, pp. 185-189, 2019. • [Koldovsky+’18] Z. Koldovsky et al., “Gradient algorithms for complex non-gaussian independent component/vector extraction, question of convergence,” IEEE TSP, 67(4), pp. 1050–1064, 2018. 18 参考文献(2/3)
  • 19. • [Ikeshita+’20]: R. Ikeshita, et al., “Overdetermined independent vector analysis,” in Proc. ICASSP, pp. 591-595, 2020. • [Yoshioka+’11]: T. Yoshioka, et al., “Blind separation and dereverberation of speech mixtures by joint optimization,” IEEE/ACM TASLP, 19(1), pp. 69–84, 2011. • [Kagami+’18]: H. Kagami, et al., “Joint separation and dereverberation of reverberant mixtures with determined multichannel non-negative matrix factorization,” in Proc. ICASSP, pp. 31–35, 2018. • [Nakatani+’20]: T. Nakatani, et al.. “Jointly optimal denoising, dereverberation, and source separation,” IEEE/ACM TASLP, 28, pp. 2267-2282, 2020. • [Nakashima+’21]: T. Nakashima, et al., “Joint Dereverberation and Separation With Iterative Source Steering,” in Proc. ICASSP, pp. 216-220, 2021 • [Saruwatari+’06]: H. Saruwatari, et al., “Blind source separation based on a fast-convergence algorithm combining ICA and beamforming," EEE TASLP, 14(2), pp. 666-678, 2006. • [Bredel+’20]: A. Brendel, et al., “A unified probabilistic view on spatially informed source separation and extraction based on independent vector analysis," IEEE TSP, vol. 68, pp. 3545-3558, 2020. • [Li+’20(2)]: L. Li, et al., “Geometrically constrained independent vector analysis for directional speech enhancement," in Proc. ICASSP, pp. 846-850, 2020. • [Sawada+’04]: H. Sawada, et al., “A robust and precise method for solving the permutation problem of frequency-domain blind source separation,” IEEE TSAP, vol. 12(5), pp. 530-538, 2004. • [Yamaji+’20]: S. Yamaji, et al., “DNN-based permutation solver for frequency-domain independent component analysis in two-source mixture case,” in Proc. APSIPA, pp. 781-787, 2020. • [Oshima+’21]: F. Oshima, et al., “Interactive speech source separation based on independent low-rank matrix analysis," Acoustical Science and Technology, vol. 42(4), pp. 222-225, 2021. • [Li+’22]: L. Li, et al., “HBP: An efficient block permutation solver using Hungarian algorithm and spectrogram inpainting for multichannel audio source separation,” in Proc. ICASSP, pp. 516-520, 2022. 19 参考文献(3/3)
  • 21. • MVAE法の高速アルゴリズム 約70倍高速 – 近似計算 – 音源クラス識別器付きVAE(ACVAE)により音源モデルを学習 21 FastMVAE法 [Li+’19, ‘20] Decoder Classifier Encoder Time Frequency Time Frequency Time Observed signals STFT Separation matrix Normalization ACVAE source model Source 1 Source 2 Step 3. により を更新 Step 4. 反復射影法[Ono’11]により を更新 Step 1. 識別器の出力により を更新 Step 2. エンコーダの平均値により を更新 エンコーダ分布 クラス識別器分布