SlideShare une entreprise Scribd logo
1  sur  14
香川高等専門学校 電気情報工学科 卒業研究発表会
2022/3/2 15:00-15:15
多重解像度時間周波数表現に基づく
独立低ランク行列分析
Independent low-rank matrix analysis based on
multi-resolution time-frequency representations
細谷泰稚(北村研究室)
2
研究の背景
• 音源分離
– 複数の音源が混合した信号から個々の音源信号を推定
• 音源分離の応用例
– 音源の雑音除去(補聴器デバイス)
– 音楽から楽器毎の楽譜を作成(自動採譜)
– 音声認識
推定した音源信号
観測した混合信号
音源信号
3
研究の背景
• ブラインド音源分離(blind source separation: BSS)
– 元の音源信号や音源の混ざり合い方(混合系)は未知
• マイクの配置や音源位置等の事前情報が不明=ブラインド
– 混合系 の逆系である分離系 の推定を行う
• 代表的な従来手法
– 独立成分分析(ICA) [Comon, 1994]
– 独立ベクトル分析(IVA) [Kim+, 2007]
– 独立低ランク行列分析(ILRMA) [Kitamura+, 2016]
推定した音源信号
観測した混合信号
音源信号(未知)
?
?
?
混合系
(未知)
分離系
(推定)
本研究の対象
4
研究の背景(事前説明)
• 短時間Fourier変換(STFT)
– 一定の時間毎に信号を切り出し,窓関数を掛けて,離散
Fourier変換を適用
– 時間的に変化する音色(スペクトル)を表現
時間周波数領域
周波数
時間
スペクトログラム
複素数要素を持つ行列
パワースペクトログラム
非負(ゼロ以上)の実数要素の行列
要素毎の
絶対値二乗
時間領域
窓関数
シフト長
窓長
時間波形
離散
Fourier
変換
5
研究の背景(事前説明)
• スペクトログラムの例
– 窓長の変化に伴い,時間周波数解像度も変化
短い窓長(32ms)に対する
パワースペクトログラム
長い窓長(256ms)に対する
パワースペクトログラム
時間解像度:高
周波数解像度:低
時間解像度:低
周波数解像度:高
6
研究の背景
• 独立低ランク行列分析(ILRMA)[Kitamura+, 2016]
– 以下の1.と2.の最適化を交互に行う
1. 空間モデルの最適化
• 分離信号が「互いに独立」かつ「低ランクな時間周波数構造」を持つよう
に分離行列 を更新
2. 音源モデルの最適化
• 非負値行列因子分解(NMF)[Lee, 1999]により、分離信号の時間周波数
構造(パワースペクトログラム) を2つの行列 及び の積で低
ランク近似
観測信号
空間モデル
分離信号
Time
Frequency
Frequency
Time
分離信号が「互いに独立」かつ
「低ランクな時間周波数構造」を持つように更新
STFT
NMFによる低ランク近似
7
研究の動機
• 過去の実験的な調査より,下記の事実が分かっている
– 空間モデル の最適化
• STFTの窓長は観測信号の残響時間よりも十分長くあるべき
– 音源モデル , の最適化
• STFTの窓長はスペクトログラムの近似精度を左右する
– 「音源モデルでの最適な窓長」と「空間モデルでの最適な窓長」
は互いに異なっている可能性がある
– しかし,従来のILRMAでは二つのモデルの窓長は同一
8
提案手法の説明
• 多重解像度時間周波数表現に基づくILRMA
– ILRMAの空間モデル及び音源モデルにおける(見かけ上の)
窓長をそれぞれ独立して設定可能な手法
– 各モデルにそれぞれ独立した解像度の時間周波数表現を導入
空間モデルの最適化
分離信号
の更新
, の更新
, の更新
混合信号
音源モデルの最適化
音源モデル
二つのモデルで
窓長を独立させる
9
提案手法の説明
• 窓長の変更方法
– STFTで短時間信号に掛ける窓関数の有効幅を設定
• 細い幅の窓関数:短い窓長での時間周波数表現
• 太い幅の窓関数:長い窓長での時間周波数表現
観測信号
見かけ上の窓長
区間信号に対して
太い幅の窓関数を乗じた信号
細い幅の窓関数
見かけ上の窓長
区間信号に対して
細い幅の窓関数を乗じた信号
太い幅の窓関数
窓長
10
提案手法の説明
• 使用する窓関数
– Chebyshev窓
• 「サイドローブレベル」というパラメタにより,時間領域での窓関数の有効
幅を変更可能
• 上記のパラメタの増加に伴い,窓関数の有効幅は細くなる
サイドローブレベル:小
窓の有効幅:太い
サイドローブレベル:大
窓の有効幅:細い
11
実験条件
• インパルス応答E2Aによって2音源の畳み込み混合を行
い,10曲分の混合音源を生成
• 評価指標は信号対歪み比(SDR)[Vincent+, 2006]の改善量
であるSDRiを用いた
– 10回の試行により得られたSDRiの平均値で評価
窓長 256ms(4096点)
シフト長 32ms(512点,窓長の1/8)
空間モデル,音源モデルの
窓のサイドローブレベル
{20, 30, 40, 50, 60, 70, 80, 90,
100, 120, 150, 200, 300, 500,
700, 1000, 1500, 2000, 3000}
NMFの基底数 10
初期値
: 単位行列
及び : 乱数行列
反復回数 200回
試行回数 異なる乱数シードで10回
12
• ドラムとボーカルの混合音源に対する平均SDRi
実験結果
Good
Poor
Average
SDRi
空間モデルのサイドローブレベル [dB]
40 50 60 70 80 90 100 120 150 200 500 1000 1500
音源モデルの
サイドローブレベル
[dB]
40
50
60
70
80
90
100
120
150
200
500
1000
1500
窓の有効幅 細い
太い
窓
の
有
効
幅
太
い
細
い
1.32 8.62 5.02 4.58 4.60 4.61 4.68 4.78 4.94 4.80 5.79 5.56 5.03
1.93 10.03 10.07 10.10 10.37 10.25 10.21 10.25 10.00 9.87 9.81 9.90 9.42
2.06 1.77 12.19 10.13 7.60 7.88 8.63 9.02 9.32 10.00 9.32 10.63 8.02
1.78 1.05 13.64 6.33 5.81 5.54 5.09 4.91 3.86 3.40 6.51 9.54 7.03
1.58 -0.17 14.25 8.07 5.86 6.80 5.84 4.50 4.61 3.51 4.87 6.48 6.99
1.35 0.74 9.63 13.17 3.78 5.45 5.57 4.30 3.98 3.30 4.45 6.62 6.20
-0.12 1.38 9.78 8.21 10.59 4.74 4.92 4.55 3.52 3.17 4.53 5.95 6.21
0.31 -0.08 13.65 15.32 12.84 11.30 4.49 3.95 2.59 2.56 4.25 5.28 6.26
-1.96 -0.36 12.88 11.96 6.78 2.90 6.37 3.74 2.44 2.24 3.29 4.20 4.51
-2.20 0.22 12.75 10.26 10.68 12.53 11.68 3.70 2.07 2.04 3.29 3.96 4.46
-0.09 4.27 4.15 11.16 3.84 9.17 4.61 5.59 11.12 11.92 3.40 3.21 2.67
1.08 6.96 13.10 12.43 12.41 11.74 11.64 10.31 10.49 10.39 2.83 3.39 3.26
1.65 9.04 12.67 11.61 12.15 12.30 12.05 10.92 8.81 3.20 5.24 3.46 3.37
13
• 10曲全てに対する平均SDRi
実験結果
Average
SDRi
空間モデルのサイドローブレベル [dB]
40 50 60 70 80 90 100 120 150 200 500 1000 1500
音源モデルの
サイドローブレベル
[dB]
40
50
60
70
80
90
100
120
150
200
500
1000
1500
窓の有効幅 細い
太い
窓
の
有
効
幅
太
い
細
い
3.25 4.55 1.21 1.24 1.66 1.64 1.80 1.70 1.61 1.69 2.25 1.73 0.89
3.89 6.86 4.77 4.73 4.76 4.43 4.33 4.53 5.05 5.74 5.82 4.62 3.96
2.68 6.83 9.17 7.92 7.87 6.88 6.78 6.80 6.99 6.91 6.34 5.29 4.22
2.02 5.87 6.96 8.42 6.96 6.85 6.50 6.20 5.80 5.41 5.29 5.19 4.07
1.18 3.28 7.20 8.10 7.58 7.66 7.08 6.63 6.28 5.84 4.96 4.73 3.82
0.58 1.16 6.61 8.39 7.62 7.61 7.32 6.80 6.47 6.07 4.79 4.52 3.66
0.22 0.80 5.86 7.72 8.19 7.62 7.38 6.89 6.41 5.82 4.93 4.42 3.44
-0.45 0.00 4.60 6.68 8.30 8.03 7.38 6.75 6.33 5.70 5.01 4.33 3.46
-1.32 -0.56 4.08 4.20 6.56 6.23 7.49 6.65 6.21 5.64 4.84 4.22 3.16
-2.41 -1.92 5.19 4.29 4.93 6.73 7.12 6.15 6.22 5.67 4.61 4.14 3.26
0.34 2.31 4.46 4.13 4.35 4.19 3.63 2.93 3.53 4.80 4.25 3.88 3.24
-0.49 3.70 4.74 4.33 4.32 3.97 3.70 3.45 3.55 2.95 4.44 3.65 2.96
1.43 3.79 4.53 3.90 3.96 4.21 3.93 4.10 3.50 2.38 3.82 3.48 2.94
Good
Poor
14
まとめ
• ILRMAの空間モデルと音源モデルの最適化に,それぞ
れ独立した解像度の時間周波数表現を導入
• 提案手法ではChebyshev窓を用いて,STFTの見かけ上
の窓長を設定し,時間周波数解像度を変化させた
• 空間モデル及び音源モデルの窓長が同一のときよりも,
互いに異なっているときの方が高い分離性能を示す場合
が存在することを確認
– 各モデルの最適化に同一の解像度の時間周波数表現を用い
ることが,必ずしも最良の分離性能を与えるとは限らない

Contenu connexe

Tendances

Tendances (20)

独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
Kameoka2017 ieice03
Kameoka2017 ieice03Kameoka2017 ieice03
Kameoka2017 ieice03
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 

Similaire à 多重解像度時間周波数表現に基づく独立低ランク行列分析,

招待講演(鶴岡)
招待講演(鶴岡)招待講演(鶴岡)
招待講演(鶴岡)
nozomuhamada
 

Similaire à 多重解像度時間周波数表現に基づく独立低ランク行列分析, (10)

周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法
 
招待講演(鶴岡)
招待講演(鶴岡)招待講演(鶴岡)
招待講演(鶴岡)
 
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
 
Ieice中国地区
Ieice中国地区Ieice中国地区
Ieice中国地区
 
時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
 
Deep learning ultrasonic
Deep learning ultrasonicDeep learning ultrasonic
Deep learning ultrasonic
 
加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響
加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響
加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響
 
立体音響とインタラクション
立体音響とインタラクション立体音響とインタラクション
立体音響とインタラクション
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
 

Plus de Kitamura Laboratory

Plus de Kitamura Laboratory (19)

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
 
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
 
ギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズム
 
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
 
Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...
 
DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
 
Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...
 
Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...
 
Blind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure models
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
 
独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム
 
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
 
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
 
ユーザーからの補助情報を用いるインタラクティブ音源分離システムの開発
ユーザーからの補助情報を用いるインタラクティブ音源分離システムの開発ユーザーからの補助情報を用いるインタラクティブ音源分離システムの開発
ユーザーからの補助情報を用いるインタラクティブ音源分離システムの開発
 
一般化ガウス分布に基づく非負値行列因子分解を用いた音楽音源分離
一般化ガウス分布に基づく非負値行列因子分解を用いた音楽音源分離一般化ガウス分布に基づく非負値行列因子分解を用いた音楽音源分離
一般化ガウス分布に基づく非負値行列因子分解を用いた音楽音源分離
 

多重解像度時間周波数表現に基づく独立低ランク行列分析,

Notes de l'éditeur

  1. 音楽は同じような音色(スペクトル)の繰り返しが多い→各音源の時間毎のスペクトルを少数のスペクトルパターンの足し合わせで近似
  2. 空間モデル:「音源の混合が時間周波数領域での瞬時混合として表せる」というILRMAの仮定を成り立たせるため ILRMAによる分離が原理的に成り立たない 音源モデル:STFTの窓長を変更すると,近似すべきスペクトログラムの様相は変化する
  3. 「サイドローブレベル」により、周波数領域における窓関数のサイドローブピークの最大値を設定できる サイドローブレベルと窓関数の有効幅(メインローブ幅)はトレードオフの関係にある