SlideShare une entreprise Scribd logo
1  sur  19
コサイン類似度罰則条件付き
非負値行列因子分解に基づく
音楽音源分離
Music source separation based on nonnegative
matrix factorization with cosine similarity penalty
香川高専 創造工学専攻
北村研究室
岩瀬 佑太
特別研究Ⅱ 最終報告
研究背景
• 音源分離
– 複数音源が混合した観測信号から混合前の音源の信号を抽出
– 音声認識,自動採譜等の前段処理
– 非負値行列因子分解(nonnegative matrix factorization: NMF)
に基づく音源分離を取り扱う
• 深層ニューラルネットワークのように莫大なデータセット
が必要ない 1
短時間フーリエ変換 (short-time Fourier transform: STFT)
• STFTの概要
2
時間領域
フーリエ変換長
時間周波数領域
時間波形
…
離散フーリエ変換
シフト長
離散フーリエ変換
離散フーリエ変換
複素スペクトログラム
複素数要素を持つ行列
周波数
時間
…
非負振幅スペクトログラム
非負(ゼロ以上)の実数要素の行列
要素毎の絶対値
窓関数
NMF [Lee+, 1999]
• 非負行列 を二つの非負行列 と の行列積で近似
3
非負の観測行列
(音の時間周波数強度)
基底行列
(音色パーツ)
アクティベーション行列
(音量と音価)
: 周波数ビン数
: 時間フレーム数
: 基底数
基底行列 :観測信号 中の頻出スペクトルパターン
アクティベーション行列 :基底行列 中の
各スペクトルパターンの時間的な強度変化
振幅
時間
時間
周波数
振幅
周波数
振幅
周波数
振幅
時間
NMFの変数行列の推定
• NMFにおける変数の最適化
– 観測 とモデル の距離をコストとし変数について最小化
– 一般化KLダイバージェンスのコスト関数
• 音源分離タスクで高い性能を出すことが多い
距離関数
4
半教師ありNMF(semi-supervised NMF: SNMF) [Smaragdis+,2007]
• 目的音源の基底行列のみをあらかじめ学習
– 目的音源と非目的音源に類似スペクトルがある場合,目的音
源の一部が に取られるリスクがある 5
分離ステージ
学習ステージ
学習ステージで得た目的音
の基底行列
目的音の
基底行列
(音色辞書)
その他の基底
分離目的音のサン
プル音(教師音)
は固定し , , のみ求める
SNMFにおける問題
• 似たような音はどちらの行列にも入りうる
6
分離ステージ
学習ステージ
混入
目的音 非目的音
罰則項の案①
• 内積罰則項を付与する
– すべての と のペア対して を
の下で最小となる を決定し,
全ペアの内積総和が最小となる行列 を求める
7
この幅が狭ければ
内積は小さくなる
(ベクトルは類似しなくなる)
従来手法
• 罰則条件付きSNMF (penalized SNMF: PSNMF)
– 内積型PSNMF [Kitamura+, 2014]
• と を直交に近づける内積罰則項を追加する
– ②の罰則項は ( は微小値)として をゼロ行列
に近づけるだけで小さくなる
• ①の距離関数項は とすれば増加しない
8
内積罰則項
重み係数
②
①
①
距離関数項
• コサイン類似度罰則項を付与する
– すべての と のペアに対してコサイン類似度を
の下で最小となる を決定し,
全ペアの の総和が最小となるような行列 を求める
罰則項の案②
9
提案手法
• 罰則条件付きSNMF (penalized SNMF: PSNMF)
– 対数コサイン類似度型PSNMF(log-cos型PSNMF)[岩瀬+, 2020]
• コサイン類似度の対数和を罰則条件としてSNMFに付与
• 内積型PSNMFのスケール不定問題を解決
– コサイン類似度が0の時,log 0となって数値不安定性が生じる
– 距離関数項①は下限が0,罰則項③は下限が という
アンバランスさの問題
10
対数コサイン類似度罰則項
距離関数項
③
①
①
提案手法
• 罰則条件付きSNMF (penalized SNMF: PSNMF)
– コサイン類似度型PSNMF(cos型PSNMF)[岩瀬+, 2021]
• Log-cos型PSNMFの罰則項から対数を排除
– 内積型PSNMF及びlog-cos型PSNMFの問題を解消
11
コサイン類似度罰則項
実験条件
使用する楽器音信号 公開データセットより2楽器音の混合信号を90曲作成
オーボエ (Ob.), トランペット (Tp.), ホルン (Hr.), フ
ルート (Fl.),ヴァイオリン (Vn.), クラリネット (Cl.), ピア
ノ (Pf.), チェロ (Vc.),ハープシコード (Hp.), トロンボー
ン (Tb.), ファゴット (Fg.)
最適な重み係数 を探索す
るための学習データ
90曲の中からランダムに45曲選出
最適な を使う音源分離テ
ストデータ
学習データ以外の残りの45曲
12
Ob. or Tp. or Hr.
Fl. or Cl. or Vn.
Pf. or Hp.
Fg. or Tb. or Vc.
音色学習信号(上昇音階)
混合信号のメロディ
13
音源対歪み比(source-to-distortion: SDR) [Vincent+, 2006]
:全楽器の混合音の時間信号
:目的音の時間信号
:非目的音の時間信号
に対して音源分離を適用して得られる目的音の推定信号を とすると
:目的音源成分
:推定した目的音源信号に残留した非目的音源成分
:音源分離によって生じた人工的な歪み
45曲の学習データによる最適重みの探索結果
• 各手法の最適な重み係数の探索
– 学習データ45曲のSDRの平均値を算出
– SDRが最大となる重み係数を最適値とする
14
音源分離性能
Good
Poor
実験結果
• 各手法の評価
– 学習データで得た最適な重み係数を固定
– テストデータ45曲より各手法の中央値と数値データ分布を得る
15
Log-cos型PSNMF
(BNなし)
SNMF 内積型PSNMF Log-cos型PSNMF Cos型PSNMF
統計的検定
• 2種類の検定を行う
帰無仮説はそれぞれ下記である
– Welchの(片側) 検定[Welch, 1947]
• 各々の正規分布に従う2つの母集団
及び の平均値をそれぞれ 及び
とするとき, である
– Brunner-Munzel(BM)検定[Brunner+, 2000]
• 2つの母集団 及び から抽出した
標本をそれぞれ 及び とするとき
及び となる
確率が等しい
16
検定結果
17
• 各検定での評価
– Welchの(片側) 検定より得られた 値
– Brunner-Munzel検定より得られた 値
まとめ
• SNMFによる音源分離性能を向上させる3つのPSNMF
の比較実験を行った
• 提案手法(Log-cos型及びCos型PSNMF)が従来手法
(内積型PSNMF)より有効かを確かめるために2種類の
統計的検定を行った
• 検定結果より提案手法の有効性を示すことができた
• 研究業績
岩瀬佑太, 北村大地, "コサイン類似度罰則条件付き半教師あり非負値行列因子分解,“
日本音響学会 2020年春季研究発表会講演論文集, pp. 425–428, 埼玉, 2020年3月(査読無).
岩瀬佑太, 北村大地,"コサイン類似度罰則条件付き非負値行列因子分解に基づく音源分離の実験的評価,“
日本音響学会 2021年秋季研究発表会講演論文集, 2-1P-4, pp. 287–290, オンライン, 2021年9月(査読無).
岩瀬佑太, 北村大地,"コサイン類似度罰則条件付き非負値行列因子分解に基づく音源分離の仮説検定,"
第24回日本音響学会関西支部若手研究者交流研究発表会, pp. 33, オンライン, 2021年12月(査読無).
Yuta Iwase and Daichi Kitamura, "Supervised audio source separation based on nonnegative matrix
factorization with cosine similarity penalty," IEICE Transactions on Fundamentals of Electronics,
Communications and Computer Sciences, vol. E105-A, no. 6, Jun 2022(in press). 18

Contenu connexe

Tendances

音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討Kitamura Laboratory
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測Kitamura Laboratory
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
音声生成の基礎と音声学
音声生成の基礎と音声学音声生成の基礎と音声学
音声生成の基礎と音声学Akinori Ito
 
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離奈良先端大 情報科学研究科
 
Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Daichi Kitamura
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech RecognitionYosukeKashiwagi1
 
形状解析のための楕円フーリエ変換
形状解析のための楕円フーリエ変換形状解析のための楕円フーリエ変換
形状解析のための楕円フーリエ変換Tsukasa Fukunaga
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
 
Coreset+SVM (論文紹介)
Coreset+SVM (論文紹介)Coreset+SVM (論文紹介)
Coreset+SVM (論文紹介)Naotaka Yamada
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
2値分類・多クラス分類
2値分類・多クラス分類2値分類・多クラス分類
2値分類・多クラス分類t dev
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 

Tendances (20)

音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
音声生成の基礎と音声学
音声生成の基礎と音声学音声生成の基礎と音声学
音声生成の基礎と音声学
 
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
 
Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
最急降下法
最急降下法最急降下法
最急降下法
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
形状解析のための楕円フーリエ変換
形状解析のための楕円フーリエ変換形状解析のための楕円フーリエ変換
形状解析のための楕円フーリエ変換
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
Coreset+SVM (論文紹介)
Coreset+SVM (論文紹介)Coreset+SVM (論文紹介)
Coreset+SVM (論文紹介)
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
2値分類・多クラス分類
2値分類・多クラス分類2値分類・多クラス分類
2値分類・多クラス分類
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 

Similaire à コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離

調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離Kitamura Laboratory
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価Kitamura Laboratory
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧Kitamura Laboratory
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展Kitamura Laboratory
 
Kameoka2012 talk07 1
Kameoka2012 talk07 1Kameoka2012 talk07 1
Kameoka2012 talk07 1kame_hirokazu
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Daichi Kitamura
 

Similaire à コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離 (8)

調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
 
Kameoka2012 talk07 1
Kameoka2012 talk07 1Kameoka2012 talk07 1
Kameoka2012 talk07 1
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
 

Plus de Kitamura Laboratory

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定Kitamura Laboratory
 
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定Kitamura Laboratory
 
ギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムKitamura Laboratory
 
時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離Kitamura Laboratory
 
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Kitamura Laboratory
 
周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法Kitamura Laboratory
 
Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Kitamura Laboratory
 
DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...Kitamura Laboratory
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価Kitamura Laboratory
 
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討Kitamura Laboratory
 
多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,Kitamura Laboratory
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析Kitamura Laboratory
 
Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Kitamura Laboratory
 
Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Kitamura Laboratory
 
Blind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsKitamura Laboratory
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測Kitamura Laboratory
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化Kitamura Laboratory
 
独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システムKitamura Laboratory
 
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用Kitamura Laboratory
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析Kitamura Laboratory
 

Plus de Kitamura Laboratory (20)

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
 
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
 
ギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズム
 
時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離
 
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
 
周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法
 
Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...
 
DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
 
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
 
多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
 
Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...
 
Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...
 
Blind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure models
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
 
独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム
 
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析
 

コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離

Notes de l'éditeur

  1. このような題目で発表していきます.
  2. [0:05~1:00] まず,音源分離とは,複数の音源が混合した観測信号から混合前の音源の信号を抽出する技術で音声認識や自動採譜等の前段処理に利用されます. 本研究では,図のように,複数の楽器の演奏から特定の楽器音を抽出することを考えます. 特に,非負値行列因子分解,通称NMFに基づく音源分離を取り扱います. 昨今深層ニューラルネットワークによる機械学習モデルが有用ですが,一つの楽器につき数百時間分の学習データが必要となり,そのような音源は一般的な市場では手に入れることはできないため,実用的ではありません. ですので,データが僅かしか用意できないような状況では,NMFを用いた音源分離が現在においても有用な手であるため,本研究ではNMFによる音源分離を取り扱ます.
  3. [1:00~1:35] 音をNMFで取り扱うために用いる短時間フーリエ変換,通称STFTについて説明します. まず,このような時間信号が観測されたとき,任意のフーリエ変換長分,フーリエ変換し,このような一本のベクトルを生成します.この処理を任意の時間ごとに行うことにより,もともとの時間信号から,時間周波数表現である複素スペクトログラムを得ます.本研究では,この複素スペクトログラムの絶対値をとって非負振幅スペクトログラムとして用います. 次にNMFを説明します. Q&A なんで絶対値を取り扱うのか NMFは非負の値を取り扱う理論であるため.そして,人間の聴覚はスペクトログラムの磯の変化をほとんど認識することができないため,問題にはならない.
  4. [1:35~2:45] NMFとは,非負行列𝑋を別の2つの非負行列FとQの積で低ランク近似する理論です. こちらの図をご覧ください.観測行列Xは音の時間信号をSTFTすることにより得られるスペクトログラムです. この観測行列XにNMFを適用すると,XをF×Qで近似するような非負行列FとQが得られます. (指しながら) このXには,高さの違う二つの音のスペクトルが含まれています。こちらの音をお聞きください. この時間でこの高さの音が鳴り始め,それが鳴りやまぬうちに別の高さの音が鳴り始めています. 今,Fは基底行列と呼ばれ,音のスペクトルパターンが含まれています.一つ目の基底ベクトルには後半の音のスペクトルが含まれており,二つ目の基底ベクトルには最初の音のスペクトルが含まれています. Qはアクティベーション行列と呼ばれ,これらのスペクトルの時間的な強度変化を含んでいます.
  5. [2:45~3:05] NMFの変数行列FとQは,こちらの最小化問題で推定できます. DはXとFQの距離を測る関数であり,XとFQの距離が最小となるFとQを求めます. 本研究では,音源分離で高い性能を出すことが多い一般化KLダイバージェンスと呼ばれる距離関数を用います. 最小化問題とは? 特定の集合上で定義された関数についてその値が最小となる状態を解析する問題である
  6. [3:05~4:05] NMFに基づく音源分離の半教師ありNMF,通称SNMFを説明します. (分離ステージのYを指しながら)いま,ピアノとベースとサックスが混ざった混合音Yから,ピアノの音だけを抽出することを考えます. この場合,学習ステージでピアノの音階信号を事前に学習して,基底行列Fを得ます. このFはピアノのスペクトルパターンを含んでいる「音色辞書」のような働きをします. 分離ステージでは,Fをこのように固定し,FG+HUという形で混合信号Yを近似することで,目的音源のピアノ成分のみがFGに現れ,その他の非目的音源の成分がHUに現れます. したがって,ピアノとそれ以外に音源分離できます. しかし,SNMFには,目的音源と非目的音源の間に似たスペクトルがあると,目的音源の一部がHUに取られてしまう問題があります.
  7. [4:25~5:35] こちらは先ほど述べたSNMFの問題点を図的に表したものです. たとえば混合音Yがピアノとシンセサイザーという似たような音色を持つ楽器で構成されているとします. このとき,Yに対してSNMFによる音源分離を行うと目的音源の一部がHU混入したり、非目的音にFGが混入することにより分離精度が劣化します. この問題を改善するためには,FとHができるだけ類似していない行列となるようにこれらを求める必要があります. ただし,Fは学習ステージで求めた定数行列なので,行列Hを求める際にFとできるだけ遠ざける必要がります. このようなアイデアを取り入れたSNMFとして罰則条件付きSNMF,通称PSNMFが提案されています. Q非目的音の一部が目的音に混入するのはわかる.   目的音が非目的音の成分側に現れるのはどうして? A理由は幾つかある.1つめとして,そもそもNMFっていうのが低ランクで特徴量を近似するもの.つまり,もともと与えられたデータを圧縮して近似したものであるので,ピアノのスペクトルパターンを完璧には学習できていない.  2つ目の理由として,学習データとして用意したデータと演奏されている楽器音が似ていない可能性がある.というのは,学習データと全く同じ楽器を利用して演奏したとしても,人によって演奏の癖があったり,同じ人が演奏しても全く同じ 演奏ができるわけではないのです.  
  8. \bm{f}_k: 教師基底ベクトル \bm{h}_l: 非目的音源の基底ベクトル \bm{f}_k\perp\bm{h}_l 二本のベクトル間の内積を小さくするためには矢印で示した幅を狭くしたらよい.即ち,h_{l}とf_{k}をできるだけ直交するように誘導すればよい [5:35~6:25] FとHの行列が類似しないように誘導するものとしてまず,内積罰則項を用いることが考えられます. Fの教師基底ベクトルとHの基底ベクトルをそれぞれ,\bm{f}_kと\bm{h}_lとすると,この二本の間の内積は,\bm{f}_k\cdot\bm{h}_lで表すことができます. 内積では\bm{h}_lが\bm{f}_kに落とす影,つまり(ポインてぃんぐ)この幅,が狭いほうが小さくなります. つまり,行列FとHに存在するすべてのベクトルのペアに対して,FG+HUをYに近づけるという制約の基で\bm{f}_k\cdot\bm{h}_lが最小となる\bm{h}_lを決定することで,全ペアの内積総和が最小となる行列Hを求めることができます.
  9. [6:25~7:10] この処理をSNMFに付与した手法が内積型PSNMFです.SNMFの後ろに内積罰則項が付与されています. したがってこの手法は,SNMFのYとFG+HUが近くなるという点とHの基底ベクトルがFの基底ベクトルとできるだけ直交することの二点が考慮され,SNMFよりも音源分離が促進されます. muは重み係数であり罰則項の強さを制御するパラメータです. しかしこの方法には問題があります. 今回は時間の都合上詳しい説明は省かせていただきますが,NMFのスケール不定性により直交化が正しく作用しておらず理論的には無意味な罰則項となっています Q&A H←cHっていうのは何?内積罰則について詳しく説明して NMFの方程式は一意に決まらないので傾きを取ってどんどん傾きが小さくなる方向に変数を少しずつ更新していき変数行列を求めていく.そしてそれが最小化問題です.それはPSNMFも同様となります. PSNMFでは②の項を強く利かせるためにmuをつけています.muを大きくすればするほど2が強調される最適化となる.でも,muを大きくするとそれに伴って罰則項全体の大きさを小さくするためにHがcHという風に更新され②の項全体が小さくなります.つまり,muをどれだけ大きくしてもcがどこまででも小さくなるのでこの②の項が効いていないことになる. H←cHとしたらHUも小さくなりそうだがUも更新対象であるためUは1/c Uという風に更新されHUの大きさは保つことができるのです
  10. [6:55~7:40] そこで,もう一つ,ベクトルの長さに非依存でありつつFとHの行列が類似しないように誘導する罰則項として,コサイン類似度が挙げられます. コサイン類似度は2つのベクトルの類似性を表す尺度で、2つのベクトルがなす角のコサイン値です.ですので,全ての\bm{f}_kと\bm{h}_lのペアに対して FG+HUをYに近づけるという制約の基でコサイン類似度が最小となる\bm{h}_lを決定し,全ペアの内積総和が最小となる行列\bm{H}を求めます.
  11. [7:40~8:55] 先ほどの罰則項をSNMFに付与するんですがまずは対数を取ったコサイン類似度を付与した手法で試しました. コサイン類似度は式が複雑であり,解くのが困難ですが対数をつけることで式が簡略化され容易に解くことができます. この手法を対数コサイン類似度型PSNMF,通称Log-cos型PSNMFと呼びます. こちらの手法も,SNMFのYとFG+HUが近くなるという点とHの基底ベクトルがFの基底ベクトルとできるだけ直交することの二点が考慮され,SNMFよりも音源分離が促進されます. さらにベクトルの長さに依存しないため,スケール不定性の問題を回避することができます. しかしながら,対数をとったコサイン類似度は,コサイン類似度が0になるとlog 0になるので-∞になるという問題があり,これは計算機上では数値不安定を招きます. また,①の下限が0であるのに対して,③の下限が-∞というアンバランスさも問題となりました. Q&A 対数を取ることで,コサイン類似度の分数を引き算に分解でき,同時に乗数も係数扱いできるので最適化更新式の導出が容易になります.
  12. [8:55~9:35] そこでもう一度立ち戻り,コサイン類似度に対数を付けずともHについて最小化できないか考えたところ,かなり複雑ですが解けることがこれまでの研究でわかりました. この提案手法を以後,cos型PSNMFと呼びます.従来手法の内積型PSNMF,提案手法のlog-cos型PSNMFのそれぞれの問題を同時に解決した手法になります. SNMF,内積型PSNMF,Log-cos型PSNMF,及びCos型PSNMFの4手法を用いて音源分離性能の比較実験を行いました.
  13. [9:35~10:05] こちらが実験条件です. 混合音はこれらの11種類の楽器の中から同一メロディーでない,2種類の楽器音を混合して90曲作成しました。 90曲のうち45曲を開発データとし,各手法で最適な重み係数\muを推定するために使用しました. 残りの45曲では,最適な重み係数\muで音源分離を行い,その精度を評価しました.
  14. [10:05~11:15] 評価尺度として音源対歪み比,通称SDRを用いました. SDRは音源の分離度合いと分離音の歪みの少なさを加味した総合的な指標で, 人間が聴いて音源がよく分離されていると感じる感覚と非常に強い相関があるため音源分離の界隈では誰もが扱う指標となっています. SDRの式について説明していきます. まず,全楽器の混合音の時間信号であるm[l]に対して音源分離を適用して得られる目的音の推定信号m^[l]はこのような式で表されます. m^[l]はこちらの三つの成分から構成されています. そして,最終的なSDRはこちらの式で表されます.従って,高いSDR値を達成するためには,e_n[l]とe_a[l]が少なく,e_s[l]が高精度に推定されている必要があります.すなわち,可能な限り 目的音源成分を欠かすことなく推定し,可能な限り非目的音源成分を抑圧することに相当します. m^[l]の中のe_s[l]とかe_n[l]はどうやって求めるの? 今自分たちは目的音や非目的音の混合前の正解音を持っており M^[l]をs[l]に射影したものがe_s[l],...となるので求めることができます.
  15. [11:15~11:40] 各PSNMFにおける最適な重み係数muを学習データの45曲で決めます. SDRによる音源分離性能の45曲の平均がこのグラフです.横軸が重み係数muで縦軸がSDRです. SDRが最大となる点の重み係数muを各手法での最適値と決定します SDRの説明できるように 信号ひずみ比と呼ばれ生成した信号が目的とする信号に対してどの程度ひずんでいるかを評価します.このSDR値が高いほど分離精度良いです.
  16. [11:40~12:40] 先ほどの最適重み係数を用いて,残りの45曲で音源分離したヴァイオリン図がこのグラフです. 左からSNMF,内積型,log-cos型,cos型PSNMFです. まず,各手法の1点1点は45曲のそれぞれの音源分離結果のSDR値です. なので,各手法で45点あります. 中央の白点は全45点の中央値です.そして,各手法のヴァイオリンのような曲線は,45個の点を使ってカーネル密度推定により得られた推定分布になります.この結果より,中央値で見ても推定分布で見ても,従来法の内積型PSNMFと2つの提案手法で差が見えます.特に内積型とcos型の差は大きそうです.さらにこの差を客観的に結論付けるために,この結果を使って検定を行います. Q&A 図の広がりは何をあらわすの? その値周辺にどのくらいデータが集まっているかを表しています. ですのでデータが過疎な付近で細くなっていて,データが密なところで膨らんでいます. Q&A ボックスプロット(箱ひげ図)でいいんじゃない? ボックスプロットだと最小値から第1四分位数(しぶんいすう),第3四分位数から最大値までの区間でデータがないように見える.それに引き換えヴァイオリン図ではデータの全体分布が一目でわかります.なのでボックスプロットよりも情報量が多いと言えます. 楽器の種類により性能さが現れるのか? まだそこまで考察できていないが,予想としましては,同じ金管楽器同士だったり,音の出る原理が同じような楽器同士だと似たようなスペクトルが現れ分離がうまくいかないと予想されます. 縦棒が中央値を境に長さが違うのはなぜ? 縦棒が中央値を境に上下対称でないのは,縦棒の上端が75パーセンタイル,下端が25パーセンタイルだからです. その上下の縦棒は50パーセントタイルの範囲です.つまり縦棒の縦軸範囲に45個中半分の点が入っています. カーネル密度推定ってなに? 与えられたデータ点から,そのデータを生成した確率分布(確率密度関数)を推定するノンパラメトリックな(つまり「正規分布だ!」とか仮定しない)手法の一つです.「正規分布だ!」と仮定してしまうと,一番確率値の高いピークは1つになってしまいますが,今回の実験結果みたいに複数のピークがありそうなデータではカーネル密度推定が有効です.
  17. [12:40~13:50] 実験より得られたSDR値の集合の差が有意か確かめるために2種類の統計的検定を行いました. 一つ目のウェルチの片側t検定では,図のように正規分布に従う2つの母集団AとBの平均値をそれぞれ\mu_{A}, \mu_{B}とするとき,\mu_{A}が\mu_{B}以上であるという帰無仮説を立てます. 二つ目はブルンナームンツェル検定で,2つの母集団A及びBから抽出した標本をそれぞれs_{A}及びs_{B}とするときs_{A}がs_{B}以上となる確率とs_{A}がs_{B}より小さくなる確率が等しいという帰無仮説が立てられます. ウェルチの片側t検定では平均を考える為,正規分布を仮定する検定となっています.一方,BM検定は観測データの正規性を仮定しません. 検定では,全4手法のなかから2手法をペアとして選び,ペア毎にt検定とBM検定の両方を行い,それぞれの帰無仮説がどのくらいの有意水準で棄却できるのかを調べます. Q&A 帰無仮説って何? 仮説に対してそれを否定(棄却)することで仮説を立証させる仮説のことです ウェルチの片側t検定を例として話すと,平均値mu_{A}がmu_{B}より大きいという帰無仮説を棄却することができればmu_{B}の方が大きいことが立証されます.
  18. [13:50~14:50] こちらが各検定で得られたp値になります. p値が0.05であれば,先ほどの帰無仮説を95%の確率で有意に棄却できます.そのため,p値が低いほど,帰無仮説は間違っている,つまり2手法で明確な差がある,という結論を出せます.ウェルチの片側t検定ではAの手法が\mu_{A}の算出に,Bの手法が\mu_{B}の算出に用いられます.分布の正規性を仮定する場合としない場合の両方において,内積型PSNMFとcos型PSNMFを比較した際のp値は十分小さいという結果になりました.つまり,統計的に十分有意な確率で両検定の帰無仮説を棄却できたので,正規分布を仮定する場合も仮定しない場合も,提案手法が従来手法よりも音源分離に有効であることが結論付けられました. Q&A 内積型PSNMFとLog-cos型PSNMFのBM検定はp値0.05以下ではないですが? Log-cos型は数値不安定性も結構あるし,我々の推しはあくまでCos型なので大丈夫です. p値とは? 棄却に対する有意性を証明するための値です.一般的に0.05以下だと有意差があるのではといわれています.
  19. 以上で発表を終わります.
  20. 導出した変数はこのようになっています。
  21. [06:50] 詳細は割愛しますが,補助関数はこの式になります. Hの更新式は,補助関数の右辺をhで偏微分し0とすることで得られます. 偏微分=0を整理したものがこの式で,なんと偶然にもhの二次方程式になります. 従って,係数をa,b,cとおくと,二次方程式の解の公式でhの更新式が得られます.GとHの更新式は他のPSNMFと同一です.
  22. 比較手法はこの4つです.罰則項の無いSNMF,内積型PSNMF,log-cos型PSNMF,そしてcos型PSNMFです. ただし,内積型とLog-cos型PSNMFにおいては先ほど示した問題を場当たり的に回避するために反復更新毎の基底正規化を行いました. 基底正規化とは,罰則項が絡む変数行列Hの全列ベクトルを正規化する処理です.正規化係数をUに掛けることで,HUは不変となりコスト関数値は変わりません.