Soumettre la recherche
Mettre en ligne
Kameoka2017 ieice03
•
4 j'aime
•
2,679 vues
K
kame_hirokazu
Suivre
電子情報通信学会総合大会 企画講演セッション「適応信号処理の基礎と展開」 亀岡弘和,小野順貴,猿渡洋:音響分野におけるブラインド適応信号処理の展開
Lire moins
Lire la suite
Ingénierie
Affichage du diaporama
Signaler
Partager
Affichage du diaporama
Signaler
Partager
1 sur 58
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
ILRMA 20170227 danwakai
ILRMA 20170227 danwakai
SaruwatariLabUTokyo
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
Daichi Kitamura
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura
Recommandé
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
ILRMA 20170227 danwakai
ILRMA 20170227 danwakai
SaruwatariLabUTokyo
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
Daichi Kitamura
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura
Asj2017 3invited
Asj2017 3invited
SaruwatariLabUTokyo
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
Kitamura Laboratory
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
Kitamura Laboratory
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
Daichi Kitamura
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
Daichi Kitamura
CVPR2019読み会@関東CV
CVPR2019読み会@関東CV
Takanori Ogata
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
Daichi Kitamura
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
Tatsuya Yokota
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
Kameoka2016 miru08
Kameoka2016 miru08
kame_hirokazu
Kameoka2012 talk07 1
Kameoka2012 talk07 1
kame_hirokazu
Contenu connexe
Tendances
Asj2017 3invited
Asj2017 3invited
SaruwatariLabUTokyo
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
Kitamura Laboratory
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
Kitamura Laboratory
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
Daichi Kitamura
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
Daichi Kitamura
CVPR2019読み会@関東CV
CVPR2019読み会@関東CV
Takanori Ogata
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
Daichi Kitamura
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
Tatsuya Yokota
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
Tendances
(20)
Asj2017 3invited
Asj2017 3invited
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
音情報処理における特徴表現
音情報処理における特徴表現
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
CVPR2019読み会@関東CV
CVPR2019読み会@関東CV
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
深層学習を利用した音声強調
深層学習を利用した音声強調
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
En vedette
Kameoka2016 miru08
Kameoka2016 miru08
kame_hirokazu
Kameoka2012 talk07 1
Kameoka2012 talk07 1
kame_hirokazu
並行実行制御の最適化手法
並行実行制御の最適化手法
Sho Nakazono
Introducing libpd -Pdをアプリのサウンドエンジンに-
Introducing libpd -Pdをアプリのサウンドエンジンに-
Yoichi Hirata
Functional go
Functional go
Geison Goes
ドメインロジックに集中せよ 〜ドメイン駆動設計 powered by Spring
ドメインロジックに集中せよ 〜ドメイン駆動設計 powered by Spring
増田 亨
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
Yuya Unno
エンジニアのブログ書きの 心技体
エンジニアのブログ書きの 心技体
Kenji Tanaka
2017年グローバルリクルーティングトレンド / Global Recruiting Trend
2017年グローバルリクルーティングトレンド / Global Recruiting Trend
LinkedIn Japan / リンクトイン・ジャパン
第2回NSP日本再生戦略講演会 地域のひな型研究会資料
第2回NSP日本再生戦略講演会 地域のひな型研究会資料
日本再生プログラム推進フォーラム
Baseball Play Study 2017春(2017年春 読むべき野球本はこれだ!)
Baseball Play Study 2017春(2017年春 読むべき野球本はこれだ!)
Haruo Sato
Netflix's Recommendation ML Pipeline Using Apache Spark: Spark Summit East ta...
Netflix's Recommendation ML Pipeline Using Apache Spark: Spark Summit East ta...
Spark Summit
#MobileRevolution - How Mobile Is Changing You
#MobileRevolution - How Mobile Is Changing You
Alexandre Jubien
困らない程度のJDK入門
困らない程度のJDK入門
Yohei Oda
Unityで始めるHoloLensアプリ開発
Unityで始めるHoloLensアプリ開発
kazuya noshiro
The Data Revolution - Serena Capital
The Data Revolution - Serena Capital
Jean-Baptiste Dumont
Sosiaalisen median perusteita ja ajankohtaiskatsaus
Sosiaalisen median perusteita ja ajankohtaiskatsaus
Harto Pönkä
The Top 10 Facebook and Twitter Advertising Hacks of All Time - Larry Kim's P...
The Top 10 Facebook and Twitter Advertising Hacks of All Time - Larry Kim's P...
Internet Marketing Software - WordStream
Squeezing Deep Learning Into Mobile Phones
Squeezing Deep Learning Into Mobile Phones
Anirudh Koul
What is Deep Learning?
What is Deep Learning?
NVIDIA
En vedette
(20)
Kameoka2016 miru08
Kameoka2016 miru08
Kameoka2012 talk07 1
Kameoka2012 talk07 1
並行実行制御の最適化手法
並行実行制御の最適化手法
Introducing libpd -Pdをアプリのサウンドエンジンに-
Introducing libpd -Pdをアプリのサウンドエンジンに-
Functional go
Functional go
ドメインロジックに集中せよ 〜ドメイン駆動設計 powered by Spring
ドメインロジックに集中せよ 〜ドメイン駆動設計 powered by Spring
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
エンジニアのブログ書きの 心技体
エンジニアのブログ書きの 心技体
2017年グローバルリクルーティングトレンド / Global Recruiting Trend
2017年グローバルリクルーティングトレンド / Global Recruiting Trend
第2回NSP日本再生戦略講演会 地域のひな型研究会資料
第2回NSP日本再生戦略講演会 地域のひな型研究会資料
Baseball Play Study 2017春(2017年春 読むべき野球本はこれだ!)
Baseball Play Study 2017春(2017年春 読むべき野球本はこれだ!)
Netflix's Recommendation ML Pipeline Using Apache Spark: Spark Summit East ta...
Netflix's Recommendation ML Pipeline Using Apache Spark: Spark Summit East ta...
#MobileRevolution - How Mobile Is Changing You
#MobileRevolution - How Mobile Is Changing You
困らない程度のJDK入門
困らない程度のJDK入門
Unityで始めるHoloLensアプリ開発
Unityで始めるHoloLensアプリ開発
The Data Revolution - Serena Capital
The Data Revolution - Serena Capital
Sosiaalisen median perusteita ja ajankohtaiskatsaus
Sosiaalisen median perusteita ja ajankohtaiskatsaus
The Top 10 Facebook and Twitter Advertising Hacks of All Time - Larry Kim's P...
The Top 10 Facebook and Twitter Advertising Hacks of All Time - Larry Kim's P...
Squeezing Deep Learning Into Mobile Phones
Squeezing Deep Learning Into Mobile Phones
What is Deep Learning?
What is Deep Learning?
Kameoka2017 ieice03
1.
音響分野における ブラインド適応信号処理の展開 亀岡弘和1,2 小野順貴2 猿渡洋3 1日本電信電話株式会社 2国立情報学研究所 3東京大学 電子情報通信学会総合大会 企画講演セッション「AI‐2. 適応信号処理の基礎と展開」 13:00‐15:20 共通講義棟南506
2.
専門: 音声・音楽などの音響信号を対象とした信号処理や機械学習 連絡先: kameoka.hirokazu@lab.ntt.co.jp 略歴 東京大学大学院情報理工学系研究科 システム情報学専攻
博士課程修了 日本電信電話株式会社入社 NTTコミュニケーション科学基礎研究所配属 東京大学大学院情報理工学系研究科 システム情報学専攻 客員准教授 NTTコミュニケーション科学基礎研究所 特別研究員 国立情報学研究所 客員准教授 2007 2011~2016 2015~現在 2016~現在
3.
ブラインド音源分離 (BlindSourceSeparation) 複数のマイクで取得した音響信号のみから各音源信号 を分離する問題 音源信号,混合過程が いずれも未知であること から「ブラインド」という
観測信号のみから音源信号 を得る最適フィルタを推定 応用場面 音声認識のフロントエンド 音声通信 音を使った音環境モニタリング ロボット聴覚 補聴器
4.
ブラインド音源分離の適用例 4本のマイクロホンで同期収録した信号から各音源信号を抽出 y1 y2 y3
y4分離信号 http://www.kecl.ntt.co.jp/icl/signal/sawada/demo/bss2to4/index.html
5.
各マイクロホンの観測信号の生成過程 畳みこみ混合 • 音源1マイク1: • 音源1マイク2: •
音源2マイク1: • 音源2マイク2: マイクまでの 到達時間 音源1 音源2 マイク1 マイク2
6.
各マイクロホンの観測信号の生成過程 畳みこみ混合 • 音源1マイク1: • 音源1マイク2: •
音源2マイク1: • 音源2マイク2: マイクまでの 到達時間 音源1 音源2 マイク1 マイク2 残響があると・・・
7.
各マイクロホンの観測信号の生成過程 畳みこみ混合 • 音源1マイク1: • 音源1マイク2: •
音源2マイク1: • 音源2マイク2: 残響があると・・・ ... 音源1 音源2 マイク1 マイク2
8.
各マイクロホンの観測信号の生成過程 畳みこみ混合 • 音源1マイク1: • 音源1マイク2: •
音源2マイク1: • 音源2マイク2: 残響があると・・・ ... 音源1 音源2 マイク1 マイク2
9.
各マイクロホンの観測信号の生成過程 畳みこみ混合 • 音源1マイク1: • 音源1マイク2: •
音源2マイク1: • 音源2マイク2: 残響があると・・・ ... ∴ マイク1の観測信号: マイク2の観測信号: 音源1 音源2 マイク1 マイク2
10.
各マイクロホンの観測信号の生成過程 畳み込み定理を利用して 畳み込み混合モデルを時間周波数領域に展開: 「時間領域の 畳み込み混合モデル」 「時間周波数領域の 瞬時混合モデル」 周波数 ごとに見れば行列積 周波数 index 時刻 index マイク index 音源 index 音源 index
11.
BSSは混合過程の逆問題 周波数 ごとに見れば行列積 周波数 index 時刻 index マイク index 音源 index 音源 index
12.
BSSは混合過程の逆問題 周波数 index 時刻 index マイク index 音源 index 音源 index
13.
BSSは混合過程の逆問題 以上の生成過程の逆問題(音源分離)は不良設定 と がともに未知
パーミュテーションの任意性 置換行列 周波数 index 時刻 index マイク index 音源 index 音源 index
14.
BSSは混合過程の逆問題 以上の生成過程の逆問題(音源分離)は不良設定 と がともに未知
パーミュテーションの任意性 置換行列 周波数ごとに 個別に分離が 得られても… 時間 周波数 時間 周波数 音源 1 音源 2 時間 周波数 時間 周波数 音源 1 (仮) 音源 2 (仮) パーミュテーション整合 周波数 index 時刻 index マイク index 音源 index 音源 index
15.
BSSは混合過程の逆問題 以上の生成過程の逆問題(音源分離)は不良設定 と がともに未知
パーミュテーションの任意性 置換行列 解を絞り込むための仮定が必要 周波数 index 時刻 index マイク index 音源 index 音源 index
16.
BSSの従来研究 時間周波数領域BSSの代表的アプローチ 音源数=マイク数の場合 独立成分分析 (ICA)
[Smaragdis+1998, Ikeda&Murata1998, Saruwatari+2000,...] 音源間の統計的独立性規準 g を最大化するように A の逆行列 W を推定 音源数>マイク数の場合 時間周波数マスキング [Yilmaz+2004, Mori+2005, Mandel+2006, Araki+2007, Izumi+2007,...] ・各時間周波数点において単一音源のみが支配的と仮定 ・各時間周波数点の到来方向情報をもとに時間周波数点をクラスタリング パーミュテーション整合のアプローチ 音源到来方向 [Kurita+2000],帯域間の振幅相関 [Murata+2001],調波性 [Sawada+2004],デルタ振幅の帯域間の同期性 [Ono+2010]に基づく手法など多数 BSSとパーミュテーションの同時解決アプローチ 独立ベクトル分析 (IVA) [Kim+2006, Hiroe2006, Ono+2011,...] 多チャンネルNMF [Ozerov+2010, Kameoka+2010, Sawada+2012, Kitamura+2015,...]
17.
BSSの従来研究 優決定BSS 2000 2010 独立成分分析 ICA 優決定 多チャンネルNMF 劣決定BSS 独立ベクトル分析 IVA 優決定 多チャンネルNMF (補助関数法) IVA (補助関数法) 劣決定 多チャンネルNMF (補助関数法) 多チャンネル FHMM 非負値行列分解 NMF 板倉齋藤距離NMF 複素NMF Factorial
HMM 劣決定 多チャンネルNMF モノラル音源分離 周波数領域 ICA 時間周波数 マスキング
18.
BSSの従来研究 優決定BSS 2000 2010 独立成分分析 ICA 優決定 多チャンネルNMF 劣決定BSS 独立ベクトル分析 IVA 優決定 多チャンネルNMF (補助関数法) IVA (補助関数法) 劣決定 多チャンネルNMF (補助関数法) 多チャンネル FHMM 非負値行列分解 NMF 板倉齋藤距離NMF 複素NMF Factorial
HMM 劣決定 多チャンネルNMF モノラル音源分離 周波数領域 ICA 時間周波数 マスキング 亀岡 亀岡,小野 亀岡,小野 亀岡,小野,猿渡 亀岡 亀岡 小野猿渡 ※共著者の各氏が関わった研究
19.
独立成分分析 (IndependentComponentAnalysis) 混合行列の逆行列(分離フィルタ) を推定 どうやって? 周波数 index 時刻 index マイク index 音源 index 音源 index 周波数 index 時刻 index 音源 index マイク index 音源 index
20.
独立成分分析 (IndependentComponentAnalysis) 混合行列の逆行列(分離フィルタ) を推定 どうやって?
分離信号間の統計的独立性規準を最大化 周波数 index 時刻 index マイク index 音源 index 音源 index 周波数 index 時刻 index 音源 index マイク index 音源 index
21.
独立成分分析 (IndependentComponentAnalysis) 統計的独立性と非ガウス性 最尤法によるICA 音源の確率分布に非ガウス分布を仮定し分離行列
を最尤推定 音源数 振幅 頻度 振幅 振幅の頻度分布が正規分布に近づいていく (中心極限定理) 非ガウス的 ガウス的 時間 分離信号の非ガウス性の最大化により音源信号を復元可能
22.
最尤法によるICAの定式化 分離行列 を推定 観測信号 の確率密度関数(
の尤度関数) 線形変換と確率密度関数 音源信号の独立性と非Gauss性を仮定 :Laplace分布など 周波数 ごとの音源分離 ⇒別途パーミュテーション整合が必要
23.
ICAのパラメータ推定アルゴリズム 通常の勾配法 更新則 毎ステップ、逆行列計算が必要 自然勾配法
[Amari+1996] の実質的な変化分 のノルム制約下で最急降下方向を求める 逆行列計算が不要 補助関数法+反復射影 [Ono+2011] の行ごとに最適更新 が時変ガウス分布の場合更新則が解析的に求まる 逆行列計算が不要 ( はステップサイズ)
24.
独立ベクトル分析 (IndependentVectorAnalysis) 動機:周波数ごとの音源分離とパーミュテーション整合を同時解決 同一音源に由来する周波数成分の大きさは同期して時間変化するはず 周波数 index 時刻 index 音源 index マイク index 音源 index ,
の代わりに ノルム ∑ | , | の確率分布に非ガウス分布を仮定 音源 の時刻 におけるパワーに相当 [Kim+2006, Hiroe+2006]
25.
独立ベクトル分析 (IndependentVectorAnalysis) 動機:周波数ごとの音源分離とパーミュテーション整合を同時解決 同一音源に由来する周波数成分の大きさは同期して時間変化するはず 周波数 index 時刻 index 音源 index マイク index 音源 index ,
の代わりに ノルム ∑ | , | の確率分布に非ガウス分布を仮定 音源 の時刻 におけるパワーに相当 がLaplace分布に従う場合: | 0 | 10 が大きければ も大きくなる傾向 0 [Kim+2006, Hiroe+2006]
26.
独立ベクトル分析 (IndependentVectorAnalysis) ICAとの尤度関数の比較 ICA: IVA: [Kim+2006] より転載 ICAにおける音源分布 IVAにおける音源分布 音源分布に関する項 [Kim+2006, Hiroe+2006] どの切り口を見ても 分布形状は同じ
, が大きいほど , の分布の裾 が広くなる
27.
BSSは混合過程の逆問題 以上の生成過程の逆問題(音源分離)は不良設定 と がともに未知
パーミュテーションの任意性 置換行列 周波数 index 時刻 index マイク index 音源 index 音源 index 解を絞り込むための仮定が必要 音源数>マイク数の場合は?? モノラル音源分離手法のアイディアを取り入れた手法⇒多チャンネルNMF
28.
BSSは混合過程の逆問題 以上の生成過程の逆問題(音源分離)は不良設定 と がともに未知
パーミュテーションの任意性 置換行列 周波数 index 時刻 index マイク index 音源 index 音源 index 解を絞り込むための仮定が必要 音源数>マイク数の場合は?? モノラル音源分離手法のアイディアを取り入れた手法⇒多チャンネルNMF
29.
非負値行列因子分解 (NMF) 「行列積」としてのスペクトログラム(時間周波数表現) time Frequency [Lee+2000, Smaragdis+2003]
30.
「行列積」としてのスペクトログラム(時間周波数表現) 非負値行列因子分解 (NMF) time Frequency 各基底スペクトルのアクティベーション 基底スペクトル [Lee+2000, Smaragdis+2003]
31.
教師ありNMFによるモノラル音源分離 基底スペクトルの事前学習 事前学習した基底スペクトルを用いた分離 0 1 2
3 4 Time (s) 0 2 4 6 8 Frequency(kHz) 音源サンプル 0 1 2 3 4 Time (s) 0 2 4 6 8 Frequency(kHz) Mixture Wienerフィルタによる分離信号の獲得 [Smaragdis+2007]
32.
非負制約のもとで となる と
を求める問題 板倉齋藤距離 混合音も複素正規分布に従う 板倉齋藤距離規準 NMF 多重音スペクトログラムの生成モデル化 複素正規分布に従うと仮定 個の要素からなる混合音 [Févotte+2009]
33.
時変ガウス音源モデル 複素スペクトログラムの各要素が異なる分散の複素正規分布に従う 各時刻,各周波数で異なる分散(パワー)
34.
時変ガウス音源モデル 複素スペクトログラムの各要素が異なる分散の複素正規分布に従う 各時刻,各周波数で異なる分散(パワー) 周波数パワーが小=分散が小 殆ど0付近の複素数しか 生成しない パワーが大=分散が大 大きな振幅の複素数も 生成しうる 濃い方が パワーが大きい 時間
35.
時変ガウス音源モデル 複素スペクトログラムの各要素が異なる分散の複素正規分布に従う 各時刻,各周波数で異なる分散(パワー) • , に様々なパワースペクトログラムのモデルを組み込めるのが特長 •
, ∑ , , のときNMF型のモデル
36.
時変ガウス音源モデル 複素スペクトログラムの各要素が異なる分散の複素正規分布に従う 多チャンネル信号の確率分布 各時刻,各周波数で異なる分散(パワー) と の尤度関数 • ,
に様々なパワースペクトログラムのモデルを組み込めるのが特長 • , ∑ , , のときNMF型のモデル 周波数 index 時刻 index マイク index 音源 index 音源 index 時刻 index
37.
時変ガウス音源モデルの優ガウス性 定理 証明略 0 すべての で分散がすべて等しい ときのみ尖度は0になる 平均が0で分散が時変のガウス分布の時間平均分布は 優ガウス的である(尖度は0より大きい) 時変ガウス音源モデルを用いることは 音源信号の分布に優ガウス分布を仮定していることに相当
38.
多チャンネルNMF 多チャンネル信号の確率密度関数 対数尤度 時変ガウス音源モデル NMF型モデル • 補助関数法による パラメータ推定 [Sawada+2012] [Ozerov+2010, Sawada+2012,...] •
EMアルゴリズムによる パラメータ推定 [Ozerov+2010] 周波数 index 時刻 index マイク index 音源 index 音源 index 時刻 index
39.
補助関数法 (EMアルゴリズムを一般化した原理) 目的関数 を局所最小化する
を得るための方法論 を満たす を補助関数と定義 パラメータ更新アルゴリズム 収束性 [1] [2] 目的関数 補助関数 [1] [2]
40.
補助関数法 (EMアルゴリズムを一般化した原理) 目的関数 を局所最小化する
を得るための方法論 を満たす を補助関数と定義 パラメータ更新アルゴリズム 収束性 [1] [2] 目的関数 補助関数 [1] [2]
41.
目的関数 逆数関数は正領域で凸関数 ⇒
Jensenの不等式(非負値版) 対数関数は凹関数 ⇒ 接線不等式 適用例1: 板倉齋藤距離最小化 [Kameoka+2006] 右辺 非負値制約
42.
適用例2: 多チャンネルNMFアルゴリズム 目的関数 ※板倉齋藤距離最小化アルゴリズム [Kameoka+2006] の行列版 [Sawada+2012] 逆数関数は正領域で凸関数より (∵変数が正の場合の Jensen不等式) 行列拡張 対数関数に対する接線不等式の行列版より
43.
IVAの対数尤度(再掲) 多チャンネルNMFの対数尤度と同形 多チャンネルNMFとIVAの関係 に時変ガウス分布を仮定したら? [Ono+2012, Yoshioka+2011] , と置くと等価に!
44.
多チャンネルNMFとIVAの関係 パワースペクトログラムモデルの違い IVA 多チャンネルNMF Frequency Time Frequency Basis Basis Time 時間周波数点ごとに 分散が異なる音源モデル 濃淡は分散値 (信号のパワー) Frequency Time Frequency Time 全周波数で共通の 分散をもつ音源モデル
45.
ILRMA NMF型のパワースペクトログラムモデルの組み込み [Kameoka+2010, Kitamura+2015] 独立低ランク行列分析(ILRMA) 優決定条件の多チャンネルNMF IVAはパラメータ推定アルゴリズムが高速
多チャンネルNMFは音源モデルが柔軟である代わりにアルゴリズムが 低速(各ステップの逆行列計算の回避策がいまのところない) [Kameoka+2010, Kitamura+2015] 時変ガウス音源モデルを用いたIVA [Ono+2012, Yoshioka+2011]
46.
各種音源分離手法の分離性能・演算時間の比較 実際の音響信号&空間混合の分離実験 SiSECデータ(実録音・2音源混合)による分離実験結果 演算時間はIVAを基準に正規化 ILRMAが高い分離精度と低演算時間を実現 ↓[Kitamura+2016]より転載
47.
Factorial HMMによるモノラル音源分離 [Nakano+2010] 音声や楽音のスペクトルは通常時間変化する ⇒状態遷移により各基底スペクトルが時間変化するモデル + Time Frequency Time FrequencyFrequency 観測スペクトログラムを 複数のHMMの出力の和 で表現 Factorial HMM
48.
多チャンネルFHMM [Higuchi+2014] FHMMの多チャンネル拡張 (音源分離・残響除去・音声区間検出の同時解法) 53 time [s] frequency [Hz] frequency [Hz] 無音状態 有音状態 分離音スペクトログラム 音響イベント検出結果 元音源信号のスペクトログラム time
[s] frequency [Hz] time [s] 残響下の混合音スペクトログラム
49.
各種BSS手法と関連する最適化法 2000 2010 優決定BSS 独立成分分析 ICA 劣決定BSS 独立ベクトル分析 IVA 非負値行列分解 NMF モノラル音源分離 周波数領域 ICA猿渡 時間周波数 マスキング 最適化手法 板倉齋藤距離最小化 (補助関数法) 自然勾配法 亀岡 優決定 多チャンネルNMF ILRMA: 優決定 多チャンネルNMF (補助関数法) 亀岡 亀岡,小野,猿渡 IVA (補助関数法) 劣決定 多チャンネルNMF (補助関数法) 多チャンネル FHMM 板倉齋藤距離規準NMF 複素NMF Factorial HMM 劣決定 多チャンネルNMF 亀岡,小野
亀岡,小野 亀岡 亀岡 小野 分離行列最適化 (反復射影) 小野
50.
各種BSS手法と関連する最適化法 2000 2010 優決定BSS 独立成分分析 ICA 劣決定BSS 独立ベクトル分析 IVA 非負値行列分解 NMF モノラル音源分離 周波数領域 ICA猿渡 時間周波数 マスキング 最適化手法 板倉齋藤距離最小化 (補助関数法) 自然勾配法 亀岡 優決定 多チャンネルNMF ILRMA: 優決定 多チャンネルNMF (補助関数法) 亀岡 亀岡,小野,猿渡 IVA (補助関数法) 劣決定 多チャンネルNMF (補助関数法) 多チャンネル FHMM 板倉齋藤距離規準NMF 複素NMF Factorial HMM 劣決定 多チャンネルNMF 亀岡,小野
亀岡,小野 亀岡 亀岡 小野 分離行列最適化 (反復射影) 小野
51.
各種BSS手法の関係
52.
各種BSS手法の関係
53.
参考 Alexey Ozerov, Hirokazu Kameoka, "Gaussian model based multichannel separation," in Audio Source Separation and Speech Enhancement, E. Vincent (Ed.), Springer, to appear in 2017. Hirokazu Kameoka, Hiroshi Sawada, Takuya Higuchi, "General formulation of multichannel extensions of NMF variants," in Audio Source Separation, S. Makino (Ed.), Springer, to appear in 2017. Daichi
Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, Hiroshi Saruwatari, "Determined blind source separation with Independent low‐rank matrix analysis," in Audio Source Separation, S. Makino (Ed.), Springer, to appear in 2017.
54.
まとめ 各種ブラインド音源分離手法の紹介 独立成分分析 (ICA)
独立ベクトル分析(IVA) 補助関数法と座標勾配法による分離行列最適化 [Ono+2011] 非負値行列因子分解 (NMF) 板倉齋藤距離規準NMF [Févotte+2009] 板倉齋藤距離局所最小化アルゴリズム [Kameoka+2006, Nakano+2010] 多チャンネルNMF 劣決定条件 • EMアルゴリズムによる最適化 [Ozerov+2010] • 補助関数法による最適化 [Sawada+2012] 優決定条件 ⇒ 独立低ランク行列分析(ILRMA) • EMアルゴリズムによる最適化 [Kameoka+2010] • 補助関数法による最適化 [Kitamura+2015] Factorial HMM (FHMM) [Nakano+2011] 多チャンネルFHMM [Higuchi+2014]
55.
参考文献 (1/4) [1] P. Smaragdis: “Blind separation of convolved mixtures in the frequency domain,” Neurocomputing, 22(1), pp. 21–34, 1998. [2] S. Ikeda and N. Murata: “A method of ICA in time‐frequency domain,” in Proc. International Workshop on Independent Component Analysis and Blind Signal Separation (ICA), pp. 365‐371, 1999. [3] H. Saruwatari, S. Kurita, K. Takeda, F. Itakura, and K. Shikano: “Blind source separation based on subband ICA and beamforming,” in Proc. The International Conference on Spoken Language Processing (ICSLP), pp. 94‐97, 2000. [4] O. Yılmaz and S. Rickard: “Blind separation of speech mixtures via time‐frequency masking,” IEEE Transactions on Signal Processing, 52(7), pp. 1830‐1847, 2004. [5] M.I. Mandel, D.P.W. Ellis, and T. Jebara, “An EM algorithm for localizing multiple sound sources in reverberant environments,” in Adv. Neural Information Processing Systems, pp. 953‐960, 2006. [6] S. Araki, H. Sawada, R. Mukai, and S. Makino, “Underdetermined blind sparse source separation for arbitrarily arranged multiple sensors,” Signal Process., 87(8), pp. 1833‐1847, 2007. [7] Y. Mori, H. Saruwatari, T. Takatani, S. Ukai, K. Shikano, T. Hiekata, and T. Morita, “Real‐time implementation of two‐stage blind source separation combining SIMO‐ICA and binary masking,” in Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC), pp.229‐232, 2005. [8] Y. Izumi, N. Ono, and S. Sagayama, “Sparseness‐based 2ch BSS using the EM algorithm in reverberant environment,” in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), pp. 147‐150, 2007. [9] H. Sawada, S. Araki, and S. Makino, “Underdetermined convolutive blind source separation via frequency bin‐wise clustering and permutation alignment,” IEEE Trans. Audio Speech Language Process., 19(3), pp.516–527, 2010.
56.
参考文献 (2/4) [10] S. Kurita, H. Saruwatari, S. Kajita, K. Takeda, and F. Itakura: “Evaluation of blind signal separation method using directivity pattern under reverberant conditions,” in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 3140‐3143, 2000. [11] N. Murata, S. Ikeda, and A. Ziehe: “An approach to blind source separation based on temporal structure of speech signals,” Neurocomputing, 41(1), pp. 1‐24, 2001. [12] H. Sawada, R. Mukai, S. Araki, and S. Makino: “A robust and precise method for solving the permutation problem of frequency‐domain blind source separation,” IEEE Transactions on Speech and Audio Processing, 12(5), pp. 530‐538, 2004. [13] 小野: “周波数領域ICAにおけるΔスペクトログラムに基づくパーミュテーション解法,” 日本音響学会2010年秋 季研究発表会講演論文集, 2‐10‐7, pp. 581‐582, 2010. [14] T. Kim, T. Eltoft, and T.W. Lee: “Independent vector analysis: An extension of ICA to multivariate components,” in Proc. International Conference on Independent Component Analysis and Signal Separation (ICA), pp. 165–172, 2006. [15] A. Hiroe: “Solution of permutation problem in frequency domain ICA using multivariate probability density functions,” in Proc. Int. Conf. on Independent Component Analysis and Blind Source Separation (ICA), pp. 601‐608, 2006. [16] T. Yoshioka, T. Nakatani, M. Miyoshi, and H.G. Okuno: "Blind separation and dereverberation
of speech mixtures by joint optimization," IEEE Transactions on Audio, Speech, and Language Processing, 19 (1), pp. 69–84, 2011. [17] A. Ozerov and C. Fevotte: “Multichannel nonnegative matrix factorization in convolutive mixtures for audio source separation,” IEEE Transactions on Audio, Speech, and Language Processing, 18 (3), pp. 550– 563, 2010.
57.
参考文献 (3/4) [18] H. Kameoka, T. Yoshioka, M. Hamamura, J. Le Roux, and K. Kashino: “Statistical model of speech signals based on composite autoregressive system with application to blind source separation,” in Proc. of International Conference on Latent Variable Analysis and Signal Separation (LVA/ICA), pp. 245–253, 2010. [19] H. Sawada, H. Kameoka, S. Araki, and N. Ueda: “Efficient algorithms for multichannel extensions of Itakura‐ Saito nonnegative matrix factorization,” in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 261‐264, 2012. [20] D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari: “Efficient multichannel nonnegative matrix factorization exploiting rank‐1 spatial model,” in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 276‐280, 2015. [21] S. Amari, A. Cichocki, and H.H. Yang: “A new learning algorithm for blind signal separation,” in Adv. Neural Information Processing Systems, MIT Press, pp. 757‐763, 1996. [22] N. Ono: “Stable and fast update rules for independent vector analysis based on auxiliary function technique, in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), pp. 189‐192, 2011. [23] D.D Lee and H.S. Seung: “Algorithms for non‐negative matrix factorization,” in Adv. Neural Information Processing Systems, pp. 556–562, 2001. [24] P. Smaragdis and J.C. Brown: “Non‐negative matrix factorization for music transcription,” in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), pp. 177–180, 2003. [25] P. Smaragdis, B. Raj, and M. Shashanka, “Supervised and semi‐supervised separation of sounds from single‐channel mixtures,” in Proc. International Conference on Independent Component Analysis and Signal Separation (ICA 2007), pp. 414–421, 2007. [26] C. F´evotte, N. Bertin, and J.L. Durrieu: “Nonnegative matrix factorization with the Itakura‐Saito divergence. With application to music analysis,” Neural Computation, 21 (3), pp. 793–830, 2009.
58.
参考文献 (4/4) [27] H. Kameoka, M. Goto, and S. Sagayama: “Selective amplifier of periodic and nonperiodic components in concurrent audio signals with spectral control envelopes,” in IPSJ SIG Technical Reports, 2006‐MUS‐66 (13), pp. 77–84, 2006. In Japanese. [28] T. Ono, N. Ono, S. Sagayama: “User‐guided independent vector analysis with source activity tuning,” in Proc. IEEE International Conference on Audio, Speech and Signal Processing (ICASSP), pp. 2417–2420, 2012. [29] D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, 24(9), pp. 1626‐1641, 2016. [30] M. Nakano, J. Le Roux, H. Kameoka, T. Nakamura, N. Ono, and S. Sagayama: “Bayesian Nonparametric Spectrogram Modeling Based on Infinite Factorial Infinite Hidden Markov Model,” in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), pp. 325‐328, 2011. [31] T. Higuchi, H. Takeda, T. Nakamura, and H. Kameoka: “A unified approach for underdetermined blind signal separation and source activity detection by multichannel factorial hidden Markov models,” in Proc. The 5th Annual Conference of the International Speech Communication Association (Interspeech), pp. 850‐854, 2014. [32] T. Higuchi and H. Kameoka, “Joint audio source separation and dereverberation
based on multichannel factorial hidden Markov model,” in Proc. The 24th IEEE International Workshop on Machine Learning for Signal Processing (MLSP 2014), 2014. [33] M. Nakano, H. Kameoka, J. Le Roux, Y. Kitano, N. Ono, and S. Sagayama: “Convergence‐guaranteed multiplicative algorithms for non‐negative matrix factorization with beta‐divergence,” in Proc. IEEE International Workshop on Machine Learning for Signal Processing (MLSP), pp. 283‐288, 2010.
Télécharger maintenant