Soumettre la recherche
Mettre en ligne
深層学習と音響信号処理
•
12 j'aime
•
6,085 vues
Yuma Koizumi
Suivre
小泉 悠馬, "深層学習と音響信号処理," 第16回ICTイノベーションセミナー at 首都大学東京, 招待講演, 2018.
Lire moins
Lire la suite
Technologie
Signaler
Partager
Signaler
Partager
1 sur 63
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
Yuma Koizumi
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
Recommandé
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
Yuma Koizumi
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用
Yuma Koizumi
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
Yuma Koizumi
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
NU_I_TODALAB
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Yui Sudo
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
Shintaro Fukushima
画像キャプションの自動生成
画像キャプションの自動生成
Yoshitaka Ushiku
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Preferred Networks
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知
Core Concept Technologies
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
Kentaro Imai
Contenu connexe
Tendances
音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用
Yuma Koizumi
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
Yuma Koizumi
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
NU_I_TODALAB
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Yui Sudo
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
Shintaro Fukushima
画像キャプションの自動生成
画像キャプションの自動生成
Yoshitaka Ushiku
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Preferred Networks
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
Tendances
(20)
音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
Interspeech2022 参加報告
Interspeech2022 参加報告
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Nakai22sp03 presentation
Nakai22sp03 presentation
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
画像キャプションの自動生成
画像キャプションの自動生成
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
音情報処理における特徴表現
音情報処理における特徴表現
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
Similaire à 深層学習と音響信号処理
ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知
Core Concept Technologies
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
Kentaro Imai
実世界の人工知能@DeNA TechCon 2017
実世界の人工知能@DeNA TechCon 2017
Preferred Networks
Ict委員会の開発力について
Ict委員会の開発力について
Yuta Hinokuma
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
Yuya Unno
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
aslead
スマートライフのパートナーを目指すドコモr&d(予告編)
スマートライフのパートナーを目指すドコモr&d(予告編)
Osaka University
20190601栄光学園進路ガイダンス
20190601栄光学園進路ガイダンス
Keita Miyano
[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用
[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用
Google Cloud Platform - Japan
情報処理とは何か あとbigdataとか
情報処理とは何か あとbigdataとか
Tokoroten Nakayama
可視化の先にあるものとは
可視化の先にあるものとは
Core Concept Technologies
デジタルが切り開く未来ビジネス
デジタルが切り開く未来ビジネス
Osaka University
ソフトウェアとAIの進化が示唆するもの Final Final revised Final
ソフトウェアとAIの進化が示唆するもの Final Final revised Final
Roy Sugimura, Ph.D
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術
Shohei Hido
[Japan Tech summit 2017] MAI 001
[Japan Tech summit 2017] MAI 001
Microsoft Tech Summit 2017
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO
生活支援ロボットにおける大規模データ収集に向けて
生活支援ロボットにおける大規模データ収集に向けて
Komei Sugiura
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
Tohru Yoshioka-Kobayashi
kaneko202304.pptx
kaneko202304.pptx
kunihikokaneko1
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
Junichi Noda
Similaire à 深層学習と音響信号処理
(20)
ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
実世界の人工知能@DeNA TechCon 2017
実世界の人工知能@DeNA TechCon 2017
Ict委員会の開発力について
Ict委員会の開発力について
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
スマートライフのパートナーを目指すドコモr&d(予告編)
スマートライフのパートナーを目指すドコモr&d(予告編)
20190601栄光学園進路ガイダンス
20190601栄光学園進路ガイダンス
[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用
[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用
情報処理とは何か あとbigdataとか
情報処理とは何か あとbigdataとか
可視化の先にあるものとは
可視化の先にあるものとは
デジタルが切り開く未来ビジネス
デジタルが切り開く未来ビジネス
ソフトウェアとAIの進化が示唆するもの Final Final revised Final
ソフトウェアとAIの進化が示唆するもの Final Final revised Final
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術
[Japan Tech summit 2017] MAI 001
[Japan Tech summit 2017] MAI 001
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
生活支援ロボットにおける大規模データ収集に向けて
生活支援ロボットにおける大規模データ収集に向けて
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
kaneko202304.pptx
kaneko202304.pptx
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
Dernier
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
Dernier
(9)
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
深層学習と音響信号処理
1.
Copyright©2018 NTT corp.
All Rights Reserved. 2018/12/21 @ ICTイノベーションセミナー, 首都大学東京 1 日本電信電話株式会社 NTTメディアインテリジェンス研究所 小泉 悠馬 【招待講演】 深層学習と音響信号処理
2.
Copyright©2018 NTT corp.
All Rights Reserved. 2 小泉 悠馬(こいずみ ゆうま) 1990年02月01日 東京生まれ, 北名古屋市&稲城市育ち 略歴 2014年: 法政大学 情報科学研究科 修了 2014年: NTTメディアインテリジェンス研究所 入所 2017年: 博士(工学) (電気通信大学) 研究内容 音響信号処理 × 機械学習の基礎研究と実用化 音源強調:うるさい中から欲しい音だけ取り出したい! 異常検知:周囲の異変を音から検知したい! 自己紹介
3.
Copyright©2018 NTT corp.
All Rights Reserved. 3 Take home message 何でもかんでも大量データ & end-to-end でいいのか? 現状、音響信号処理に関しては No 1. ネットワーク構造に物理的/信号処理的な工夫が必要 2. 人間を超えるためには、 センサー配置や目的関数の工夫も必要 ※ end-to-end がうまくいかない条件は、数学的には証明されていないため、 この結論は将来は変わるかもしれない 現状の到達点 将来への展望
4.
Copyright©2018 NTT corp.
All Rights Reserved. 4 実環境での音響信号処理サービス 計算機/通信の発達で音の情報処理技術はどんどん身近に 音声認識 エンターテイメント 異常音検知 音声通信 4
5.
Copyright©2018 NTT corp.
All Rights Reserved. 5 音源強調の必要性 雑音が音情報処理性能を低下させる → うるさい中から欲しい音を取り出す技術が必須 雑音が大きく 音声認識できない 競技音が埋もれ 臨場感が伝わらない 音声認識 スポーツ中継
6.
Copyright©2018 NTT corp.
All Rights Reserved. 6 音響信号処理の例:音源強調 騒音下でも通話や音声認識を可能にします 100 dB の騒音下で目的音を抽出&音声認識
7.
Copyright©2018 NTT corp.
All Rights Reserved. 7 音響信号処理の例:音源強調 サッカースタジアムでキック音だけ強調します 周囲のスピーカーで 競技場の歓声を再現
8.
Copyright©2018 NTT corp.
All Rights Reserved. 8 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
9.
Copyright©2018 NTT corp.
All Rights Reserved. 9 情報処理とはなんだろうか
10.
Copyright©2018 NTT corp.
All Rights Reserved. 10 情報処理とはなんだろうか 与えられた情報を別の情報に変換する処理 なんらかの処理入力 出力
11.
Copyright©2018 NTT corp.
All Rights Reserved. 11 情報処理とはなんだろうか 与えられた情報を別の情報に変換する処理 数理モデル入力 出力 計算機で実現するために、情報変換を数式で表す
12.
Copyright©2018 NTT corp.
All Rights Reserved. 12 情報処理とはなんだろうか 入力 出力 どんな数理モデルがいい? 定量的な根拠を元にモデルを立てる方がよい レイトレーシング(物理ベース) 物理モデル ⇨ 写真と見間違うような画像を出力できる 光源位置 物体位置 反射率 etc… [*] Wikipedia, “Ray tracing (graphics)” URL: https://en.wikipedia.org/wiki/Ray_tracing_(graphics) [*]
13.
Copyright©2018 NTT corp.
All Rights Reserved. 13 情報処理とはなんだろうか 画像/音声などメディアの認識 人間の認識処理は未だ解明されていない そもそも、対象の定義自体が人間の恣意的なもの ??? 入力 出力 Horse or (0,0,0,0,0,0,0,1,0,0) [*] An image from “The CIFAR-10 dataset” URL: https://www.cs.toronto.edu/~kriz/cifar.html [*] 根拠に基づくモデルは立てられないことが多い
14.
Copyright©2018 NTT corp.
All Rights Reserved. 14 ブラックボックスな 情報変換(写像)を 計算機で再現するには?
15.
Copyright©2018 NTT corp.
All Rights Reserved. 15 機械学習 変換関数 入力 目的関数 正解出力 関数形がブラックボックスな写像を 入出力のデータだけから再現する方法 1. 変換関数を決めて 2. 目的関数を決めて 3. 最適化する 和訳
16.
Copyright©2018 NTT corp.
All Rights Reserved. 16 (深層)ニューラルネットワーク 微分可能な関数の合成関数でできた変換関数 沢山の亜種があるが、結局全部、ただの合成関数 無限個の関数を合成すれば任意の写像が表現可能 [*1] Wikipedia, “Artificial neural network”, https://en.wikipedia.org/wiki/Artificial_neural_network [*2] Wikipedia, “Long short-term memory”, https://en.wikipedia.org/wiki/Long_short-term_memory [*3] Wikipedia, “Convolutional neural network”, https://en.wikipedia.org/wiki/Convolutional_neural_network Shallow LSTM CNN [*1] [*2] [*3]
17.
Copyright©2018 NTT corp.
All Rights Reserved. 17 現状、最有力な変換関数として君臨 画像/音声/自然言語を含む、 多くのメディア処理で SOTA な性能を実現 ※ 釈迦に説法ですが… 画像認識: AlexNet (2012) [*1] などから 音声認識: DNN-HMM (2011) [*2] などから ※ 当然、これらメディア処理にNNを使うアプローチは大昔からある。 [*1] A. Krizhevsky, et al., “Imagenet classification with deep convolutional neural networks,” in Proc. of NIPS, 2012 [*2] F. Seide, et al., “Conversational speech transcription using context-dependent deep neural networks,” in Proc. of Interspeech, 2011. [*3] A. Narayananand, et al., “Ideal ratio mask estimation using deep neural networks for robust speech recognition,” in Proc. of ICASSP, 2013. 音源強調: IRM推定 (2013) [*3] などから
18.
Copyright©2018 NTT corp.
All Rights Reserved. 18 なぜ end-to-end はうまくいくのか 恣意性の排除、data-driven な特徴量設計 情報処理不等式 柔軟な回帰関数の下では、恣意的な情報変換は害悪でしかない Googleの猫細胞 [*1][*2] はあまりにも有名 [*1] Official Google Blog, “Using large-scale brain simulations for machine learning and A.I.” (2012). URL: https://googleblog.blogspot.com/2012/06/using-large-scale-brain- simulations-for.html [*2] Q. V. Le, et al., “Building High-level Features Using Large Scale Unsupervised Learning,” in Proc. Of ICML, 2012. 教師なし学習をしているのに、猫画像に対して発 火するニューロンが獲得された
19.
Copyright©2018 NTT corp.
All Rights Reserved. 19 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
20.
Copyright©2018 NTT corp.
All Rights Reserved. 20 観測音から目的音を抽出する信号処理 目的音 雑音 … 観測音 音源強調 出力音 マイク 音響信号処理の例:音源強調
21.
Copyright©2018 NTT corp.
All Rights Reserved. 21 情報処理としての音源強調 観測音から目的音を取り出す変換関数の設計問題 音源強調 ここでは、マイク1本での音源強調を想定 典型的な劣決定問題 未知変数の数 > 観測変数の数
22.
Copyright©2018 NTT corp.
All Rights Reserved. 22 End-to-end 音源強調 using DNN ?? 波形を入力し、波形を出力するニューラルネット?? … …… …… …… …… … …… End-to-end S. Pascual, et al., “SEGAN: Speech Enhancement Generative Adversarial Network,” in Proc of Interspeech, 2017. 例えば、以下の論文が有名
23.
Copyright©2018 NTT corp.
All Rights Reserved. 23 End-to-end 音源強調 using DNN ?? 波形を入力し、波形を出力するニューラルネット?? … …… …… …… …… … …… End-to-end S. Pascual, et al., “SEGAN: Speech Enhancement Generative Adversarial Network,” in Proc of Interspeech, 2017. 例えば、以下の論文が有名 現状 SOTAではない
24.
Copyright©2018 NTT corp.
All Rights Reserved. 24 完全 end-to-end vs. 信号処理-based DNN 波形領域の end-to-end < 信号処理-based Anonymous, “Phase-Aware Speech Enhancement with Deep Complex U-Net,” open review (submitted to ICLR 2019). URL: https://openreview.net/forum?id=SkeRTsAcYm [Deep Complex U-Net の音が聴けるページ] http://www.deepcomplexunet.tk [SEGAN の音が聴けるページ] URL: https://ccrma.stanford.edu/%7Efrancois/SpeechDenoisingWithDeepFeatureLosses/
25.
Copyright©2018 NTT corp.
All Rights Reserved. 25 とってもアバウトな”深層複素U-Net”の構成 フィルタリング DNNによる 複素マスク推定 FFT IFFT 目的音を強調するフィルタをDNNで推定 → 信号処理の未知パラメータの推定に利用
26.
Copyright©2018 NTT corp.
All Rights Reserved. 26 どんなときに end2end はうまくいかないか その理由を解明した論文はまだない 学習データが足りない説 DNN は回帰問題は苦手説 関数の組み方がダメ、自由度が高すぎる説 学習データですらうまく強調できないので考えにくい… 識別に関する理論解析は進むが、回帰は進まない 解空間の大きさや濃度 画像処理のCNN、自然言語処理の attention のようなキ ラー構造が波形領域にはまだ無い?
27.
Copyright©2018 NTT corp.
All Rights Reserved. 27 深層複素U-Net の正体 【音響 and/or 機械学習のプロ向けの話】 ここでは 音声の統計的性質(時間周波数領域でのスパース性)を利用 非線形フィルタリング(信号処理)をNNで表現 =信号処理の一連の流れを NN とみなし、 未知パラメータだけをNN で推定 FFT / IFFT を固定な 1-D convolution layer とみなせば、時間周 波数領域を経由しつつも、”end-to-end” な学習ができる 非線形フィルタリングの一般式 DNNを となる射影関数して、以下で学習 であり、行列演算で書ける 複素時間周波数マスク(非線形なフィルタのようなもの) を推定する、複素数のニューラルネットワーク
28.
Copyright©2018 NTT corp.
All Rights Reserved. 28 ここまでのまとめ 音響信号処理では完全な end-to-end はうまく動かない end-to-end がうまくいかない条件は、数学的には証明されてい ないため、この結論は将来は変わるかもしれない 【現在のトレンド】ネットワーク構造に利用する、物理 的/信号処理的な工夫が模索されている 音声の統計的性質を利用した信号処理を NN として記述し、そ の未知パラメータだけを NN で推定 & 波形領域誤差最小化学習 現状の世界最先端
29.
Copyright©2018 NTT corp.
All Rights Reserved. 29 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
30.
Copyright©2018 NTT corp.
All Rights Reserved. 30 機械の計算能力は人間を超えた 強力な写像関数も手に入れた では、なぜ(音の)機械学習は 人間を超えてくれないのか 20年後に向け 私たちはどんな研究をすべきだろうか?
31.
Copyright©2018 NTT corp.
All Rights Reserved. 31 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど) 3. 出力の価値判断(コスト関数など)
32.
Copyright©2018 NTT corp.
All Rights Reserved. 32 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど) DNNを複雑にすれば、任意の写像を表現可能 → 人間を超えている 3. 出力の価値判断(コスト関数など)
33.
Copyright©2018 NTT corp.
All Rights Reserved. 33 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど) DNNを複雑にすれば、任意の写像を表現可能 → 人間を超えている マイクだけ?画像だけ?一箇所で? → 人間と同等以下 3. 出力の価値判断(コスト関数など)
34.
Copyright©2018 NTT corp.
All Rights Reserved. 34 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど) 3. 出力の価値判断(コスト関数など) DNNを複雑にすれば、任意の写像を表現可能 → 人間を超えている マイクだけ?画像だけ?一箇所で? → 人間と同等以下 二乗誤差?クロスエントロピー? → 人間には遠く及ばない
35.
Copyright©2018 NTT corp.
All Rights Reserved. 35 人間を超える情報処理のために 人間を超える (1) センシングと (3) 価値判断 1. 実世界のセンシング(マイクロホンなど) 3. 出力の価値判断(コスト関数など)
36.
Copyright©2018 NTT corp.
All Rights Reserved. 36 手前味噌な研究紹介 人間を超える (1) センシングと (3) 価値判断 1. 実世界のセンシング(マイクロホンなど) 3. 出力の価値判断(コスト関数など) 100m 離れた場所に置いたマイクを連携させるには? 「音質」を最大化するように DNN を学習するには? Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018. Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.
37.
Copyright©2018 NTT corp.
All Rights Reserved. パラボラマイク 場内アナウンス (PAスピーカ) 応援団 競技音 37 野球場で歓声を消したい
38.
Copyright©2018 NTT corp.
All Rights Reserved. 38 人間の耳の限界を超えるには バックネットのマイク だけでは歓声が消せない
39.
Copyright©2018 NTT corp.
All Rights Reserved. 39 人間の耳の限界を超えるには distance > 100 m
40.
Copyright©2018 NTT corp.
All Rights Reserved. 40 人間とは異なる情報処理が必要 100m 離れた外野スタンドのマイクを連携させよう → 距離による伝搬遅延や長残響で単純な引き算はダメ 時間周波数 マスク設計 ×
41.
Copyright©2018 NTT corp.
All Rights Reserved. 41 時間周波数 マスク設計 × 遅延& 残響推定 人間とは異なる情報処理が必要 100m 離れた外野スタンドのマイクを連携させよう → 遅延や残響のキャリブレーションを追加
42.
Copyright©2018 NTT corp.
All Rights Reserved. 42 Multi-delay noise model 振幅領域での伝搬遅延/長残響のモデル化 Time-frame delay Gain Gain Gain …… Multi-delay noise model Multi-delay noise model Multi-delay noise model Time-frequency mask calc. 残響 伝搬遅延 Multi-delay noise model Multi-delay-block-filter の振幅領域での表現 + 遅延項の拡張 物理的制約を事前分布におき、残響/遅延パラメータをMAP推定 Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.
43.
Copyright©2018 NTT corp.
All Rights Reserved. 43 Modeling …! ホームベース付近に パラボラマイク 外野スタンドに ショットガンマイク Time [s] Freq.[kHz]Freq.[kHz]Freq.[kHz] パラボラマイク(ホームベース) ショットガンマイク(外野スタンド) 処理音 ストラーイク! ミット音 Time [s] 野球場での動作デモ 審判の声や捕球音を強調
44.
Copyright©2018 NTT corp.
All Rights Reserved. 44 手前味噌な研究紹介 人間を超える (1) センシング 1. 実世界のセンシング(マイクロホンなど) 100m 離れた場所に置いたマイクを連携させるには? Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018. 機械であれば、人間では実現不可能なセンシングが可能 そのセンサーをうまく活用するためには、その物理的性質 に対応した特殊な信号処理+機械学習の使い方が必要 センサーの選択や配置に関する最適性はまだ未知…
45.
Copyright©2018 NTT corp.
All Rights Reserved. 45 手前味噌な研究紹介 1. 実世界のセンシング(マイクロホンなど) 3. 出力の価値判断(コスト関数など) 100m 離れた場所に置いたマイクを連携させるには? 「音質」を最大化するように DNN を学習するには? Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018. Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018. 人間を超える (1) センシングと (3) 価値判断
46.
Copyright©2018 NTT corp.
All Rights Reserved. 46 価値判断(コスト関数)の重要性 DNN にどんな情報を推定してほしいのか? 自然言語:対話の「満足度」を上げたい → 満足度最大化 ≠ クロスエントロピー 音源強調:人が聞いて「良い」と思える音を出力したい → 音質最大化 ≠ 二乗誤差 DNNを学習するコスト関数と、 本当に推定したい情報のミスマッチ… 計算機を人間と同じ感性の元で最適化するには? 1. 人間の感性の計算機による再現 2. ブラックボックスな指標を最大化する学習法の創出 こちらの紹介
47.
Copyright©2018 NTT corp.
All Rights Reserved. 47 主観的な音質評価を最大化したい ブラックボックス関数は微分不可能 (Backprop.が困難) ??? 人間は DNN のコスト関数になれるか?
48.
Copyright©2018 NTT corp.
All Rights Reserved. 48 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Game score Reward func.Action selector Action candi- dates Action … … … … ゲームスコアさえあれば DNNが学習できる ビデオゲームや囲碁の学習に成功している! 音源強調に応用できないか?
49.
Copyright©2018 NTT corp.
All Rights Reserved. 49 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Reward func.Mask generator T-F mask Masking … … … … スコアを主観評価と 捉えれば最適化できる? 学習には大量の試行が必要 ⇒ 主観評価そのままの利用は厳しい…
50.
Copyright©2018 NTT corp.
All Rights Reserved. 50 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Reward func.Mask generator T-F mask Masking … … … … 人間の主観評価を模擬した定量 評価指標を利用 (e.g. PESQ) PC上のシミュレーションで完結
51.
Copyright©2018 NTT corp.
All Rights Reserved. 51 DNN音源強調のブラックボックス最適化 DNNを用いて目的関数を定義 サンプリングを用いた勾配の近似計算(policy gradient) 出力音の条件付き分布を DNNで記述 聴感評点の最大化を 目的関数とする
52.
Copyright©2018 NTT corp.
All Rights Reserved. 聴感評点の例 52 音質の定量指標の例 明瞭度(単語の聞き取りやすさ)の定量指標の例 PESQ: Perceptual Evaluation of Speech Quality 音声符号化などで使われる音質の定量評価指標 Input: 目的音と出力音の音声ファイル Output: 人間の音質評価(MOS)を模擬した値 ⇒ PESQを上げ、出力音の音質向上を狙う STOI: Short-Time Objective Intelligibility 音声強調などで使われる明瞭度の定量評価指標 Input: 目的音と出力音の音声ファイル Output: 人間の単語正解率を模擬した値 ⇒ STOIを上げ、出力音の明瞭度向上を狙う
53.
Copyright©2018 NTT corp.
All Rights Reserved. 評価実験 1/2(定量評価実験) 53 音質指標 PESQの向上値 【実験1】:学習回数が進むに従い、聴感評点が向上 明瞭度指標 STOIの向上値 学習回数 学習回数 【実験2】:学習に利用した聴感評点が、従来法より優位に向上 SDR [dB](歪み) PESQ (音質) STOI [%](明瞭度) PSM [Erdogan,2015] 9.40 2.27 83.3 提案法(PESQ) 9.19 2.37 83.4 提案法(STOI) 9.74 2.20 87.3 学習が進むにつれ、目標としてい る聴感評点も向上 学習に用いた聴感評点は従来法より も優位に向上 (Input SNR: 0dB, Open test) 聴感評点を向上させるDNN学習に成功 従来技術と比べ、聴感評点が優位に向上
54.
Copyright©2018 NTT corp.
All Rights Reserved. 評価実験 2/2(主観評価実験) 54 音質の主観評価値 従来法 提案法 (PESQ) 提案法 (STOI) 単語了解度[%] 【実験1 】 出力音の音質を5段階で絶対評価 (PESQが模擬している試験) 良 悪 良 悪 【実験2 】 親密度の低い単語の聞き取り正解率 (STOIが模擬している試験) 従来法 提案法 (PESQ) 提案法 (STOI) 従来法 提案法(PESQ) 従来法 提案法(STOI) PESQ最大化で 音質が向上 STOI最大化で 明瞭度が向上 聴感評点に対応する主観品質も、従来法と比べ優位に向上
55.
Copyright©2018 NTT corp.
All Rights Reserved. 評価実験 2/2(主観評価実験) 55 音質の主観評価値 従来法 提案法 (PESQ) 提案法 (STOI) 単語了解度[%] 【実験1 】 出力音の音質を5段階で絶対評価 (PESQが模擬している試験) 良 悪 良 悪 【実験2 】 親密度の低い単語の聞き取り正解率 (STOIが模擬している試験) 従来法 提案法 (PESQ) 提案法 (STOI) 従来法 提案法(PESQ) 聴感評点に対応する主観品質も、従来法と比べ優位に向上 従来法 提案法(STOI) 正解は「タカドノ」 従来法の正答率:31%, 提案法の正答率:81% 従来法は、雑音を削りすぎ、冒頭の子音の明瞭度が 低下しため、「ハカドノ」などと誤回答
56.
Copyright©2018 NTT corp.
All Rights Reserved. 56 手前味噌な研究紹介 人間を超える (1) センシングと (3) 価値判断 3. 出力の価値判断(コスト関数など) 「音質」を最大化するように DNN を学習するには? Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018. DNNの出力の統計的性質はコスト関数依存 人が本当に欲しい情報を DNN が出力するためには 人間と同等の価値判断(コスト関数) 人間を超えるブラックボックス最適化(optimizer) が必要 ほとんど未着手かつ、文理融合が必要な研究領域。そろそろ 縦割り研究を超える頃ではないでしょうか?
57.
Copyright©2018 NTT corp.
All Rights Reserved. 57 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
58.
Copyright©2018 NTT corp.
All Rights Reserved. 58 小規模/安価/中性能な計算機 DNNは音響の世界で実用的か? 音響の世界では、未だローカル処理が求められることがほとんど リアルタイム性:e.g. 音声通話 ネットワークコスト制約:e.g. 異常音検知 計算機の ”ベースライン” が上がらないと 成り立たないビジネスが多い 計算機パワーの向上は機械学習のブレイクスルー まだ壊して欲しい壁が沢山。特に低レイヤー向けの中性能計算機
59.
Copyright©2018 NTT corp.
All Rights Reserved. 59 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
60.
Copyright©2018 NTT corp.
All Rights Reserved. 60 まず手を動かそう 未だ、メディア処理には、 言語化しにくいノウハウが沢山 First Step 触ってみないと、できる/できないの直感が働かない
61.
Copyright©2018 NTT corp.
All Rights Reserved. 61 技術者 (Scientist/Engineer) であれ ノウハウがたまると データ/計算機/DNN があれば推定はできてしまう No more “やっただけ” 論文!! やっただけでは問題が “解けた” ことにはならない 問題の本質は?最もエレガントな解法は? ※ 企業としてはそれでいいことも多い Next Step
62.
Copyright©2018 NTT corp.
All Rights Reserved. 62 【再掲】Take home message 何でもかんでも大量データ & end-to-end でいいのか? 現状、音響信号処理に関しては No 1. ネットワーク構造に物理的/信号処理的な工夫が必要 2. 人間を超えるためには、 センサー配置や目的関数の工夫も必要 ※ end-to-end がうまくいかない条件は、数学的には証明されていないため、 この結論は将来は変わるかもしれない 現状の到達点 将来への展望
63.
Copyright©2018 NTT corp.
All Rights Reserved. 63 Q&A
Télécharger maintenant