SlideShare une entreprise Scribd logo
1  sur  63
Télécharger pour lire hors ligne
Copyright©2018 NTT corp. All Rights Reserved.
2018/12/21 @ ICTイノベーションセミナー, 首都大学東京
1
日本電信電話株式会社
NTTメディアインテリジェンス研究所
小泉 悠馬
【招待講演】
深層学習と音響信号処理
Copyright©2018 NTT corp. All Rights Reserved. 2
 小泉 悠馬(こいずみ ゆうま)
1990年02月01日 東京生まれ, 北名古屋市&稲城市育ち
略歴
 2014年: 法政大学 情報科学研究科 修了
 2014年: NTTメディアインテリジェンス研究所 入所
 2017年: 博士(工学) (電気通信大学)
研究内容
 音響信号処理 × 機械学習の基礎研究と実用化
 音源強調:うるさい中から欲しい音だけ取り出したい!
 異常検知:周囲の異変を音から検知したい!
自己紹介
Copyright©2018 NTT corp. All Rights Reserved. 3
Take home message
何でもかんでも大量データ & end-to-end でいいのか?
現状、音響信号処理に関しては No
1. ネットワーク構造に物理的/信号処理的な工夫が必要
2. 人間を超えるためには、
センサー配置や目的関数の工夫も必要
※ end-to-end がうまくいかない条件は、数学的には証明されていないため、
この結論は将来は変わるかもしれない
現状の到達点
将来への展望
Copyright©2018 NTT corp. All Rights Reserved. 4
実環境での音響信号処理サービス
計算機/通信の発達で音の情報処理技術はどんどん身近に
音声認識
エンターテイメント
異常音検知
音声通信
4
Copyright©2018 NTT corp. All Rights Reserved. 5
音源強調の必要性
雑音が音情報処理性能を低下させる
→ うるさい中から欲しい音を取り出す技術が必須
雑音が大きく
音声認識できない
競技音が埋もれ
臨場感が伝わらない
音声認識 スポーツ中継
Copyright©2018 NTT corp. All Rights Reserved. 6
音響信号処理の例:音源強調
騒音下でも通話や音声認識を可能にします
 100 dB の騒音下で目的音を抽出&音声認識
Copyright©2018 NTT corp. All Rights Reserved. 7
音響信号処理の例:音源強調
サッカースタジアムでキック音だけ強調します
周囲のスピーカーで
競技場の歓声を再現
Copyright©2018 NTT corp. All Rights Reserved. 8
今日の話題
情報処理と機械学習&深層学習
深層学習と音響信号処理(音源強調)の到達点
学生の皆さんへメッセージ
人間を超える情報処理へ
計算機基盤の進歩に期待すること
Copyright©2018 NTT corp. All Rights Reserved. 9
情報処理とはなんだろうか
Copyright©2018 NTT corp. All Rights Reserved. 10
情報処理とはなんだろうか
与えられた情報を別の情報に変換する処理
なんらかの処理入力 出力
Copyright©2018 NTT corp. All Rights Reserved. 11
情報処理とはなんだろうか
与えられた情報を別の情報に変換する処理
数理モデル入力 出力
計算機で実現するために、情報変換を数式で表す
Copyright©2018 NTT corp. All Rights Reserved. 12
情報処理とはなんだろうか
入力 出力
どんな数理モデルがいい?
 定量的な根拠を元にモデルを立てる方がよい
 レイトレーシング(物理ベース)
物理モデル
⇨ 写真と見間違うような画像を出力できる
 光源位置
 物体位置
 反射率
etc…
[*] Wikipedia, “Ray tracing (graphics)”
URL: https://en.wikipedia.org/wiki/Ray_tracing_(graphics)
[*]
Copyright©2018 NTT corp. All Rights Reserved. 13
情報処理とはなんだろうか
 画像/音声などメディアの認識
 人間の認識処理は未だ解明されていない
 そもそも、対象の定義自体が人間の恣意的なもの
???
入力 出力
Horse
or
(0,0,0,0,0,0,0,1,0,0)
[*] An image from “The CIFAR-10 dataset”
URL: https://www.cs.toronto.edu/~kriz/cifar.html
[*]
根拠に基づくモデルは立てられないことが多い
Copyright©2018 NTT corp. All Rights Reserved. 14
ブラックボックスな
情報変換(写像)を
計算機で再現するには?
Copyright©2018 NTT corp. All Rights Reserved. 15
機械学習
変換関数
入力 目的関数
正解出力
関数形がブラックボックスな写像を
入出力のデータだけから再現する方法
1. 変換関数を決めて
2. 目的関数を決めて
3. 最適化する
和訳
Copyright©2018 NTT corp. All Rights Reserved. 16
(深層)ニューラルネットワーク
微分可能な関数の合成関数でできた変換関数
 沢山の亜種があるが、結局全部、ただの合成関数
 無限個の関数を合成すれば任意の写像が表現可能
[*1] Wikipedia, “Artificial neural network”, https://en.wikipedia.org/wiki/Artificial_neural_network
[*2] Wikipedia, “Long short-term memory”, https://en.wikipedia.org/wiki/Long_short-term_memory
[*3] Wikipedia, “Convolutional neural network”, https://en.wikipedia.org/wiki/Convolutional_neural_network
Shallow LSTM CNN
[*1] [*2] [*3]
Copyright©2018 NTT corp. All Rights Reserved. 17
現状、最有力な変換関数として君臨
画像/音声/自然言語を含む、
多くのメディア処理で SOTA な性能を実現
※ 釈迦に説法ですが…
 画像認識: AlexNet (2012) [*1] などから
 音声認識: DNN-HMM (2011) [*2] などから
※ 当然、これらメディア処理にNNを使うアプローチは大昔からある。
[*1] A. Krizhevsky, et al., “Imagenet classification with deep convolutional neural networks,” in Proc. of NIPS, 2012
[*2] F. Seide, et al., “Conversational speech transcription using context-dependent deep neural networks,” in Proc. of
Interspeech, 2011.
[*3] A. Narayananand, et al., “Ideal ratio mask estimation using deep neural networks for robust speech recognition,” in
Proc. of ICASSP, 2013.
 音源強調: IRM推定 (2013) [*3] などから
Copyright©2018 NTT corp. All Rights Reserved. 18
なぜ end-to-end はうまくいくのか
恣意性の排除、data-driven な特徴量設計
情報処理不等式
 柔軟な回帰関数の下では、恣意的な情報変換は害悪でしかない
 Googleの猫細胞 [*1][*2] はあまりにも有名
[*1] Official Google Blog, “Using large-scale brain simulations for machine learning
and A.I.” (2012).
URL: https://googleblog.blogspot.com/2012/06/using-large-scale-brain-
simulations-for.html
[*2] Q. V. Le, et al., “Building High-level Features Using Large Scale Unsupervised
Learning,” in Proc. Of ICML, 2012.
 教師なし学習をしているのに、猫画像に対して発
火するニューロンが獲得された
Copyright©2018 NTT corp. All Rights Reserved. 19
今日の話題
情報処理と機械学習&深層学習
深層学習と音響信号処理(音源強調)の到達点
学生の皆さんへメッセージ
人間を超える情報処理へ
計算機基盤の進歩に期待すること
Copyright©2018 NTT corp. All Rights Reserved. 20
観測音から目的音を抽出する信号処理
目的音
雑音 …
観測音
音源強調
出力音
マイク
音響信号処理の例:音源強調
Copyright©2018 NTT corp. All Rights Reserved. 21
情報処理としての音源強調
観測音から目的音を取り出す変換関数の設計問題
音源強調
 ここでは、マイク1本での音源強調を想定
 典型的な劣決定問題
未知変数の数 > 観測変数の数
Copyright©2018 NTT corp. All Rights Reserved. 22
End-to-end 音源強調 using DNN ??
波形を入力し、波形を出力するニューラルネット??
…
……
……
……
……
…
……
End-to-end
S. Pascual, et al., “SEGAN: Speech Enhancement Generative Adversarial
Network,” in Proc of Interspeech, 2017.
 例えば、以下の論文が有名
Copyright©2018 NTT corp. All Rights Reserved. 23
End-to-end 音源強調 using DNN ??
波形を入力し、波形を出力するニューラルネット??
…
……
……
……
……
…
……
End-to-end
S. Pascual, et al., “SEGAN: Speech Enhancement Generative Adversarial
Network,” in Proc of Interspeech, 2017.
 例えば、以下の論文が有名
現状
SOTAではない
Copyright©2018 NTT corp. All Rights Reserved. 24
完全 end-to-end vs. 信号処理-based DNN
波形領域の end-to-end < 信号処理-based
Anonymous, “Phase-Aware Speech Enhancement with Deep Complex U-Net,” open review (submitted to ICLR 2019).
URL: https://openreview.net/forum?id=SkeRTsAcYm
[Deep Complex U-Net の音が聴けるページ]
http://www.deepcomplexunet.tk
[SEGAN の音が聴けるページ]
URL: https://ccrma.stanford.edu/%7Efrancois/SpeechDenoisingWithDeepFeatureLosses/
Copyright©2018 NTT corp. All Rights Reserved. 25
とってもアバウトな”深層複素U-Net”の構成
フィルタリング
DNNによる
複素マスク推定
FFT IFFT
目的音を強調するフィルタをDNNで推定
→ 信号処理の未知パラメータの推定に利用
Copyright©2018 NTT corp. All Rights Reserved. 26
どんなときに end2end はうまくいかないか
その理由を解明した論文はまだない
 学習データが足りない説
 DNN は回帰問題は苦手説
 関数の組み方がダメ、自由度が高すぎる説
 学習データですらうまく強調できないので考えにくい…
 識別に関する理論解析は進むが、回帰は進まない
 解空間の大きさや濃度
 画像処理のCNN、自然言語処理の attention のようなキ
ラー構造が波形領域にはまだ無い?
Copyright©2018 NTT corp. All Rights Reserved. 27
深層複素U-Net の正体
【音響 and/or 機械学習のプロ向けの話】
ここでは
 音声の統計的性質(時間周波数領域でのスパース性)を利用
 非線形フィルタリング(信号処理)をNNで表現
=信号処理の一連の流れを NN とみなし、
未知パラメータだけをNN で推定
 FFT / IFFT を固定な 1-D convolution layer とみなせば、時間周
波数領域を経由しつつも、”end-to-end” な学習ができる
 非線形フィルタリングの一般式
 DNNを となる射影関数して、以下で学習
であり、行列演算で書ける
複素時間周波数マスク(非線形なフィルタのようなもの)
を推定する、複素数のニューラルネットワーク
Copyright©2018 NTT corp. All Rights Reserved. 28
ここまでのまとめ
 音響信号処理では完全な end-to-end はうまく動かない
 end-to-end がうまくいかない条件は、数学的には証明されてい
ないため、この結論は将来は変わるかもしれない
 【現在のトレンド】ネットワーク構造に利用する、物理
的/信号処理的な工夫が模索されている
 音声の統計的性質を利用した信号処理を NN として記述し、そ
の未知パラメータだけを NN で推定 & 波形領域誤差最小化学習
現状の世界最先端
Copyright©2018 NTT corp. All Rights Reserved. 29
今日の話題
情報処理と機械学習&深層学習
深層学習と音響信号処理(音源強調)の到達点
学生の皆さんへメッセージ
人間を超える情報処理へ
計算機基盤の進歩に期待すること
Copyright©2018 NTT corp. All Rights Reserved. 30
機械の計算能力は人間を超えた
強力な写像関数も手に入れた
では、なぜ(音の)機械学習は
人間を超えてくれないのか
20年後に向け
私たちはどんな研究をすべきだろうか?
Copyright©2018 NTT corp. All Rights Reserved. 31
今、機械学習に何ができていないのか
情報処理の登場人物は主に3人
1. 実世界のセンシング(マイクロホンなど)
2. 情報の変換(DNNなど)
3. 出力の価値判断(コスト関数など)
Copyright©2018 NTT corp. All Rights Reserved. 32
今、機械学習に何ができていないのか
情報処理の登場人物は主に3人
1. 実世界のセンシング(マイクロホンなど)
2. 情報の変換(DNNなど)
 DNNを複雑にすれば、任意の写像を表現可能
→ 人間を超えている
3. 出力の価値判断(コスト関数など)
Copyright©2018 NTT corp. All Rights Reserved. 33
今、機械学習に何ができていないのか
情報処理の登場人物は主に3人
1. 実世界のセンシング(マイクロホンなど)
2. 情報の変換(DNNなど)
 DNNを複雑にすれば、任意の写像を表現可能
→ 人間を超えている
 マイクだけ?画像だけ?一箇所で?
→ 人間と同等以下
3. 出力の価値判断(コスト関数など)
Copyright©2018 NTT corp. All Rights Reserved. 34
今、機械学習に何ができていないのか
情報処理の登場人物は主に3人
1. 実世界のセンシング(マイクロホンなど)
2. 情報の変換(DNNなど)
3. 出力の価値判断(コスト関数など)
 DNNを複雑にすれば、任意の写像を表現可能
→ 人間を超えている
 マイクだけ?画像だけ?一箇所で?
→ 人間と同等以下
 二乗誤差?クロスエントロピー?
→ 人間には遠く及ばない
Copyright©2018 NTT corp. All Rights Reserved. 35
人間を超える情報処理のために
人間を超える (1) センシングと (3) 価値判断
1. 実世界のセンシング(マイクロホンなど)
3. 出力の価値判断(コスト関数など)
Copyright©2018 NTT corp. All Rights Reserved. 36
手前味噌な研究紹介
人間を超える (1) センシングと (3) 価値判断
1. 実世界のセンシング(マイクロホンなど)
3. 出力の価値判断(コスト関数など)
 100m 離れた場所に置いたマイクを連携させるには?
 「音質」を最大化するように DNN を学習するには?
Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model
Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.
Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound
Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.
Copyright©2018 NTT corp. All Rights Reserved.
パラボラマイク
場内アナウンス
(PAスピーカ)
応援団
競技音
37
野球場で歓声を消したい
Copyright©2018 NTT corp. All Rights Reserved. 38
人間の耳の限界を超えるには
バックネットのマイク
だけでは歓声が消せない
Copyright©2018 NTT corp. All Rights Reserved. 39
人間の耳の限界を超えるには
distance
> 100 m
Copyright©2018 NTT corp. All Rights Reserved. 40
人間とは異なる情報処理が必要
100m 離れた外野スタンドのマイクを連携させよう
→ 距離による伝搬遅延や長残響で単純な引き算はダメ
時間周波数
マスク設計
×
Copyright©2018 NTT corp. All Rights Reserved. 41
時間周波数
マスク設計
×
遅延&
残響推定
人間とは異なる情報処理が必要
100m 離れた外野スタンドのマイクを連携させよう
→ 遅延や残響のキャリブレーションを追加
Copyright©2018 NTT corp. All Rights Reserved. 42
Multi-delay noise model
振幅領域での伝搬遅延/長残響のモデル化
Time-frame
delay
Gain
Gain
Gain
……
Multi-delay noise model
Multi-delay
noise model
Multi-delay
noise model
Time-frequency
mask calc.
残響 伝搬遅延
Multi-delay noise model
 Multi-delay-block-filter の振幅領域での表現 + 遅延項の拡張
 物理的制約を事前分布におき、残響/遅延パラメータをMAP推定
Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,”
in Proc of EUSIPCO, 2018.
Copyright©2018 NTT corp. All Rights Reserved. 43
Modeling
…!
ホームベース付近に
パラボラマイク
外野スタンドに
ショットガンマイク
Time [s]
Freq.[kHz]Freq.[kHz]Freq.[kHz]
パラボラマイク(ホームベース)
ショットガンマイク(外野スタンド)
処理音
ストラーイク!
ミット音
Time [s]
野球場での動作デモ
審判の声や捕球音を強調
Copyright©2018 NTT corp. All Rights Reserved. 44
手前味噌な研究紹介
人間を超える (1) センシング
1. 実世界のセンシング(マイクロホンなど)
 100m 離れた場所に置いたマイクを連携させるには?
Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model
Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.
 機械であれば、人間では実現不可能なセンシングが可能
 そのセンサーをうまく活用するためには、その物理的性質
に対応した特殊な信号処理+機械学習の使い方が必要
 センサーの選択や配置に関する最適性はまだ未知…
Copyright©2018 NTT corp. All Rights Reserved. 45
手前味噌な研究紹介
1. 実世界のセンシング(マイクロホンなど)
3. 出力の価値判断(コスト関数など)
 100m 離れた場所に置いたマイクを連携させるには?
 「音質」を最大化するように DNN を学習するには?
Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model
Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.
Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound
Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.
人間を超える (1) センシングと (3) 価値判断
Copyright©2018 NTT corp. All Rights Reserved. 46
価値判断(コスト関数)の重要性
DNN にどんな情報を推定してほしいのか?
 自然言語:対話の「満足度」を上げたい
→ 満足度最大化 ≠ クロスエントロピー
 音源強調:人が聞いて「良い」と思える音を出力したい
→ 音質最大化 ≠ 二乗誤差
DNNを学習するコスト関数と、
本当に推定したい情報のミスマッチ…
計算機を人間と同じ感性の元で最適化するには?
1. 人間の感性の計算機による再現
2. ブラックボックスな指標を最大化する学習法の創出
こちらの紹介
Copyright©2018 NTT corp. All Rights Reserved. 47
主観的な音質評価を最大化したい
ブラックボックス関数は微分不可能 (Backprop.が困難)
???
人間は DNN のコスト関数になれるか?
Copyright©2018 NTT corp. All Rights Reserved. 48
DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
Game
score
Reward func.Action selector
Action
candi-
dates
Action
…
…
…
…
ゲームスコアさえあれば
DNNが学習できる
ビデオゲームや囲碁の学習に成功している!
音源強調に応用できないか?
Copyright©2018 NTT corp. All Rights Reserved. 49
DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
Reward func.Mask generator
T-F
mask
Masking
…
…
…
…
スコアを主観評価と
捉えれば最適化できる?
学習には大量の試行が必要 ⇒ 主観評価そのままの利用は厳しい…
Copyright©2018 NTT corp. All Rights Reserved. 50
DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
Reward func.Mask generator
T-F
mask
Masking
…
…
…
…
人間の主観評価を模擬した定量
評価指標を利用 (e.g. PESQ)
PC上のシミュレーションで完結
Copyright©2018 NTT corp. All Rights Reserved. 51
DNN音源強調のブラックボックス最適化
DNNを用いて目的関数を定義
サンプリングを用いた勾配の近似計算(policy gradient)
出力音の条件付き分布を
DNNで記述
聴感評点の最大化を
目的関数とする
Copyright©2018 NTT corp. All Rights Reserved.
聴感評点の例
52
音質の定量指標の例
明瞭度(単語の聞き取りやすさ)の定量指標の例
 PESQ: Perceptual Evaluation of Speech Quality
 音声符号化などで使われる音質の定量評価指標
Input: 目的音と出力音の音声ファイル
Output: 人間の音質評価(MOS)を模擬した値
⇒ PESQを上げ、出力音の音質向上を狙う
 STOI: Short-Time Objective Intelligibility
 音声強調などで使われる明瞭度の定量評価指標
Input: 目的音と出力音の音声ファイル
Output: 人間の単語正解率を模擬した値
⇒ STOIを上げ、出力音の明瞭度向上を狙う
Copyright©2018 NTT corp. All Rights Reserved.
評価実験 1/2(定量評価実験)
53
音質指標
PESQの向上値
【実験1】:学習回数が進むに従い、聴感評点が向上
明瞭度指標
STOIの向上値
学習回数 学習回数
【実験2】:学習に利用した聴感評点が、従来法より優位に向上
SDR [dB](歪み) PESQ (音質) STOI [%](明瞭度)
PSM [Erdogan,2015] 9.40 2.27 83.3
提案法(PESQ) 9.19 2.37 83.4
提案法(STOI) 9.74 2.20 87.3
 学習が進むにつれ、目標としてい
る聴感評点も向上
 学習に用いた聴感評点は従来法より
も優位に向上
(Input SNR: 0dB, Open test)
 聴感評点を向上させるDNN学習に成功
 従来技術と比べ、聴感評点が優位に向上
Copyright©2018 NTT corp. All Rights Reserved.
評価実験 2/2(主観評価実験)
54
音質の主観評価値
従来法
提案法
(PESQ)
提案法
(STOI)
単語了解度[%]
【実験1 】
出力音の音質を5段階で絶対評価
(PESQが模擬している試験)
良
悪
良
悪
【実験2 】
親密度の低い単語の聞き取り正解率
(STOIが模擬している試験)
従来法
提案法
(PESQ)
提案法
(STOI)
従来法 提案法(PESQ) 従来法 提案法(STOI)
PESQ最大化で
音質が向上
STOI最大化で
明瞭度が向上
 聴感評点に対応する主観品質も、従来法と比べ優位に向上
Copyright©2018 NTT corp. All Rights Reserved.
評価実験 2/2(主観評価実験)
55
音質の主観評価値
従来法
提案法
(PESQ)
提案法
(STOI)
単語了解度[%]
【実験1 】
出力音の音質を5段階で絶対評価
(PESQが模擬している試験)
良
悪
良
悪
【実験2 】
親密度の低い単語の聞き取り正解率
(STOIが模擬している試験)
従来法
提案法
(PESQ)
提案法
(STOI)
従来法 提案法(PESQ)
 聴感評点に対応する主観品質も、従来法と比べ優位に向上
従来法 提案法(STOI)
正解は「タカドノ」
従来法の正答率:31%, 提案法の正答率:81%
従来法は、雑音を削りすぎ、冒頭の子音の明瞭度が
低下しため、「ハカドノ」などと誤回答
Copyright©2018 NTT corp. All Rights Reserved. 56
手前味噌な研究紹介
人間を超える (1) センシングと (3) 価値判断
3. 出力の価値判断(コスト関数など)
 「音質」を最大化するように DNN を学習するには?
Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound
Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.
 DNNの出力の統計的性質はコスト関数依存
 人が本当に欲しい情報を DNN が出力するためには
 人間と同等の価値判断(コスト関数)
 人間を超えるブラックボックス最適化(optimizer)
が必要
 ほとんど未着手かつ、文理融合が必要な研究領域。そろそろ
縦割り研究を超える頃ではないでしょうか?
Copyright©2018 NTT corp. All Rights Reserved. 57
今日の話題
情報処理と機械学習&深層学習
深層学習と音響信号処理(音源強調)の到達点
学生の皆さんへメッセージ
人間を超える情報処理へ
計算機基盤の進歩に期待すること
Copyright©2018 NTT corp. All Rights Reserved. 58
小規模/安価/中性能な計算機
DNNは音響の世界で実用的か?
 音響の世界では、未だローカル処理が求められることがほとんど
 リアルタイム性:e.g. 音声通話
 ネットワークコスト制約:e.g. 異常音検知
計算機の ”ベースライン” が上がらないと
成り立たないビジネスが多い
 計算機パワーの向上は機械学習のブレイクスルー
 まだ壊して欲しい壁が沢山。特に低レイヤー向けの中性能計算機
Copyright©2018 NTT corp. All Rights Reserved. 59
今日の話題
情報処理と機械学習&深層学習
深層学習と音響信号処理(音源強調)の到達点
学生の皆さんへメッセージ
人間を超える情報処理へ
計算機基盤の進歩に期待すること
Copyright©2018 NTT corp. All Rights Reserved. 60
まず手を動かそう
未だ、メディア処理には、
言語化しにくいノウハウが沢山
First Step
触ってみないと、できる/できないの直感が働かない
Copyright©2018 NTT corp. All Rights Reserved. 61
技術者 (Scientist/Engineer) であれ
ノウハウがたまると
データ/計算機/DNN があれば推定はできてしまう
No more “やっただけ” 論文!!
やっただけでは問題が “解けた” ことにはならない
問題の本質は?最もエレガントな解法は?
※ 企業としてはそれでいいことも多い
Next Step
Copyright©2018 NTT corp. All Rights Reserved. 62
【再掲】Take home message
何でもかんでも大量データ & end-to-end でいいのか?
現状、音響信号処理に関しては No
1. ネットワーク構造に物理的/信号処理的な工夫が必要
2. 人間を超えるためには、
センサー配置や目的関数の工夫も必要
※ end-to-end がうまくいかない条件は、数学的には証明されていないため、
この結論は将来は変わるかもしれない
現状の到達点
将来への展望
Copyright©2018 NTT corp. All Rights Reserved. 63
Q&A

Contenu connexe

Tendances

音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用Yuma Koizumi
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用Yuma Koizumi
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...Yui Sudo
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデルDeep Learning JP
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類Keisuke Imoto
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Shintaro Fukushima
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Preferred Networks
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?Masanao Ochi
 

Tendances (20)

音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 

Similaire à 深層学習と音響信号処理

ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知Core Concept Technologies
 
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~Kentaro Imai
 
実世界の人工知能@DeNA TechCon 2017
実世界の人工知能@DeNA TechCon 2017 実世界の人工知能@DeNA TechCon 2017
実世界の人工知能@DeNA TechCon 2017 Preferred Networks
 
Ict委員会の開発力について
Ict委員会の開発力についてIct委員会の開発力について
Ict委員会の開発力についてYuta Hinokuma
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)Yuya Unno
 
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?aslead
 
スマートライフのパートナーを目指すドコモr&d(予告編)
スマートライフのパートナーを目指すドコモr&d(予告編)スマートライフのパートナーを目指すドコモr&d(予告編)
スマートライフのパートナーを目指すドコモr&d(予告編)Osaka University
 
20190601栄光学園進路ガイダンス
20190601栄光学園進路ガイダンス20190601栄光学園進路ガイダンス
20190601栄光学園進路ガイダンスKeita Miyano
 
[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用
[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用
[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用Google Cloud Platform - Japan
 
情報処理とは何か あとbigdataとか
情報処理とは何か あとbigdataとか情報処理とは何か あとbigdataとか
情報処理とは何か あとbigdataとかTokoroten Nakayama
 
デジタルが切り開く未来ビジネス
デジタルが切り開く未来ビジネスデジタルが切り開く未来ビジネス
デジタルが切り開く未来ビジネスOsaka University
 
ソフトウェアとAIの進化が示唆するもの Final Final revised Final
ソフトウェアとAIの進化が示唆するもの Final Final revised FinalソフトウェアとAIの進化が示唆するもの Final Final revised Final
ソフトウェアとAIの進化が示唆するもの Final Final revised FinalRoy Sugimura, Ph.D
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術Shohei Hido
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
生活支援ロボットにおける 大規模データ収集に向けて
生活支援ロボットにおける大規模データ収集に向けて生活支援ロボットにおける大規模データ収集に向けて
生活支援ロボットにおける 大規模データ収集に向けてKomei Sugiura
 
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話Tohru Yoshioka-Kobayashi
 
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステムJunichi Noda
 

Similaire à 深層学習と音響信号処理 (20)

ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知
 
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
 
実世界の人工知能@DeNA TechCon 2017
実世界の人工知能@DeNA TechCon 2017 実世界の人工知能@DeNA TechCon 2017
実世界の人工知能@DeNA TechCon 2017
 
Ict委員会の開発力について
Ict委員会の開発力についてIct委員会の開発力について
Ict委員会の開発力について
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
 
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
最新事例から学ぶ! リモートワークを成功させる最適ソリューションとは?
 
スマートライフのパートナーを目指すドコモr&d(予告編)
スマートライフのパートナーを目指すドコモr&d(予告編)スマートライフのパートナーを目指すドコモr&d(予告編)
スマートライフのパートナーを目指すドコモr&d(予告編)
 
20190601栄光学園進路ガイダンス
20190601栄光学園進路ガイダンス20190601栄光学園進路ガイダンス
20190601栄光学園進路ガイダンス
 
[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用
[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用
[INEVITABLE ja night] 2018 年 12 月 14 日 - 「家庭」が見える!?電力データを利用した機器分離技術の活用
 
情報処理とは何か あとbigdataとか
情報処理とは何か あとbigdataとか情報処理とは何か あとbigdataとか
情報処理とは何か あとbigdataとか
 
可視化の先にあるものとは
可視化の先にあるものとは可視化の先にあるものとは
可視化の先にあるものとは
 
デジタルが切り開く未来ビジネス
デジタルが切り開く未来ビジネスデジタルが切り開く未来ビジネス
デジタルが切り開く未来ビジネス
 
ソフトウェアとAIの進化が示唆するもの Final Final revised Final
ソフトウェアとAIの進化が示唆するもの Final Final revised FinalソフトウェアとAIの進化が示唆するもの Final Final revised Final
ソフトウェアとAIの進化が示唆するもの Final Final revised Final
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術
 
[Japan Tech summit 2017] MAI 001
[Japan Tech summit 2017]  MAI 001[Japan Tech summit 2017]  MAI 001
[Japan Tech summit 2017] MAI 001
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
生活支援ロボットにおける 大規模データ収集に向けて
生活支援ロボットにおける大規模データ収集に向けて生活支援ロボットにおける大規模データ収集に向けて
生活支援ロボットにおける 大規模データ収集に向けて
 
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
 
kaneko202304.pptx
kaneko202304.pptxkaneko202304.pptx
kaneko202304.pptx
 
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
 

Dernier

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 

Dernier (9)

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 

深層学習と音響信号処理

  • 1. Copyright©2018 NTT corp. All Rights Reserved. 2018/12/21 @ ICTイノベーションセミナー, 首都大学東京 1 日本電信電話株式会社 NTTメディアインテリジェンス研究所 小泉 悠馬 【招待講演】 深層学習と音響信号処理
  • 2. Copyright©2018 NTT corp. All Rights Reserved. 2  小泉 悠馬(こいずみ ゆうま) 1990年02月01日 東京生まれ, 北名古屋市&稲城市育ち 略歴  2014年: 法政大学 情報科学研究科 修了  2014年: NTTメディアインテリジェンス研究所 入所  2017年: 博士(工学) (電気通信大学) 研究内容  音響信号処理 × 機械学習の基礎研究と実用化  音源強調:うるさい中から欲しい音だけ取り出したい!  異常検知:周囲の異変を音から検知したい! 自己紹介
  • 3. Copyright©2018 NTT corp. All Rights Reserved. 3 Take home message 何でもかんでも大量データ & end-to-end でいいのか? 現状、音響信号処理に関しては No 1. ネットワーク構造に物理的/信号処理的な工夫が必要 2. 人間を超えるためには、 センサー配置や目的関数の工夫も必要 ※ end-to-end がうまくいかない条件は、数学的には証明されていないため、 この結論は将来は変わるかもしれない 現状の到達点 将来への展望
  • 4. Copyright©2018 NTT corp. All Rights Reserved. 4 実環境での音響信号処理サービス 計算機/通信の発達で音の情報処理技術はどんどん身近に 音声認識 エンターテイメント 異常音検知 音声通信 4
  • 5. Copyright©2018 NTT corp. All Rights Reserved. 5 音源強調の必要性 雑音が音情報処理性能を低下させる → うるさい中から欲しい音を取り出す技術が必須 雑音が大きく 音声認識できない 競技音が埋もれ 臨場感が伝わらない 音声認識 スポーツ中継
  • 6. Copyright©2018 NTT corp. All Rights Reserved. 6 音響信号処理の例:音源強調 騒音下でも通話や音声認識を可能にします  100 dB の騒音下で目的音を抽出&音声認識
  • 7. Copyright©2018 NTT corp. All Rights Reserved. 7 音響信号処理の例:音源強調 サッカースタジアムでキック音だけ強調します 周囲のスピーカーで 競技場の歓声を再現
  • 8. Copyright©2018 NTT corp. All Rights Reserved. 8 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  • 9. Copyright©2018 NTT corp. All Rights Reserved. 9 情報処理とはなんだろうか
  • 10. Copyright©2018 NTT corp. All Rights Reserved. 10 情報処理とはなんだろうか 与えられた情報を別の情報に変換する処理 なんらかの処理入力 出力
  • 11. Copyright©2018 NTT corp. All Rights Reserved. 11 情報処理とはなんだろうか 与えられた情報を別の情報に変換する処理 数理モデル入力 出力 計算機で実現するために、情報変換を数式で表す
  • 12. Copyright©2018 NTT corp. All Rights Reserved. 12 情報処理とはなんだろうか 入力 出力 どんな数理モデルがいい?  定量的な根拠を元にモデルを立てる方がよい  レイトレーシング(物理ベース) 物理モデル ⇨ 写真と見間違うような画像を出力できる  光源位置  物体位置  反射率 etc… [*] Wikipedia, “Ray tracing (graphics)” URL: https://en.wikipedia.org/wiki/Ray_tracing_(graphics) [*]
  • 13. Copyright©2018 NTT corp. All Rights Reserved. 13 情報処理とはなんだろうか  画像/音声などメディアの認識  人間の認識処理は未だ解明されていない  そもそも、対象の定義自体が人間の恣意的なもの ??? 入力 出力 Horse or (0,0,0,0,0,0,0,1,0,0) [*] An image from “The CIFAR-10 dataset” URL: https://www.cs.toronto.edu/~kriz/cifar.html [*] 根拠に基づくモデルは立てられないことが多い
  • 14. Copyright©2018 NTT corp. All Rights Reserved. 14 ブラックボックスな 情報変換(写像)を 計算機で再現するには?
  • 15. Copyright©2018 NTT corp. All Rights Reserved. 15 機械学習 変換関数 入力 目的関数 正解出力 関数形がブラックボックスな写像を 入出力のデータだけから再現する方法 1. 変換関数を決めて 2. 目的関数を決めて 3. 最適化する 和訳
  • 16. Copyright©2018 NTT corp. All Rights Reserved. 16 (深層)ニューラルネットワーク 微分可能な関数の合成関数でできた変換関数  沢山の亜種があるが、結局全部、ただの合成関数  無限個の関数を合成すれば任意の写像が表現可能 [*1] Wikipedia, “Artificial neural network”, https://en.wikipedia.org/wiki/Artificial_neural_network [*2] Wikipedia, “Long short-term memory”, https://en.wikipedia.org/wiki/Long_short-term_memory [*3] Wikipedia, “Convolutional neural network”, https://en.wikipedia.org/wiki/Convolutional_neural_network Shallow LSTM CNN [*1] [*2] [*3]
  • 17. Copyright©2018 NTT corp. All Rights Reserved. 17 現状、最有力な変換関数として君臨 画像/音声/自然言語を含む、 多くのメディア処理で SOTA な性能を実現 ※ 釈迦に説法ですが…  画像認識: AlexNet (2012) [*1] などから  音声認識: DNN-HMM (2011) [*2] などから ※ 当然、これらメディア処理にNNを使うアプローチは大昔からある。 [*1] A. Krizhevsky, et al., “Imagenet classification with deep convolutional neural networks,” in Proc. of NIPS, 2012 [*2] F. Seide, et al., “Conversational speech transcription using context-dependent deep neural networks,” in Proc. of Interspeech, 2011. [*3] A. Narayananand, et al., “Ideal ratio mask estimation using deep neural networks for robust speech recognition,” in Proc. of ICASSP, 2013.  音源強調: IRM推定 (2013) [*3] などから
  • 18. Copyright©2018 NTT corp. All Rights Reserved. 18 なぜ end-to-end はうまくいくのか 恣意性の排除、data-driven な特徴量設計 情報処理不等式  柔軟な回帰関数の下では、恣意的な情報変換は害悪でしかない  Googleの猫細胞 [*1][*2] はあまりにも有名 [*1] Official Google Blog, “Using large-scale brain simulations for machine learning and A.I.” (2012). URL: https://googleblog.blogspot.com/2012/06/using-large-scale-brain- simulations-for.html [*2] Q. V. Le, et al., “Building High-level Features Using Large Scale Unsupervised Learning,” in Proc. Of ICML, 2012.  教師なし学習をしているのに、猫画像に対して発 火するニューロンが獲得された
  • 19. Copyright©2018 NTT corp. All Rights Reserved. 19 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  • 20. Copyright©2018 NTT corp. All Rights Reserved. 20 観測音から目的音を抽出する信号処理 目的音 雑音 … 観測音 音源強調 出力音 マイク 音響信号処理の例:音源強調
  • 21. Copyright©2018 NTT corp. All Rights Reserved. 21 情報処理としての音源強調 観測音から目的音を取り出す変換関数の設計問題 音源強調  ここでは、マイク1本での音源強調を想定  典型的な劣決定問題 未知変数の数 > 観測変数の数
  • 22. Copyright©2018 NTT corp. All Rights Reserved. 22 End-to-end 音源強調 using DNN ?? 波形を入力し、波形を出力するニューラルネット?? … …… …… …… …… … …… End-to-end S. Pascual, et al., “SEGAN: Speech Enhancement Generative Adversarial Network,” in Proc of Interspeech, 2017.  例えば、以下の論文が有名
  • 23. Copyright©2018 NTT corp. All Rights Reserved. 23 End-to-end 音源強調 using DNN ?? 波形を入力し、波形を出力するニューラルネット?? … …… …… …… …… … …… End-to-end S. Pascual, et al., “SEGAN: Speech Enhancement Generative Adversarial Network,” in Proc of Interspeech, 2017.  例えば、以下の論文が有名 現状 SOTAではない
  • 24. Copyright©2018 NTT corp. All Rights Reserved. 24 完全 end-to-end vs. 信号処理-based DNN 波形領域の end-to-end < 信号処理-based Anonymous, “Phase-Aware Speech Enhancement with Deep Complex U-Net,” open review (submitted to ICLR 2019). URL: https://openreview.net/forum?id=SkeRTsAcYm [Deep Complex U-Net の音が聴けるページ] http://www.deepcomplexunet.tk [SEGAN の音が聴けるページ] URL: https://ccrma.stanford.edu/%7Efrancois/SpeechDenoisingWithDeepFeatureLosses/
  • 25. Copyright©2018 NTT corp. All Rights Reserved. 25 とってもアバウトな”深層複素U-Net”の構成 フィルタリング DNNによる 複素マスク推定 FFT IFFT 目的音を強調するフィルタをDNNで推定 → 信号処理の未知パラメータの推定に利用
  • 26. Copyright©2018 NTT corp. All Rights Reserved. 26 どんなときに end2end はうまくいかないか その理由を解明した論文はまだない  学習データが足りない説  DNN は回帰問題は苦手説  関数の組み方がダメ、自由度が高すぎる説  学習データですらうまく強調できないので考えにくい…  識別に関する理論解析は進むが、回帰は進まない  解空間の大きさや濃度  画像処理のCNN、自然言語処理の attention のようなキ ラー構造が波形領域にはまだ無い?
  • 27. Copyright©2018 NTT corp. All Rights Reserved. 27 深層複素U-Net の正体 【音響 and/or 機械学習のプロ向けの話】 ここでは  音声の統計的性質(時間周波数領域でのスパース性)を利用  非線形フィルタリング(信号処理)をNNで表現 =信号処理の一連の流れを NN とみなし、 未知パラメータだけをNN で推定  FFT / IFFT を固定な 1-D convolution layer とみなせば、時間周 波数領域を経由しつつも、”end-to-end” な学習ができる  非線形フィルタリングの一般式  DNNを となる射影関数して、以下で学習 であり、行列演算で書ける 複素時間周波数マスク(非線形なフィルタのようなもの) を推定する、複素数のニューラルネットワーク
  • 28. Copyright©2018 NTT corp. All Rights Reserved. 28 ここまでのまとめ  音響信号処理では完全な end-to-end はうまく動かない  end-to-end がうまくいかない条件は、数学的には証明されてい ないため、この結論は将来は変わるかもしれない  【現在のトレンド】ネットワーク構造に利用する、物理 的/信号処理的な工夫が模索されている  音声の統計的性質を利用した信号処理を NN として記述し、そ の未知パラメータだけを NN で推定 & 波形領域誤差最小化学習 現状の世界最先端
  • 29. Copyright©2018 NTT corp. All Rights Reserved. 29 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  • 30. Copyright©2018 NTT corp. All Rights Reserved. 30 機械の計算能力は人間を超えた 強力な写像関数も手に入れた では、なぜ(音の)機械学習は 人間を超えてくれないのか 20年後に向け 私たちはどんな研究をすべきだろうか?
  • 31. Copyright©2018 NTT corp. All Rights Reserved. 31 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど) 3. 出力の価値判断(コスト関数など)
  • 32. Copyright©2018 NTT corp. All Rights Reserved. 32 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど)  DNNを複雑にすれば、任意の写像を表現可能 → 人間を超えている 3. 出力の価値判断(コスト関数など)
  • 33. Copyright©2018 NTT corp. All Rights Reserved. 33 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど)  DNNを複雑にすれば、任意の写像を表現可能 → 人間を超えている  マイクだけ?画像だけ?一箇所で? → 人間と同等以下 3. 出力の価値判断(コスト関数など)
  • 34. Copyright©2018 NTT corp. All Rights Reserved. 34 今、機械学習に何ができていないのか 情報処理の登場人物は主に3人 1. 実世界のセンシング(マイクロホンなど) 2. 情報の変換(DNNなど) 3. 出力の価値判断(コスト関数など)  DNNを複雑にすれば、任意の写像を表現可能 → 人間を超えている  マイクだけ?画像だけ?一箇所で? → 人間と同等以下  二乗誤差?クロスエントロピー? → 人間には遠く及ばない
  • 35. Copyright©2018 NTT corp. All Rights Reserved. 35 人間を超える情報処理のために 人間を超える (1) センシングと (3) 価値判断 1. 実世界のセンシング(マイクロホンなど) 3. 出力の価値判断(コスト関数など)
  • 36. Copyright©2018 NTT corp. All Rights Reserved. 36 手前味噌な研究紹介 人間を超える (1) センシングと (3) 価値判断 1. 実世界のセンシング(マイクロホンなど) 3. 出力の価値判断(コスト関数など)  100m 離れた場所に置いたマイクを連携させるには?  「音質」を最大化するように DNN を学習するには? Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018. Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.
  • 37. Copyright©2018 NTT corp. All Rights Reserved. パラボラマイク 場内アナウンス (PAスピーカ) 応援団 競技音 37 野球場で歓声を消したい
  • 38. Copyright©2018 NTT corp. All Rights Reserved. 38 人間の耳の限界を超えるには バックネットのマイク だけでは歓声が消せない
  • 39. Copyright©2018 NTT corp. All Rights Reserved. 39 人間の耳の限界を超えるには distance > 100 m
  • 40. Copyright©2018 NTT corp. All Rights Reserved. 40 人間とは異なる情報処理が必要 100m 離れた外野スタンドのマイクを連携させよう → 距離による伝搬遅延や長残響で単純な引き算はダメ 時間周波数 マスク設計 ×
  • 41. Copyright©2018 NTT corp. All Rights Reserved. 41 時間周波数 マスク設計 × 遅延& 残響推定 人間とは異なる情報処理が必要 100m 離れた外野スタンドのマイクを連携させよう → 遅延や残響のキャリブレーションを追加
  • 42. Copyright©2018 NTT corp. All Rights Reserved. 42 Multi-delay noise model 振幅領域での伝搬遅延/長残響のモデル化 Time-frame delay Gain Gain Gain …… Multi-delay noise model Multi-delay noise model Multi-delay noise model Time-frequency mask calc. 残響 伝搬遅延 Multi-delay noise model  Multi-delay-block-filter の振幅領域での表現 + 遅延項の拡張  物理的制約を事前分布におき、残響/遅延パラメータをMAP推定 Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.
  • 43. Copyright©2018 NTT corp. All Rights Reserved. 43 Modeling …! ホームベース付近に パラボラマイク 外野スタンドに ショットガンマイク Time [s] Freq.[kHz]Freq.[kHz]Freq.[kHz] パラボラマイク(ホームベース) ショットガンマイク(外野スタンド) 処理音 ストラーイク! ミット音 Time [s] 野球場での動作デモ 審判の声や捕球音を強調
  • 44. Copyright©2018 NTT corp. All Rights Reserved. 44 手前味噌な研究紹介 人間を超える (1) センシング 1. 実世界のセンシング(マイクロホンなど)  100m 離れた場所に置いたマイクを連携させるには? Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018.  機械であれば、人間では実現不可能なセンシングが可能  そのセンサーをうまく活用するためには、その物理的性質 に対応した特殊な信号処理+機械学習の使い方が必要  センサーの選択や配置に関する最適性はまだ未知…
  • 45. Copyright©2018 NTT corp. All Rights Reserved. 45 手前味噌な研究紹介 1. 実世界のセンシング(マイクロホンなど) 3. 出力の価値判断(コスト関数など)  100m 離れた場所に置いたマイクを連携させるには?  「音質」を最大化するように DNN を学習するには? Y. Koizumi, et al., “Distant Noise Reduction Based on Multi-delay Noise Model Using Distributed Microphone Array,” in Proc of EUSIPCO, 2018. Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018. 人間を超える (1) センシングと (3) 価値判断
  • 46. Copyright©2018 NTT corp. All Rights Reserved. 46 価値判断(コスト関数)の重要性 DNN にどんな情報を推定してほしいのか?  自然言語:対話の「満足度」を上げたい → 満足度最大化 ≠ クロスエントロピー  音源強調:人が聞いて「良い」と思える音を出力したい → 音質最大化 ≠ 二乗誤差 DNNを学習するコスト関数と、 本当に推定したい情報のミスマッチ… 計算機を人間と同じ感性の元で最適化するには? 1. 人間の感性の計算機による再現 2. ブラックボックスな指標を最大化する学習法の創出 こちらの紹介
  • 47. Copyright©2018 NTT corp. All Rights Reserved. 47 主観的な音質評価を最大化したい ブラックボックス関数は微分不可能 (Backprop.が困難) ??? 人間は DNN のコスト関数になれるか?
  • 48. Copyright©2018 NTT corp. All Rights Reserved. 48 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Game score Reward func.Action selector Action candi- dates Action … … … … ゲームスコアさえあれば DNNが学習できる ビデオゲームや囲碁の学習に成功している! 音源強調に応用できないか?
  • 49. Copyright©2018 NTT corp. All Rights Reserved. 49 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Reward func.Mask generator T-F mask Masking … … … … スコアを主観評価と 捉えれば最適化できる? 学習には大量の試行が必要 ⇒ 主観評価そのままの利用は厳しい…
  • 50. Copyright©2018 NTT corp. All Rights Reserved. 50 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Reward func.Mask generator T-F mask Masking … … … … 人間の主観評価を模擬した定量 評価指標を利用 (e.g. PESQ) PC上のシミュレーションで完結
  • 51. Copyright©2018 NTT corp. All Rights Reserved. 51 DNN音源強調のブラックボックス最適化 DNNを用いて目的関数を定義 サンプリングを用いた勾配の近似計算(policy gradient) 出力音の条件付き分布を DNNで記述 聴感評点の最大化を 目的関数とする
  • 52. Copyright©2018 NTT corp. All Rights Reserved. 聴感評点の例 52 音質の定量指標の例 明瞭度(単語の聞き取りやすさ)の定量指標の例  PESQ: Perceptual Evaluation of Speech Quality  音声符号化などで使われる音質の定量評価指標 Input: 目的音と出力音の音声ファイル Output: 人間の音質評価(MOS)を模擬した値 ⇒ PESQを上げ、出力音の音質向上を狙う  STOI: Short-Time Objective Intelligibility  音声強調などで使われる明瞭度の定量評価指標 Input: 目的音と出力音の音声ファイル Output: 人間の単語正解率を模擬した値 ⇒ STOIを上げ、出力音の明瞭度向上を狙う
  • 53. Copyright©2018 NTT corp. All Rights Reserved. 評価実験 1/2(定量評価実験) 53 音質指標 PESQの向上値 【実験1】:学習回数が進むに従い、聴感評点が向上 明瞭度指標 STOIの向上値 学習回数 学習回数 【実験2】:学習に利用した聴感評点が、従来法より優位に向上 SDR [dB](歪み) PESQ (音質) STOI [%](明瞭度) PSM [Erdogan,2015] 9.40 2.27 83.3 提案法(PESQ) 9.19 2.37 83.4 提案法(STOI) 9.74 2.20 87.3  学習が進むにつれ、目標としてい る聴感評点も向上  学習に用いた聴感評点は従来法より も優位に向上 (Input SNR: 0dB, Open test)  聴感評点を向上させるDNN学習に成功  従来技術と比べ、聴感評点が優位に向上
  • 54. Copyright©2018 NTT corp. All Rights Reserved. 評価実験 2/2(主観評価実験) 54 音質の主観評価値 従来法 提案法 (PESQ) 提案法 (STOI) 単語了解度[%] 【実験1 】 出力音の音質を5段階で絶対評価 (PESQが模擬している試験) 良 悪 良 悪 【実験2 】 親密度の低い単語の聞き取り正解率 (STOIが模擬している試験) 従来法 提案法 (PESQ) 提案法 (STOI) 従来法 提案法(PESQ) 従来法 提案法(STOI) PESQ最大化で 音質が向上 STOI最大化で 明瞭度が向上  聴感評点に対応する主観品質も、従来法と比べ優位に向上
  • 55. Copyright©2018 NTT corp. All Rights Reserved. 評価実験 2/2(主観評価実験) 55 音質の主観評価値 従来法 提案法 (PESQ) 提案法 (STOI) 単語了解度[%] 【実験1 】 出力音の音質を5段階で絶対評価 (PESQが模擬している試験) 良 悪 良 悪 【実験2 】 親密度の低い単語の聞き取り正解率 (STOIが模擬している試験) 従来法 提案法 (PESQ) 提案法 (STOI) 従来法 提案法(PESQ)  聴感評点に対応する主観品質も、従来法と比べ優位に向上 従来法 提案法(STOI) 正解は「タカドノ」 従来法の正答率:31%, 提案法の正答率:81% 従来法は、雑音を削りすぎ、冒頭の子音の明瞭度が 低下しため、「ハカドノ」などと誤回答
  • 56. Copyright©2018 NTT corp. All Rights Reserved. 56 手前味噌な研究紹介 人間を超える (1) センシングと (3) 価値判断 3. 出力の価値判断(コスト関数など)  「音質」を最大化するように DNN を学習するには? Y. Koizumi, et al., “DNN-Based Source Enhancement to Increase Objective Sound Quality Assessment Score,” IEEE/ACM Trans. on ASLP, 2018.  DNNの出力の統計的性質はコスト関数依存  人が本当に欲しい情報を DNN が出力するためには  人間と同等の価値判断(コスト関数)  人間を超えるブラックボックス最適化(optimizer) が必要  ほとんど未着手かつ、文理融合が必要な研究領域。そろそろ 縦割り研究を超える頃ではないでしょうか?
  • 57. Copyright©2018 NTT corp. All Rights Reserved. 57 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  • 58. Copyright©2018 NTT corp. All Rights Reserved. 58 小規模/安価/中性能な計算機 DNNは音響の世界で実用的か?  音響の世界では、未だローカル処理が求められることがほとんど  リアルタイム性:e.g. 音声通話  ネットワークコスト制約:e.g. 異常音検知 計算機の ”ベースライン” が上がらないと 成り立たないビジネスが多い  計算機パワーの向上は機械学習のブレイクスルー  まだ壊して欲しい壁が沢山。特に低レイヤー向けの中性能計算機
  • 59. Copyright©2018 NTT corp. All Rights Reserved. 59 今日の話題 情報処理と機械学習&深層学習 深層学習と音響信号処理(音源強調)の到達点 学生の皆さんへメッセージ 人間を超える情報処理へ 計算機基盤の進歩に期待すること
  • 60. Copyright©2018 NTT corp. All Rights Reserved. 60 まず手を動かそう 未だ、メディア処理には、 言語化しにくいノウハウが沢山 First Step 触ってみないと、できる/できないの直感が働かない
  • 61. Copyright©2018 NTT corp. All Rights Reserved. 61 技術者 (Scientist/Engineer) であれ ノウハウがたまると データ/計算機/DNN があれば推定はできてしまう No more “やっただけ” 論文!! やっただけでは問題が “解けた” ことにはならない 問題の本質は?最もエレガントな解法は? ※ 企業としてはそれでいいことも多い Next Step
  • 62. Copyright©2018 NTT corp. All Rights Reserved. 62 【再掲】Take home message 何でもかんでも大量データ & end-to-end でいいのか? 現状、音響信号処理に関しては No 1. ネットワーク構造に物理的/信号処理的な工夫が必要 2. 人間を超えるためには、 センサー配置や目的関数の工夫も必要 ※ end-to-end がうまくいかない条件は、数学的には証明されていないため、 この結論は将来は変わるかもしれない 現状の到達点 将来への展望
  • 63. Copyright©2018 NTT corp. All Rights Reserved. 63 Q&A