SlideShare une entreprise Scribd logo
1  sur  42
Télécharger pour lire hors ligne
1
イベント継続長を明示的に制御した
BLSTM-HSMMハイブリッドモデル
による多重音響イベント検出
◯林 知樹†, 渡部晋治††, 戸田智基†,
堀貴明††, Jonathan Le Roux††, 武田一哉†
† 名古屋大学
†† Mitsubishi Electric Research Laboratory (MERL)
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
2
環境音理解への関心の高まり
p 従来の音声・音楽以外のあらゆる音を理解する試み
p 非常に幅広い応用の可能性
n 監視 / ライフログ / 環境理解 / 騒音分析 etc.
p 多数のチャレンジの開催 / データセットの公開
n DCASE2013 / 2016 / 2017:環境音分類/検出チャレンジ
n AudioSet:Google謹製大規模環境音データセット
AudioSet
http://g.co/audioset
DCASE2017
http://www.cs.tut.fi/sgn/arg/dcase2017/
今後ますますの発展が望まれる研究分野
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
3
多重音響イベント検出 (SED)
p イベントの開始/終了時刻+ラベルを特定するタスク
p 同時刻に複数のイベントがオーバーラップ
Event 1
Event 2
Time
Event 3
SED System
Time
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
4
本研究の貢献
p 新たな多重音響イベント検出手法を提案
p 多重音響イベント検出タスクDCASE2016 Task2で評価
提案1: BLSTM-HSMMハイブリッドモデル
ü BLSTMで入力特徴量の時系列情報を最大限利用
ü HSMMで出力系列に明示的な継続長制約を付与
提案2: SADネットワークによるバイナリマスキング
ü イベント区間を検出するネットワークの併用
ü 雑音環境下における挿入誤りを効率的に抑制
チャレンジのベスト結果を上回る性能を実現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
5
関連研究 GMM-HMMベース
p イベント毎にGMM-HMMを学習
p ビタビアルゴリズムで最尤系列を決定
J 系列単位の処理が可能
L 入力特徴量空間をGMMでうまく表現できない
Event 1 GMM-HMM
Event C GMM-HMM
⋮
Viterbi Decoding
Time
State
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
6
関連研究 NMFベース
p 各イベントの基底を学習し基底辞書を作成
p 辞書を利用し各イベントのアクティベーションを推定
J 入力特徴量の次元間相関を活用可能
L フレーム間相関を非活用 / フレーム単位の処理
Event1basis
Event2basis
Event3basis
Pre-learned event
basis dictionary
Event 3 activation
Event 2 activation
Event 1 activation
✕
Thresholding
Classifier
Fixed
PredictionPrediction
Data
NMF
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
7
関連研究 ニューラルネットベース
p マルチラベル分類のネットワークを学習
p 閾値処理で各イベントのアクティベーションを推定
J BLSTMなどの利用で入力特徴量をフル活用
L フレーム単位の処理
Thresholding
Sigmoid
FeatureVector
Event 1
Prediction
Event 2
Prediction
Event 3
Prediction
Neural Network
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
8
先行研究 [T. Hayashi+, ICASSP2017]
BLSTM-HMMハイブリッドモデルを提案
ü BLSTMで入力特徴量の時系列情報を最大限利用
ü HMMで出力系列に制約+系列単位の処理を実現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
先行研究の問題点
p 継続長が遷移確率で暗に制御され指数分布の形に
p 実際の継続長分布と大きく乖離
図:実際のイベントの継続長のヒストグラム
9
本研究の貢献
p 新たな多重音響イベント検出手法を提案
p 多重音響イベント検出タスクDCASE2016 Task2で評価
提案1: BLSTM-HSMMハイブリッドモデル
ü BLSTMで入力特徴量の時系列情報を最大限利用
ü HSMMで出力系列の継続長を明示的にモデル化
提案2: SADネットワークによるバイナリマスキング
ü イベント区間を検出するネットワークの併用
ü 雑音環境下における挿入誤りを効率的に抑制
チャレンジのベスト結果を上回る性能を実現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
10
提案法の位置づけ
入力特徴量をフル活用しつつ
明示的な継続長制御による系列単位の処置を実現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
手法
次元間の
相関の利用
フレーム間の
相関の利用
系列単位の
処理
イベント
継続長の制御
GMM-
HMM ✕ ✕ ◯ △
NMF ◯ ✕ ✕ ✕
NN ◯ ◯ ✕ △
BLSTM-
HMM ◯ ◯ ◯ △
提案法 ◯ ◯ ◯ ◯
11
提案手法
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
12
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
13
事後処理
特徴量抽出
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
提案②:
SADネットワーク
バイナリマスキング
提案①:
BLSTM-HSMM
ハイブリッドモデル
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
14
特徴量抽出
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
15
特徴量抽出
p 窓幅25 msec / シフト幅10 msec でSTFT
p 対数フィルタバンク100 bin抽出 + 発話単位CMN
n 音響イベント検出では高域がより重要視されるため
入力音響信号 抽出された特徴量
Amplitude
Time [sec] Time [sec]
Frequencybin
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
16
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
提案①:
BLSTM-HSMM
ハイブリッドモデル
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
17
提案①:BLSTM-HSMM (1)
p 各イベントごとに下記のHSMM構築
p 各状態の継続長分布はガンマ分布で表現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
0 2 5
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏(𝐱)
𝑝/(𝑑)
31
4
𝑏/(𝐱)
Initial state Final state
Non-active state
𝑎/& 𝑎+/
18
HMMからHSMMへ
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
𝑛 = 0 𝑛 = 1 𝑛 = 2 𝑛 = 3 𝑛 = 4
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏&(𝐱)
𝑛 = 0 𝑛 = 1 𝑛 = 2 𝑛 = 3 𝑛 = 4
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏&(𝐱)
𝑎&& 𝑎** 𝑎++
HMM
HSMM
19
提案①:BLSTM-HSMM (1)
p 各イベントごとに下記のHSMM構築
p 各状態の継続長分布はガンマ分布で表現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
0 2 5
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏(𝐱)
𝑝/(𝑑)
31
4
𝑏/(𝐱)
Initial state Final state
Non-active state
𝑎/& 𝑎+/
イベントがアクティブな
部分を表現
20
提案①:BLSTM-HSMM (1)
p 各イベントごとに下記のHSMM構築
p 各状態の継続長分布はガンマ分布で表現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
無音もしくは
他のイベントが
アクティブな部分を表現
0 2 5
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏(𝐱)
𝑝/(𝑑)
31
4
𝑏/(𝐱)
Initial state Final state
Non-active state
𝑎/& 𝑎+/
21
提案①:BLSTM-HSMM (1)
p 各イベントごとに下記のHSMM構築
p 各状態の継続長分布はガンマ分布で表現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
出力確率𝑩を
BLSTMでモデル化
0 2 5
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏(𝐱)
𝑝/(𝑑)
31
4
𝑏/(𝐱)
Initial state Final state
Non-active state
𝑎/& 𝑎+/
22
提案①: BLSTM-HSMM (2)
p HSMMの事後確率を推定するSEDネットワークを構築
Inputs 100
Forward LSTM 512
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Outputs 4 Outputs 4 Outputs 4
⋯
Projection 256
Forward LSTM 512
Forward LSTM 512
𝑃 𝐬&,:	 𝐱:) 𝑃 𝐬*,:	 𝐱:) 𝑃 𝐬<,:	 𝐱:)
: Forward Propagation
: Backward Propagation
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
23
提案①: BLSTM-HSMM (2)
p HSMMの事後確率を推定するSEDネットワークを構築
n クラス分類問題のマルチタスク学習で最適化
Inputs 100
Forward LSTM 512
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Outputs 4 Outputs 4 Outputs 4
⋯
Projection 256
Forward LSTM 512
Forward LSTM 512
𝑃 𝐬&,:	 𝐱:) 𝑃 𝐬*,:	 𝐱:) 𝑃 𝐬<,:	 𝐱:)
: Forward Propagation
: Backward Propagation
Event 1のHSMMの
状態事後確率
Event 2のHSMMの
状態事後確率
Event CのHSMMの
状態事後確率
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
24
提案①: BLSTM-HSMM (3)
p SEDネットワークの事後確率を出力確率へ変換
n 予め計算した事前確率とベイズの定理を利用
p 出力確率を用いて各HSMM独立にビタビデコード
)(
)|(
)|()(
nsP
nsP
nsPb
t
tt
tttn
=
=
@==
x
xx
出力確率
事後確率
事前確率
# events
Time
State
Time
State
Time
State
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
25
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
提案②:
SADネットワーク
バイナリマスキング
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
26
提案②: SADネットワーク (1)
p イベントの有無を判定するSADネットワークを構築
n 2値分類の交差エントロピー最小化で最適化
Inputs 100
Forward LSTM 512
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Output 1
Projection 256
Forward LSTM 512
Forward LSTM 512
0	 ≤ y ≤ 1
: Forward Propagation
: Backward Propagation
イベントが存在しない イベントが存在する
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
27
提案②: SADネットワーク (2)
p SADネットワークの事後確率を閾値処理で2値化
n 閾値は0.5に設定
p 2値化されたバイナリマスクをBLSTM-HSMMで
推定された各イベントの予測結果に適用
Time
予測結果
Time
マスク
⨀ 要素積
=
Time
マスク適用後
予測結果
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
28
事後処理
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
29
事後処理
1. 150 msec (15 frames) スパンのメディアンフィルタ
2. 100 msec (10 frames) 以下の穴埋め
3. 各イベントの学習データ中の最小長の3/4以下を削除
Time Time
Time Time
Time
¾ minimum length Time
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
30
評価実験
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
31
評価実験
実験設定
p 多重音響イベント検出タスクDCASE2016 task2で評価
p 11 種類の音響イベントが対象
評価尺度
p Segment-based (SB): 1秒のセグメント単位の評価
p Event-based (EB): イベント単位での評価
p それぞれでF1-score (F1)とError rate (ER)を計算
比較手法
p Supervised NMF (DCASE2016 task2 ベースライン)
p BLSTM
p BLSTM-HMM
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
32
実験条件
Sampling rate 44,100 Hz
Bit rate 16 bit
# sound events 11
# training data 4 sec * 100,000 samples
# development data 120 sec * 18 samples
# evaluation data 120 sec * 54 samples
# hidden layer 3
# LSTM unit Forward : 512 Backward: 512
# projection unit Forward : 256 Backward: 256
Initial Scale 0.001
Learning rate 0.0005
Max gradient norm 5
# step 400
# batch 128
Optimization method Adam
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
33
実験結果
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
DCASE 1st T. Komatsu+
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
高いほど高性能
34
実験結果
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
DCASE 1st T. Komatsu+
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
低いほど高性能
35
実験結果
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
DCASE 1st T. Komatsu+
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
全ての評価尺度でBLSTM-HSMMが最高性能
36
実験結果
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
DCASE 1st T. Komatsu+
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
DCASEチャレンジ結果を上回る世界最高性能
37
実験結果
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
DCASE 1st T. Komatsu+
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
提案法の有効性を確認
38
SADマスクの有無の比較
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
BLSTM w/o SAD mask 65.2 66.9 76.1 45.2
BLSTM w/ SAD mask 70.1 (+4.8) 54.2 (-12.7) 77.9 (+1.8) 39.6 (-5.6)
BLSTM-HMM w/o SAD mask 71.7 52.3 79.5 36.7
BLSTM-HMM w/ SAD mask 74.9 (+3.2) 44.7 (-7.6) 80.5 (+1.0) 33.8 (-2.9)
BLSTM-HSMM w/o SAD mask 72.1 51.4 79.7 37.0
BLSTM-HSMM w/ SAD mask 75.3 (+2.8) 44.2 (-7.2) 81.1 (+1.4) 32.9 (-4.1)
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
いずれのモデルに対しても有効であることを確認
39
事後処理の有無の比較
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
BLSTM-HMM w/o
post-processing
71.0 55.1 79.6 37.4
BLSTM-HMM w/
post-processing
71.7 52.3 79.5 36.7
BLSTM-HSMM w/o
post-processing
71.9 51.7 79.8 37.0
BLSTM-HSMM w/
post-processing
72.1 51.4 79.7 37.0
BLSTM-HMMでは事後処理が有効
HMMでは完全にスムージングできていない
40
事後処理の有無の比較
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
BLSTM-HMM w/o
post-processing
71.0 55.1 79.6 37.4
BLSTM-HMM w/
post-processing
71.7 52.3 79.5 36.7
BLSTM-HSMM w/o
post-processing
71.9 51.7 79.8 37.0
BLSTM-HSMM w/
post-processing
72.1 51.4 79.7 37.0
BLSTM-HSMMでは事後処理が効果なし
出力がHSMMにより完全にスムージング可能
41
まとめと今後の課題
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
42
まとめと今後の課題
まとめ
p BLSTM-HSMMハイブリッドモデルの提案
p SADネットワークによるバイナリマスキングの提案
p 多重音響イベント検出タスクDCASE2016 task2で評価
p 提案モデルがチャレンジベストを上回る最高性能を達成
今後の課題
p 大規模実環境収録データセットへの適応
p 系列識別学習の導入
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」

Contenu connexe

Tendances

音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習Shinnosuke Takamichi
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理Yuma Koizumi
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトNU_I_TODALAB
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...Deep Learning JP
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用Yuma Koizumi
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展Kitamura Laboratory
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法NU_I_TODALAB
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstmtak9029
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”Shinnosuke Takamichi
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 

Tendances (20)

音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
Kameoka2017 ieice03
Kameoka2017 ieice03Kameoka2017 ieice03
Kameoka2017 ieice03
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstm
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 

En vedette

【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017cvpaper. challenge
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識Tomoki Hayashi
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
 
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例Yahoo!デベロッパーネットワーク
 
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstationYusuke HIDESHIMA
 
Introduction to Chainer
Introduction to ChainerIntroduction to Chainer
Introduction to ChainerShunta Saito
 

En vedette (6)

【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
 
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
 
Introduction to Chainer
Introduction to ChainerIntroduction to Chainer
Introduction to Chainer
 

Plus de Tomoki Hayashi

ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...
ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...
ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...Tomoki Hayashi
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
 
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出Tomoki Hayashi
 
PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247Tomoki Hayashi
 
Visualizing Data Using t-SNE
Visualizing Data Using t-SNEVisualizing Data Using t-SNE
Visualizing Data Using t-SNETomoki Hayashi
 
Prediction of Exchange Rate Using Deep Neural Network
Prediction of Exchange Rate Using Deep Neural Network  Prediction of Exchange Rate Using Deep Neural Network
Prediction of Exchange Rate Using Deep Neural Network Tomoki Hayashi
 

Plus de Tomoki Hayashi (6)

ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...
ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...
ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Te...
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
 
PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247
 
Visualizing Data Using t-SNE
Visualizing Data Using t-SNEVisualizing Data Using t-SNE
Visualizing Data Using t-SNE
 
Prediction of Exchange Rate Using Deep Neural Network
Prediction of Exchange Rate Using Deep Neural Network  Prediction of Exchange Rate Using Deep Neural Network
Prediction of Exchange Rate Using Deep Neural Network
 

Dernier

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 

Dernier (10)

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出