音源分離～DNN音源分離の基礎から最新技術まで～ Tokyo bishbash #3

Copyright 2020 Sony Corporation
音源分離
～DNN音源分離の基礎から最新技術まで～
2020/10/14
Tokyo BISH Bash #03 with IYS2020
SONY R&Dセンター Tokyo Laboratory 21
高橋直也

R&Dセンター © 2020 Sony Corporation
自己紹介
2015年スイス連邦工科大学チューリッヒ(ETH Zurich) 客員研究員
2020年博士課程後期筑波大学コンピュータサイエンス専攻
現在ソニー株式会社 R&Dセンター Tokyo Laboratory21
経歴
Pickup
SiSEC 2016, 2018ベストスコア
Sony Outstanding Engineer Award 2018
たかはしなおや
高橋直也博士(工学)
研究領域
音源分離，音響イベント認識，ビデオ解析，音声認識，声質変換
Linkedin： www.linkedin.com/in/naoyatakahashi
Twitter：https://twitter.com/zuNaoya
2

本日の話の流れ
 音源分離とは
 ソニーでの事例紹介
 製品
 映画
 音楽
 技術紹介
 基本的なフレームワーク
 研究紹介
3

音源分離とは
 アカデミアで50年以上、非常に困難な問題として扱われてきた。
 2013年、ソニーはAIを用いた音源分離に着手 ➡ この分野では先駆者
音源分離
混合している音源
分離された音源
4

応用例
音楽・映画音声
雑音の抑圧音声同士の分離 旧譜のリミックス
 チャネル方式 ➡ オブジェクト方式
5

三期連続ベストスコア
 国際コンペSignal Separation Evaluation Campaign（SiSEC）に参加
 2015–2018年、三期連続でベストスコアを獲得
[1]F.-R. Stöter, A. Liutkus, and N. Ito. "The 2018 Signal Separation Evaluation Campaign." LVA/ICA, 2018
[2]D. Ward et al. "SISEC 2018: state of the art in musical audio source separation - Subjective selection of
the best algorithm." Proceedings of the 4th Workshop on Intelligent Music Production, 2018.
信号と残差の比率[dB]
Sony
聴感指標
Upper
Bound
Other entries
客観評価実験 [1] 聴感評価実験 [2]
6

分離結果のWeb公開
分離結果は以下のサイトから試聴できます。
https://sisec18.unmix.app/#/
7

屋外における動画撮影への応用
スマホを使ったコンテンツクリエーションが増加
外部マイクではなくスマホマイクで録音すると風雑音が混入
｜ 9
音源分離
風雑音入りの音
抽出された風雑音
風雑音以外の音

クリーンな音声収録における応用
スタジオにおける音声収録と同様、自宅における音声収録のニーズあり
収録された音声品質は自宅環境に依存
｜ 10
音源分離
雑音入りの音声
雑音
音声

映画のアップミックスにおける応用
映画用に学習されたAIを用いて、古いマスターテープから音源を抽出
新しい音響フォーマットにアップミックス
｜ 11
音源分離
音が混合している
マスターテープ
馬が走る音
ヘリコプターが飛ぶ音
銃が鳴る音

リアルタイムカラオケ
スマートフォン上でリアルタイムでボーカル除去
｜ 12
音楽
ボーカル
カラオケ
音源分離

音源分離のオープンソース『Open-Unmix』
仏国立機関INRIAとソニーの共同プロジェクト
推論、学習用コード
学習済みモデル
Neural Network Libraries, PyTorch
｜ 13
参考論文: Open-Unmix - A Reference Implementation for Music Source Separation, Journal of OSS
https://joss.theoj.org/papers/10.21105/joss.01667
 ♦ ◆ https://open.unmix.app ◆ ♦ 

音源分離の手がかり・既存手法
振幅スペクトルの（統計的）パターン
楽器
個人性
時間連続性
チャネル間のバランス・方向
追加情報
言語情報
音楽理論・スコア
画像
etc.
既存手法
実際の音楽や音声では…
 音源に対する仮定が強い
 不明瞭・膨大なパターン
 線形モデルでは表現しきれない
⇒Deep Neural Networksの利用
分離の手がかり
NMF（非負値行列因子分解）
繰返しパターン
ICA（独立成分分析）
音源の独立性
etc.
15

DNNを用いた音源分離のフレームワーク
DNN
③ Training data
Train DNN though data
① Network architecture
② Training method
𝐿𝐿 = � 𝑠𝑠𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 − 𝑓𝑓 𝑥𝑥
2
𝑥𝑥
𝑠𝑠𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡
𝑓𝑓 𝑥𝑥
error
|STFT|
Mixture |STFT| Sources
④ Loss function
※この他、時間領域の手法もある
16

Network Architecture ( MMDenseLSTM )
 Recurrent units Dense connections
 Multi-scaled  Multi-band
input output
…
Full band
Band N
Band 1
Dense
block
freq.
time
Dense LSTM block
[1] N. Takahashi, et. al. , “MMDenseLSTM: an Efficient Combination of Convolutional and Recurrent Neural Networks for Audio Source
Separation”, IWAENC 2018
17

位相復元 (PhaseNet)
振幅推定
DNN
混合音振幅スペクトル
混合音位相スペクトルSTFT iSTFT
Mixture Source
位相推定
DNN
|・|
∠
[2] N. Takahashi ,et. al. , “PhaseNet: Discretized Phase Modeling with Deep Neural Networks for Audio Source Separation”, Interspeech 2018
Regression
[-π, π]
Re
Im
非連続
θ
θ
Classification
位相推定を分類問題として解く
ことで位相の非連続問題を回避
18

音声認識の利用
 音声認識は音源分離性能改善に有用か？
Features
End-to-end
音声認識
テキスト
音声分離
音声分離
音声認識からの特徴量が
分離性能を改善
音楽音源分離 on MUSDB18
[3] N.Takahashi, et. al. , “Improving Voice Separation by Incorporating End-to-end Speech Recognition”, ICASSP2020
19

音源数未知の場合の話者分離
 問題：あらかじめ決められた音源数を超えると正しく分離できない
 一話者ずつ再帰的に分離
Mixture
𝑥𝑥(𝑡𝑡)
̂𝑠𝑠1(𝑡𝑡)
̂𝑟𝑟1(𝑡𝑡)
One and rest
speech
separation One and rest
speech
separation
Speech or not?
One and rest
speech
separation
Speech or not? Speech or not?
学習で一度も見ていない
4話者の分離に成功
20

音源分離の頑健性・コンテンツ保護
 Adversarial example:知覚困難な微小なノイズがDNNを誤動作させる
Mixture
Adversarial noise
元の分離結果
元とは大きく異なる分離結果に
音声分離
音声分離
+
入力に与える影響分離音に与える影響
N. Takahashi and Y. Mitsufuji, “Adversarial attacks on audio source separation”,
arXiv
21

DNN音源分離参考文献
Year Title Conference
2015 DNN Based Instrument Extraction from Music †
ICASSP
2016 Multichannel Blind Source Separation Based on Non-negative Tensor Factorization in Wavenumber Domain ICASSP
2017
Supervised Monaural Source Separation Based on Autoencoders ICASSP
Improving Music Source Separation Based on DNNs through Data Augmentation and Network Blending *†
ICASSP
Multi-Scale Multi-Band DenseNets for Audio Source Separation *†
WASPAA
2018
PhaseNet: Discretized Phase Modeling with Deep Neural Networks for Audio Source Separation INTERSPEECH
Improving DNN-based Music Source Separation using Phase Features ICML workshop
MMDenseLstm: An Efficient Combination of Convolutional and Recurrent Neural Networks for Audio Source Separation *†
IWAENC
2019
Recursive Speech Separation for Unknown Number of Speakers INTERSPEECH
Open-Unmix - A Reference Implementation for Music Source Separation Journal of OSS
2020
Improving Voice Separation by Incorporating End-to-end Speech Recognition ICASSP
Adversarial attacks on audio source separation arXiv
D3Net: Densely connected dilated DenseNet for Music source separation arXiv
* 国際コンペでベストスコアを記録したモデルの参考文献
† 50本以上の引用がある論文
22

音源分離～DNN音源分離の基礎から最新技術まで～ Tokyo bishbash #3

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à 音源分離～DNN音源分離の基礎から最新技術まで～ Tokyo bishbash #3

Similaire à 音源分離～DNN音源分離の基礎から最新技術まで～ Tokyo bishbash #3 (12)

Dernier

Dernier (9)