SlideShare une entreprise Scribd logo
1  sur  22
Télécharger pour lire hors ligne
Copyright 2020 Sony Corporation
音源分離
~DNN音源分離の基礎から最新技術まで~
2020/10/14
Tokyo BISH Bash #03 with IYS2020
SONY R&Dセンター Tokyo Laboratory 21
高橋直也
R&Dセンター © 2020 Sony Corporation
自己紹介
2015年 スイス連邦工科大学チューリッヒ(ETH Zurich) 客員研究員
2020年 博士課程後期 筑波大学 コンピュータサイエンス専攻
現在 ソニー株式会社 R&Dセンター Tokyo Laboratory21
経歴
Pickup
SiSEC 2016, 2018ベストスコア
Sony Outstanding Engineer Award 2018
たかはし なおや
高橋直也 博士(工学)
研究領域
音源分離,音響イベント認識,ビデオ解析,音声認識,声質変換
Linkedin: www.linkedin.com/in/naoyatakahashi
Twitter:https://twitter.com/zuNaoya
2
R&Dセンター © 2020 Sony Corporation
本日の話の流れ
 音源分離とは
 ソニーでの事例紹介
 製品
 映画
 音楽
 技術紹介
 基本的なフレームワーク
 研究紹介
3
R&Dセンター © 2020 Sony Corporation
音源分離とは
 アカデミアで50年以上、非常に困難な問題として扱われてきた。
 2013年、ソニーはAIを用いた音源分離に着手 ➡ この分野では先駆者
音源分離
混合している音源
分離された音源
4
R&Dセンター © 2020 Sony Corporation
応用例
音楽・映画 音声
雑音の抑圧 音声同士の分離 旧譜のリミックス
 チャネル方式 ➡ オブジェクト方式
5
R&Dセンター © 2020 Sony Corporation
三期連続ベストスコア
 国際コンペSignal Separation Evaluation Campaign(SiSEC)に参加
 2015–2018年、三期連続でベストスコアを獲得
[1]F.-R. Stöter, A. Liutkus, and N. Ito. "The 2018 Signal Separation Evaluation Campaign." LVA/ICA, 2018
[2]D. Ward et al. "SISEC 2018: state of the art in musical audio source separation - Subjective selection of
the best algorithm." Proceedings of the 4th Workshop on Intelligent Music Production, 2018.
信号と残差の比率[dB]
Sony
聴感指標
Upper
Bound
Other entries
客観評価実験 [1] 聴感評価実験 [2]
6
R&Dセンター © 2020 Sony Corporation
分離結果のWeb公開
分離結果は以下のサイトから試聴できます。
https://sisec18.unmix.app/#/
7
事例紹介
R&Dセンター © 2020 Sony Corporation
屋外における動画撮影への応用
スマホを使ったコンテンツクリエーションが増加
外部マイクではなくスマホマイクで録音すると風雑音が混入
| 9
音源分離
風雑音入りの音
抽出された風雑音
風雑音以外の音
R&Dセンター © 2020 Sony Corporation
クリーンな音声収録における応用
スタジオにおける音声収録と同様、自宅における音声収録のニーズあり
収録された音声品質は自宅環境に依存
| 10
音源分離
雑音入りの音声
雑音
音声
R&Dセンター © 2020 Sony Corporation
映画のアップミックスにおける応用
映画用に学習されたAIを用いて、古いマスターテープから音源を抽出
新しい音響フォーマットにアップミックス
| 11
音源分離
音が混合している
マスターテープ
馬が走る音
ヘリコプターが飛ぶ音
銃が鳴る音
R&Dセンター © 2020 Sony Corporation
リアルタイムカラオケ
スマートフォン上でリアルタイムでボーカル除去
| 12
音楽
ボーカル
カラオケ
音源分離
R&Dセンター © 2020 Sony Corporation
音源分離のオープンソース『Open-Unmix』
仏国立機関INRIAとソニーの共同プロジェクト
推論、学習用コード
学習済みモデル
Neural Network Libraries, PyTorch
| 13
参考論文: Open-Unmix - A Reference Implementation for Music Source Separation, Journal of OSS
https://joss.theoj.org/papers/10.21105/joss.01667
 ♦ ◆ https://open.unmix.app ◆ ♦ 
技術紹介
R&Dセンター © 2020 Sony Corporation
音源分離の手がかり・既存手法
振幅スペクトルの(統計的)パターン
楽器
個人性
時間連続性
チャネル間のバランス・方向
追加情報
言語情報
音楽理論・スコア
画像
etc.
既存手法
実際の音楽や音声では…
 音源に対する仮定が強い
 不明瞭・膨大なパターン
 線形モデルでは表現しきれない
⇒Deep Neural Networksの利用
分離の手がかり
NMF(非負値行列因子分解)
繰返しパターン
ICA(独立成分分析)
音源の独立性
etc.
15
R&Dセンター © 2020 Sony Corporation
DNNを用いた音源分離のフレームワーク
DNN
③ Training data
Train DNN though data
① Network architecture
② Training method
𝐿𝐿 = � 𝑠𝑠𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 − 𝑓𝑓 𝑥𝑥
2
𝑥𝑥
𝑠𝑠𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡
𝑓𝑓 𝑥𝑥
error
|STFT|
Mixture |STFT| Sources
④ Loss function
※この他、時間領域の手法もある
16
R&Dセンター © 2020 Sony Corporation
Network Architecture ( MMDenseLSTM )
 Recurrent units Dense connections
 Multi-scaled  Multi-band
input output
…
Full band
Band N
Band 1
Dense
block
freq.
time
Dense LSTM block
[1] N. Takahashi, et. al. , “MMDenseLSTM: an Efficient Combination of Convolutional and Recurrent Neural Networks for Audio Source
Separation”, IWAENC 2018
17
R&Dセンター © 2020 Sony Corporation
位相復元 (PhaseNet)
振幅推定
DNN
混合音 振幅スペクトル
混合音 位相スペクトルSTFT iSTFT
Mixture Source
位相推定
DNN
|・|
∠
[2] N. Takahashi ,et. al. , “PhaseNet: Discretized Phase Modeling with Deep Neural Networks for Audio Source Separation”, Interspeech 2018
Regression
[-π, π]
Re
Im
非連続
θ
θ
Classification
位相推定を分類問題として解く
ことで位相の非連続問題を回避
18
R&Dセンター © 2020 Sony Corporation
音声認識の利用
 音声認識は音源分離性能改善に有用か?
Features
End-to-end
音声認識
テキスト
音声分離
音声分離
音声認識からの特徴量が
分離性能を改善
音楽音源分離 on MUSDB18
[3] N.Takahashi, et. al. , “Improving Voice Separation by Incorporating End-to-end Speech Recognition”, ICASSP2020
19
R&Dセンター © 2020 Sony Corporation
音源数未知の場合の話者分離
 問題:あらかじめ決められた音源数を超えると正しく分離できない
 一話者ずつ再帰的に分離
Mixture
𝑥𝑥(𝑡𝑡)
̂𝑠𝑠1(𝑡𝑡)
̂𝑠𝑠2(𝑡𝑡)
̂𝑟𝑟1(𝑡𝑡)
̂𝑟𝑟2(𝑡𝑡)
One and rest
speech
separation One and rest
speech
separation
Speech or not?
̂𝑠𝑠3(𝑡𝑡)
̂𝑟𝑟3(𝑡𝑡)
One and rest
speech
separation
Speech or not? Speech or not?
学習で一度も見ていない
4話者の分離に成功
20
R&Dセンター © 2020 Sony Corporation
音源分離の頑健性・コンテンツ保護
 Adversarial example:知覚困難な微小なノイズがDNNを誤動作させる
Mixture
Adversarial noise
元の分離結果
元とは大きく異なる分離結果に
音声分離
音声分離
+
入力に与える影響分離音に与える影響
N. Takahashi and Y. Mitsufuji, “Adversarial attacks on audio source separation”,
arXiv
21
R&Dセンター © 2020 Sony Corporation
DNN音源分離参考文献
Year Title Conference
2015 DNN Based Instrument Extraction from Music †
ICASSP
2016 Multichannel Blind Source Separation Based on Non-negative Tensor Factorization in Wavenumber Domain ICASSP
2017
Supervised Monaural Source Separation Based on Autoencoders ICASSP
Improving Music Source Separation Based on DNNs through Data Augmentation and Network Blending *†
ICASSP
Multi-Scale Multi-Band DenseNets for Audio Source Separation *†
WASPAA
2018
PhaseNet: Discretized Phase Modeling with Deep Neural Networks for Audio Source Separation INTERSPEECH
Improving DNN-based Music Source Separation using Phase Features ICML workshop
MMDenseLstm: An Efficient Combination of Convolutional and Recurrent Neural Networks for Audio Source Separation *†
IWAENC
2019
Recursive Speech Separation for Unknown Number of Speakers INTERSPEECH
Open-Unmix - A Reference Implementation for Music Source Separation Journal of OSS
2020
Improving Voice Separation by Incorporating End-to-end Speech Recognition ICASSP
Adversarial attacks on audio source separation arXiv
D3Net: Densely connected dilated DenseNet for Music source separation arXiv
* 国際コンペでベストスコアを記録したモデルの参考文献
† 50本以上の引用がある論文
22

Contenu connexe

Tendances

ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向Yuma Koizumi
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組みAtsushi_Ando
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech RecognitionYosukeKashiwagi1
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用Yuma Koizumi
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理Yuma Koizumi
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法Daichi Kitamura
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...Daichi Kitamura
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...Yui Sudo
 
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Shintaro Fukushima
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展Kitamura Laboratory
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 

Tendances (20)

ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
 
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 

Similaire à 音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3

TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONRyoAIHARA1
 
ICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会MellotronICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会MellotronKentaro Tachibana
 
ICASSP2020 論文読み会 柏木陽佑
ICASSP2020 論文読み会 柏木陽佑ICASSP2020 論文読み会 柏木陽佑
ICASSP2020 論文読み会 柏木陽佑YosukeKashiwagi1
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
 
ソフトシンセを作りながら学ぶPythonプログラミング
ソフトシンセを作りながら学ぶPythonプログラミングソフトシンセを作りながら学ぶPythonプログラミング
ソフトシンセを作りながら学ぶPythonプログラミングRansui Iso
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援Ryohei Suzuki
 
SIG-Audio#1 CEDEC2012 ラウドネス関連セッション報告
SIG-Audio#1 CEDEC2012 ラウドネス関連セッション報告SIG-Audio#1 CEDEC2012 ラウドネス関連セッション報告
SIG-Audio#1 CEDEC2012 ラウドネス関連セッション報告IGDA Japan SIG-Audio
 
東工大 工学院 情報通信系 大学院説明会2023
東工大 工学院 情報通信系 大学院説明会2023東工大 工学院 情報通信系 大学院説明会2023
東工大 工学院 情報通信系 大学院説明会2023Tokyo Institute of Technology
 
エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略NVIDIA Japan
 

Similaire à 音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3 (12)

TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
 
ICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会MellotronICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会Mellotron
 
ICASSP2020 論文読み会 柏木陽佑
ICASSP2020 論文読み会 柏木陽佑ICASSP2020 論文読み会 柏木陽佑
ICASSP2020 論文読み会 柏木陽佑
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
ソフトシンセを作りながら学ぶPythonプログラミング
ソフトシンセを作りながら学ぶPythonプログラミングソフトシンセを作りながら学ぶPythonプログラミング
ソフトシンセを作りながら学ぶPythonプログラミング
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
 
SIG-Audio#1 CEDEC2012 ラウドネス関連セッション報告
SIG-Audio#1 CEDEC2012 ラウドネス関連セッション報告SIG-Audio#1 CEDEC2012 ラウドネス関連セッション報告
SIG-Audio#1 CEDEC2012 ラウドネス関連セッション報告
 
東工大 工学院 情報通信系 大学院説明会2023
東工大 工学院 情報通信系 大学院説明会2023東工大 工学院 情報通信系 大学院説明会2023
東工大 工学院 情報通信系 大学院説明会2023
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 

Dernier

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 

Dernier (9)

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 

音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3

  • 1. Copyright 2020 Sony Corporation 音源分離 ~DNN音源分離の基礎から最新技術まで~ 2020/10/14 Tokyo BISH Bash #03 with IYS2020 SONY R&Dセンター Tokyo Laboratory 21 高橋直也
  • 2. R&Dセンター © 2020 Sony Corporation 自己紹介 2015年 スイス連邦工科大学チューリッヒ(ETH Zurich) 客員研究員 2020年 博士課程後期 筑波大学 コンピュータサイエンス専攻 現在 ソニー株式会社 R&Dセンター Tokyo Laboratory21 経歴 Pickup SiSEC 2016, 2018ベストスコア Sony Outstanding Engineer Award 2018 たかはし なおや 高橋直也 博士(工学) 研究領域 音源分離,音響イベント認識,ビデオ解析,音声認識,声質変換 Linkedin: www.linkedin.com/in/naoyatakahashi Twitter:https://twitter.com/zuNaoya 2
  • 3. R&Dセンター © 2020 Sony Corporation 本日の話の流れ  音源分離とは  ソニーでの事例紹介  製品  映画  音楽  技術紹介  基本的なフレームワーク  研究紹介 3
  • 4. R&Dセンター © 2020 Sony Corporation 音源分離とは  アカデミアで50年以上、非常に困難な問題として扱われてきた。  2013年、ソニーはAIを用いた音源分離に着手 ➡ この分野では先駆者 音源分離 混合している音源 分離された音源 4
  • 5. R&Dセンター © 2020 Sony Corporation 応用例 音楽・映画 音声 雑音の抑圧 音声同士の分離 旧譜のリミックス  チャネル方式 ➡ オブジェクト方式 5
  • 6. R&Dセンター © 2020 Sony Corporation 三期連続ベストスコア  国際コンペSignal Separation Evaluation Campaign(SiSEC)に参加  2015–2018年、三期連続でベストスコアを獲得 [1]F.-R. Stöter, A. Liutkus, and N. Ito. "The 2018 Signal Separation Evaluation Campaign." LVA/ICA, 2018 [2]D. Ward et al. "SISEC 2018: state of the art in musical audio source separation - Subjective selection of the best algorithm." Proceedings of the 4th Workshop on Intelligent Music Production, 2018. 信号と残差の比率[dB] Sony 聴感指標 Upper Bound Other entries 客観評価実験 [1] 聴感評価実験 [2] 6
  • 7. R&Dセンター © 2020 Sony Corporation 分離結果のWeb公開 分離結果は以下のサイトから試聴できます。 https://sisec18.unmix.app/#/ 7
  • 9. R&Dセンター © 2020 Sony Corporation 屋外における動画撮影への応用 スマホを使ったコンテンツクリエーションが増加 外部マイクではなくスマホマイクで録音すると風雑音が混入 | 9 音源分離 風雑音入りの音 抽出された風雑音 風雑音以外の音
  • 10. R&Dセンター © 2020 Sony Corporation クリーンな音声収録における応用 スタジオにおける音声収録と同様、自宅における音声収録のニーズあり 収録された音声品質は自宅環境に依存 | 10 音源分離 雑音入りの音声 雑音 音声
  • 11. R&Dセンター © 2020 Sony Corporation 映画のアップミックスにおける応用 映画用に学習されたAIを用いて、古いマスターテープから音源を抽出 新しい音響フォーマットにアップミックス | 11 音源分離 音が混合している マスターテープ 馬が走る音 ヘリコプターが飛ぶ音 銃が鳴る音
  • 12. R&Dセンター © 2020 Sony Corporation リアルタイムカラオケ スマートフォン上でリアルタイムでボーカル除去 | 12 音楽 ボーカル カラオケ 音源分離
  • 13. R&Dセンター © 2020 Sony Corporation 音源分離のオープンソース『Open-Unmix』 仏国立機関INRIAとソニーの共同プロジェクト 推論、学習用コード 学習済みモデル Neural Network Libraries, PyTorch | 13 参考論文: Open-Unmix - A Reference Implementation for Music Source Separation, Journal of OSS https://joss.theoj.org/papers/10.21105/joss.01667  ♦ ◆ https://open.unmix.app ◆ ♦ 
  • 15. R&Dセンター © 2020 Sony Corporation 音源分離の手がかり・既存手法 振幅スペクトルの(統計的)パターン 楽器 個人性 時間連続性 チャネル間のバランス・方向 追加情報 言語情報 音楽理論・スコア 画像 etc. 既存手法 実際の音楽や音声では…  音源に対する仮定が強い  不明瞭・膨大なパターン  線形モデルでは表現しきれない ⇒Deep Neural Networksの利用 分離の手がかり NMF(非負値行列因子分解) 繰返しパターン ICA(独立成分分析) 音源の独立性 etc. 15
  • 16. R&Dセンター © 2020 Sony Corporation DNNを用いた音源分離のフレームワーク DNN ③ Training data Train DNN though data ① Network architecture ② Training method 𝐿𝐿 = � 𝑠𝑠𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 − 𝑓𝑓 𝑥𝑥 2 𝑥𝑥 𝑠𝑠𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓 𝑥𝑥 error |STFT| Mixture |STFT| Sources ④ Loss function ※この他、時間領域の手法もある 16
  • 17. R&Dセンター © 2020 Sony Corporation Network Architecture ( MMDenseLSTM )  Recurrent units Dense connections  Multi-scaled  Multi-band input output … Full band Band N Band 1 Dense block freq. time Dense LSTM block [1] N. Takahashi, et. al. , “MMDenseLSTM: an Efficient Combination of Convolutional and Recurrent Neural Networks for Audio Source Separation”, IWAENC 2018 17
  • 18. R&Dセンター © 2020 Sony Corporation 位相復元 (PhaseNet) 振幅推定 DNN 混合音 振幅スペクトル 混合音 位相スペクトルSTFT iSTFT Mixture Source 位相推定 DNN |・| ∠ [2] N. Takahashi ,et. al. , “PhaseNet: Discretized Phase Modeling with Deep Neural Networks for Audio Source Separation”, Interspeech 2018 Regression [-π, π] Re Im 非連続 θ θ Classification 位相推定を分類問題として解く ことで位相の非連続問題を回避 18
  • 19. R&Dセンター © 2020 Sony Corporation 音声認識の利用  音声認識は音源分離性能改善に有用か? Features End-to-end 音声認識 テキスト 音声分離 音声分離 音声認識からの特徴量が 分離性能を改善 音楽音源分離 on MUSDB18 [3] N.Takahashi, et. al. , “Improving Voice Separation by Incorporating End-to-end Speech Recognition”, ICASSP2020 19
  • 20. R&Dセンター © 2020 Sony Corporation 音源数未知の場合の話者分離  問題:あらかじめ決められた音源数を超えると正しく分離できない  一話者ずつ再帰的に分離 Mixture 𝑥𝑥(𝑡𝑡) ̂𝑠𝑠1(𝑡𝑡) ̂𝑠𝑠2(𝑡𝑡) ̂𝑟𝑟1(𝑡𝑡) ̂𝑟𝑟2(𝑡𝑡) One and rest speech separation One and rest speech separation Speech or not? ̂𝑠𝑠3(𝑡𝑡) ̂𝑟𝑟3(𝑡𝑡) One and rest speech separation Speech or not? Speech or not? 学習で一度も見ていない 4話者の分離に成功 20
  • 21. R&Dセンター © 2020 Sony Corporation 音源分離の頑健性・コンテンツ保護  Adversarial example:知覚困難な微小なノイズがDNNを誤動作させる Mixture Adversarial noise 元の分離結果 元とは大きく異なる分離結果に 音声分離 音声分離 + 入力に与える影響分離音に与える影響 N. Takahashi and Y. Mitsufuji, “Adversarial attacks on audio source separation”, arXiv 21
  • 22. R&Dセンター © 2020 Sony Corporation DNN音源分離参考文献 Year Title Conference 2015 DNN Based Instrument Extraction from Music † ICASSP 2016 Multichannel Blind Source Separation Based on Non-negative Tensor Factorization in Wavenumber Domain ICASSP 2017 Supervised Monaural Source Separation Based on Autoencoders ICASSP Improving Music Source Separation Based on DNNs through Data Augmentation and Network Blending *† ICASSP Multi-Scale Multi-Band DenseNets for Audio Source Separation *† WASPAA 2018 PhaseNet: Discretized Phase Modeling with Deep Neural Networks for Audio Source Separation INTERSPEECH Improving DNN-based Music Source Separation using Phase Features ICML workshop MMDenseLstm: An Efficient Combination of Convolutional and Recurrent Neural Networks for Audio Source Separation *† IWAENC 2019 Recursive Speech Separation for Unknown Number of Speakers INTERSPEECH Open-Unmix - A Reference Implementation for Music Source Separation Journal of OSS 2020 Improving Voice Separation by Incorporating End-to-end Speech Recognition ICASSP Adversarial attacks on audio source separation arXiv D3Net: Densely connected dilated DenseNet for Music source separation arXiv * 国際コンペでベストスコアを記録したモデルの参考文献 † 50本以上の引用がある論文 22