SlideShare une entreprise Scribd logo
1  sur  21
Télécharger pour lire hors ligne
第146回音声言語情報処理研究発表会
Fed-StarGANv2-VC:
連合学習を用いた多対多声質変換
平井龍之介,齋藤佑樹,猿渡洋(東大)
目次
- 声質変換の概説
- 連合学習の概説
- 提案手法とその評価
- まとめと今後の課題
要約
- 連合学習を用いてプライバシーを保護したまま声質変換を実現する手法の提案
01/19
研究分野: 声質変換 (Voice Conversion: VC)
X Y
「こんにちは」 「こんにちは」
変換器
男声
落ち着いた
女声
溌剌
発話内容 発話内容
音響的特徴 音響的特徴
そのまま
変化する
多対多声質変換の利用例
- ユーザ→プロ声優の声質変換
- ユーザ同士の声質変換
02/19
既存手法: StarGANv2-VC[1]
生成システム 識別システム
話者性の
ベクトル表現
03/19
一方向的/双方向的な機械学習アプローチ
04/19
双方向的アプローチが望ましい
双方向的アプローチの問題点: 個人情報漏洩リスク
音声データには個人情報が含まれる
- 発話内容 等
集約には個人情報漏洩のリスクがある
- 通信時の漏洩
- サーバへの不正アクセス 等
データを集約しない学習システムの構築が必要
05/19
関連研究: 連合学習[2]
2.学習
2.学習
1.配布
3.統合
選ばれなかった
クライアント パラメータ
ローカルなデータ クライアント
サーバ
各Round(反復の単位)の処理
1.選択したクライアントにモデルを配布
2.各クライアントは所有する
データでモデルを学習
3.サーバはモデルを統合
本実験では統合手法にFedAvg[3]を採用
06/19
連合学習の統合処理
データ数で重み付き平均を取る
統合: Federated Averaging
統合
配布・更新
07/19
連合学習の適用例(先行研究)
- 画風変換
- Federated CycleGAN
- Joonyoung Song and Jong Chul Ye. Federated CycleGAN for privacy-preserving image-to-
image translation, 2021.
- テキスト音声合成
- FedSpeech
- Ziyue Jiang, Yi Ren, Ming Lei, and Zhou Zhao. FedSpeech: Federated text-to-speech with
continual learning. In Proc. IJCAI, pp. 3829–3835, Montreal, Canada, Aug. 2021.
- 声質変換
- ???(まだ無い)
本研究の主眼: 声質変換技術への連合学習の適用とその影響の調査
08/19
StarGANv2-VCを構成するモデル全てに対し,連合学習を適用する手法
提案手法: Fed-StarGANv2-VC
既存手法(一方向的) 提案手法(双方向的)
09/19
nonIIDデータセット
- 変換対象をClient話者とAnchor話者に分類
- 1Client話者は連合学習の1クライアントに対応
- Client話者→クライアント端末のユーザの利用データ
- Anchor話者→サーバから供与される音声データ
- Anchor話者のデータ数とClient話者のデータ数が一致
するようにデータ数を調整
データセットに
含まれない変換ペア
10/19
連合学習におけるClient話者間の変換の間接的学習
11/19
- ただし, はクライアントのモデルパラメータ, はサーバのモデルパラメ
ータ, は影響度を決定するハイパーパラメータ
連合学習の課題: データ分布の非同一性
- クライアントの持つデータが異なる分布に従う→収束速度の低下
- 各クライアントのデータセットに過適合
- データ非同一性に起因する過適合への対策: FedProx[4]
- パラメータの更新式にサーバ側の(統合済み)モデルに引き戻す項を導入
統合済みモデルとの二乗誤差
12/19
実験
比較手法: Baseline (StarGANv2-VC) vs Proposed (Fed-StarGANv2-VC)
実験条件
Proposed間の比較: {200,400}Round学習,{1,3}Client選択,FedProx{なし,あり}
BaselineとProposedの比較: Baseline(700Epoch),Proposed(3Client選択,800Round,FedProx)
客観評価: 変換先話者との類似度(x-vector[9]コサイン類似度)
主観評価: 変換先話者との類似度(ABXテスト),音質(ABテスト)
実装 オープンソース実装[5]
データセット JVS[6] parallel100サブセット
有音部を結合→5秒毎に分割
{訓練/検証/評価}データ {3284,411,411}点
{Anchor,Client}話者 {10,30}話者(男女均等)
Optimizer AdamW[7]
BatchSize 10
Epoch/Round
(Proposedのみ)
10
x-vector
抽出器
x-vector extractor for Japanese
speech[8]
13/19
客観評価: 条件を変化させた際のProposedのx-vectorコサイン類似度
学習期間(Round数)が長い程性能が良い
各Roundで選択するクライアントの数が
多い方が性能が良い
FedProxを導入した方が性能が良い
学習期間(Round)を変化させた場合
各Roundで選択するクライアント数を変化させた場合
FedProxの導入の有無を変化させた場合
14/19
客観評価結果: 学習期間に対する x-vector コサイン類似度の変化
Client話者への変換
提案手法ではClient話者同士の変換も間接的に学習出来る
200Epoch時点でほぼ収束
Baseline Proposed
Anchor話者への変換
15/19
主観評価
BaselineとProposedは同等
or Proposedの方が優越
Anchorへの変換→Baselineが優越
Clientへの変換→Proposedが優越
クライアントへのデータ分割手法が学習に影響している可能性を示唆
類似度(ABXテスト) 音質(ABテスト)
被験者は各基準,変換ペア毎に50人
16/19
音質評価: nonIIDデータセットが学習に与える影響
Anchor話者への変換
Anchor話者10人のデータとClient話者1人の
データが同じ量
→Anchor話者一人あたりのデータが少ない
Client話者への変換
Baselineが40人の声質変換を学習するのに
対して、Proposedでは各クライアントで
11人の声質変換を学習
→小さい課題への分割が学習を促進
Anchorへの変換→Baselineが優越
Clientへの変換→Proposedが優越
音質(ABテスト)
17/19
サンプル音声
Client話者→Anchor話者
Client話者→Client話者
入力音声 変換先サンプル Baselineでの変換 Proposedでの変換
入力音声 変換先サンプル Baselineでの変換 Proposedでの変換
音声サンプルリンク及びQRコード
https://drive.google.com/drive/folders/1QcCFnjuu39lv9sKbVFLnsORpOf0_VVI_?usp=sharing
18/19
A
A B
1
まとめ
目的: 声質変換モデルにおけるプライバシーを保護した状態での双方向的な学習の実現
提案法: 多対多声質変換モデルStarGANv2-VCに連合学習を適用
結果: Client話者のデータを各クライアントに分散させたまま,Client同士の声質変換の学
習を達成
今後の課題
- データ分布の非同一性の影響に対する更なる対策の導入
- 実環境での実験
19/19
参考文献
[1]Yinghao Aaron Li, Ali Asghar Zare, and Nima Mesgarani. StarGANv2-VC: A diverse, unsupervised, non-parallel framework for natural-sounding
voice conversion. In Proc. INTERSPEECH, pp. 1349–1353, Brno, Czechia, Sep. 2021.
[2]Jakub Koneˇcn´y, H. Brendan McMahan, Felix X. Yu, Peter Richtarik, Ananda Theertha Suresh, and Dave Bacon. Federated learning: strategies
for improving communication efficiency. In NIPS Workshop on Private Multi-Party Machine Learning, Barcelona, Spain, Dec. 2016.
[3]Brendan McMahan, Eider Moore, Daniel Ramage, Seth Hampson, and Blaise Aguera y Arcas. Communication-efficient learning of deep networks
from decentralized data. In Artificial Intelligence and Statistics, pp. 1273–1282, 2017.
[4]Tian Li, Anit Kumar Sahu, Manzil Zaheer, Maziar Sanjabi, Ameet Talwalkar, and Virginia Smith. Federated optimization in heterogeneous networks.
In Proc. AMTL,Long Beach, USA, Apr. 2019.
[5]https://github.com/yl4579/StarGANv2-VC
[6]Shinnosuke Takamichi, Ryosuke Sonobe, Kentaro Mitsui, Yuki Saito, Tomoki Koriyama,
Naoko Tanji, and Hiroshi Saruwatari. JSUT and JVS: Free Japanese voicecorpora for accelerating speech synthesis research. Acoustical Science
and Technology,Vol. 41, No. 5, pp. 761–768, Sep. 2020.
[7]Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. In Proc.ICLR, Palais des Congr`es Neptune, Toulon, France, Apr. 2017.
[8]Takaki Hamada and Shinnosuke Takamichi. x-vector extractor for Japanese speech,2022.https://github.com/sarulab-speech/xvector_jtubespeech.
[9]D. Snyder, D. Garcia-Romero, G. Sell, D. Povey, and S. Khudanpur. X-vectors:Robust DNN embeddings for speaker recognition. In Proc. ICASSP,
pp. 5329–5333,Calgary, Alberta, Canada, Apr. 2018.

Contenu connexe

Tendances

リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトNU_I_TODALAB
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
 
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討Kosuke Futamata
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習Shinnosuke Takamichi
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?NU_I_TODALAB
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワークNU_I_TODALAB
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Keisuke Imoto
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向Koichiro Mori
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 

Tendances (20)

リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 

Similaire à hirai23slp03.pdf

Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...Yui Sudo
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONRyoAIHARA1
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーションYuya Unno
 
Jla stepup2(20100822)
Jla stepup2(20100822)Jla stepup2(20100822)
Jla stepup2(20100822)真 岡本
 
2014LETシンポジウム WritingMaetriXについて
2014LETシンポジウム WritingMaetriXについて2014LETシンポジウム WritingMaetriXについて
2014LETシンポジウム WritingMaetriXについてWritingMaetriX
 
Sig kbs slide-20181123_ota
Sig kbs slide-20181123_otaSig kbs slide-20181123_ota
Sig kbs slide-20181123_ota博三 太田
 
マイニング探検会#12
マイニング探検会#12マイニング探検会#12
マイニング探検会#12Yoji Kiyota
 
小松左京が遺した夢
小松左京が遺した夢小松左京が遺した夢
小松左京が遺した夢Almond_Andel
 
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例Yahoo!デベロッパーネットワーク
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割Takuya Nishimoto
 
Ipsj kansai(20100922)
Ipsj kansai(20100922)Ipsj kansai(20100922)
Ipsj kansai(20100922)真 岡本
 
Sig kst 34th-1_20180802_ota
Sig kst 34th-1_20180802_otaSig kst 34th-1_20180802_ota
Sig kst 34th-1_20180802_ota博三 太田
 
生活支援ロボットのマルチモーダル言語理解技術
生活支援ロボットのマルチモーダル言語理解技術生活支援ロボットのマルチモーダル言語理解技術
生活支援ロボットのマルチモーダル言語理解技術Komei Sugiura
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchiAkira Taniguchi
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generationharmonylab
 

Similaire à hirai23slp03.pdf (20)

Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
Nishimoto110111twcu p2
Nishimoto110111twcu p2Nishimoto110111twcu p2
Nishimoto110111twcu p2
 
深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション
 
Jla stepup2(20100822)
Jla stepup2(20100822)Jla stepup2(20100822)
Jla stepup2(20100822)
 
2014LETシンポジウム WritingMaetriXについて
2014LETシンポジウム WritingMaetriXについて2014LETシンポジウム WritingMaetriXについて
2014LETシンポジウム WritingMaetriXについて
 
Sig kbs slide-20181123_ota
Sig kbs slide-20181123_otaSig kbs slide-20181123_ota
Sig kbs slide-20181123_ota
 
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
 
マイニング探検会#12
マイニング探検会#12マイニング探検会#12
マイニング探検会#12
 
小松左京が遺した夢
小松左京が遺した夢小松左京が遺した夢
小松左京が遺した夢
 
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割
 
Ipsj kansai(20100922)
Ipsj kansai(20100922)Ipsj kansai(20100922)
Ipsj kansai(20100922)
 
Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト
Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイトMicrosoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト
Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト
 
Sig kst 34th-1_20180802_ota
Sig kst 34th-1_20180802_otaSig kst 34th-1_20180802_ota
Sig kst 34th-1_20180802_ota
 
生活支援ロボットのマルチモーダル言語理解技術
生活支援ロボットのマルチモーダル言語理解技術生活支援ロボットのマルチモーダル言語理解技術
生活支援ロボットのマルチモーダル言語理解技術
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
 

Plus de Yuki Saito

fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_ascYuki Saito
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfYuki Saito
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUSYuki Saito
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentationYuki Saito
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn MeetingYuki Saito
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 readingYuki Saito
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumnYuki Saito
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020Yuki Saito
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_publishedYuki Saito
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNAYuki Saito
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会Yuki Saito
 

Plus de Yuki Saito (20)

fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 

hirai23slp03.pdf