SlideShare a Scribd company logo
1 of 20
Download to read offline
Incremental Text to Speech for Neural
Sequence-to-Sequence Models using
Reinforcement Learning
NAIST D3
YANAGIT TOMOYA
1©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
自己紹介
名前
柳田智也
所属
奈良先端科学技術大学院大学 知能コミュニケーション研究室 D3
専門
逐次合成音声
動機
Interspeechで逐次合成関係論文が3本ほど採録(段々とレッドオーシャン化)
逐次音声合成を広めて発展させたい!!!
強化学習について概要を知りたい
レッドオーシャンに引きずり込んで道ずれを増加
2©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
背景:Incremental TTSの概要
音声合成: Text-to-speech(上図)
1.と2.はニューラルネットが主流
1.テキスト解析(表層文字から音素)
2.入力系列(音素)から音響特徴生成
3.音響特徴から音声生成
Incremental TTS(下図)
1.から3.の流れは同様
文より短い単位で逐次生成
リアルタイムなアプリへ応用
→同時通訳等
3©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
逐次音声合成の問題
音声:連続性を持つ(調音結合等)
逐次音声合成:一部の入力から音響特徴を生成
→ 後続音声の変化を考慮できない
→ 入力長と出力長の制御(どこまで入力し、どこまで出力するか)
Tacotron
Tacotron2
Wavenet
4©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
今回の論文
Incremental Text to Speech for Neural Sequence-to-Sequence Models
using Reinforcement Learning
三行まとめ
①End-to-end TTSによる逐次音声合成
②入出力長制御に強化学習を適応
③入出力長と音声品質の制御を可能に
5©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
End-to-End iTTSの関連研究
End-to-endに基づくIncremental TTS
後続を待たずに合成、出力制御 はstop flag [Yanagita, et al., 2019]
k単語を待ち合成、出力制御はstop flagとアテンション [Ma, et al., 2020]
逐次音声合成:一部の入力から音響特徴を生成
→ 後続音声の変化を考慮できない
6©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
関連研究(1/3)
Incremental Text-to-Speech Synthesis
with Prefix-to-Prefix Framework
通常のEnd-to-End音声合成をIncremental TTSに適用
①テキストから音響特徴生成 (Encoder-decoder with attention)
②音響特徴から音声生成 (wavenet vocoder)
二つの方針
① 音響特徴推定時、必ず1単語待つ(wait-1-policy)
② k単語分の情報を先読みする戦略 (lookahead-k-policy)
[Ma, et al., 2020]
7©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
関連研究(2/3)
Incremental Text-to-Speech Synthesis
with Prefix-to-Prefix Framework
音響特徴生成の制御:アテンションとstop flagを使用
例:look-ahead1=1, sequence: [ [t,h,i,s,i,s,a,e,x,s,a,m,p,l,e] ]
encoder_hidden=Encode(first_seq. + look-ahead);
k=0
for True:
attn._wirhgt = attention(encoder_hidden)
if Softmax (attn._weight[k-win:k+win+1]) < k+lookahead :
encoder_hidden=Encode(k inputs)
k=k+1
continue
else:
out=Decode(enc_hidden, attn_weigth, context)
if stop_flag:
break
i
Encoding
step
Decoding step
t
音声生成時(look-ahead2)方針
例: look-ahead2=1
±15*look-ahead2フレームを使用して合成
8©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
t
h
ss
i
t
h
t
h h
i
h
i
h
k=2
win=1
関連研究(3/3)
Incremental Text-to-Speech Synthesis
with Prefix-to-Prefix Framework
Tacotron2の音響モデル+parallel wavegan
①入力系列(音素・表層文字)から音響特徴生成
→ アテンション付きEncoder-decoder
→ メルスペクトログラムの生成
※convlution層とbi-lstm層について言及無し
②音響特徴から音声生成
→ parallel wavegan
9©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
先行研究で未解決の問題
単語単位の合成
入出力長を制御不可
例:1,2単語目が長い場合、遅延増加
言語によりパラメータkを設計する必用
-> k phonemes, k characters, k words
解決方法
入出力長の制御へ強化学習を導入
→逐次機械翻訳で使われている方法の応用[Gu, et al., 2016]
10©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
i
Encoding
step
Decoding step
t t
h
ss
i
t
h
t
h h
i
h
i
h
k=2
win=1
強化学習
環境から観測した状態により、エージェントが最適な行動決定をする機械学習
状態(観測)集合:𝑆 = {𝑠1, 𝑠2, 𝑠3 , … , 𝑠𝐽}
エージェントの行動集合:A(s) = {𝑎1, 𝑎2, 𝑎3 , … , 𝑎 𝑀}
状態遷移確立(マルコフ決定過程):𝑃(𝑠 𝑗+1|, 𝑠 𝑗, 𝑎 𝑗)
報酬:𝑟 𝑗+1 = 𝑟(𝑠 𝑗, 𝑎 𝑗, 𝑠 𝑗+1)
方策:𝑎 𝑗 = π 𝑎 𝑚|𝑠 𝑗
→ 論文では、確率的方策を使用
状態価値関数:𝐸π
𝑟 𝑗+1
+ γ𝑟 𝑗+2
+ γ2
𝑟 𝑗+3
… , 0 < γ ≤ 1
強化学習の目標:状態価値関数を最大化(現在の状態・現在および次の行動から、最終的に得られる報酬を最大化)する方策決定
→ 論文では、最適な方策π 𝑎 𝑚|𝑠 𝑗 を直接学習
→ policy gradient:学習可能なパラメータを方策に使用し、
期待収益(状態価値関数より算出)を確率勾配法で最大化
https://qiita.com/dcm_hisao_katsumi/items/b25646a1cdbb1667e44f
将棋の例
状態:盤面と持ち駒
行動:指す手
報酬:勝敗や、指しての良しあし
目標:最終的に勝利するため方策
決定
11©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
https://qiita.com/shionhonda/items/ec05aade07b5bea78081
[Gu, et al., 2016] 4.3節
逐次音声合成用強化学習の設定(1/2)
環境:学習済みTacotron2(修正有り)
・Encoder
・Decoder/attention Conv. Layerを削除
Bi-directional LSTM を Uni-directional LSTMへ変更
Remove Post-processing net (5 conv. layer)を削除
・アライメントのためTeacher forcing使用
エージェントの行動
・READ:次入力を入力し、アテンション計算
・WRITE:メルスペクトログラム生成
観測
・入力系列の全コンテキストベクタ
・k近傍のアテンション重み
・最近傍のメルフレーム
環境 観測
エージェント
GRU+Relu
×3
READ or WRITE
報酬
12©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
行動
選択
逐次音声合成用強化学習の設定(2/2)
遅延 𝑟𝑗
𝐷
≔ 𝑟𝑗
𝐶𝑅
+𝑟J
𝐴𝑃
rj
CR
≔ ω ∗ (sgn(cj − c∗
)+1)
cj: READ動作が連続回数, c∗
:READ動作の連続許容回数, sgn():符号関数, ω: 重みパラメータ(<0)
𝑟J
𝐴𝑃
≔ β ∗ ‫ہ‬ ‫ۂ‬𝑑 𝑇 − 𝑑∗
+
𝑑 𝑇: アテンションの平均面積, 𝑑∗ : 𝑑 𝑇の基準値, ‫ہ‬ ‫ۂ‬+: 天井関数, β: 重みパラメータ(<0)
𝑑 𝑇=1は全てREADし合成(SPEAK)、𝑑 𝑇 = 0は合成(SPEAK)してから全てREAD
品質 𝑟𝑗
𝑄
𝑟𝑗
𝑄
≔ λ ∗ 𝑀𝑆𝐸 𝑦 𝑆 𝑗 , ො𝑦 𝑆 𝑗
𝑦 𝑆 𝑗 : メルスペクトログラム, ො𝑦 𝑆 𝑗 :予測メルスペクトログラム, λ: 重みパラメータ(<0)
音響特徴のMSE損失(jステップ時の行動がREADの場合0)
報酬:品質と遅延を制御するよう設計 (ここで,jは各ステップを表す)
𝑟𝑗 ≔ 𝑟𝑗
𝐷
+ 𝑟𝑗
𝑄
推論終了時に得られる全体報酬
連続READを防ぐ報酬、各推論時取得
READが許容回数以上連続で報酬が下がる
𝑑 𝑇=(1+3+4....)/(16*20)
16 char.
20 frame.
13©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
[Mohan, et al., 2020]
実験条件
比較用の合成方針
① Wait-Until-End (WUE): 文全体を使用。通常のTTS
② Wait-k-Steps (WkS): READをk毎に実行、
READ時以外は生成 (SPEAK)
k=2の場合、READ,SPEAK,READ,SPEAK, ....
Dataset
LJ speech dataset(英語), 12000 train and 1,100 test/valisataion
デモではフランス語も提示
報酬のパラメータ
c∗= 4, d∗ = 0.5, ω = −1, β = −10, λ = −100
エージェント
2層のRelu付GRU、報酬を最大化するように方策を学習
モデル
修正したTacotron2 + waveRNN[Kalchbrenner, et al., 2018]へ変更
14©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
アテンション分析
※灰色部分は利用不可な入力
(a)及び(b)の場合
デコーディングのため、必要以上の文字を参照
不必要なREADアクション有
回避可能な遅延が存在
(c)の場合
不必要なREADアクションを削減
デコーダに十分な入力情報が不足
音声品質の低下
(d)提案法の場合
READ/ SPEAKが必要な場合の
アクション選択を学習成功
デモ音源:https://research.papercup.com/samples/incremental-text-to-speech
15©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
[Mohan, et al., 2020]
品質評価方法
自然性の評価
5段階MOS評価(1:とても悪い~5:とても良い)
時々、非常にノイズの多い音声生成
明瞭性の評価
音声認識による単語誤り率(WER)で評価
遅延評価
ポリシーに基づく面積の割合を使用
実遅延に関して解釈しくにい
→MTでは代替の平均遅延が提案
TTSでは困難
→TTSのソースとターゲットの長さの偏り
16©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
評価結果
品質と遅延の制御に成功
明瞭性:W3S<提案法<W2S<WUE(通常のTTS)
自然性: W3S<提案法<W2S<WUE(通常のTTS)
遅延:W3S<提案法<<<W2S<WUE
17©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
[Mohan, et al., 2020]
まとめ
End-to-End逐次音声合成の問題点
入出力長を動的に制御不可
解決方法
強化学習の導入
結果
ある程度制御に成功
個人的所見
実遅延の評価が行われていない
CNNは不使用、どうCNNを適用するのか?
音声生成側(vocoder)側の入出力制御は行っていない、人間の知覚への影響は?
別言語への適用は可能?
逐次MT・ASRの後追い、逐次TTS特有の問題はあるか?
18©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
参考文献(今回の発表、アーカイブ)
[Yanagita, 2019]
https://www.isca-speech.org/archive/SSW_2019/abstracts/SSW10_P_2-9.html
[Ma, 2020]
https://arxiv.org/abs/1911.02750
[Gu, et al., 2016]
https://arxiv.org/abs/1610.00388
[Kalchbrenner, et al., 2018]
https://arxiv.org/abs/1802.08435v1
19©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
End-to-endのiTTS論文(Interspeech)
End-to-End逐次音声合成時の隠れ状態と、通常時との類似性分析[Stephenson, et al.]
https://www.isca-speech.org/archive/Interspeech_2020/abstracts/2103.html
CPU用End-to-End逐次音声合成の提案及び評価[Ellinas, et al.]
https://www.isca-speech.org/archive/Interspeech_2020/abstracts/2464.html
20©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020

More Related Content

What's hot

Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningharmonylab
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
Connecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typingConnecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typing禎晃 山崎
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心Shota Imai
 
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completionharmonylab
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...harmonylab
 
Dataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamicsDataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamics禎晃 山崎
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vcYuki Saito
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...harmonylab
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generationharmonylab
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)Toru Tamaki
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムYuki Saito
 
Pythonによる機械学習
Pythonによる機械学習Pythonによる機械学習
Pythonによる機械学習Kimikazu Kato
 
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用nishio
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusOfficial
 

What's hot (20)

Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learning
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
ACL2020
ACL2020ACL2020
ACL2020
 
Connecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typingConnecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typing
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
Dataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamicsDataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamics
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
 
Pythonによる機械学習
Pythonによる機械学習Pythonによる機械学習
Pythonによる機械学習
 
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
 

Similar to Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning"

強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...Jun Okumura
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
Batch Reinforcement Learning
Batch Reinforcement LearningBatch Reinforcement Learning
Batch Reinforcement LearningTakuma Oda
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Toru Fujino
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回Kohei Wakamatsu
 
FeUdal Networks for Hierarchical Reinforcement Learning
FeUdal Networks for Hierarchical Reinforcement LearningFeUdal Networks for Hierarchical Reinforcement Learning
FeUdal Networks for Hierarchical Reinforcement Learning佑 甲野
 
Curiosity driven exploration
Curiosity driven explorationCuriosity driven exploration
Curiosity driven explorationTakuya Minagawa
 
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習Hori Tasuku
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” Hajime Sasaki
 
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII
 

Similar to Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning" (12)

強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
Batch Reinforcement Learning
Batch Reinforcement LearningBatch Reinforcement Learning
Batch Reinforcement Learning
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回
 
FeUdal Networks for Hierarchical Reinforcement Learning
FeUdal Networks for Hierarchical Reinforcement LearningFeUdal Networks for Hierarchical Reinforcement Learning
FeUdal Networks for Hierarchical Reinforcement Learning
 
Curiosity driven exploration
Curiosity driven explorationCuriosity driven exploration
Curiosity driven exploration
 
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
 
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
 

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 

Recently uploaded

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 

Recently uploaded (9)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 

Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning"