SlideShare une entreprise Scribd logo
1  sur  13
Télécharger pour lire hors ligne
1
⽇日本⾳音響学会 2017年年春季研究発表会
講演番号:  1-‐‑‒6-‐‑‒15
コンテキスト事後確率率率の
Sequence-‐‑‒to-‐‑‒Sequence学習を⽤用いた
⾳音声変換
2017/3/15
☆ 三好 裕之(東⼤大),齋藤 佑樹,
⾼高道 慎之介,猿渡 洋(東⼤大院・情報理理⼯工)
本発表の概要
1/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
Ø テキスト⾮非依存⾳音声変換:テキストを必要とせず,⾳音声特徴量量を変換
⾼高精度度な変換が可能 だが ⾳音声の同⼀一発話内容のパラレルデータが必要
n ⾳音声変換の⼿手法
Ø テキスト依存⾳音声変換:テキストを経由し変換(⾳音声認識識と⾳音声合成)
パラレルデータが不不要 だが 時間の量量⼦子化などにより変換精度度は低い
⾳音声から推定されるテキストの事後確率率率を経由して⾳音声変換を⾏行行う⼿手法
パラレルデータが不不要かつ時間の量量⼦子化を緩和 だが
コンテキスト事後確率率率を複写するため,話速や⾳音韻性の変換は困難
n 従来法:コンテキスト事後確率率率の複写に基づく⾳音声変換 [Sun  et  al.,  2016]
n 提案法:コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence  変換
部分的に含まれるパラレルデータを利利⽤用することで,事後確率率率を変換
→ 話速や⾳音韻性の変換が可能
[Kain et  al.,  1998]
[Toda  et  al.,  2007]
従来の⾳音響モデル学習:
コンテキスト事後確率率率の複写に基づく⾳音声変換 [Sun  et  al.,  2016]
2/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
n 学習時
n 変換時
あ
ら
ゆ
る LSTM
time
⼊入⼒力力
⾳音声特徴量量
⾳音声認識識
コンテキスト
事後確率率率
す
べ
て
出⼒力力
⾳音声特徴量量
LSTM
⾳音声合成
コンテキスト事後確率率率
各時間の事後確率率率を
濃淡で表現
0
1
LSTM
time
⼊入⼒力力
⾳音声特徴量量
コンテキスト
事後確率率率
予測
⾳音声特徴量量
LSTM
copy
げ
ん
じ
つ
あ ら ゆ る
time
従来の⾳音響モデル学習の問題点
(コンテキスト事後確率率率の違い)
3/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
コンテキスト事後確率率率を複写するため,
⾳音韻性,話速の変換に対応できない
⾳音韻性が異異なる
話速が異異なる
解決⽅方法:コンテキスト事後確率率率の可変⻑⾧長変換
4/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
⼊入⼒力力コンテキスト事後確率率率から出⼒力力コンテキスト事後確率率率への可変⻑⾧長変換を⾏行行う.
→ 従来法の問題点である⾳音韻性や話速の問題点を解決
??
LSTM
LSTM
⼊入⼒力力
⾳音声特徴量量
コンテキスト
事後確率率率
出⼒力力
⾳音声特徴量量
提案する⼿手法
5/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
コンテキスト事後確率率率の
Sequence-‐‑‒to-‐‑‒Sequence  学習を⽤用いた⾳音声変換
制約
Sequence-‐‑‒to-‐‑‒Sequence  変換
6/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
Ø コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence 変換
ー ⼊入⼒力力コンテキスト事後確率率率から出⼒力力コンテキスト事後確率率率への変換の問題点
・⽣生成するフレーム数が⼤大きい場合,変換の失敗が伝播 [Wang  et  al.,  2016]
・継続⻑⾧長(フレーム数)の決定が困難
n コンテキスト事後確率率率の変換単位は⾳音素ごと
n コンテキスト事後確率率率の継続⻑⾧長は 既知(出⼒力力系列列の⻑⾧長さを決めておく)
⾬雨 が 降降る
It rains⼊入⼒力力系列列
出⼒力力系列列
Ø Sequence-‐‑‒to-‐‑‒Sequence   変換:可変⻑⾧長変換を可能にする変換⼿手法
Ø 系列列変換の中で最も単純な encoder-‐‑‒decoder モデル[Ilya et  al.,  2014]:
提案⼿手法:コンテキスト事後確率率率の
Sequence-‐‑‒to-‐‑‒Sequence  学習に基づく⾳音声変換
7/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
⾳音声のパラレルデータが部分的に含まれると想定し,その事後確率率率を可変⻑⾧長変換
LSTM
LSTM
⼊入⼒力力
⾳音声特徴量量
コンテキスト
事後確率率率
出⼒力力
⾳音声特徴量量
⾳音声認識識
Sequence-‐‑‒to-‐‑‒Sequence  変換
⾳音声合成
(学習のコスト関数) =  (変換誤差)  +  (⽬目標⾳音素との分類誤差)
コンテキスト事後確率率率変換の例例
8/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
変換を
学習
0
1
コンテキスト事後確率率率の
可変⻑⾧長変換が可能
⼊入⼒力力
コンテキスト事後確率率率
出⼒力力
コンテキスト事後確率率率
フレーム
Sequence-‐‑‒to-‐‑‒Sequence後の
コンテキスト事後確率率率
実験条件
9/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
⼊入出⼒力力話者 ⼊入⼒力力:⽇日本⼈人⼥女女性,出⼒力力:⽇日本⼈人男性
(話速の⼤大きく異異なる話者を選択)
データセット ATR  ⾳音素バランス503⽂文 (16  kHz  サンプリング)
学習 /  評価データ AーI  セット 450⽂文 ×	
  8⼈人 /  Jセット 53⽂文
スペクトル特徴量量 24次元のメルケプストラムと動的特徴量量(合計72次元)
コンテキスト 224次元 (quin-‐‑‒phone)
⾳音声認識識のコスト関数は先⾏行行・当該・後続⾳音素グループ毎の
cross-‐‑‒entropy  の和
⾳音声認識識モデル Bidirectional  LSTM  ,出⼒力力層の活性化関数は softmax
⾳音声合成モデル Bidirectional  LSTM  ,出⼒力力層の活性化関数は線形関数
事後確率率率変換モデル Bidirectional  LSTM  (encoder),  LSTM  (decoder)  
実験的評価:客観的指標
10/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
客観的指標
改善
実験的評価:主観的指標
11/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
改善
劣劣化
主観的指標
⾳音質劣劣化の原因
事後確率率率変換の際に
⾳音素誤りを散⾒見見
変換元 変換先
結論論
12/12⽇日本⾳音響学会 春季研究発表会 2017/3/15
Ø コンテキスト事後確率率率に Sequence-‐‑‒to-‐‑‒Sequence  変換を
⽤用いることで,事後確率率率に含まれる話者性の変換を可能にした.
Ø コンテキスト事後確率率率の変換により,話者性は向上したが,
⾳音素誤りによる⾳音質の劣劣化に改善の余地がみられた.
Ø 事後確率率率変換と,⾳音声認識識・合成の同時最適化を検討して,
上記の問題を解決する.

Contenu connexe

Dernier

UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptyuitoakatsukijp
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationYukiTerazawa
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024koheioishi1
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ssusere0a682
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2Tokyo Institute of Technology
 
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ssusere0a682
 

Dernier (6)

UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
 

En vedette

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

En vedette (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」