Soumettre la recherche
Mettre en ligne
音声合成研究を加速させるためのコーパスデザイン
•
1 j'aime
•
624 vues
Shinnosuke Takamichi
Suivre
音声合成研究を加速させるためのコーパスデザイン
Lire moins
Lire la suite
Technologie
Signaler
Partager
Signaler
Partager
1 sur 16
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
Recommandé
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
音声生成の基礎と音声学
音声生成の基礎と音声学
Akinori Ito
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
NU_I_TODALAB
音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション
Akinori Ito
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
Akira Tamamori
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
Akinori Ito
WaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw Audio
Shunji Kawabata
日本語の語彙特性について
日本語の語彙特性について
AsakuraYasunobu
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−
Syuhei KIMURA
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
Yuta Matsunaga
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
Kosuke Sugai
Translation system Ernie
Translation system Ernie
enkarz
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
Acoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief Networks
Junya Saito
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術
utsuro_lab
Wikibana20100612
Wikibana20100612
masayoshi takahashi
今後のPRMU研究会を考える
今後のPRMU研究会を考える
Yoshitaka Ushiku
第6回理系Ao入試フォーラムスライド(竹松)
第6回理系Ao入試フォーラムスライド(竹松)
Kazutomo Takematsu
Contenu connexe
Tendances
音声生成の基礎と音声学
音声生成の基礎と音声学
Akinori Ito
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
NU_I_TODALAB
音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション
Akinori Ito
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
Akira Tamamori
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
Akinori Ito
WaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw Audio
Shunji Kawabata
日本語の語彙特性について
日本語の語彙特性について
AsakuraYasunobu
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−
Syuhei KIMURA
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
Yuta Matsunaga
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
Kosuke Sugai
Translation system Ernie
Translation system Ernie
enkarz
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
Acoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief Networks
Junya Saito
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術
utsuro_lab
Wikibana20100612
Wikibana20100612
masayoshi takahashi
Tendances
(20)
音声生成の基礎と音声学
音声生成の基礎と音声学
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
WaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw Audio
日本語の語彙特性について
日本語の語彙特性について
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
Translation system Ernie
Translation system Ernie
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Acoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief Networks
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術
Wikibana20100612
Wikibana20100612
Similaire à 音声合成研究を加速させるためのコーパスデザイン
今後のPRMU研究会を考える
今後のPRMU研究会を考える
Yoshitaka Ushiku
第6回理系Ao入試フォーラムスライド(竹松)
第6回理系Ao入試フォーラムスライド(竹松)
Kazutomo Takematsu
公共交通オープンデータの推進から考えるデータ駆動型社会への道
公共交通オープンデータの推進から考えるデータ駆動型社会への道
Masaki Ito
好きな活動から始めるイノベーションの種
好きな活動から始めるイノベーションの種
Junichi Akita
UX白書には本当は何が書かれているか
UX白書には本当は何が書かれているか
Masaya Ando
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
Toshihiko Yamasaki
使う人の体験を時間軸で考えよう〜UXデザインの視点を取り入れる
使う人の体験を時間軸で考えよう〜UXデザインの視点を取り入れる
Masaya Ando
我々はどこへ行くのか: UXの誤解の先にある未来
我々はどこへ行くのか: UXの誤解の先にある未来
Masaya Ando
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
Deep Learning Lab(ディープラーニング・ラボ)
土屋先生の還暦を祝う会
土屋先生の還暦を祝う会
NPO CCC-TIES
エンジニアの立場で考えるUXデザイン
エンジニアの立場で考えるUXデザイン
Masaya Ando
公共交通オープンデータ最先端都市 岡山のGTFSデータをFOSS4Gで遊び尽くす
公共交通オープンデータ最先端都市 岡山のGTFSデータをFOSS4Gで遊び尽くす
Masaki Ito
2チケット&計測」書籍で訴えたい
2チケット&計測」書籍で訴えたい
Yoshiki Mitani
Service Design Roundtable on 2/15/2014, Y. Sawatani
Service Design Roundtable on 2/15/2014, Y. Sawatani
Yuriko Sawatani
新しい学びを創るデジタル教科書のかたちー学習者用デジタル教科書・教材等の機能の在り方の解説を中心に
新しい学びを創るデジタル教科書のかたちー学習者用デジタル教科書・教材等の機能の在り方の解説を中心に
Naoki Kato
私がビギナーの頃を振り返って~20代の代表として~
私がビギナーの頃を振り返って~20代の代表として~
Shinnosuke Takamichi
文部科学省 情報ひろばサイエンスカフェ「ロボット・情報×つながり」 / 20170126 mext science_cafe
文部科学省 情報ひろばサイエンスカフェ「ロボット・情報×つながり」 / 20170126 mext science_cafe
Satoshi Makita
くらしの足からMaaSを捉えなおす イントロダクション
くらしの足からMaaSを捉えなおす イントロダクション
Masaki Ito
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
IT業界における英語とプログラミングの関係性
IT業界における英語とプログラミングの関係性
Yoshinari Fujinuma
Similaire à 音声合成研究を加速させるためのコーパスデザイン
(20)
今後のPRMU研究会を考える
今後のPRMU研究会を考える
第6回理系Ao入試フォーラムスライド(竹松)
第6回理系Ao入試フォーラムスライド(竹松)
公共交通オープンデータの推進から考えるデータ駆動型社会への道
公共交通オープンデータの推進から考えるデータ駆動型社会への道
好きな活動から始めるイノベーションの種
好きな活動から始めるイノベーションの種
UX白書には本当は何が書かれているか
UX白書には本当は何が書かれているか
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
使う人の体験を時間軸で考えよう〜UXデザインの視点を取り入れる
使う人の体験を時間軸で考えよう〜UXデザインの視点を取り入れる
我々はどこへ行くのか: UXの誤解の先にある未来
我々はどこへ行くのか: UXの誤解の先にある未来
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
土屋先生の還暦を祝う会
土屋先生の還暦を祝う会
エンジニアの立場で考えるUXデザイン
エンジニアの立場で考えるUXデザイン
公共交通オープンデータ最先端都市 岡山のGTFSデータをFOSS4Gで遊び尽くす
公共交通オープンデータ最先端都市 岡山のGTFSデータをFOSS4Gで遊び尽くす
2チケット&計測」書籍で訴えたい
2チケット&計測」書籍で訴えたい
Service Design Roundtable on 2/15/2014, Y. Sawatani
Service Design Roundtable on 2/15/2014, Y. Sawatani
新しい学びを創るデジタル教科書のかたちー学習者用デジタル教科書・教材等の機能の在り方の解説を中心に
新しい学びを創るデジタル教科書のかたちー学習者用デジタル教科書・教材等の機能の在り方の解説を中心に
私がビギナーの頃を振り返って~20代の代表として~
私がビギナーの頃を振り返って~20代の代表として~
文部科学省 情報ひろばサイエンスカフェ「ロボット・情報×つながり」 / 20170126 mext science_cafe
文部科学省 情報ひろばサイエンスカフェ「ロボット・情報×つながり」 / 20170126 mext science_cafe
くらしの足からMaaSを捉えなおす イントロダクション
くらしの足からMaaSを捉えなおす イントロダクション
深層学習を利用した音声強調
深層学習を利用した音声強調
IT業界における英語とプログラミングの関係性
IT業界における英語とプログラミングの関係性
Plus de Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Shinnosuke Takamichi
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Shinnosuke Takamichi
外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正
Shinnosuke Takamichi
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Shinnosuke Takamichi
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
Shinnosuke Takamichi
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
Shinnosuke Takamichi
Plus de Shinnosuke Takamichi
(20)
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
音声合成研究を加速させるためのコーパスデザイン
1.
Mar. 02, 2020©Shinnosuke
Takamichi, The University of Tokyo 音声合成研究を加速させるための コーパスデザイン 高道 慎之介 (東京大学)
2.
/16 自己紹介 名前 – 高道
慎之介 (たかみち しんのすけ) 経歴 – 2009年 熊本電波高専 電子工学科 卒業 – 2011年 長岡技科大 工学部 卒業 (KDDI 堀内さんなどが研究室先輩) – 2016年 奈良先端大 博士課程 修了 – 2016年~ 東京大学 猿渡研 助教 (2018年まで特任助教) • 猿渡研.現在,アカポス4年目 専門 – 統計的音声合成・変換など 2
3.
/16 本日の内容 3 音声研究のためにどのようなコーパスを作ったか
4.
/16 統計的音声合成・変換 テキスト音声合成 (Text-To-Speech:
TTS) – テキストなどから音声を合成 – コンピュータとのコミュニケーションのため 音声変換 (Voice Conversion: VC) – 言語情報を保持したままパラ言語・非言語情報を変換 – 人の発声制約を超えたコミュニケーションのため 4 Text TTS VC この変換関数をデータに基づいて定義するのが統計的音声合成・変換
5.
/16 背景 2015年 (に私が思っていたこと)
2016年:WaveNet – 波形を出すDNN.ボコーダが信号処理から機械学習へ 2017年:Tacotron – いわゆるEnd-to-End音声合成.言語知識なしで音声合成 5 2016年時点でこれらの発展を支える日本語コーパスが無かった
6.
/16 最初のコーパスのデザイン (2016) 6 既存のコーパス (例:JNAS,ATR503) 目指したコーパス 低サンプリングレート (16kHz)
高サンプリングレート (48kHz) 小規模 (~1時間) 大規模 (End2endが動くくらい) 中間的表現で最適化 (例:音素バランス) 表層的表現で最適化 (例:文字) 研究者のみ利用可能 誰でも利用可能 国外からアクセスしにくい 国外からでもアクセスが容易 商用利用不可 商用利用可能
7.
/16 JSUTコーパス (2017) 7 スペック –
単一話者読み上げ音声,10時間 (約7,600文),48 kHzサンプリング – 日本語常用漢字の音読み・訓読みを全てカバー • Wikipedia やクラウドソーシング作文を利用 • 日本語end-to-end音声合成をサポートするため – 身分などに依らず非商用なら無償利用可 (商用転換も可能) 成果 – 2017/10に公開して60か国以上からダウンロード (約75%は国内) • Tacotronが出たのは2017/09 – End-to-end 音声合成でも使用されるように [Ueno18] • https://twitter.com/tarepan_mhhow/status/1195317513313079296?s=20 – 商用利用への転換の実績も有り [Sonobe17] 日本語End-to-end音声合成のサンプル音声は,京都大学 河原先生・上乃さまに提供して頂いた
8.
/16 JSUTコーパスから次のコーパスへ JSUTコーパスの貢献 – 日本語知識なしで,日本語テキスト音声合成を誰でも作れるように –
音声合成における言語の壁を壊せた? 次に壊すべきは? – 音声と非音声の違い … JSUT collection (2018) – 話者の違い … JVS corpus (2019) – 音声と歌声の違い … JVS-MuSiC corpus (2020) 8
9.
/16 JSUT collection 9 [Takamichi18] JSUT JSUT-songJSUT-vi Singing voice
(0.5 hrs)Vocal imitation (0.4 hrs) Reading-style speech (10 hrs) Single Japanese speaker’s voice [new!] JSUT-book Audiobook [new!] JSUT-??? ???
10.
/16 JVS corpus:100人の話者による音声コーパス 10 parallel100 • 全話者共通の音素バランス100文の読み上げ •
通常の音声変換などに利用可能 nonpara30 • 話者別の30文の読み上げ • ノンパラレル音声変換など,parallel100より現実的な設定 whisper10 • 全話者共通5文・話者別5文のささやき声 • 10発話が読み上げ音声とパラレル falsetto10 • 全話者共通5文・話者別5文の裏声 • 10発話が読み上げ音声とパラレル,5発話がささやき声とパラレル jvs001 jvs010 [Takamichi19]
11.
/16 人間の話者知覚のモデル化への挑戦 やみくもに音声を集めれば,あらゆる話者の声を再現できるか? – 答えはNo. –
客観的に声が似ている ≠ 主観的に声が似ている クラウドソーシングを用いた話者類似度に関するスコアリング – 1,000名超の参加者による評価 [Saito19] 11 提示話者対サンプル
12.
/16 女性51名の主観的話者間類似度 12 -3: 全く似ていない ~
3: 非常に似ている 3 -3 002 004 007 008 010 014 015 016 017 018 jvs 最も似ている話者対: jvs019 & jvs096 最も誰とも似ていない話者: jvs010
13.
/16 JVS-MuSiC corpus: JVSと同じ100人による歌声コーパス 13 [Tamaru20] 生の歌声ファイル • 共通曲
(童謡「かたつむり」),個別曲 (童謡) • ※好きなキー・テンポで歌唱 nonpara30 • 一定のキー・テンポに従って正確に歌ったように修正した,波形 (.wav), 修正プロジェクト (.mpd) • さらに,キーに応じてグルーピングし,キーとテンポを統一した, 波形 (.wav), 修正プロジェクト (.mpd) jvs001 話声 歌声
14.
/16 類似度の付与 歌唱者間類似度:二人の話者の歌声は,どれくらい似ている? ユニゾン一体感:二人のユニゾンはどれくらい一体に聴こえる? 14 類似? 一体? クラウドソーシングを用いて1000人超にアンケート
15.
/16 類似度との比較 15 r = 0.45
r = 0.17 歌唱者間類似度と ユニゾン一体感は 中程度の相関 歌唱者間類似度 (歌声類似度) と 話者間類似度 (話声類似度) は 低い相関
16.
/16 まとめ コーパスを色々作ってきました このコーパスが,機械学習を使った音声研究に貢献すれば嬉しい
他にどんなコーパスがあれば嬉しいでしょうか? 16
Télécharger maintenant