音声合成研究を加速させるためのコーパスデザイン

Mar. 02, 2020©Shinnosuke Takamichi,
The University of Tokyo
音声合成研究を加速させるための
コーパスデザイン
高道慎之介 (東京大学)

/16
自己紹介
 名前
– 高道慎之介 (たかみちしんのすけ)
 経歴
– 2009年熊本電波高専電子工学科卒業
– 2011年長岡技科大工学部卒業 (KDDI 堀内さんなどが研究室先輩)
– 2016年奈良先端大博士課程修了
– 2016年～東京大学猿渡研助教 (2018年まで特任助教)
• 猿渡研．現在，アカポス4年目
 専門
– 統計的音声合成・変換など
2

/16
本日の内容
3
音声研究のためにどのようなコーパスを作ったか

/16
統計的音声合成・変換
 テキスト音声合成 (Text-To-Speech: TTS)
– テキストなどから音声を合成
– コンピュータとのコミュニケーションのため
 音声変換 (Voice Conversion: VC)
– 言語情報を保持したままパラ言語・非言語情報を変換
– 人の発声制約を超えたコミュニケーションのため
4
Text TTS
VC
この変換関数をデータに基づいて定義するのが統計的音声合成・変換

/16
背景
 2015年 (に私が思っていたこと)
 2016年：WaveNet
– 波形を出すDNN．ボコーダが信号処理から機械学習へ
 2017年：Tacotron
– いわゆるEnd-to-End音声合成．言語知識なしで音声合成
5
2016年時点でこれらの発展を支える日本語コーパスが無かった

/16
最初のコーパスのデザイン (2016)
6
既存のコーパス
(例：JNAS，ATR503)
目指したコーパス
低サンプリングレート (16kHz) 高サンプリングレート (48kHz)
小規模 (~1時間) 大規模 (End2endが動くくらい)
中間的表現で最適化
(例：音素バランス)
表層的表現で最適化
（例：文字）
研究者のみ利用可能誰でも利用可能
国外からアクセスしにくい国外からでもアクセスが容易
商用利用不可商用利用可能

/16
JSUTコーパス (2017)
7
 スペック
– 単一話者読み上げ音声，10時間 (約7,600文)，48 kHzサンプリング
– 日本語常用漢字の音読み・訓読みを全てカバー
• Wikipedia やクラウドソーシング作文を利用
• 日本語end-to-end音声合成をサポートするため
– 身分などに依らず非商用なら無償利用可 (商用転換も可能)
 成果
– 2017/10に公開して60か国以上からダウンロード (約75%は国内)
• Tacotronが出たのは2017/09
– End-to-end 音声合成でも使用されるように [Ueno18]
• https://twitter.com/tarepan_mhhow/status/1195317513313079296?s=20
– 商用利用への転換の実績も有り
[Sonobe17]
日本語End-to-end音声合成のサンプル音声は，京都大学河原先生・上乃さまに提供して頂いた

/16
JSUTコーパスから次のコーパスへ
 JSUTコーパスの貢献
– 日本語知識なしで，日本語テキスト音声合成を誰でも作れるように
– 音声合成における言語の壁を壊せた？
 次に壊すべきは？
– 音声と非音声の違い … JSUT collection (2018)
– 話者の違い … JVS corpus (2019)
– 音声と歌声の違い … JVS-MuSiC corpus (2020)
8

/16
JSUT collection
9
[Takamichi18]
JSUT
JSUT-songJSUT-vi
Singing voice (0.5 hrs)Vocal imitation (0.4 hrs)
Reading-style speech (10 hrs)
Single Japanese speaker’s voice
[new!] JSUT-book
Audiobook
[new!] JSUT-???
???

/16
JVS corpus：100人の話者による音声コーパス
10
parallel100
• 全話者共通の音素バランス100文の読み上げ
• 通常の音声変換などに利用可能
nonpara30
• 話者別の30文の読み上げ
• ノンパラレル音声変換など，parallel100より現実的な設定
whisper10
• 全話者共通5文・話者別5文のささやき声
• 10発話が読み上げ音声とパラレル
falsetto10
• 全話者共通5文・話者別5文の裏声
• 10発話が読み上げ音声とパラレル，5発話がささやき声とパラレル
jvs001 jvs010
[Takamichi19]

/16
人間の話者知覚のモデル化への挑戦
 やみくもに音声を集めれば，あらゆる話者の声を再現できるか？
– 答えはNo.
– 客観的に声が似ている ≠ 主観的に声が似ている
 クラウドソーシングを用いた話者類似度に関するスコアリング
– 1,000名超の参加者による評価 [Saito19]
11
提示話者対サンプル

/16
女性51名の主観的話者間類似度
12
-3: 全く似ていない ~ 3: 非常に似ている
3
-3
002
004
007
008
010
014
015
016
017
018
jvs
最も似ている話者対： jvs019 & jvs096
最も誰とも似ていない話者： jvs010

/16
JVS-MuSiC corpus：
JVSと同じ100人による歌声コーパス
13
[Tamaru20]
生の歌声ファイル
• 共通曲 (童謡「かたつむり」)，個別曲 (童謡)
• ※好きなキー・テンポで歌唱
nonpara30
• 一定のキー・テンポに従って正確に歌ったように修正した，波形
(.wav), 修正プロジェクト (.mpd)
• さらに，キーに応じてグルーピングし，キーとテンポを統一した，
波形 (.wav), 修正プロジェクト (.mpd)
jvs001
話声歌声

/16
類似度の付与
 歌唱者間類似度：二人の話者の歌声は，どれくらい似ている？
 ユニゾン一体感：二人のユニゾンはどれくらい一体に聴こえる？
14
類似？
一体？
クラウドソーシングを用いて1000人超にアンケート

/16
類似度との比較
15
r = 0.45 r = 0.17
歌唱者間類似度と
ユニゾン一体感は
中程度の相関
歌唱者間類似度 (歌声類似度) と
話者間類似度 (話声類似度) は
低い相関

/16
まとめ
 コーパスを色々作ってきました
 このコーパスが，機械学習を使った音声研究に貢献すれば嬉しい
 他にどんなコーパスがあれば嬉しいでしょうか？
16

音声合成研究を加速させるためのコーパスデザイン

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à 音声合成研究を加速させるためのコーパスデザイン

Similaire à 音声合成研究を加速させるためのコーパスデザイン (20)

Plus de Shinnosuke Takamichi

Plus de Shinnosuke Takamichi (20)

音声合成研究を加速させるためのコーパスデザイン