SlideShare une entreprise Scribd logo
1  sur  16
Télécharger pour lire hors ligne
Mar. 02, 2020©Shinnosuke Takamichi,
The University of Tokyo
音声合成研究を加速させるための
コーパスデザイン
高道 慎之介 (東京大学)
/16
自己紹介
 名前
– 高道 慎之介 (たかみち しんのすけ)
 経歴
– 2009年 熊本電波高専 電子工学科 卒業
– 2011年 長岡技科大 工学部 卒業 (KDDI 堀内さんなどが研究室先輩)
– 2016年 奈良先端大 博士課程 修了
– 2016年~ 東京大学 猿渡研 助教 (2018年まで特任助教)
• 猿渡研.現在,アカポス4年目
 専門
– 統計的音声合成・変換など
2
/16
本日の内容
3
音声研究のためにどのようなコーパスを作ったか
/16
統計的音声合成・変換
 テキスト音声合成 (Text-To-Speech: TTS)
– テキストなどから音声を合成
– コンピュータとのコミュニケーションのため
 音声変換 (Voice Conversion: VC)
– 言語情報を保持したままパラ言語・非言語情報を変換
– 人の発声制約を超えたコミュニケーションのため
4
Text TTS
VC
この変換関数をデータに基づいて定義するのが統計的音声合成・変換
/16
背景
 2015年 (に私が思っていたこと)
 2016年:WaveNet
– 波形を出すDNN.ボコーダが信号処理から機械学習へ
 2017年:Tacotron
– いわゆるEnd-to-End音声合成.言語知識なしで音声合成
5
2016年時点でこれらの発展を支える日本語コーパスが無かった
/16
最初のコーパスのデザイン (2016)
6
既存のコーパス
(例:JNAS,ATR503)
目指したコーパス
低サンプリングレート (16kHz) 高サンプリングレート (48kHz)
小規模 (~1時間) 大規模 (End2endが動くくらい)
中間的表現で最適化
(例:音素バランス)
表層的表現で最適化
(例:文字)
研究者のみ利用可能 誰でも利用可能
国外からアクセスしにくい 国外からでもアクセスが容易
商用利用不可 商用利用可能
/16
JSUTコーパス (2017)
7
 スペック
– 単一話者読み上げ音声,10時間 (約7,600文),48 kHzサンプリング
– 日本語常用漢字の音読み・訓読みを全てカバー
• Wikipedia やクラウドソーシング作文を利用
• 日本語end-to-end音声合成をサポートするため
– 身分などに依らず非商用なら無償利用可 (商用転換も可能)
 成果
– 2017/10に公開して60か国以上からダウンロード (約75%は国内)
• Tacotronが出たのは2017/09
– End-to-end 音声合成でも使用されるように [Ueno18]
• https://twitter.com/tarepan_mhhow/status/1195317513313079296?s=20
– 商用利用への転換の実績も有り
[Sonobe17]
日本語End-to-end音声合成のサンプル音声は,京都大学 河原先生・上乃さまに提供して頂いた
/16
JSUTコーパスから次のコーパスへ
 JSUTコーパスの貢献
– 日本語知識なしで,日本語テキスト音声合成を誰でも作れるように
– 音声合成における言語の壁を壊せた?
 次に壊すべきは?
– 音声と非音声の違い … JSUT collection (2018)
– 話者の違い … JVS corpus (2019)
– 音声と歌声の違い … JVS-MuSiC corpus (2020)
8
/16
JSUT collection
9
[Takamichi18]
JSUT
JSUT-songJSUT-vi
Singing voice (0.5 hrs)Vocal imitation (0.4 hrs)
Reading-style speech (10 hrs)
Single Japanese speaker’s voice
[new!] JSUT-book
Audiobook
[new!] JSUT-???
???
/16
JVS corpus:100人の話者による音声コーパス
10
parallel100
• 全話者共通の音素バランス100文の読み上げ
• 通常の音声変換などに利用可能
nonpara30
• 話者別の30文の読み上げ
• ノンパラレル音声変換など,parallel100より現実的な設定
whisper10
• 全話者共通5文・話者別5文のささやき声
• 10発話が読み上げ音声とパラレル
falsetto10
• 全話者共通5文・話者別5文の裏声
• 10発話が読み上げ音声とパラレル,5発話がささやき声とパラレル
jvs001 jvs010
[Takamichi19]
/16
人間の話者知覚のモデル化への挑戦
 やみくもに音声を集めれば,あらゆる話者の声を再現できるか?
– 答えはNo.
– 客観的に声が似ている ≠ 主観的に声が似ている
 クラウドソーシングを用いた話者類似度に関するスコアリング
– 1,000名超の参加者による評価 [Saito19]
11
提示話者対サンプル
/16
女性51名の主観的話者間類似度
12
-3: 全く似ていない ~ 3: 非常に似ている
3
-3
002
004
007
008
010
014
015
016
017
018
jvs
最も似ている話者対: jvs019 & jvs096
最も誰とも似ていない話者: jvs010
/16
JVS-MuSiC corpus:
JVSと同じ100人による歌声コーパス
13
[Tamaru20]
生の歌声ファイル
• 共通曲 (童謡「かたつむり」),個別曲 (童謡)
• ※好きなキー・テンポで歌唱
nonpara30
• 一定のキー・テンポに従って正確に歌ったように修正した,波形
(.wav), 修正プロジェクト (.mpd)
• さらに,キーに応じてグルーピングし,キーとテンポを統一した,
波形 (.wav), 修正プロジェクト (.mpd)
jvs001
話声 歌声
/16
類似度の付与
 歌唱者間類似度:二人の話者の歌声は,どれくらい似ている?
 ユニゾン一体感:二人のユニゾンはどれくらい一体に聴こえる?
14
類似?
一体?
クラウドソーシングを用いて1000人超にアンケート
/16
類似度との比較
15
r = 0.45 r = 0.17
歌唱者間類似度と
ユニゾン一体感は
中程度の相関
歌唱者間類似度 (歌声類似度) と
話者間類似度 (話声類似度) は
低い相関
/16
まとめ
 コーパスを色々作ってきました
 このコーパスが,機械学習を使った音声研究に貢献すれば嬉しい
 他にどんなコーパスがあれば嬉しいでしょうか?
16

Contenu connexe

Tendances

音声生成の基礎と音声学
音声生成の基礎と音声学音声生成の基礎と音声学
音声生成の基礎と音声学Akinori Ito
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?NU_I_TODALAB
 
音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーションAkinori Ito
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...Akira Tamamori
 
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーションAkinori Ito
 
WaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw AudioWaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw AudioShunji Kawabata
 
日本語の語彙特性について
日本語の語彙特性について日本語の語彙特性について
日本語の語彙特性についてAsakuraYasunobu
 
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−Syuhei KIMURA
 
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)Yuta Matsunaga
 
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)Kosuke Sugai
 
Translation system Ernie
Translation system ErnieTranslation system Ernie
Translation system Ernieenkarz
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用Shinnosuke Takamichi
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”Shinnosuke Takamichi
 
Acoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief NetworksAcoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief NetworksJunya Saito
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習Shinnosuke Takamichi
 
音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術utsuro_lab
 

Tendances (20)

音声生成の基礎と音声学
音声生成の基礎と音声学音声生成の基礎と音声学
音声生成の基礎と音声学
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
 
音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
 
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
 
WaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw AudioWaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw Audio
 
日本語の語彙特性について
日本語の語彙特性について日本語の語彙特性について
日本語の語彙特性について
 
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−
 
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
 
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
 
Translation system Ernie
Translation system ErnieTranslation system Ernie
Translation system Ernie
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
 
Acoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief NetworksAcoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief Networks
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
 
音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術
 
Wikibana20100612
Wikibana20100612Wikibana20100612
Wikibana20100612
 

Similaire à 音声合成研究を加速させるためのコーパスデザイン

今後のPRMU研究会を考える
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考えるYoshitaka Ushiku
 
第6回理系Ao入試フォーラムスライド(竹松)
第6回理系Ao入試フォーラムスライド(竹松)第6回理系Ao入試フォーラムスライド(竹松)
第6回理系Ao入試フォーラムスライド(竹松)Kazutomo Takematsu
 
公共交通オープンデータの推進から考えるデータ駆動型社会への道
公共交通オープンデータの推進から考えるデータ駆動型社会への道公共交通オープンデータの推進から考えるデータ駆動型社会への道
公共交通オープンデータの推進から考えるデータ駆動型社会への道Masaki Ito
 
好きな活動から始めるイノベーションの種
好きな活動から始めるイノベーションの種好きな活動から始めるイノベーションの種
好きな活動から始めるイノベーションの種Junichi Akita
 
UX白書には本当は何が書かれているか
UX白書には本当は何が書かれているかUX白書には本当は何が書かれているか
UX白書には本当は何が書かれているかMasaya Ando
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生Toshihiko Yamasaki
 
使う人の体験を時間軸で考えよう 〜UXデザインの視点を取り入れる
使う人の体験を時間軸で考えよう〜UXデザインの視点を取り入れる使う人の体験を時間軸で考えよう〜UXデザインの視点を取り入れる
使う人の体験を時間軸で考えよう 〜UXデザインの視点を取り入れるMasaya Ando
 
我々はどこへ行くのか: UXの誤解の先にある未来
我々はどこへ行くのか: UXの誤解の先にある未来我々はどこへ行くのか: UXの誤解の先にある未来
我々はどこへ行くのか: UXの誤解の先にある未来Masaya Ando
 
土屋先生の還暦を祝う会
土屋先生の還暦を祝う会土屋先生の還暦を祝う会
土屋先生の還暦を祝う会NPO CCC-TIES
 
エンジニアの立場で考えるUXデザイン
エンジニアの立場で考えるUXデザインエンジニアの立場で考えるUXデザイン
エンジニアの立場で考えるUXデザインMasaya Ando
 
公共交通オープンデータ最先端都市 岡山のGTFSデータをFOSS4Gで遊び尽くす
公共交通オープンデータ最先端都市 岡山のGTFSデータをFOSS4Gで遊び尽くす公共交通オープンデータ最先端都市 岡山のGTFSデータをFOSS4Gで遊び尽くす
公共交通オープンデータ最先端都市 岡山のGTFSデータをFOSS4Gで遊び尽くすMasaki Ito
 
2チケット&計測」書籍で訴えたい
2チケット&計測」書籍で訴えたい2チケット&計測」書籍で訴えたい
2チケット&計測」書籍で訴えたいYoshiki Mitani
 
Service Design Roundtable on 2/15/2014, Y. Sawatani
Service Design Roundtable on 2/15/2014, Y. SawataniService Design Roundtable on 2/15/2014, Y. Sawatani
Service Design Roundtable on 2/15/2014, Y. SawataniYuriko Sawatani
 
新しい学びを創るデジタル教科書のかたちー学習者用デジタル教科書・教材等の機能の在り方の解説を中心に
新しい学びを創るデジタル教科書のかたちー学習者用デジタル教科書・教材等の機能の在り方の解説を中心に新しい学びを創るデジタル教科書のかたちー学習者用デジタル教科書・教材等の機能の在り方の解説を中心に
新しい学びを創るデジタル教科書のかたちー学習者用デジタル教科書・教材等の機能の在り方の解説を中心にNaoki Kato
 
私がビギナーの頃を振り返って ~20代の代表として~
私がビギナーの頃を振り返って~20代の代表として~私がビギナーの頃を振り返って~20代の代表として~
私がビギナーの頃を振り返って ~20代の代表として~Shinnosuke Takamichi
 
文部科学省 情報ひろばサイエンスカフェ「ロボット・情報×つながり」 / 20170126 mext science_cafe
文部科学省 情報ひろばサイエンスカフェ「ロボット・情報×つながり」 / 20170126 mext science_cafe文部科学省 情報ひろばサイエンスカフェ「ロボット・情報×つながり」 / 20170126 mext science_cafe
文部科学省 情報ひろばサイエンスカフェ「ロボット・情報×つながり」 / 20170126 mext science_cafeSatoshi Makita
 
くらしの足からMaaSを捉えなおす イントロダクション
くらしの足からMaaSを捉えなおす イントロダクションくらしの足からMaaSを捉えなおす イントロダクション
くらしの足からMaaSを捉えなおす イントロダクションMasaki Ito
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
IT業界における英語とプログラミングの関係性
IT業界における英語とプログラミングの関係性IT業界における英語とプログラミングの関係性
IT業界における英語とプログラミングの関係性Yoshinari Fujinuma
 

Similaire à 音声合成研究を加速させるためのコーパスデザイン (20)

今後のPRMU研究会を考える
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考える
 
第6回理系Ao入試フォーラムスライド(竹松)
第6回理系Ao入試フォーラムスライド(竹松)第6回理系Ao入試フォーラムスライド(竹松)
第6回理系Ao入試フォーラムスライド(竹松)
 
公共交通オープンデータの推進から考えるデータ駆動型社会への道
公共交通オープンデータの推進から考えるデータ駆動型社会への道公共交通オープンデータの推進から考えるデータ駆動型社会への道
公共交通オープンデータの推進から考えるデータ駆動型社会への道
 
好きな活動から始めるイノベーションの種
好きな活動から始めるイノベーションの種好きな活動から始めるイノベーションの種
好きな活動から始めるイノベーションの種
 
UX白書には本当は何が書かれているか
UX白書には本当は何が書かれているかUX白書には本当は何が書かれているか
UX白書には本当は何が書かれているか
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
 
使う人の体験を時間軸で考えよう 〜UXデザインの視点を取り入れる
使う人の体験を時間軸で考えよう〜UXデザインの視点を取り入れる使う人の体験を時間軸で考えよう〜UXデザインの視点を取り入れる
使う人の体験を時間軸で考えよう 〜UXデザインの視点を取り入れる
 
我々はどこへ行くのか: UXの誤解の先にある未来
我々はどこへ行くのか: UXの誤解の先にある未来我々はどこへ行くのか: UXの誤解の先にある未来
我々はどこへ行くのか: UXの誤解の先にある未来
 
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
 
土屋先生の還暦を祝う会
土屋先生の還暦を祝う会土屋先生の還暦を祝う会
土屋先生の還暦を祝う会
 
エンジニアの立場で考えるUXデザイン
エンジニアの立場で考えるUXデザインエンジニアの立場で考えるUXデザイン
エンジニアの立場で考えるUXデザイン
 
公共交通オープンデータ最先端都市 岡山のGTFSデータをFOSS4Gで遊び尽くす
公共交通オープンデータ最先端都市 岡山のGTFSデータをFOSS4Gで遊び尽くす公共交通オープンデータ最先端都市 岡山のGTFSデータをFOSS4Gで遊び尽くす
公共交通オープンデータ最先端都市 岡山のGTFSデータをFOSS4Gで遊び尽くす
 
2チケット&計測」書籍で訴えたい
2チケット&計測」書籍で訴えたい2チケット&計測」書籍で訴えたい
2チケット&計測」書籍で訴えたい
 
Service Design Roundtable on 2/15/2014, Y. Sawatani
Service Design Roundtable on 2/15/2014, Y. SawataniService Design Roundtable on 2/15/2014, Y. Sawatani
Service Design Roundtable on 2/15/2014, Y. Sawatani
 
新しい学びを創るデジタル教科書のかたちー学習者用デジタル教科書・教材等の機能の在り方の解説を中心に
新しい学びを創るデジタル教科書のかたちー学習者用デジタル教科書・教材等の機能の在り方の解説を中心に新しい学びを創るデジタル教科書のかたちー学習者用デジタル教科書・教材等の機能の在り方の解説を中心に
新しい学びを創るデジタル教科書のかたちー学習者用デジタル教科書・教材等の機能の在り方の解説を中心に
 
私がビギナーの頃を振り返って ~20代の代表として~
私がビギナーの頃を振り返って~20代の代表として~私がビギナーの頃を振り返って~20代の代表として~
私がビギナーの頃を振り返って ~20代の代表として~
 
文部科学省 情報ひろばサイエンスカフェ「ロボット・情報×つながり」 / 20170126 mext science_cafe
文部科学省 情報ひろばサイエンスカフェ「ロボット・情報×つながり」 / 20170126 mext science_cafe文部科学省 情報ひろばサイエンスカフェ「ロボット・情報×つながり」 / 20170126 mext science_cafe
文部科学省 情報ひろばサイエンスカフェ「ロボット・情報×つながり」 / 20170126 mext science_cafe
 
くらしの足からMaaSを捉えなおす イントロダクション
くらしの足からMaaSを捉えなおす イントロダクションくらしの足からMaaSを捉えなおす イントロダクション
くらしの足からMaaSを捉えなおす イントロダクション
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
IT業界における英語とプログラミングの関係性
IT業界における英語とプログラミングの関係性IT業界における英語とプログラミングの関係性
IT業界における英語とプログラミングの関係性
 

Plus de Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調Shinnosuke Takamichi
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習Shinnosuke Takamichi
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正Shinnosuke Takamichi
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Shinnosuke Takamichi
 
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の  モード近似を用いた位相復元 SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の  モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元 Shinnosuke Takamichi
 
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用Shinnosuke Takamichi
 

Plus de Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
 
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の  モード近似を用いた位相復元 SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の  モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
 
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
 

音声合成研究を加速させるためのコーパスデザイン