SlideShare une entreprise Scribd logo
1  sur  28
名古屋大学 情報基盤センター/JST, さきがけ
音声の声質を変換する技術と
その応用
戸田 智基
2017年5月24日
OS-9 質感と感性
音声の声質を知覚的に
制御するには?音声の声質をモデル
化するには?
戸田の簡単な経歴紹介
名古屋大学 工学部 電気電子・情報工学科(電気電子コース)
板倉研究室:音声分析合成系
奈良先端科学技術大学院大学 情報科学研究科 博士前期/後期課程
鹿野研究室:音声変換,ATR:音声合成
日本学術振興会 特別研究員-PD
ATR:音声合成,米国CMU:音声変換,名工大:音声合成
奈良先端科学技術大学院大学 情報科学研究科 助手/助教
鹿野研究室:音声情報処理,英国Cambridge U:音声対話
同 准教授
中村研究室:音声情報処理,コミュニケーション支援/拡張
名古屋大学 情報基盤センター 教授
大学院 情報学研究科 担当
情報学部 コンピュータ科学科 知能システム系 担当
戸田研究室(+武田研究室):音声/音楽/音環境情報処理
1995.4
1999.4
2003.4
2005.4
2011.4
2015.9
自己紹介
• 物理的な生成過程
• 音声に埋め込まれる情報
音声の生成
言語情報
パラ言語情報
非言語情報
音声信号意図
音韻成分
声質成分
身体的制約
非言語情報は
限定される.
音源生成 調音 音声信号
声帯振動による
周期信号の生成
声道形状に応じた
共振特性の付与
1.声質変換の概要:1
音声の声質を変換する技術とは?
出力音声入力音声
声質変換
• 入力音声に対して,発話内容を保持しつつ,他の所望の情報を意図的に
変換する処理を施す技術
発話内容(言語情報)は同じだが・・・
 所望の話者によって発声された
 所望の発話様式で発声された
 所望の・・・で発声された
ように変換する!
Q2.どう実現されるのか?
Q1.何の役に立つのか?
1.声質変換の概要:2
物理的制約を
超えた音源生成
物理的制約を
超えた調音
何の役に立つのか?
音源生成 調音
物理的な生成過程 + 声質変換 ⇒ 音声生成機能拡張の実現!
音声信号
声質変換
変換音声信号
非言語情報も
意図的に制御可能!
1.声質変換の概要:3
こんにちはこんにちはこんにちは
こんにちは!
正常な発声器官を
仮想的に移植して
一部の発声器官の
機能を消失しても・・・
所望の音声生成
機能を実現!
応用例:音声生成機能拡張
• 物理的制約を超えた音声生成機能の獲得
身体的制約を
超える発声補助
環境的制約を
超える通話
能力的制約を
超える表現獲得
など,不可能を可能とする音声コミュニケーションも夢ではない!
発声障碍者
の音声を
より自然な
音声へ
聞きとれないほど
微弱な音声を
より明瞭な
音声へ
現時点での
歌声を
若返った歌声へ
年老いた歌声へ
例えば,失った声を取り戻す!
例えば,声を出さずに会話する!
例えば,イメージする声を具現化する!
1.声質変換の概要:4
[Toda, 2014]
どう実現されるのか?
信号処理 + 変換処理 ⇒ 声質変換の実現!
共振特性音源信号の特徴
時間
周波数
基本周波数系列 スペクトル包絡系列
周波数
パワー
時間
出力
音声
入力
音声
変換
処理
変換音声
特徴量系列 合成
処理
分析
処理
音声
特徴量系列
1.声質変換の概要:5
リアルタイム音声変換デモ
周波数軸を
伸ばすと
縮めると
太い声に(声道長が
長く)なる!
周波数
パワー
周波数
パワー
周波数
パワー
共振部特徴量(スペクトル包絡)
子供っぽい声に
(声道長が短く)なる!
リアルタイム
音声変換ソフト(Herium)
名城大学 坂野秀樹先生 作
音源生成部特徴量(基本周波数)
高くすると
低くすると
高い声になる!
低い声になる!
時間
周波数周波数
時間
周波数
時間
1.声質変換の概要:6
• 物理性質に沿った単純な規則に基づく変換関数の利用
[Banno et al., 2007]
所望の音声へと変換できるのか?
出力
音声
入力
音声
統計的
変換処理
学習
データ
変換音声
特徴量系列 合成
処理
分析
処理
音声
特徴量系列
信号処理 + 統計処理 ⇒ 統計的声質変換の実現!
1.声質変換の概要:7
複雑な変換処理を実現する非線形変換関数を学習データから推定
• 所望の非言語情報のみが変換されるように学習データを設計
• 個々の音韻に応じた変換処理を実現
リアルタイム統計的音声変換デモ[Kobayashi et al., 2016a]
リアルタイム
統計的音声変換ソフト
名古屋大学
小林和弘博士 作※ http://www.ssw.co.jp/products/talk/megpoid/
※ http://licca.takaratomy.co.jp/official/profile/
1.声質変換の概要:8
• 統計的変換関数を利用して特定のキャラクターの声へと変換
本講演の内容
• 声質をモデル化するには?
• 統計的手法に基づいて声質を変換する!
• 音声が持つ揺らぎ成分のモデル化する!
• 声質を知覚的に制御するには?
• 音韻依存要因と声質依存要因に分解する!
• 声質依存要因と知覚特性を対応付ける!
講演内容
統計的声質変換の枠組み
入力話者 出力話者
変換関数
同じ内容を
話して下さい.
同じ内容を
話して下さい.
どんな内容も
変換できます.
どんな内容も
変換できます.
• 同一内容の発話対セット(パラレルデータ)を用いて変換関数を学習
入力音声 出力音声
1.パラレルデータ(約50文対)を用いた学習
2.如何なる入力音声発話も言語情報を保存しつつ
出力音声へと変換可能
2.声質のモデル化:1
[Abe et al., 1990] [Stylianou et al., 1998]
言語情報は同じであり,変換対象となる情報のみが異なるデータ
回帰問題としての定式化(教師あり学習)
• 入出力音声から特徴量を抽出し,両特徴量間の対応関係をモデル化
入力音声
出力音声
入力特徴量
出力特徴量
,,
2
2
1
1












y
x
y
x
特徴量抽出
変換関数
 TT :1:1 xy F
結合特徴量
(教師あり
学習用データ)
,, 21 xx
,, 21 yy
時間フレームの
対応付け 変換関数の構築
2.声質のモデル化:2
学習処理と変換処理
学習処理
yv
T:1x T:1y
変換処理(高精度に近似可能)
系列特徴量の
モデル化
変換特徴量
系列を推定
音韻性
tYtX
tz
Tt :1
線形写像
非線形写像
時間変化
特徴量の
モデル化
Product-of-Expertsとして
両特徴量の基準を利用
2.声質のモデル化:3
yv
T:1yT:1x
音韻性
tYtX
tz
Tt :1
MAP推定値
による近似
特徴量系列対
[Toda et al., 2007a] [Tobing et al., 2016]
tX
時間変化特徴量のモデル化
• 特徴量のセグメント化(各時間フレームにて隣接フレームの結合)
• 各時間フレーム付近における特徴量の時間変化を表現
• 動的(デルタ)特徴量の利用:関数フィッティング [Furui, 1981]
t-1 t
tx 1tx 2tx1tx2tx
tx
tx
tx
tX 1tX2tX 1tX 2tX


線形変換
t+1
t
0-1-2 1 2
tt bfx  )0(
tt afx 2)0(  
ttt cbaf   2
)(二次関数:
一次微分:
二次微分:
前後2フレーム
(計5フレーム)
を使う場合の例
=
結合
[徳田 他, 1997]
2.声質のモデル化:4
系列特徴量(揺らぎ成分)のモデル化
• 特徴量系列全体における変動量に着目
0 1 2 3
Time [sec]
特徴量系列
変調周波数
0 Hz
0.25 Hz
0.5 Hz
~ Hz




=…
特徴量の各次元における分散
特徴量系列の変調スペクトル
へと拡張
(特徴量系列を各変調周波数成分に
分解して分散を計算)
(=特徴量系列に対する非線形
変換により得られる特徴量)
のモデル化 [Toda et al., 2007]
[Takamichi et al., 2016]
音声信号に含まれる
揺らぎ成分を表現!
2.声質のモデル化:5
揺らぎ成分をモデル化する効果
自然音声のスペクトル包絡系列
変換スペクトル包絡系列(揺らぎ成分のモデル化なし ⇒ 誤差は小)
変換スペクトル包絡系列(揺らぎ成分のモデル化あり ⇒ 誤差は大)
2.声質のモデル化:6
[Takamichi et al., 2016]
本講演の内容
• 声質をモデル化するには?
• 統計的手法に基づいて声質を変換する!
• 音声が持つ揺らぎ成分のモデル化する!
• 声質を知覚的に制御するには?
• 音韻依存要因と声質依存要因に分解する!
• 声質依存要因と知覚特性を対応付ける!
講演内容
声質の知覚的制御
• 音韻依存要因と声質依存要因に分解するためのアプローチ
• 複数の既知話者の音声を混ぜ合わせることで未知話者の音声を模擬
• 声質依存要因と知覚特性を対応付けるためのアプローチ
• 知覚尺度を変化した際に生じる声質変化をモデル化
 同じ音韻同士で混ぜ合わせ
 混ぜ合わせ重みは全ての音韻で共有
 混ぜ合わせ重みを声質依存要因として利用
 既知話者に対して知覚尺度を付与
 知覚尺度変化と個々の音韻内における
全話者共通の声質変化を対応付け
 知覚尺度から推定される声質変化を
変換対象話者に適用
3.声質の知覚的制御:1
年齢
一対多変換( 多対一変換) [Toda et al., 2007b]
• 参照話者の音声を任意の話者の音声へと変換する技術
tX )(s
tY
sTt :1
tz
)(s
w
Ss :1
話者性
音韻性
音韻性(フレーム毎に変化)と
話者性(系列毎に変化)を別々の
潜在変数でモデル化
参照話者を音韻性に対するアンカーとして活用することで話者性を分離
)1(
:1 1TY
tX )2(
:1 2TY
)(
:1
S
TS
Y
参照話者
事前収録話者セット
話者1
話者2
話者S
参照話者と各事前収録話者間で
パラレルデータを作成して利用
3.声質の知覚的制御:2
学習データ設計 学習処理
固有声変換
スーパーベクトル
=モデルパラメータ連結
(音韻・話者依存)










































)(
)(
2
)(
1
)1(
)1(
2
)1(
1
,,
J
M
J
J
M b
b
b
b
b
b


 









)(
)(
1
s
J
s
w
w















)0(
)0(
2
)0(
1
Mb
b
b

バイアスベクトル
=平均的な話者性
(音韻依存)
+
因子ベクトル
(話者依存)×
基底ベクトルセット
=代表的な話者性
(音韻依存)
=
声質制御パラメータとして利用














)(
)(
2
)(
1
s
M
s
s
μ
μ
μ

= +
• モデルパラメータを音韻依存要因と話者依存要因に分離[Kuhn et al., 2000]
[Toda et al., 2006]
3.声質の知覚的制御:3
多対一固有声変換デモ
• 任意の話者の音声を特定の話者の音声へと変換
tX tY
Tt :1
tz
w
話者性
音韻性
適応処理:入力音声から話者依存
因子ベクトルを教師無し推定
tY
tz
wˆ話者性
音韻性
変換処理:話者依存因子ベクトルを
用いて適応モデルを構築して変換
Tt :1
3.声質の知覚的制御:4
tX
10年前のデモです・・・
古くてすみません・・・
T:1x T:1y T:1x T:1y
多対多変換 [Ohtani et al., 2009]
• 任意の話者の音声を任意の話者の音声へと変換
• 多対一変換と一対多変換を縦列接続
3.声質の知覚的制御:5
tX
)(o
tY)(i
tY
tX )(o
tY
Tt :1
tz )(o
w
話者性
音韻性
変換モデルの変形
)(i
tY
)(i
w
話者性
tX )(s
tY
Tt :1
tz )(s
w
話者性
音韻性
一対多変換
モデル
多対多変換
モデル
 一対多/多対一変換
モデルの接続
 参照話者音声を潜在
変数として周辺化
知覚特性との対応付け[Ohta et al., 2010] [Kobayashi et al., 2014]
)1(
:1 1TY
T:1X )2(
:1 2TY
)(
:1
S
TS
Y
参照話者
事前収録話者セット
話者1
話者2
話者S
• 制御対象とする声質成分に着目した知覚尺度を手動で付与







2
20)1(
p







5
35)2(
p







1
65)(S
p






p
知覚される年齢
声の通りの良さ
知覚尺度の例:
1. 各話者の音声を聞いてラベリング 2. 知覚尺度を話者依存
因子ベクトルとして学習
tX )(s
tY
sTt :1
tz
Ss :1
知覚的尺度
音韻性
sp
3.声質の知覚的制御:6
知覚尺度操作による声質制御
スーパーベクトル
=モデルパラメータ連結
(音韻・知覚尺度依存)










































)(
)(
2
)(
1
)1(
)1(
2
)1(
1
,
J
M
J
J
M b
b
b
b
b
b







2
1
p
p














)0(
)0(
2
)0(
1
Mb
b
b

入力話者ベクトル
(音韻依存)+
知覚尺度
(操作対象)×
基底ベクトルセット
=知覚尺度に応じた
変化(音韻依存)
=
知覚尺度を手動設定














)(
)(
2
)(
1
s
M
s
s
μ
μ
μ

= +
• 入力話者の声質を知覚尺度操作により制御可能
[Kobayashi et al., 2016b]
知覚年齢若い声色 老いた声色
歌声の知覚年齢操作の例
3.声質の知覚的制御:7
• 声質のモデル化: 統計的声質変換
• パラレルデータを用いて言語情報と声質情報の分離を実現
• 音声の特徴(時間変化や揺らぎ成分)をモデル化
• 声質の知覚的制御: 知覚的に説明できる声質依存要因の抽出
• 複数話者音声データを用いて言語依存要因と声質依存要因へ分解
• 知覚尺度を付与することで対応する声質依存要因をデータから抽出
• 声質変換の応用例: 音声生成機能の拡張
まとめ
音声の声質変換技術は危険性を含んでいます!
• なりすましの助長
• 変換音声自動検出技術と変換技術はイタチごっこ
声質変換技術の普及に向け正しい社会的認知を得ることが必要です.
声質変換技術を「包丁」として認めてもらうための
研究活動ならびに社会活動が重要な課題となります.
まとめ
[Toda, 2014] T. Toda. Augmented speech production based on real-time statistical voice conversion. Proc.
GlobalSIP, pp. 755-759, 2014.
[Banno et al., 2007] H. Banno1, H. Hata, M. Morise, T. Takahashi, T. Irino, H. Kawahara. Implementation of
realtime STRAIGHT speech manipulation system: Report on its first implementation. Acoustical Science and
Technology. Vol. 28, No. 3, pp. 140-146, 2007.
[Kobayashi et al., 2016a] K. Kobayashi, T. Toda, S. Nakamura. F0 transformation techniques for statistical
voice conversion with direct waveform modification with spectral differential. Proc. IEEE SLT, pp. 693-700,
2016.
[Abe et al., 1990] M. Abe, S. Nakamura, K. Shikano, H. Kuwabara. Voice conversion through vector
quantization. J. Acoust. Soc. Jpn (E), Vol. 11, No. 2, pp. 71-76, 1990.
[Stylianou et al., 1998] Y. Stylianou, O. Capp´e, E. Moulines. Continuous probabilistic transform for voice
conversion. IEEE Trans. Speech & Audio Process., Vol. 6, No. 2, pp. 131-142, 1998.
[Toda et al., 2007a] T. Toda, A.W. Black, K. Tokuda. Voice conversion based on maximum likelihood
estimation of spectral parameter trajectory. IEEE Transactions on Audio, Speech and Language Processing,
Vol. 15, No. 8, pp. 2222-2235, 2007.
[Tobing et al., 2016] P.L. Tobing, T. Toda, H. Kameoka, S. Nakamura. Acoustic-to-articulatory inversion
mapping based on latent trajectory Gaussian mixture model. Proc. INTERSPEECH, pp. 953-957, 2016.
[徳田 他, 1997] 徳田恵一, 益子貴史, 小林隆夫, 今井 聖. 動的特徴を用いた HMMからの音声パラメータ
生成アルゴリズム. 日本音響学会誌, Vol. 53, No. 3, pp. 192–200, 1997.
[Furui, 1981] S Furui. Cepstral analysis technique for automatic speaker verification. IEEE Trans. Acoustics,
Speech, and Signal Process. Vol. 29, No. 2, pp. 254-272, 1981.
参考文献(1)
参考文献:1
[Takamichi et al., 2016] Takamichi, T. Toda, A.W. Black, G. Neubig, S. Sakti, S. Nakamura. Post-filters to
modify the modulation spectrum for statistical parametric speech synthesis. IEEE/ACM Transactions on
Audio, Speech and Language Processing, Vol. 24, No. 4, pp. 755-767, Apr. 2016.
[Toda et al., 2007b] T. Toda, Y. Ohtani, K. Shikano. One-to-many and many-to-one voice conversion based
on eigenvoices. Proc. IEEE ICASSP, pp. 1249-1252, 2007
[Toda et al., 2006] T. Toda, Y. Ohtani, K. Shikano. Eigenvoice conversion based on Gaussian mixture model.
Proc. INTERSPEECH, pp. 2446-2449, 2006.
[Kuhn et al., 2000] R. Kuhn, J.-C. Junqua, P. Nguyen, N. Niedzielski. Rapid speaker adaptation in eigenvoice
space. IEEE Trans. Speech & Audio Process. Vol. 8, No. 6, pp. 695-707, 2000.
[Ohtani et al., 2009] Y. Ohtani, T. Toda, H. Saruwatari, K. Shikano. Non-parallel training for many-to-many
eigenvoice conversion. Proc. IEEE ICASSP, pp. 4822-4825, Dallas, USA, Mar. 2010.
[Ohta et al., 2010] K. Ohta, T. Toda, Y. Ohtani, H. Saruwatari, K. Shikano. Adaptive voice-quality control
based on one-to-many eigenvoice conversion. Proc. INTERSPEECH, pp. 2158-2161, 2010.
[Kobayashi et al., 2014] K. Kobayashi, T. Toda, H. Doi, T. Nakano, M. Goto, G. Neubig, S. Sakti, S. Nakamura.
Voice timbre control based on perceived age in singing voice conversion. IEICE Transactions on Information
and Systems, Vol. E97-D, No. 6, pp. 1419-1428, 2014.
[Kobayashi et al., 2016b] K. Kobayashi, T. Toda, T. Nakano, M. Goto, S. Nakamura. Improvements of voice
timbre control based on perceived age in singing voice conversion. IEICE Transactions on Information and
Systems, Vol. E99-D, No. 11, pp. 2767-2777, 2016.
参考文献(2)
参考文献:2

Contenu connexe

Tendances

[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audioDeep Learning JP
 
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIPDeep Learning JP
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識NU_I_TODALAB
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知NU_I_TODALAB
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習Shinnosuke Takamichi
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析Kitamura Laboratory
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)Daichi Kitamura
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 

Tendances (20)

[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 

Similaire à 音声の声質を変換する技術とその応用

TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONRyoAIHARA1
 
hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdfYuki Saito
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...Yui Sudo
 
今後のPRMU研究会を考える
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考えるYoshitaka Ushiku
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言Shinnosuke Takamichi
 
音楽を見る:情報可視化技術の音楽情報処理への適用
音楽を見る:情報可視化技術の音楽情報処理への適用音楽を見る:情報可視化技術の音楽情報処理への適用
音楽を見る:情報可視化技術の音楽情報処理への適用Takayuki Itoh
 
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成Kentaro Tachibana
 
Japan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラムJapan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラムKomei Sugiura
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
チュートリアル「障害とコミュニケーション」2017/06/17 音学シンポジウム2017
チュートリアル「障害とコミュニケーション」2017/06/17  音学シンポジウム2017チュートリアル「障害とコミュニケーション」2017/06/17  音学シンポジウム2017
チュートリアル「障害とコミュニケーション」2017/06/17 音学シンポジウム2017Keiichi Yasu
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生Toshihiko Yamasaki
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用Shinnosuke Takamichi
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割Takuya Nishimoto
 
Statistical Machine Translation Overview
Statistical Machine Translation OverviewStatistical Machine Translation Overview
Statistical Machine Translation OverviewHiroki Kawano
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asjYuki Saito
 
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」Hiroyuki Miyoshi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 

Similaire à 音声の声質を変換する技術とその応用 (20)

TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
 
hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
 
今後のPRMU研究会を考える
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考える
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 
音楽を見る:情報可視化技術の音楽情報処理への適用
音楽を見る:情報可視化技術の音楽情報処理への適用音楽を見る:情報可視化技術の音楽情報処理への適用
音楽を見る:情報可視化技術の音楽情報処理への適用
 
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成
 
Japan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラムJapan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラム
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
チュートリアル「障害とコミュニケーション」2017/06/17 音学シンポジウム2017
チュートリアル「障害とコミュニケーション」2017/06/17  音学シンポジウム2017チュートリアル「障害とコミュニケーション」2017/06/17  音学シンポジウム2017
チュートリアル「障害とコミュニケーション」2017/06/17 音学シンポジウム2017
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割
 
Statistical Machine Translation Overview
Statistical Machine Translation OverviewStatistical Machine Translation Overview
Statistical Machine Translation Overview
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
 
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 

Plus de NU_I_TODALAB

The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022NU_I_TODALAB
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワークNU_I_TODALAB
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...NU_I_TODALAB
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionNU_I_TODALAB
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトNU_I_TODALAB
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?NU_I_TODALAB
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionNU_I_TODALAB
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingNU_I_TODALAB
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法NU_I_TODALAB
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法NU_I_TODALAB
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice ConversionNU_I_TODALAB
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice ConversionNU_I_TODALAB
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法NU_I_TODALAB
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...NU_I_TODALAB
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法NU_I_TODALAB
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調NU_I_TODALAB
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離NU_I_TODALAB
 

Plus de NU_I_TODALAB (18)

The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice Conversion
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice Conversion
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
 

音声の声質を変換する技術とその応用