Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
USING CONTINUOUS LEXICAL EMBEDDINGS
To IMPROVE SYMBOLIC-PROSODY PREDICTION
IN A TEXT-TO-SPEECH FRONT-END
長岡技術科学大学 自然言語処理研究...
⚫ テキストから韻律情報を予測するタスク
◆ どのような特徴から特定できるのか判別が困難
⚫ 本稿では,
これまで使用されていた特徴量に,
単語埋め込みを加えることによる精度変化を調査
⚫ アクセント強調箇所の予測・アクセント句の予測を行い,
...
⚫ テキストから韻律情報を推定することは,
自然な音声を生成するために重要
✓ アクセント句の分割
✓ アクセントの強弱の割り当て
⚫ ATT(atext-to-speech)システムでは
初めに韻律情報を推定し,
その情報を用いて音声に変換す...
⚫ 現状の課題として
✓ 一つの単語に複数のアクセントが存在する
✓ アクセントを同定するために,
入力したテキスト以外の情報が必要となる場合がある
(例えば, 世界知識など)
⚫ より豊かな構文的・意味的表現の獲得が重要
高次元のベクトル表現...
⚫ 単語埋め込み手法
◆ Word-to-Vector[Mikilov ‘13]
◆ Gloval Vector[Pennington ‘14]
◆ 依存構造解析を利用した埋め込み[Bansal ’15, Levy ‘14]
⚫ 単語埋め込みを...
⚫ Bi-LSTM
いくつかのTTSシステムで最高性能
◆ 韻律モデリング[Fernandez ‘14, Fan ‘14, Zen ‘15]
◆ アクセント句境界推定[Rosenberg ‘12]
6
3. 実験環境 提案手法
⚫ Baseline
◼ 品詞タグ
◼ Uni-gramの出現確率(P(ω𝑖))
◼ 後ろに続く句読点の種類
◼ 大文字, 出現位置が先頭, 接続詞, 補助動詞, WH単語
か否か
◼ 木構造における 次の単語とのノード距離
◼ Pitch-A...
⚫ 実験コーパス
⚫ 英語を母国語とする女性の3730文のタグ付きコーパス
⚫ 訓練(80%), 開発(10%), テスト(10%)
⚫ それぞれ単語数 47.8k, 6.3k, 5.9k
⚫ Baselineに以下のベクトルを加えることによる...
⚫ BL : Baseline
⚫ LEX-xxx : baselineモデルをone-hotベクトルに変換
⚫ SG-xxx : skip-gramで学習(word2vec)
⚫ SSG-xxx : skip-gramで学習(wang2vec...
⚫ 単語埋め込みを用いた場合に
精度が0.1ポイント以上向上
⚫ 辞書情報のみで次元数を増やした場合と比較し,
精度の向上が大きい
10
4. Prominence Prediction 評価
⚫ 単語埋め込みを利用した場合でも
精度の向上が少ない
⚫ 次元数を増やすことによる精度の改善も見られない
11
4. アクセント句境界推定 評価
⚫ 韻律情報付与タスクにおける, 単語埋め込みの影響を調査
◆ 3つのWord-to-Vector形式と Gloveモデル
⚫ アクセント句境界推定においては,
単語埋め込み情報の寄与は小さい
⚫ 辞書の情報を特設埋め込む方法では,
データが希...
Prochain SlideShare
Chargement dans…5
×

Using continuous lexical embeddings to improve symbolicprosody prediction in a text tospeech frontend

104 vues

Publié le

Asaf Rendel, Raul Fernandez, Ron Hoory, Bhuvana Ramabhadran, 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), March.2016.

Publié dans : Ingénierie
  • Login to see the comments

  • Soyez le premier à aimer ceci

Using continuous lexical embeddings to improve symbolicprosody prediction in a text tospeech frontend

  1. 1. USING CONTINUOUS LEXICAL EMBEDDINGS To IMPROVE SYMBOLIC-PROSODY PREDICTION IN A TEXT-TO-SPEECH FRONT-END 長岡技術科学大学 自然言語処理研究室 修士2年 西山 浩気 Asaf Rendel, Raul Fernandez, Ron Hoory, Bhuvana Ramabhadran, 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), March.2016.
  2. 2. ⚫ テキストから韻律情報を予測するタスク ◆ どのような特徴から特定できるのか判別が困難 ⚫ 本稿では, これまで使用されていた特徴量に, 単語埋め込みを加えることによる精度変化を調査 ⚫ アクセント強調箇所の予測・アクセント句の予測を行い, いずれも単語埋め込みが精度向上に寄与することを示す 1. 概要 2
  3. 3. ⚫ テキストから韻律情報を推定することは, 自然な音声を生成するために重要 ✓ アクセント句の分割 ✓ アクセントの強弱の割り当て ⚫ ATT(atext-to-speech)システムでは 初めに韻律情報を推定し, その情報を用いて音声に変換する 2. テキストからのアクセント推定 はじめに 3
  4. 4. ⚫ 現状の課題として ✓ 一つの単語に複数のアクセントが存在する ✓ アクセントを同定するために, 入力したテキスト以外の情報が必要となる場合がある (例えば, 世界知識など) ⚫ より豊かな構文的・意味的表現の獲得が重要 高次元のベクトル表現はデータの希薄さを生み出すため、 代わりに低次元の連続的な表現(Bi-LSTM)を用いる 2. テキストからのアクセント推定 はじめに 4
  5. 5. ⚫ 単語埋め込み手法 ◆ Word-to-Vector[Mikilov ‘13] ◆ Gloval Vector[Pennington ‘14] ◆ 依存構造解析を利用した埋め込み[Bansal ’15, Levy ‘14] ⚫ 単語埋め込みを用いたアクセント句境界推定[Vadapalli ‘14] ⚫ 本手法では事前に教師ありで学習したモデルに, 単語埋め込みを加える点で異なる 5 2. 先行手法 はじめに
  6. 6. ⚫ Bi-LSTM いくつかのTTSシステムで最高性能 ◆ 韻律モデリング[Fernandez ‘14, Fan ‘14, Zen ‘15] ◆ アクセント句境界推定[Rosenberg ‘12] 6 3. 実験環境 提案手法
  7. 7. ⚫ Baseline ◼ 品詞タグ ◼ Uni-gramの出現確率(P(ω𝑖)) ◼ 後ろに続く句読点の種類 ◼ 大文字, 出現位置が先頭, 接続詞, 補助動詞, WH単語 か否か ◼ 木構造における 次の単語とのノード距離 ◼ Pitch-Accent Ratio(PAR) : 当該単語があるアクセント型で出現した割合 7 3. 実験環境 提案手法
  8. 8. ⚫ 実験コーパス ⚫ 英語を母国語とする女性の3730文のタグ付きコーパス ⚫ 訓練(80%), 開発(10%), テスト(10%) ⚫ それぞれ単語数 47.8k, 6.3k, 5.9k ⚫ Baselineに以下のベクトルを加えることによる精度向上を調査 (括弧内は学習させたコーパス) ⚫ Skip-gram (Gigaword corpus[Graff ‘03]) ⚫ CBOW (Google News corpus) ⚫ Glove (Wikipedia and Gigaword corpus) 8 3. 実験環境 提案手法
  9. 9. ⚫ BL : Baseline ⚫ LEX-xxx : baselineモデルをone-hotベクトルに変換 ⚫ SG-xxx : skip-gramで学習(word2vec) ⚫ SSG-xxx : skip-gramで学習(wang2vec) ⚫ CBOW-xxx : CBOWで学習 ⚫ Glove-xxx : Gloveで学習 xxx = 次元数 9 4. 評価
  10. 10. ⚫ 単語埋め込みを用いた場合に 精度が0.1ポイント以上向上 ⚫ 辞書情報のみで次元数を増やした場合と比較し, 精度の向上が大きい 10 4. Prominence Prediction 評価
  11. 11. ⚫ 単語埋め込みを利用した場合でも 精度の向上が少ない ⚫ 次元数を増やすことによる精度の改善も見られない 11 4. アクセント句境界推定 評価
  12. 12. ⚫ 韻律情報付与タスクにおける, 単語埋め込みの影響を調査 ◆ 3つのWord-to-Vector形式と Gloveモデル ⚫ アクセント句境界推定においては, 単語埋め込み情報の寄与は小さい ⚫ 辞書の情報を特設埋め込む方法では, データが希薄になり精度が低い ⚫ 埋め込み表現を用いることで改善 ⚫ 今後は 他の単語埋め込み方法, アクセント句境界推定への影響への調査を行う 12 まとめ

×