Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité

Consultez-les par la suite

1 sur 18 Publicité

EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

Télécharger pour lire hors ligne

首都大学東京 情報通信システム学域 小町研究室に行われた EMNLP 2015 読み会で "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model" を紹介した際の資料です。

首都大学東京 情報通信システム学域 小町研究室に行われた EMNLP 2015 読み会で "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model" を紹介した際の資料です。

Publicité
Publicité

Plus De Contenu Connexe

Diaporamas pour vous (20)

Similaire à EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model" (20)

Publicité

Plus récents (20)

EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

  1. 1. EMNLP 2015 読み会 @小町研 “Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model “ Hajime Morita, Daisuke Kawahara, Sadao Kurohashi 首都大学東京 情報通信システム学域 小町研究室 M2 塘 優旗 1
  2. 2. Abstract  Recurrent Neural Network Language Model (RNNLM) を利用し、新たな形態素解析モ デルを提案  意味的に一般化された言語モデルとして RNNLMを利用  二つの日本語コーパスにおいて、提案手法 がベースラインに比べて良い結果を示した 2
  3. 3. Proposed Method  RNNLM を利用することで意味的に尤もらしい単語列を考 慮して形態素解析を行う手法  RNNME (Recurrent Neural Net-work trained jointly with Maximum Entropy) language model (Mikolov et al., 2011; Mikolov, 2012) をRNNLMの実装として利用 3
  4. 4. Recurrent Neural Network Language Model (RNNLM)  Auto Segmented Corpus  生のWebコーパス1,000万文 (Kawahara and Kurohashi, 2006)を JUMANで自動解析し作成  JUMANにおける解析誤りが含まれる  Training  Auto Segmented Corpus中のPOSタグ無し,レンマ化された単語 列で学習  学習されたモデルは,自動解析における誤りを含む  Re-training  人手でラベル付けされたコーパスで再学習  機能語の単語列に関するエラーの解消のため 4
  5. 5. Base Model  教師有り形態素解析モデル(単語分割,レンマ化,POS タグ付け)を Base Model として利用  Train data:アノテーション済み1万文のコーパス  解析手順 1. 入力文の文字列を辞書を利用し参照 2. 単語ラティスの構築 3. ラティス中の最もスコアの高いパスを探索 5
  6. 6. Base Model  辞書 - 80万単語  レンマ,POS,活用形 の情報を含む  JUMAN辞書  追加辞書 – 日本語Wikipedia中の記事中の箇条書き,記事タイトル で主に構成  Scoring function  Features  単語の 基本形, POS, 活用形 のunigram, bigram (Kudo et al. 2004)  文字種,trigram (Zhang and Clark 2008) 6 y : タグ付けされた単語列 Φ(y) : y に対しての素性べクトル w : 重みベクトル
  7. 7. Base Model  Training  重みベクトル w の学習のために soft confidence-weighted learning (Wang et al., 2012) を利用  out-of-vocabulary (OOV) の取り扱い  解析時:文字種で入力列を分割することで自動で単語を生成  学習時:辞書中には無いが学習コーパスにある単語は OOV 単語 としてそれらの重みを学習する  Decording  second-order Viterbi algorithm (Thede and Harper, 1999)を利用す ることで厳密なデコードが可能 7
  8. 8. RNNLM Integrated Model  タグ付けされた系列に対してのRNNLM,ベースモデ ルによるそれぞれのスコア(score_R, score_B)を統 合  OOV単語に対してのスコア付け 8 C_p : OOVへの定数ペナルティ L_p : 単語長に対してのペナルティ length(n) : 次の単語 n の長さ α:補間パラメータ
  9. 9. RNNLM Integrated Model  Decording  RNNLMにおける可能な単語ラティスは組み合 わせ爆発が起こるため beam search (Zhang and Clark 2008) を利用し,ビーム幅中の可能 なcontext 候補のみ保持する  十分なビームサイズは単語列の曖昧な候補を保 持することができると考える  各候補は context を表現するベクトルを持ち, 二つの単語の履歴を持つ 9
  10. 10. Experiments - Data sets  人手タグ付きコーパス (RNNLMの再学習, base model の学習に利用)  Kyoto University Text Corpus (Kawahara et al., 2002)  Kyoto University Web Document Leads Corpus (Hangyo et al., 2012)  Test : 2000, Develop : 500, Train : 45000 10
  11. 11. Experiments - Baselines  JUMAN  MeCab  Base model のみ  Base model + 従来の言語モデル  3-gram 言語モデル(同じ自動単語分割コーパ スからSRILMを使いKneser-Ney Smothing を 行い作成) 11
  12. 12. Experiments - Settings  事前に設定するパラメータ  ビーム幅:5  C_p = 5 (Mikolov et al. 2011)のデフォルト値  チューニングするパラメータ  development dataにおいて、提案手法, ベースモデル, 言語モデルのパラメータをグリッドサーチし下記のよ うに決定 12 手法 α L_p Base + SRILM 0.3 0.5 Base + RNNLM 0.1 2.0 Base + RNNLM_retrain(提案手法) 0.3 1.5
  13. 13. Experiments - Evaluation  単語分かち書き, POSタグ付けのジョイン ト評価のF値  ドメイン:News, Web, ALL(News + Web)  ブートストラッピング(Zhang et al., 2004) を用いて提案手法とその他のモデルの優位 性をテスト 13
  14. 14. Experiments - Results  提案手法が全ての点で最高精度 14
  15. 15. Experiments - Results  Segmentation で特に大きな改善  レンマ化されたPOSタグ付けのされていな い単語列をベースに学習されたRNNLMを 利用することによる 15
  16. 16. Experiments - Results  単語分割の具体例  上記のようなベースラインの解析誤りは言語モデル を作成する際に利用される自動作成コーパスにおけ るエラーに由来する  RNNLMを利用し、意味的な単語の遷移が捉えること ができれば提案手法で正しい解析が可能になる 16 手法 解析結果 JUMAN 外国 / 人参 / 政権 Base + SRILM Base + RNNLM_retrain(提案手法) 外国人 / 参政権
  17. 17. Experiments - Results  単語分割の具体例  ベースラインのような分割は文法的には問題ないが、 意味的に解釈することは難しい  RNNLMが意味的に尤もらしい単語列を学習するため、 提案手法ではうまくいく 17 手法 解析結果 JUMAN 健康/な/どの/点/で Base + SRILM Base + RNNLM_retrain(提案手法) 健康/など/の/点/で
  18. 18. Conclusion  RNNLM を自動的に単語分割を行ったコーパス、人手で作 成したコーパスで学習することで形態素解析の新しいモ デルを提案  RNNLMによって単語系列の意味的な尤もらしさを捉える ことでベースモデルのエラーを減少  Future Work  RNNLMモデル由来の素性を設計し、それらを統合された学習フ レームワークに組み込みたい  中国語やタイ語のような単語分割のされていない言語にも適用し たい 18

Notes de l'éditeur

  • 07/16/96
  • RNNME language model (Mikolov et al., 2011; Mikolov, 2012) をRNNLMの実装として利用

    RNNLM の学習リソース

    自動で単語分割され構築されたコーパス
    人手でラベル付けされたコーパス

    Recurrent Neural Net-work trained jointly with Maximum Entropy model

×