Contenu connexe Similaire à COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on Character-level and Word-level Normalization” (15) COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on Character-level and Word-level Normalization”1. COLING読み会2014@小町研
“Morphological Analysis for Japanese
Noisy Text Based on Character-level and
Word-level Normalization”
文字、単語レベルの正規化を基にした、ノイジーな日本語テキスト
に対する形態素解析
※スライド中の図表は全て論文から引用されたもの
NTT Media Intelligence Laboratories
saito.itsumi, sadamitsu.kugatsu, asano.hisako, matsuo.yoshihiro
首都大学東京情報通信システム学域
小町研究室M1 塘優旗
1 2014/11/6
2. SNSテキストはとってもノイジー
Non-standard token (非標準形)
• “パンケーキぉいしーぃ”
Standard form(標準形)
• “パンケーキおいしい”
MeCabによる形態素解析の例
• パンケーキ(noun)/ぉいし(unk)/ー(unk)/ぃ(unk)
→OOV (out-of-Vocabulary ) 辞書に存在しない
単語の区切りが明確でない
2 2014/11/6
3. 日本語のSNSテキストの問題点
日本語には単語間のスペースがない
二つの非標準形(non-standard token)への派生が存在
• Character-level
“おいしい” → “おいしいいいい”、“おいしぃ”、“おいしー”
文脈情報によって、標準形を計算するために、正規化、単語
分割、POSタギングは同時に解析しなければならない。
• Word-level
”教科書” → ”きょうかしょ”
各単語は正式な文字の書式(ひらがな、漢字、カタカナ)を
持っているが、ノイジーなテキストでは多くの単語が故意的
に異なる文字の書式で書かれることが多い。
3 2014/11/6
4. 日本語の単語正規化における
関連研究
Sasano et al. (2013)ら
• 人手で単語の派生ルールを生成し適用
SNSにおける派生ルールは膨大で人手では、とてもコスト
がかかる
候補数が増えた際にre-rankingのためのパスのコスト設定
が問題となる
Sasaki et al. (2013)ら
• 文字レベルの系列ラベリング手法をを適用
one-to-one な文字の変形のみを扱い、単語レベルの文脈は
考慮しない
4 2014/11/6
5. 今回対象とする単語派生の
パターンタイプ例
(1) ~ (4):英語のパターンと類似
• character-level で発生するため、character-levelのアライメン
トから学習可能
(5), (6):日本語特有のパターン
• word-level で発生するため、character-levelを元にして学習は
効果的でない
5 2014/11/6
55.0%
4.5%
20.1%
2.7%
※残りの17.7 % はなまりや固有の表現、誤植などその他の要因であり、提案手法では
簡単に解決できないため、今回の研究では対象としていない。
8. Character-level のTransformationTable の
作成
the joint multigram model (Sittichai et al. (2007) )
EMアルゴリズムを利用してn-bestのパスを生成
d : non-standard token とstandard form の
ペア
q : ペアd における部分文字のアライメン
ト
q : ペアd におけるアライメントqのセット
Kd : d から生成される可能性のある文アラ
イメントのシーケンス
D : d のペアの個数
Q : q のセット
n_q(q) : q 中に出現するq の出現する回数
8 2014/11/6
11. デコーダー
デコーダーは最適な系列y^ をL(s)から選択する。
s : 文(センテンス)
L(s) : 候補セット(センテンスs に対して生成されたラティス)
y^ : 最適な系列、(最適なパス)
w :重みベクトル
f : 素性ベクトル
11 2014/11/6
デコーダーの重みの学習
• the minimum error rate training (MERT) Machery et al. (2008).
13. 実験データ
Twitter、Blog からNon-standard token を抽出し、
辞書中のStandard form のアノテーションを人手で行う
実験に用いたデータ
• Twitter
• Training : 4208 tweets
• Development : 500 sentences
• Test : 300 tweets , 4635 words
• Blog
• Trainigのみ: 8023 sentences
• IPA dictionary
• 単語レベルのラティス生成、辞書ベースの素性の抽出に利用
13 2014/11/6
14. 学習結果
5228個の変形パターンを取得
• うち3268個が事前定義をした状態に一致
取得したパターンは事前提案したルールのほとんどを
カバーし、手で作成するには難しい様々なパターンを
自動で獲得できる
14 2014/11/6
15. ベースラインと評価尺度
method 正規化候補の生成素性
Traditional × 単語コスト、隣接POSタグのペアのコストのみ
BL1 [Sasano
et al. (2013)]
典型的なrule-based手法
[長音シンボル、小文字]の[挿入、置換]を考慮
Proposed character, word –level 両方の正規化候補を生成全ての素性を利用
BL2 character-level のみの正規化候補を生成
15 2014/11/6
(ひらがな、カタカナの正規化はなし)
全ての素性を利用
BL3 character, word –level 両方の正規化候補を生成全ての文字正規化によって生成される正規化候補
の文字変形コストが同じ
評価尺度
• 正規化された単語のみを考慮してrecall を評価
• テストデータ中に出現した絵文字を辞書に登録した、
そのためそれらはシステムのパフォーマンスには悪
い作用をしていない
17. まとめ
日本語形態素解析に対して、テキスト正規化のアプローチを導
入
2ステップのラティス生成アルゴリズムと離散的な定式化手法が
既存の手法を上回ることを示した。
フューチャーワーク
• 文字アライメントの学習に対して、教師なしもしくは半教師ありパ
ラレルコーパス抽出を導入することでこのアプローチを発展させる
• モデルの構成と素性を改良し、サーチエラーの数を減少させるため
のデコード手法の実装
• 全てのパフォーマンスの向上のために、そのほかのタイプの未知語
(例えば固有名詞などような)を形態素解析システムに付加するこ
とも考慮
17 2014/11/6
Notes de l'éditeur 1
Twitterのnon-standard tokensのようなデータに対する調査
55.0 % : (1),(2),(3)
4.5 % : (4)
20.1 % : (5),(6)
2.7 % : (7)
残りは、なまりや固有の表現、誤植などその他の要因のためこれらのどれにも属さない。
これらは提案手法では簡単に解決できないため、今回の研究では対象としていない。
しかしつまり、non-standardなトークンの大多数というのはこのどれかに属することになる。 私たちのアプローチは、可能性のある正規化候補を単語ラティスに与え、離散モデルを元にしたヴィタビデコーダーを用いて、最も良い系列を発見する。正規化候補として与えられたノードの信頼度を適切に評価することに使用されうるいくつかの素性を提案する。 システムにおいて、standard form に対して、deletion(削除)も許容する。(つまり、non-standard な文字からstandard 文字のnull にマッピングするということ)、しかし、non-standardに対しては許容しない。文字レベルのラティスを生成する際にこのアライメントをtrans- formation tableとして用いるため、もし、non-standard form のdeletionも許容してしまった場合、ラティスのサイズが必要以上に大きくなってしまう。
d = (“ありがとーぅ”, “ありがとう”)
q = (“とーぅ”, “とう”)
q = {(“あ”, “あ”) ,(“り”, “り”), (“が”, “が”), (“とーぅ”, “とう”)}
Han and Baldwin (2011)らの手法を参考に以下のルールを利用
[“ー”,“〜”, “-”, “っ”] などの1文字以上の繰り返しは1文字に修正
[“ー”,“〜”, “-”, “っ”] 以外の3文字以上の繰り返しは3文字に修正
例:
“ありがとーーーう” → “ありがとーう”
“うれしいいいいい” → “うれしいいい”
note : 必要のない候補の生成を防ぐために、事前定義した閾値を元に候補をフィルタリングする。閾値は文字系列の正規化のコストを元に定められる。1単語につき文字変形の数は2に制限した。
重み w のチューニングのためのオブジェクト関数を定義。
w は the minimum error rate training (MERT) Machery et al. (2008). によって学習される。
y_ref :学習データ?
the reference word segmentations(参照の単語分かち書き)と the POS tags of the reference sequence y_ref (参照の系列 y_refのPOSタグ)の組みを
システムの出力 との違いとしてエラー関数を定義。
Twitter Data:
training : 4208 tweets
development : 500 sentences
test : 300 tweets , 4635 words
少なくとも1つ以上のnon-standard token が含まれるようにtest data をランダムに選択。
テスト中の 403単語がnon-standard tokens として正しい綴りで正規化形でPOSタグが付加された。
Blog Data
8023 sentences で構成され全てトレーニングデータとして利用された
Training Data
character transformation table(文字変形テーブル)の抽出に利用
Development data
離散モデルのパラメータ計算に利用
MeCabによって提供されるIPA dictionaryを
単語レベルのラティスの生成
辞書ベースの素性の抽出 のため利用
評価の仕方
Precision, Recall , F値
日本語形態素解析は、単語分かち書き、POSタグ付けを同時に計算するため、私たちのシステムがnon-standard tokensn以上に別の何かに悪い影響を受けていないかチェックする必要がある。
また、正規化された単語のみを考慮してrecall を評価した。 その数値は私たちの手法のパフォーマンスを直接反映する。
テストデータ中に出現した絵文字を辞書に登録した、そのためそれらはシステムのパフォーマンスには悪い作用をしていない。
表に示すように、統計的に見て提案手法はprecision,recall共に他の手法よりいい結果である。(p < 0.01)
特にprecisionがよい結果となった。
この結果は、non-standard tokesの正しい解析だけでなく、間違って生成された単語の数の減少も可能であることを示す。
BL1 はtraditional に比べほんの少しaccuracy,recallが向上。
Proposed とBL2を比較すると、ひらがな、カタカナを考慮することでF値が向上していることがわかる。
BL3もF値が向上しているがproposedには劣っている。このことは、十分な正規化候補を生成しても、各正規化候補の重みのパラメータが適切でないと結果が悪くなることを示している。
4番目のカラムのrecall*はnon-standard tokensのみの向上率を示したもの。
proposed はBL1の7倍向上しており、低下を防いでいる。
これらの結果はprecision,recallの両方の向上には次のことの必要性を示している。
*適切で十分な正規化候補の生成
*各候補のコストの適正つな調整
表5にシステムの出力例を示す。
分かち書きがスラッシュで示され、正しく解析できたものが太文字である。
(1)~(5) は提案手法で向上し、(7)は向上できず、(8)は低下してしまった。
(1)~(3) は音的な変化を含む
(4) はひらがなの置換
(5)は音的な変化とひらがなの置換の組み合わせ
2つのタイプのエラーが確認された。
* 文字変形パターンの欠落の結果
* 検索エラー
(6) は正しい正規化候補を生成できなかった、なぜなら音的に似た変形パターンにもかかわらず文字変形パターンに一致するものがなかったためである。
変形パターンの欠落をなくすためには以下いずれかが必要である。
*より多くのパターンを学習可能にするためパラレルコーパスを増やす
*学習されたパターンから新たな派生パターンを生成すること。
(7)は正規化候補は生成されたが、その場所の検索に失敗してしまった。
(8) は結果が悪くなってしまった
私たちのシステムは品質の低下をよくすることができたが、いくつかのdegration が正規化によって引き起こされてしまう。
サーチエラーの数を低下させるために、より複雑なモデルを構成するか、他の素性を現在のモデルに導入する必要がある。