SlideShare une entreprise Scribd logo
1  sur  17
COLING読み会2014@小町研 
“Morphological Analysis for Japanese 
Noisy Text Based on Character-level and 
Word-level Normalization” 
文字、単語レベルの正規化を基にした、ノイジーな日本語テキスト 
に対する形態素解析 
※スライド中の図表は全て論文から引用されたもの 
NTT Media Intelligence Laboratories 
saito.itsumi, sadamitsu.kugatsu, asano.hisako, matsuo.yoshihiro 
首都大学東京情報通信システム学域 
小町研究室M1 塘優旗 
1 2014/11/6
SNSテキストはとってもノイジー 
Non-standard token (非標準形) 
• “パンケーキぉいしーぃ” 
Standard form(標準形) 
• “パンケーキおいしい” 
MeCabによる形態素解析の例 
• パンケーキ(noun)/ぉいし(unk)/ー(unk)/ぃ(unk) 
→OOV (out-of-Vocabulary ) 辞書に存在しない 
単語の区切りが明確でない 
2 2014/11/6
日本語のSNSテキストの問題点 
日本語には単語間のスペースがない 
二つの非標準形(non-standard token)への派生が存在 
• Character-level 
“おいしい” → “おいしいいいい”、“おいしぃ”、“おいしー” 
文脈情報によって、標準形を計算するために、正規化、単語 
分割、POSタギングは同時に解析しなければならない。 
• Word-level 
”教科書” → ”きょうかしょ” 
各単語は正式な文字の書式(ひらがな、漢字、カタカナ)を 
持っているが、ノイジーなテキストでは多くの単語が故意的 
に異なる文字の書式で書かれることが多い。 
3 2014/11/6
日本語の単語正規化における 
関連研究 
Sasano et al. (2013)ら 
• 人手で単語の派生ルールを生成し適用 
SNSにおける派生ルールは膨大で人手では、とてもコスト 
がかかる 
候補数が増えた際にre-rankingのためのパスのコスト設定 
が問題となる 
 Sasaki et al. (2013)ら 
• 文字レベルの系列ラベリング手法をを適用 
one-to-one な文字の変形のみを扱い、単語レベルの文脈は 
考慮しない 
4 2014/11/6
今回対象とする単語派生の 
パターンタイプ例 
(1) ~ (4):英語のパターンと類似 
• character-level で発生するため、character-levelのアライメン 
トから学習可能 
(5), (6):日本語特有のパターン 
• word-level で発生するため、character-levelを元にして学習は 
効果的でない 
5 2014/11/6 
55.0% 
4.5% 
20.1% 
2.7% 
※残りの17.7 % はなまりや固有の表現、誤植などその他の要因であり、提案手法では 
簡単に解決できないため、今回の研究では対象としていない。
提案システムの構成 
6 2014/11/6 
モデル学習 
デコーダー
正規化候補生成、 
文字アライメントの例 
7 2014/11/6
Character-level のTransformationTable の 
作成 
the joint multigram model (Sittichai et al. (2007) ) 
EMアルゴリズムを利用してn-bestのパスを生成 
d : non-standard token とstandard form の 
ペア 
q : ペアd における部分文字のアライメン 
ト 
q : ペアd におけるアライメントqのセット 
Kd : d から生成される可能性のある文アラ 
イメントのシーケンス 
D : d のペアの個数 
Q : q のセット 
n_q(q) : q 中に出現するq の出現する回数 
8 2014/11/6
character-level のラティス生成 
入力がTransformation table(Tt)のキーにマッチした 
場合、character-level の正規化候補を追加 
例: 
Tt : (q, log p(q)) = (“ょぉ, よう” , -8.39) , (“ぉ, お” , - 
7.56) 
“ちょぉ” → “ちょう”、“ちょお” を追加 
9 2014/11/6
Word-level のラティス生成 
以下を元にword-levelのラティスを生成 
• 生成されたcharacter-levelのラティス 
• 辞書の参照(音声的情報を用いてひらがな、カタカ 
ナの置換に対しての正規化候補を追加) 
例: 
10 2014/11/6
デコーダー 
デコーダーは最適な系列y^ をL(s)から選択する。 
s : 文(センテンス) 
L(s) : 候補セット(センテンスs に対して生成されたラティス) 
y^ : 最適な系列、(最適なパス) 
w :重みベクトル 
f : 素性ベクトル 
11 2014/11/6 
 デコーダーの重みの学習 
• the minimum error rate training (MERT) Machery et al. (2008).
素性 
12 2014/11/6
実験データ 
 Twitter、Blog からNon-standard token を抽出し、 
辞書中のStandard form のアノテーションを人手で行う 
 実験に用いたデータ 
• Twitter 
• Training : 4208 tweets 
• Development : 500 sentences 
• Test : 300 tweets , 4635 words 
• Blog 
• Trainigのみ: 8023 sentences 
• IPA dictionary 
• 単語レベルのラティス生成、辞書ベースの素性の抽出に利用 
13 2014/11/6
学習結果 
5228個の変形パターンを取得 
• うち3268個が事前定義をした状態に一致 
取得したパターンは事前提案したルールのほとんどを 
カバーし、手で作成するには難しい様々なパターンを 
自動で獲得できる 
14 2014/11/6
ベースラインと評価尺度 
method 正規化候補の生成素性 
Traditional × 単語コスト、隣接POSタグのペアのコストのみ 
BL1 [Sasano 
et al. (2013)] 
典型的なrule-based手法 
[長音シンボル、小文字]の[挿入、置換]を考慮 
Proposed character, word –level 両方の正規化候補を生成全ての素性を利用 
BL2 character-level のみの正規化候補を生成 
15 2014/11/6 
(ひらがな、カタカナの正規化はなし) 
全ての素性を利用 
BL3 character, word –level 両方の正規化候補を生成全ての文字正規化によって生成される正規化候補 
の文字変形コストが同じ 
評価尺度 
• 正規化された単語のみを考慮してrecall を評価 
• テストデータ中に出現した絵文字を辞書に登録した、 
そのためそれらはシステムのパフォーマンスには悪 
い作用をしていない
実験結果 
16 2014/11/6
まとめ 
 日本語形態素解析に対して、テキスト正規化のアプローチを導 
入 
 2ステップのラティス生成アルゴリズムと離散的な定式化手法が 
既存の手法を上回ることを示した。 
 フューチャーワーク 
• 文字アライメントの学習に対して、教師なしもしくは半教師ありパ 
ラレルコーパス抽出を導入することでこのアプローチを発展させる 
• モデルの構成と素性を改良し、サーチエラーの数を減少させるため 
のデコード手法の実装 
• 全てのパフォーマンスの向上のために、そのほかのタイプの未知語 
(例えば固有名詞などような)を形態素解析システムに付加するこ 
とも考慮 
17 2014/11/6

Contenu connexe

Tendances

大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価
Yahoo!デベロッパーネットワーク
 
LibreOffice for NPO 20121104
LibreOffice for NPO 20121104LibreOffice for NPO 20121104
LibreOffice for NPO 20121104
hyogontech
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05
sekizawayuuki
 

Tendances (11)

2015 08 survey
2015 08 survey2015 08 survey
2015 08 survey
 
大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価
 
はじめての生成文法 《後編》
はじめての生成文法 《後編》はじめての生成文法 《後編》
はじめての生成文法 《後編》
 
こんにちはIFLA LRM, さようならFRBR
こんにちはIFLA LRM, さようならFRBRこんにちはIFLA LRM, さようならFRBR
こんにちはIFLA LRM, さようならFRBR
 
LibreOffice for NPO 20121104
LibreOffice for NPO 20121104LibreOffice for NPO 20121104
LibreOffice for NPO 20121104
 
IFLA LRMの既存モデルとの相違点
IFLA LRMの既存モデルとの相違点IFLA LRMの既存モデルとの相違点
IFLA LRMの既存モデルとの相違点
 
読解支援6 5
読解支援6 5読解支援6 5
読解支援6 5
 
Signl213
Signl213 Signl213
Signl213
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門
 
Wikipedia のエントリーリダイレクト関係を対象にした同義関係抽出
Wikipedia のエントリーリダイレクト関係を対象にした同義関係抽出Wikipedia のエントリーリダイレクト関係を対象にした同義関係抽出
Wikipedia のエントリーリダイレクト関係を対象にした同義関係抽出
 

Similaire à COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on Character-level and Word-level Normalization”

言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
Yuya Unno
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
antibayesian 俺がS式だ
 
Introduction of tango! (jp)
Introduction of tango! (jp)Introduction of tango! (jp)
Introduction of tango! (jp)
Yohei Yasukawa
 
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定ナイーブベイズによる言語判定
ナイーブベイズによる言語判定
Shuyo Nakatani
 
統計処理環境Rで学ぶ 言語研究のための統計入門
統計処理環境Rで学ぶ言語研究のための統計入門統計処理環境Rで学ぶ言語研究のための統計入門
統計処理環境Rで学ぶ 言語研究のための統計入門
corpusling
 

Similaire à COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on Character-level and Word-level Normalization” (15)

言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) 第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授)
 
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ
 
内省するTensorFlow
内省するTensorFlow内省するTensorFlow
内省するTensorFlow
 
joint_seminar
joint_seminarjoint_seminar
joint_seminar
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
Introduction of tango! (jp)
Introduction of tango! (jp)Introduction of tango! (jp)
Introduction of tango! (jp)
 
演習:プログラミング言語処理をやってみよう (ver.1.01)
演習:プログラミング言語処理をやってみよう (ver.1.01)演習:プログラミング言語処理をやってみよう (ver.1.01)
演習:プログラミング言語処理をやってみよう (ver.1.01)
 
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定ナイーブベイズによる言語判定
ナイーブベイズによる言語判定
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築
 
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
 
統計処理環境Rで学ぶ 言語研究のための統計入門
統計処理環境Rで学ぶ言語研究のための統計入門統計処理環境Rで学ぶ言語研究のための統計入門
統計処理環境Rで学ぶ 言語研究のための統計入門
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
 

COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on Character-level and Word-level Normalization”

  • 1. COLING読み会2014@小町研 “Morphological Analysis for Japanese Noisy Text Based on Character-level and Word-level Normalization” 文字、単語レベルの正規化を基にした、ノイジーな日本語テキスト に対する形態素解析 ※スライド中の図表は全て論文から引用されたもの NTT Media Intelligence Laboratories saito.itsumi, sadamitsu.kugatsu, asano.hisako, matsuo.yoshihiro 首都大学東京情報通信システム学域 小町研究室M1 塘優旗 1 2014/11/6
  • 2. SNSテキストはとってもノイジー Non-standard token (非標準形) • “パンケーキぉいしーぃ” Standard form(標準形) • “パンケーキおいしい” MeCabによる形態素解析の例 • パンケーキ(noun)/ぉいし(unk)/ー(unk)/ぃ(unk) →OOV (out-of-Vocabulary ) 辞書に存在しない 単語の区切りが明確でない 2 2014/11/6
  • 3. 日本語のSNSテキストの問題点 日本語には単語間のスペースがない 二つの非標準形(non-standard token)への派生が存在 • Character-level “おいしい” → “おいしいいいい”、“おいしぃ”、“おいしー” 文脈情報によって、標準形を計算するために、正規化、単語 分割、POSタギングは同時に解析しなければならない。 • Word-level ”教科書” → ”きょうかしょ” 各単語は正式な文字の書式(ひらがな、漢字、カタカナ)を 持っているが、ノイジーなテキストでは多くの単語が故意的 に異なる文字の書式で書かれることが多い。 3 2014/11/6
  • 4. 日本語の単語正規化における 関連研究 Sasano et al. (2013)ら • 人手で単語の派生ルールを生成し適用 SNSにおける派生ルールは膨大で人手では、とてもコスト がかかる 候補数が増えた際にre-rankingのためのパスのコスト設定 が問題となる  Sasaki et al. (2013)ら • 文字レベルの系列ラベリング手法をを適用 one-to-one な文字の変形のみを扱い、単語レベルの文脈は 考慮しない 4 2014/11/6
  • 5. 今回対象とする単語派生の パターンタイプ例 (1) ~ (4):英語のパターンと類似 • character-level で発生するため、character-levelのアライメン トから学習可能 (5), (6):日本語特有のパターン • word-level で発生するため、character-levelを元にして学習は 効果的でない 5 2014/11/6 55.0% 4.5% 20.1% 2.7% ※残りの17.7 % はなまりや固有の表現、誤植などその他の要因であり、提案手法では 簡単に解決できないため、今回の研究では対象としていない。
  • 6. 提案システムの構成 6 2014/11/6 モデル学習 デコーダー
  • 8. Character-level のTransformationTable の 作成 the joint multigram model (Sittichai et al. (2007) ) EMアルゴリズムを利用してn-bestのパスを生成 d : non-standard token とstandard form の ペア q : ペアd における部分文字のアライメン ト q : ペアd におけるアライメントqのセット Kd : d から生成される可能性のある文アラ イメントのシーケンス D : d のペアの個数 Q : q のセット n_q(q) : q 中に出現するq の出現する回数 8 2014/11/6
  • 9. character-level のラティス生成 入力がTransformation table(Tt)のキーにマッチした 場合、character-level の正規化候補を追加 例: Tt : (q, log p(q)) = (“ょぉ, よう” , -8.39) , (“ぉ, お” , - 7.56) “ちょぉ” → “ちょう”、“ちょお” を追加 9 2014/11/6
  • 10. Word-level のラティス生成 以下を元にword-levelのラティスを生成 • 生成されたcharacter-levelのラティス • 辞書の参照(音声的情報を用いてひらがな、カタカ ナの置換に対しての正規化候補を追加) 例: 10 2014/11/6
  • 11. デコーダー デコーダーは最適な系列y^ をL(s)から選択する。 s : 文(センテンス) L(s) : 候補セット(センテンスs に対して生成されたラティス) y^ : 最適な系列、(最適なパス) w :重みベクトル f : 素性ベクトル 11 2014/11/6  デコーダーの重みの学習 • the minimum error rate training (MERT) Machery et al. (2008).
  • 13. 実験データ  Twitter、Blog からNon-standard token を抽出し、 辞書中のStandard form のアノテーションを人手で行う  実験に用いたデータ • Twitter • Training : 4208 tweets • Development : 500 sentences • Test : 300 tweets , 4635 words • Blog • Trainigのみ: 8023 sentences • IPA dictionary • 単語レベルのラティス生成、辞書ベースの素性の抽出に利用 13 2014/11/6
  • 14. 学習結果 5228個の変形パターンを取得 • うち3268個が事前定義をした状態に一致 取得したパターンは事前提案したルールのほとんどを カバーし、手で作成するには難しい様々なパターンを 自動で獲得できる 14 2014/11/6
  • 15. ベースラインと評価尺度 method 正規化候補の生成素性 Traditional × 単語コスト、隣接POSタグのペアのコストのみ BL1 [Sasano et al. (2013)] 典型的なrule-based手法 [長音シンボル、小文字]の[挿入、置換]を考慮 Proposed character, word –level 両方の正規化候補を生成全ての素性を利用 BL2 character-level のみの正規化候補を生成 15 2014/11/6 (ひらがな、カタカナの正規化はなし) 全ての素性を利用 BL3 character, word –level 両方の正規化候補を生成全ての文字正規化によって生成される正規化候補 の文字変形コストが同じ 評価尺度 • 正規化された単語のみを考慮してrecall を評価 • テストデータ中に出現した絵文字を辞書に登録した、 そのためそれらはシステムのパフォーマンスには悪 い作用をしていない
  • 17. まとめ  日本語形態素解析に対して、テキスト正規化のアプローチを導 入  2ステップのラティス生成アルゴリズムと離散的な定式化手法が 既存の手法を上回ることを示した。  フューチャーワーク • 文字アライメントの学習に対して、教師なしもしくは半教師ありパ ラレルコーパス抽出を導入することでこのアプローチを発展させる • モデルの構成と素性を改良し、サーチエラーの数を減少させるため のデコード手法の実装 • 全てのパフォーマンスの向上のために、そのほかのタイプの未知語 (例えば固有名詞などような)を形態素解析システムに付加するこ とも考慮 17 2014/11/6

Notes de l'éditeur

  1. 1
  2. Twitterのnon-standard tokensのようなデータに対する調査 55.0 % : (1),(2),(3) 4.5 % : (4) 20.1 % : (5),(6) 2.7 % : (7) 残りは、なまりや固有の表現、誤植などその他の要因のためこれらのどれにも属さない。 これらは提案手法では簡単に解決できないため、今回の研究では対象としていない。 しかしつまり、non-standardなトークンの大多数というのはこのどれかに属することになる。
  3. 私たちのアプローチは、可能性のある正規化候補を単語ラティスに与え、離散モデルを元にしたヴィタビデコーダーを用いて、最も良い系列を発見する。正規化候補として与えられたノードの信頼度を適切に評価することに使用されうるいくつかの素性を提案する。
  4. システムにおいて、standard form に対して、deletion(削除)も許容する。(つまり、non-standard な文字からstandard 文字のnull にマッピングするということ)、しかし、non-standardに対しては許容しない。文字レベルのラティスを生成する際にこのアライメントをtrans- formation tableとして用いるため、もし、non-standard form のdeletionも許容してしまった場合、ラティスのサイズが必要以上に大きくなってしまう。 d = (“ありがとーぅ”, “ありがとう”) q = (“とーぅ”, “とう”) q = {(“あ”, “あ”) ,(“り”, “り”), (“が”, “が”), (“とーぅ”, “とう”)} Han and Baldwin (2011)らの手法を参考に以下のルールを利用 [“ー”,“〜”, “-”, “っ”] などの1文字以上の繰り返しは1文字に修正 [“ー”,“〜”, “-”, “っ”] 以外の3文字以上の繰り返しは3文字に修正 例: “ありがとーーーう” → “ありがとーう” “うれしいいいいい” → “うれしいいい”
  5. note : 必要のない候補の生成を防ぐために、事前定義した閾値を元に候補をフィルタリングする。閾値は文字系列の正規化のコストを元に定められる。1単語につき文字変形の数は2に制限した。
  6. 重み w のチューニングのためのオブジェクト関数を定義。 w は the minimum error rate training (MERT) Machery et al. (2008). によって学習される。 y_ref :学習データ? the reference word segmentations(参照の単語分かち書き)と the POS tags of the reference sequence y_ref (参照の系列 y_refのPOSタグ)の組みを システムの出力 との違いとしてエラー関数を定義。
  7. Twitter Data: training : 4208 tweets development : 500 sentences test : 300 tweets , 4635 words 少なくとも1つ以上のnon-standard token が含まれるようにtest data をランダムに選択。 テスト中の 403単語がnon-standard tokens として正しい綴りで正規化形でPOSタグが付加された。 Blog Data 8023 sentences で構成され全てトレーニングデータとして利用された Training Data character transformation table(文字変形テーブル)の抽出に利用 Development data 離散モデルのパラメータ計算に利用 MeCabによって提供されるIPA dictionaryを 単語レベルのラティスの生成 辞書ベースの素性の抽出 のため利用
  8. 評価の仕方 Precision, Recall , F値 日本語形態素解析は、単語分かち書き、POSタグ付けを同時に計算するため、私たちのシステムがnon-standard tokensn以上に別の何かに悪い影響を受けていないかチェックする必要がある。 また、正規化された単語のみを考慮してrecall を評価した。 その数値は私たちの手法のパフォーマンスを直接反映する。 テストデータ中に出現した絵文字を辞書に登録した、そのためそれらはシステムのパフォーマンスには悪い作用をしていない。
  9. 表に示すように、統計的に見て提案手法はprecision,recall共に他の手法よりいい結果である。(p < 0.01) 特にprecisionがよい結果となった。 この結果は、non-standard tokesの正しい解析だけでなく、間違って生成された単語の数の減少も可能であることを示す。 BL1 はtraditional に比べほんの少しaccuracy,recallが向上。 Proposed とBL2を比較すると、ひらがな、カタカナを考慮することでF値が向上していることがわかる。 BL3もF値が向上しているがproposedには劣っている。このことは、十分な正規化候補を生成しても、各正規化候補の重みのパラメータが適切でないと結果が悪くなることを示している。 4番目のカラムのrecall*はnon-standard tokensのみの向上率を示したもの。 proposed はBL1の7倍向上しており、低下を防いでいる。 これらの結果はprecision,recallの両方の向上には次のことの必要性を示している。 *適切で十分な正規化候補の生成 *各候補のコストの適正つな調整 表5にシステムの出力例を示す。 分かち書きがスラッシュで示され、正しく解析できたものが太文字である。 (1)~(5) は提案手法で向上し、(7)は向上できず、(8)は低下してしまった。 (1)~(3) は音的な変化を含む (4) はひらがなの置換 (5)は音的な変化とひらがなの置換の組み合わせ 2つのタイプのエラーが確認された。 * 文字変形パターンの欠落の結果 * 検索エラー (6) は正しい正規化候補を生成できなかった、なぜなら音的に似た変形パターンにもかかわらず文字変形パターンに一致するものがなかったためである。 変形パターンの欠落をなくすためには以下いずれかが必要である。 *より多くのパターンを学習可能にするためパラレルコーパスを増やす *学習されたパターンから新たな派生パターンを生成すること。 (7)は正規化候補は生成されたが、その場所の検索に失敗してしまった。 (8) は結果が悪くなってしまった 私たちのシステムは品質の低下をよくすることができたが、いくつかのdegration が正規化によって引き起こされてしまう。 サーチエラーの数を低下させるために、より複雑なモデルを構成するか、他の素性を現在のモデルに導入する必要がある。