Publicité

文脈の多様性に基づく名詞換言の評価

24 Mar 2015
Publicité

Contenu connexe

Présentations pour vous(20)

Plus de Tomoyuki Kajiwara(20)

Publicité

Dernier(20)

文脈の多様性に基づく名詞換言の評価

  1. 文脈の多様性に基づく 名詞換言の評価 長岡技術科学大学 梶原智之 山本和英
  2. 背景と目的 国語辞典を用いた換言 [梶原 13] 【語彙平易化】見出し語 → 語釈文中の語 課題1:語釈文の一部では見出し語と非等価 課題2:数語の語釈文では換言候補が少ない → 既存の換言知識に頼らず   大規模コーパスを用いて換言を生成 2
  3. 提案手法 コーパスを用いた名詞換言  分布仮説[Harris 54] 似た意味の語は似た文脈で用いられる 1.  入力文と同じ文脈で用いられる名詞を抽出   → 自然な文を出力するための制約 2.  抽出した各換言候補語と文脈の類似度を計算    → 意味を保持するための制約 3
  4. 提案手法による名詞換言の流れ 4
  5. 1. 換言候補の収集 「空港へのアクセスを調べる」 「空港への○○」  「○○を調べる」 コーパスを検索して○○を収集 前文脈と後文脈に共通する○○に 換言することで自然な文を出力できる 5
  6. 2. 換言先の選択(類似度計算)    換言対象の語と換言候補の語が多くの種類    の文脈を共有するほど換言可能性は高い    換言候補の語が多くの種類の    文脈を持つほど換言可能性は低い sim(nt, nc) = com(nt, nc) * log(N/DF(nc))  nt:換言対象の名詞、 nc:換言候補の名詞  com(nt, nc):ntとncが共通して用いられる文脈の種類数  N:文脈の総数、 DF(nc):名詞ncが用いられる文脈の種類数 6 1 2 1 2
  7. 提案手法の特徴 •  入力文脈に応じた換言が可能 •  単語の出現頻度を使わない •  換言可能な語とは多くの種類の文脈を共有する •  高頻度の単語に影響を受けない •  頻度の偏りにも影響を受けない → 文脈の多様性に基づく名詞換言の提案 7
  8. 関連研究 •  [Marton et al. 09] •  [Bhagat and Ravichandran 08] 1.  コーパス中で換言対象語の 文脈の語から特徴ベクトルを生成する 2.  特徴ベクトル同士のコサイン類似度を 計算し類似度最大の換言候補語へ換言する 8
  9. 関連研究 •  [Marton et al. 09] •  未知語の換言により機械翻訳の精度を向上 •  文脈の語との共起頻度で特徴ベクトルを作成 •  [Bhagat and Ravichandran 08] •  大規模コーパスから換言対を獲得 •  文脈の語とのPMIで特徴ベクトルを作成 9
  10. 関連研究 •  [Marton et al. 09]:共起頻度 •  重要な文脈:多く共起する文脈 → 単体での出現頻度が高い単語の影響が強い •  [Bhagat and Ravichandran 08]:PMI •  重要な文脈:偏って共起する文脈 → 単体での出現頻度が低い単語の影響が強い 10
  11. 実験 •  Web日本語Nグラム:1,365,705件を抽出 •  名詞 + … + 名詞 + … + 動詞原形 •  このうち頻出の200件について実験 •  文頭ではない名詞が換言対象の名詞 •  京都大学格フレーム:文脈の類似度計算 •  述語:34,059語 •  名詞:824,639語 •  【荷物を積む】と【経験を積む】を区別できる 11
  12. 換言可能な名詞数(類似度1位) 12 0 10 20 30 40 50 60 評価者A 評価者B 評価者C 提案手法 [Marton 09] [Bhagat 08] 文脈の出現頻度に依存しない提案手法が最も優れている
  13. 13 0 20 40 60 80 100 評価者A 評価者B 評価者C 提案手法 [Marton 09] [Bhagat 08] 換言可能な名詞数(類似度上位10位) 10位まで見ると[Bhagat 08]が提案手法に近づいている
  14. 類似度と換言可能な名詞数 14 0 10 20 30 40 1位 2位 3位 4位 5位 6位 7位 8位 9位 10位 評価者A 提案手法 [Marton 09] [Bhagat 08] 0 10 20 30 40 50 60 1位 2位 3位 4位 5位 6位 7位 8位 9位 10位 評価者C 提案手法 [Marton 09] [Bhagat 08] 0 10 20 30 40 1位 2位 3位 4位 5位 6位 7位 8位 9位 10位 評価者B 提案手法 [Marton 09] [Bhagat 08] 提案手法 1位と2位の差が大きい Bhagat 08 1位と2位の差が小さい  → 提案手法の制約      「入力と同じ文脈で用い       られる名詞に換言する」
  15. 文脈を考慮した換言事例 •  ∼万円以下の【罰金】に処する •  比較手法:懲役、科料、過料、・・・ •  提案手法:罰金刑、過料、・・・ •  腰への【負担】を軽減する •  比較手法:費用、経費、実費、・・・ •  提案手法:負荷、ストレス、ダメージ、・・・ 15
  16. 換言できた例 入力文 出力文 オーナーの【承認】が必要になる オーナーの【許可】が必要になる 重要な【課題】として取り組んでいる 重要な【問題】として取り組んでいる 良心的な【料金】を提供する 良心的な【価格】を提供する 国内農業の【発展】を阻害する 国内農業の【成長】を阻害する 教育の【拡充】などがあげられる 教育の【強化】などがあげられる 16
  17. 適切な換言ができない例 入力文 換言候補 ① 浴衣にも【洋服】にも合う ドレス、着物、ジーンズ、 水着、普段着、カジュアル ② 以上の【評価】を受けている 活動、教育、事業、 サービス、調査、管理 17 ①類義語を換言候補に集めることはできるが、  上位下位関係の中で適切な階層の語を選択できない ②句単位の換言が必要  【評価を受ける】→【認められる】
  18. まとめ •  提案手法 •  文脈の多様性に基づく名詞の換言 •  提案手法の特徴 •  入力文脈に応じた換言 •  頻度を使用しない文脈の種類数に基づく換言 •  今後の課題 •  上位下位関係の中での語の選択 •  句単位の換言 18
Publicité