Contenu connexe
Plus de 長岡技術科学大学 自然言語処理研究室 (20)
文脈の多様性に基づく名詞換言の提案
- 2. 背景と目的
国語辞典を用いた換言 [梶原 13]
【語彙平易化】見出し語 → 語釈文中の語
課題1:語釈文の一部では見出し語と非等価
課題2:数語の語釈文では換言候補が少ない
→ 既存の換言知識に頼らず
大規模コーパスを用いて換言を生成 2
- 6. 2. 換言先の選択(類似度計算)
換言対象の語と換言候補の語が多くの種類
の文脈を共有するほど換言可能性は高い
換言候補の語が多くの種類の
文脈を持つほど換言可能性は低い
1
2
sim(nt, nc) = com(nt, nc) * log(N/DF(nc))
1 2
nt:換言対象の名詞、 nc:換言候補の名詞
com(nt, nc):ntとncが共通して用いられる文脈の種類数
N:文脈の総数、 DF(nc):名詞ncが用いられる文脈の種類数 6
- 7. 提案手法の特徴
• 入力文脈に応じた換言が可能
• 単語の出現頻度を使わない
• 換言可能な語とは多くの種類の文脈を共有する
• 高頻度の単語に影響を受けない
• 頻度の偏りにも影響を受けない
→ 文脈の多様性に基づく名詞換言の提案
7
- 8. 関連研究
• [Marton et al. 09]
• [Bhagat and Ravichandran 08]
1. コーパス中で換言対象語の
文脈の語から特徴ベクトルを生成する
2. 特徴ベクトル同士のコサイン類似度を
計算し類似度最大の換言候補語へ換言する
8
- 9. 関連研究
• [Marton et al. 09]
• 未知語の換言により機械翻訳の精度を向上
• 文脈の語との共起頻度で特徴ベクトルを作成
• [Bhagat and Ravichandran 08]
• 大規模コーパスから換言対を獲得
• 文脈の語とのPMIで特徴ベクトルを作成
9
- 10. 関連研究
• [Marton et al. 09]:共起頻度
• 重要な文脈:多く共起する文脈
→ 単体での出現頻度が高い単語の影響が強い
• [Bhagat and Ravichandran 08]:PMI
• 重要な文脈:偏って共起する文脈
→ 単体での出現頻度が低い単語の影響が強い
10
- 11. 実験
• Web日本語Nグラム:1,365,705件を抽出
• 名詞 + … + 名詞 + … + 動詞原形
• このうち頻出の200件について実験
• 文頭ではない名詞が換言対象の名詞
• 京都大学格フレーム:文脈の類似度計算
• 述語:34,059語
• 名詞:824,639語
• 【荷物を積む】と【経験を積む】を区別できる 11
- 12. 評価
12
類似度1位
の名詞が換
言可能
20%
類似度2位
から10位ま
での名詞が
換言可能
21%
類似度10位
までに換言
可能な名詞
がない
31%
同じ文脈で
用いられる
名詞がない
28%
200文の換言結果
- 13. 換言できた例
入力文 出力文
オーナーの【承認】が必要になる オーナーの【許可】が必要になる
重要な【課題】として取り組んでいる 重要な【問題】として取り組んでいる
良心的な【料金】を提供する 良心的な【価格】を提供する
国内農業の【発展】を阻害する 国内農業の【成長】を阻害する
教育の【拡充】などがあげられる 教育の【強化】などがあげられる
13
- 14. 同じ文脈の名詞がない例
14
• 「畜産加工等の【案件】がある」
• 文脈に依存する共起の種類が少ない語
• 前文脈に依存する例が多い
• 「更新日順表示に【並び】かえる」
• 複合語の一部は換言できない
- 15. 適切な換言ができない例
入力文 換言候補
① 浴衣にも【洋服】にも合う ドレス、着物、ジーンズ、
水着、普段着、カジュアル
② 以上の【評価】を受けている 活動、教育、事業、
サービス、調査、管理
①類義語を換言候補に集めることはできるが、
上位下位関係の中で適切な階層の語を選択できない
②句単位の換言が必要
【評価を受ける】→【認められる】
15
- 16. まとめ
• 本研究の目的
• 文脈の多様性に基づく名詞の換言手法の提案
• 提案手法の特徴
• 入力文脈に応じた換言
• 頻度を使用しない文脈の種類数に基づく換言
• 今後の課題
• 上位下位関係の中での語の選択
• 句単位の換言 16