Sotsuken final

コーパスを用いた
学習手法に基づく照応解析
発表者：浜田恭平
所属研究室：武藤研究室

研究の目的
Web データを用いた自動辞書構築に関する研究
Soon らの提案したモデル
（コーパスを用いた学習手
法に基づいた照応解析）
＋
先行詞の同定
⇒ 照応解析の必要性を指摘
Web 文書
２
段落１
段落２
段落１
段落２
Web 文書
１
説明文を・・・
この規則は・・・
“ ”説明文らしい段落
抽出
抽出
指示対象不明
照応解析・
・
・
・
・
・
・
・
・
飯田らの提案した素性
のうち主に文法的素性

Soon らのモデル（１）
NP1 NP2 NP3 NP4 ANPNP5
文章
Positive ペア
Negative ペア
Negative ペア
先行詞照応詞
照応解析の問題
与えられた照応詞に対して , 先行詞の候補となる名詞
句の各々が先行詞となるかならないかを判別する 2
値分類問題に分解 .
訓練時
先行詞と照応詞の対を positive ペア , 先行詞と照応詞
の間の各名詞句と照応詞の対を negative ペアとして
学習 .

Soon らのモデル（２）
NP1 NP2 NP3 NP4 ANPNP5
文章
Positive ペア
Negative ペア
Negative ペア
先行詞照応詞
新しい照応問題を解
く際照応詞から先行文脈に向かって , 先行詞候補となる
名詞句の一つ一つについて , それが先行詞かどうか
分類．
いずれかの名詞句を先行詞として決定した時点で解
析を終了 .

実験に用いた素性
素性の種類素性名詳細
Grammatical pos NP の品詞 .
definite NP がソ系の代名詞である場合は Y. それ以外は N.
demonstrative NP がコ系の代名詞もしくはア系の代名詞である
場合は Y. それ以外は N.
particle NP に続く助詞 . ないときは O.
Semantic ne NP の固有表現の種類：
PERSON,ORGANIZATION,LOCATION,ARTIFACT,DATE,TI
ME,MONEY,PERCENT ないときは O.
log_like NP-ANP の対の log-likelihood 係数の値 .
animacy NP が PERSON または ORGANIZATION である場合は
Y. それ以外は N.
Positional sentnum_anp NP と ANP の文間の距離 .
beginning NP が文頭にある場合は Y. それ以外は N.
(NP:Noun Phrase, ANP:Anaphoric Noun Phrase)
( 注 ) 固有表現の抽出には形態素解析ツール“ CaboCha” を用

素性の抽出
照応タグ付きの
京都テキストコーパス
・名詞句と照応詞の対に関する素性
・ラベル（ positive/negative)
（レコード数：約 60000
件）
※ 一部を抜粋

分類木の生成・剪定
コーパスから抽出した
データの半数を訓練デー
タとして , 分類木を生成・
剪定

分類木による判別実験
テストデー
タ
分類結果精度
negative positive
negative 26573 610 97.8%
positive 488 401 45.1%negative: 高い分類精度が得られ
た .positive: 十分な分類精度が得られなかっ
た .
positive の精度が十分でない原因
positive の学習データ数が negative に
比べて極端に少ないこと .
テストデータ：コーパスから抽出したデータの半数

まとめ
・意味素性などを実装せずに実験を行ったことを
考慮 ⇒ 満足できる分類精度が得られたと考えられ
る
本研究の目的及び実験結果
今後の課題
・意味素性や選択制限の実装
・新たなる素性の導
入
更なる精度の向上
・現実的な分類精度は得られなかった .
・ Soon らのモデルと一部の素性を用いた照応解
析 .

ｌ og_likelihood 係数
全文章における NP と ANP の頻度
NP,ANP が共起 =a, NP だけ =b, ANP だけ =c, 両方ともない =d
(NP:Noun Phrase, ANP:Anaphoric Noun Phrase)
a+b+c+d= 全文章数
))((
log
))((
log
))((
log
))((
loglog2
dcdb
dN
d
dbca
cN
c
dbba
bN
b
caba
aN
a
++
+
++
+
++
+
++
=− λ

意味素性と選択制限
意味素性
選択制限
EDR 概念辞書を用いた素性
日本語語彙体系で定義される選択制限を用いた素
性
（ NP と ANP の対に関係）
この２つの素性は分類木を作る上で重要になり
そう

形態素解析ツール“ CaboCha”
0 5D 0/1 4.52155167
太郎タロウ太郎名詞 - 固有名詞 - 人名 - 名 B-
PERSON
はハは助詞 - 係助詞 O *
1 2D 0/1 1.88996940
次郎ジロウ次郎名詞 - 固有名詞 - 人名 - 名 B-
PERSON
がガが助詞 - 格助詞 - 一般 O *
2 3D 0/2 1.05423213
持っモッ持つ動詞 - 自立五段・タ行連用タ接続 O
てテて助詞 - 接続助詞 O
いるイルいる動詞 - 非自立一段基本形 O *
3 5D 0/1 4.99698811
本ホン本名詞 - 一般 O
をヲを助詞 - 格助詞 - 一般 O *
4 5D 1/2 0.00000000
花ハナ花名詞 - 一般 O
子コ子名詞 - 一般 O
にニに助詞 - 格助詞 - 一般 O *
5 -1O 0/1 0.00000000
渡しワタシ渡す動詞 - 自立五段・サ行連用形 O
たタた助動詞特殊・タ基本形 O
＜生文＞太郎は次郎が持っている本を花子に渡した。
固有表現

分類木の剪定（枝刈り）
剪定前剪定後
1.cross validation (CV ：交差妥当化 ) を利用して
　最適な木の大きさを求める .( 今回は 48)
2. 求めた木の大きさを指定して剪定 ( 枝刈り ).
＜結果＞無駄を省いたことで精度がわずかながら向上し

# 木の剪定を行う (CV を利用 )
> avg <- 0
#CV により木の大きさの尤離度を求める .
> for(i in 1:10) avg <- avg + cv.tree(feature2.tree, FUN=prune.tree)$dev
> avg <- avg / 10
> avg
[1] 4748.920 4748.899 4748.632 4748.445 4748.445 4743.486 4739.324 4737.974 4737.331
4714.376 4709.070 4707.646 4707.594 4704.279 4699.246
[16] 4691.232 4688.087 4683.014 4681.078 4676.417 4664.720 4658.646 4636.679 4635.973
4621.928 4617.153 4612.610 4611.461 4600.262 4591.874
[31] 4586.615 4574.758 4573.631 4563.791 4561.607 4561.296 4553.548 4549.340 4548.291
4547.535 4543.489 4544.900 4544.881 4542.437 4527.048
[46] 4519.015 4516.082 4507.505 4507.680 4511.842 4513.970 4513.122 4513.351 4508.919
4511.320 4509.193 4509.392 4509.915 4515.774 4518.057
[61] 4516.638 4513.920 4509.550 4531.643 4553.819 4555.263 4556.999 4575.359 4606.090
4648.158 4877.350 5007.182 5015.449 5076.536 5231.795
[76] 5248.736 5349.774 5384.476 5556.298 5801.638 5860.898 6034.608 6959.078 8647.036
> min(avg)
[1] 4507.505
#CV の結果 , 尤離度 (min.avg) が最小になるのは 48 番目 ( 値は 4507.505)
# よって木の大きさは 48 が最適である .
# 木の大きさを 48 に指定して , 枝刈りする .
> feature2.tree.remake <- prune.tree(feature2.tree, best=48)
分類木の剪定（枝刈り）補足

Positive の精度が十分でない原因
negative のテス
トデータが
positive に分類さ
れる件数
（精度）
positive のテスト
データが
negative に分類
される件数（精
度）
negative positive
610
（ 2.2% ）
488
（ 54.9%
）

Positive の精度が十分でない原因
negative
positive
610488
negative のテス
トデータが
positive に分類さ
れる件数
（精度）
positive のテスト
データが
negative に分類
される件数（精
度）
（ 54.9% ）（ 2.2% ）

Sotsuken final

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Similaire à Sotsuken final

Similaire à Sotsuken final (7)

Plus de Kyohei Hamada

Plus de Kyohei Hamada (6)

Sotsuken final