SlideShare une entreprise Scribd logo
1  sur  16
コーパスを用いた
学習手法に基づく照応解析
発表者:浜田恭平
所属研究室:武藤研究室
研究の目的
Web データを用いた自動辞書構築に関する研究
Soon らの提案したモデル
(コーパスを用いた学習手
法に基づいた照応解析)
+
先行詞の同定
⇒ 照応解析の必要性を指摘
Web 文書
2
段落1
段落2
段落1
段落2
Web 文書
1
説明文を・・・
この規則は・・・
“ ”説明文らしい段落
抽出
抽出
指示対象不明
照応解析・
・
・
・
・
・
・
・
・
飯田らの提案した素性
のうち主に文法的素性
Soon らのモデル(1)
NP1 NP2 NP3 NP4 ANPNP5
文章
Positive ペア
Negative ペア
Negative ペア
先行詞 照応詞
照応解析の問題
与えられた照応詞に対して , 先行詞の候補となる名詞
句の各々が先行詞となるかならないかを判別する 2
値分類問題に分解 .
訓練時
先行詞と照応詞の対を positive ペア , 先行詞と照応詞
の間の各名詞句と照応詞の対を negative ペアとして
学習 .
Soon らのモデル(2)
NP1 NP2 NP3 NP4 ANPNP5
文章
Positive ペア
Negative ペア
Negative ペア
先行詞 照応詞
新しい照応問題を解
く際照応詞から先行文脈に向かって , 先行詞候補となる
名詞句の一つ一つについて , それが先行詞かどうか
分類.
いずれかの名詞句を先行詞として決定した時点で解
析を終了 .
実験に用いた素性
素性の種類 素性名 詳細
Grammatical pos NP の品詞 .
definite NP がソ系の代名詞である場合は Y. それ以外は N.
demonstrative NP がコ系の代名詞もしくはア系の代名詞である
場合は Y. それ以外は N.
particle NP に続く助詞 . ないときは O.
Semantic ne NP の固有表現の種類:
PERSON,ORGANIZATION,LOCATION,ARTIFACT,DATE,TI
ME,MONEY,PERCENT ないときは O.
log_like NP-ANP の対の log-likelihood 係数の値 .
animacy NP が PERSON または ORGANIZATION である場合は
Y. それ以外は N.
Positional sentnum_anp NP と ANP の文間の距離 .
beginning NP が文頭にある場合は Y. それ以外は N.
(NP:Noun Phrase, ANP:Anaphoric Noun Phrase)
( 注 ) 固有表現の抽出には形態素解析ツール“ CaboCha” を用
素性の抽出
照応タグ付きの
京都テキストコーパス
・名詞句と照応詞の対に関する素性
・ラベル( positive/negative)
(レコード数:約 60000
件)
※ 一部を抜粋
分類木の生成・剪定
コーパスから抽出した
データの半数を訓練デー
タとして , 分類木を生成・
剪定
分類木による判別実験
テストデー
タ
分類結果 精度
negative positive
negative 26573 610 97.8%
positive 488 401 45.1%negative: 高い分類精度が得られ
た .positive: 十分な分類精度が得られなかっ
た .
positive の精度が十分でない原因
positive の学習データ数が negative に
比べて極端に少ないこと .
テストデータ:コーパスから抽出したデータの半数
まとめ
・意味素性などを実装せずに実験を行ったことを
考慮 ⇒ 満足できる分類精度が得られたと考えられ
る
本研究の目的及び実験結果
今後の課題
・意味素性や選択制限の実装
・新たなる素性の導
入
更なる精度の向上
・現実的な分類精度は得られなかった .
・ Soon らのモデルと一部の素性を用いた照応解
析 .
l og_likelihood 係数
全文章における NP と ANP の頻度
NP,ANP が共起 =a, NP だけ =b, ANP だけ =c, 両方ともない =d
(NP:Noun Phrase, ANP:Anaphoric Noun Phrase)
a+b+c+d= 全文章数
))((
log
))((
log
))((
log
))((
loglog2
dcdb
dN
d
dbca
cN
c
dbba
bN
b
caba
aN
a
++
+
++
+
++
+
++
=− λ
意味素性と選択制限
意味素性
選択制限
EDR 概念辞書を用いた素性
日本語語彙体系で定義される選択制限を用いた素
性
( NP と ANP の対に関係)
この2つの素性は分類木を作る上で重要になり
そう
形態素解析ツール“ CaboCha”
0 5D 0/1 4.52155167
太郎 タロウ 太郎 名詞 - 固有名詞 - 人名 - 名 B-
PERSON
は ハ は 助詞 - 係助詞 O *
1 2D 0/1 1.88996940
次郎 ジロウ 次郎 名詞 - 固有名詞 - 人名 - 名 B-
PERSON
が ガ が 助詞 - 格助詞 - 一般 O *
2 3D 0/2 1.05423213
持っ モッ 持つ 動詞 - 自立 五段・タ行 連用タ接続 O
て テ て 助詞 - 接続助詞 O
いる イル いる 動詞 - 非自立 一段 基本形 O *
3 5D 0/1 4.99698811
本 ホン 本 名詞 - 一般 O
を ヲ を 助詞 - 格助詞 - 一般 O *
4 5D 1/2 0.00000000
花 ハナ 花 名詞 - 一般 O
子 コ 子 名詞 - 一般 O
に ニ に 助詞 - 格助詞 - 一般 O *
5 -1O 0/1 0.00000000
渡し ワタシ 渡す 動詞 - 自立 五段・サ行 連用形 O
た タ た 助動詞 特殊・タ 基本形 O
<生文>太郎は次郎が持っている本を花子に渡した。
固有表現
分類木の剪定(枝刈り)
剪定前 剪定後
1.cross validation (CV :交差妥当化 ) を利用して
 最適な木の大きさを求める .( 今回は 48)
2. 求めた木の大きさを指定して剪定 ( 枝刈り ).
<結果>無駄を省いたことで精度がわずかながら向上し
# 木の剪定を行う (CV を利用 )
> avg <- 0
#CV により木の大きさの尤離度を求める .
> for(i in 1:10) avg <- avg + cv.tree(feature2.tree, FUN=prune.tree)$dev
> avg <- avg / 10
> avg
[1] 4748.920 4748.899 4748.632 4748.445 4748.445 4743.486 4739.324 4737.974 4737.331
4714.376 4709.070 4707.646 4707.594 4704.279 4699.246
[16] 4691.232 4688.087 4683.014 4681.078 4676.417 4664.720 4658.646 4636.679 4635.973
4621.928 4617.153 4612.610 4611.461 4600.262 4591.874
[31] 4586.615 4574.758 4573.631 4563.791 4561.607 4561.296 4553.548 4549.340 4548.291
4547.535 4543.489 4544.900 4544.881 4542.437 4527.048
[46] 4519.015 4516.082 4507.505 4507.680 4511.842 4513.970 4513.122 4513.351 4508.919
4511.320 4509.193 4509.392 4509.915 4515.774 4518.057
[61] 4516.638 4513.920 4509.550 4531.643 4553.819 4555.263 4556.999 4575.359 4606.090
4648.158 4877.350 5007.182 5015.449 5076.536 5231.795
[76] 5248.736 5349.774 5384.476 5556.298 5801.638 5860.898 6034.608 6959.078 8647.036
> min(avg)
[1] 4507.505
#CV の結果 , 尤離度 (min.avg) が最小になるのは 48 番目 ( 値は 4507.505)
# よって木の大きさは 48 が最適である .
# 木の大きさを 48 に指定して , 枝刈りする .
> feature2.tree.remake <- prune.tree(feature2.tree, best=48)
分類木の剪定(枝刈り)補足
Positive の精度が十分でない原因
negative のテス
トデータが
positive に分類さ
れる件数
(精度)
positive のテスト
データが
negative に分類
される件数(精
度)
negative positive
610
( 2.2% )
488
( 54.9%
)
Positive の精度が十分でない原因
negative
positive
610488
negative のテス
トデータが
positive に分類さ
れる件数
(精度)
positive のテスト
データが
negative に分類
される件数(精
度)
( 54.9% )( 2.2% )

Contenu connexe

En vedette

『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいものTakashi J OZAKI
 
クラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシンクラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシンHiroshi Nakagawa
 
「樹木モデルとランダムフォレスト-機械学習による分類・予測-」-データマイニングセミナー
「樹木モデルとランダムフォレスト-機械学習による分類・予測-」-データマイニングセミナー「樹木モデルとランダムフォレスト-機械学習による分類・予測-」-データマイニングセミナー
「樹木モデルとランダムフォレスト-機械学習による分類・予測-」-データマイニングセミナーKoichi Hamada
 
ランダムフォレスト
ランダムフォレストランダムフォレスト
ランダムフォレストKinki University
 
Feature Selection with R / in JP
Feature Selection with R / in JPFeature Selection with R / in JP
Feature Selection with R / in JPSercan Ahi
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシンShinya Shimizu
 
Simple perceptron by TJO
Simple perceptron by TJOSimple perceptron by TJO
Simple perceptron by TJOTakashi J OZAKI
 
トピックモデルを用いた 潜在ファッション嗜好の推定
トピックモデルを用いた 潜在ファッション嗜好の推定トピックモデルを用いた 潜在ファッション嗜好の推定
トピックモデルを用いた 潜在ファッション嗜好の推定Takashi Kaneda
 
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-Naoki Yanai
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木 Miyoshi Yuya
 
機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレストTeppei Baba
 
今日から使える! みんなのクラスタリング超入門
今日から使える! みんなのクラスタリング超入門今日から使える! みんなのクラスタリング超入門
今日から使える! みんなのクラスタリング超入門toilet_lunch
 
SVMについて
SVMについてSVMについて
SVMについてmknh1122
 
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京Koichi Hamada
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践智之 村上
 

En vedette (20)

Decision tree
Decision treeDecision tree
Decision tree
 
Random Forests
Random ForestsRandom Forests
Random Forests
 
PRML Chapter 14
PRML Chapter 14PRML Chapter 14
PRML Chapter 14
 
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
 
クラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシンクラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシン
 
「樹木モデルとランダムフォレスト-機械学習による分類・予測-」-データマイニングセミナー
「樹木モデルとランダムフォレスト-機械学習による分類・予測-」-データマイニングセミナー「樹木モデルとランダムフォレスト-機械学習による分類・予測-」-データマイニングセミナー
「樹木モデルとランダムフォレスト-機械学習による分類・予測-」-データマイニングセミナー
 
ランダムフォレスト
ランダムフォレストランダムフォレスト
ランダムフォレスト
 
Feature Selection with R / in JP
Feature Selection with R / in JPFeature Selection with R / in JP
Feature Selection with R / in JP
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 
Simple perceptron by TJO
Simple perceptron by TJOSimple perceptron by TJO
Simple perceptron by TJO
 
トピックモデルを用いた 潜在ファッション嗜好の推定
トピックモデルを用いた 潜在ファッション嗜好の推定トピックモデルを用いた 潜在ファッション嗜好の推定
トピックモデルを用いた 潜在ファッション嗜好の推定
 
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
 
決定木学習
決定木学習決定木学習
決定木学習
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木
 
機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト
 
今日から使える! みんなのクラスタリング超入門
今日から使える! みんなのクラスタリング超入門今日から使える! みんなのクラスタリング超入門
今日から使える! みんなのクラスタリング超入門
 
SVMについて
SVMについてSVMについて
SVMについて
 
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
 
一般向けのDeep Learning
一般向けのDeep Learning一般向けのDeep Learning
一般向けのDeep Learning
 

Similaire à Sotsuken final

日本語文章に対する 述語項構造アノテーション仕様の考察
日本語文章に対する述語項構造アノテーション仕様の考察日本語文章に対する述語項構造アノテーション仕様の考察
日本語文章に対する 述語項構造アノテーション仕様の考察Yuichiroh Matsubayashi
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章nocchi_airport
 
鬱くしい日本語のための形態素解析入門
鬱くしい日本語のための形態素解析入門鬱くしい日本語のための形態素解析入門
鬱くしい日本語のための形態素解析入門Hiroyoshi Komatsu
 

Similaire à Sotsuken final (7)

常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
日本語文章に対する 述語項構造アノテーション仕様の考察
日本語文章に対する述語項構造アノテーション仕様の考察日本語文章に対する述語項構造アノテーション仕様の考察
日本語文章に対する 述語項構造アノテーション仕様の考察
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
 
Argmax Operations in NLP
Argmax Operations in NLPArgmax Operations in NLP
Argmax Operations in NLP
 
鬱くしい日本語のための形態素解析入門
鬱くしい日本語のための形態素解析入門鬱くしい日本語のための形態素解析入門
鬱くしい日本語のための形態素解析入門
 

Plus de Kyohei Hamada

「Vim初心者によるVim入門@haman29」
「Vim初心者によるVim入門@haman29」「Vim初心者によるVim入門@haman29」
「Vim初心者によるVim入門@haman29」Kyohei Hamada
 
詐欺メイクちゃんねる(仮)
詐欺メイクちゃんねる(仮)詐欺メイクちゃんねる(仮)
詐欺メイクちゃんねる(仮)Kyohei Hamada
 
資格取得に向けての活動記録
資格取得に向けての活動記録資格取得に向けての活動記録
資格取得に向けての活動記録Kyohei Hamada
 
Visualization of Relationship between Social Bookmark Users
Visualization of Relationship between Social Bookmark UsersVisualization of Relationship between Social Bookmark Users
Visualization of Relationship between Social Bookmark UsersKyohei Hamada
 
Visualization of Relationship between Social Bookmark Users
Visualization of Relationship between Social Bookmark UsersVisualization of Relationship between Social Bookmark Users
Visualization of Relationship between Social Bookmark UsersKyohei Hamada
 

Plus de Kyohei Hamada (6)

「Vim初心者によるVim入門@haman29」
「Vim初心者によるVim入門@haman29」「Vim初心者によるVim入門@haman29」
「Vim初心者によるVim入門@haman29」
 
Sotsuken half
Sotsuken halfSotsuken half
Sotsuken half
 
詐欺メイクちゃんねる(仮)
詐欺メイクちゃんねる(仮)詐欺メイクちゃんねる(仮)
詐欺メイクちゃんねる(仮)
 
資格取得に向けての活動記録
資格取得に向けての活動記録資格取得に向けての活動記録
資格取得に向けての活動記録
 
Visualization of Relationship between Social Bookmark Users
Visualization of Relationship between Social Bookmark UsersVisualization of Relationship between Social Bookmark Users
Visualization of Relationship between Social Bookmark Users
 
Visualization of Relationship between Social Bookmark Users
Visualization of Relationship between Social Bookmark UsersVisualization of Relationship between Social Bookmark Users
Visualization of Relationship between Social Bookmark Users
 

Sotsuken final