深層リカレントニューラルネットワークを用いた日本語述語項構造解析

深層リカレントニューラルネットワーク
を用いた日本語述語項構造解析
大内啓樹進藤裕之松本裕治
ouchi.hiroki.nt6@is.naist.jp
奈良先端科学技術大学院大学自然言語処理学研究室
2016/12/22 (木)
情報処理学会第229回自然言語処理研究会

本研究の概要
2
単語分割
品詞付与
係り受け
述語項構造
入力文
既存研究
×深層RNN
日本語
述語項構造解析
複数の述語を考慮
可能なRNNの提案
入力文
本研究
78.15
80.90
79.23
81.22
IM09 MA14 OU15 DRGM
単語などの
表層情報のみ使用
最先端の解析器を
上回る性能を達成
単語分割
述語項構造

述語項構造とは？
3
「誰が何を誰にどうした」
• 花子は太郎を殴った。
• 太郎は花子に殴られた。
殴る
ガ花子
ヲ太郎
ニ None
述語項構造は表層の違いを正規化する
述語出来事や状態を表す語や句
項出来事や状態を表すのに必要な語や句
格述語項間の意味的役割

項の種類
4
コロッケを受け取った彼女は、急いで食べた。
（φが）ジュースも飲んだ。
ガヲガ
ヲ
ヲ
ガ
• 係り受け有精度: 85-90%
• 文内ゼロ精度: 30-55%
• 文間ゼロ精度: 10-20%
3種類の項
本研究の
解析対象

日本語述語項構造解析手法
6
Taira+ 08 SVM + Decision List
Maximum Entropy Model
Tournament Model
Markov Logic Network
点推定アプローチ
同時推定アプローチ
Graph-Based Joint Model + Hill Climbing
Imamura+ 09
Hayashibe+ 11
Yoshikawa+ 11
Sasano+ 11
Ouchi+ 15
Shibata+ 16 Ouchi + Neural Net
Iida+ 16 Convolutional Neural Net
Log-Linear Model + Case Frames

点推定アプローチ
7
Imamura+ 09 述語ごとに独立に項を推定
警察は犯人を逮捕したが、数日後に逃走した。
ガ格
逮捕する
警察
犯人
数日後
2.8
3.9
1.3
NULL0.6
ガ格
逃走する
警察
犯人
数日後
2.9
2.6
0.7
NULL0.5

同時推定アプローチ
8
警察
犯人
数日後
逮捕する
逃走する
NULL
逮捕する
逃走する
ガ警察
ヲ犯人
ニ NULL
ガ犯人
ヲ NULL
ニ NULL ガヲニ
Ouchi+ 15 文内の全述語項を同時に推定

点推定と同時推定
9
警察
犯人
数日後
逮捕する
逃走する
NULL
警察
犯人
数日後
逮捕する
NULL
警察
犯人
数日後
逮捕する
NULL
警察
犯人
数日後
逮捕する
NULL
警察
犯人
数日後
逃走する
NULL
警察
犯人
数日後
逃走する
NULL
警察
犯人
数日後
逃走する
NULL
点推定同時推定

深層リカレントモデル

問題設定
11
<単語> 彼女はコロッケを食べた。
<ラベル> GA NONE WO NONE PRED NONE
• 各単語にラベルを付与する多値分類問題
• ラベルは {GA, WO, NI, NONE, PRED} の5つ

モデルの概要
12
• RNN (GRU) を使用
• 単語素性がスパースになることを防ぐため
• 長距離の依存関係をとらえる必要があるため
文内ゼロ項の解析には，長距離の
依存関係を考慮する必要がある
長距離依存の例モデルのイメージ
• 係り受け有
• 文内ゼロ

使用する素性
13
<単語> 彼女はコロッケを食べた。
Arg Pred Pred Context Mark
1 彼女食べたを食べた。 0
2 は食べたを食べた。 0
3 コロッケ食べたを食べた。 0
4 を食べたを食べた。 1
5 食べた食べたを食べた。 1
6 。食べたを食べた。 1
• Pred Context: 述語とその周りの単語
• Mark: Pred Context に含まれているか否か

素性ベクトルの作り方
14
Word
Emb
Mark
Emb
Concat
1 彼女食べたを食べた。 0
𝒙 𝟏

ネットワークアーキテクチャ
15
RNN
Layer 2
RNN
Layer 1
Output
Layer
𝑥1 𝑥 𝑡 𝑥 𝑇
・・・
・・・
・・・
Input
Layer
彼女コロッケ。・・・
・・・
・・・
・・・
Input
GA 0.2
WO 0.1
NI 0.2
NONE 0.4
PRED 0.1
• 双方向型RNN (GRU) を使用
ラベルの確率

DRMにおける複数述語を含む文の解析
16
朝起きて、彼女はコロッケを食べ、学校に向かった。
NONE PRED NONE GA NONE NONE NONE NONE NONE NONE NONE NONE
NONE NONE NONE GA NONE WO NONE PRED NONE NONE NONE NONE
NONE NONE NONE GA NONE NONE NONE NONE NONE NI PRED NONE
※ 各述語に対して異なるターゲットのラベル列が決まる

DRMにおける複数述語を含む文の解析
17
𝒙 𝟐,𝟏 𝒙 𝟐,𝟐 𝒙 𝟐,𝟑 𝒙 𝟐,𝟒 𝒙 𝟐,𝟓 𝒙 𝟐,𝟔 𝒙 𝟐,𝟕 𝒙 𝟐,𝟖 𝒙 𝟐,𝟗
𝒙 𝟏,𝟏𝟎 𝒙 𝟏,𝟏𝟏 𝒙 𝟏,𝟏𝟐𝒙 𝟏,𝟏 𝒙 𝟏,𝟐 𝒙 𝟏,𝟑 𝒙 𝟏,𝟒 𝒙 𝟏,𝟓 𝒙 𝟏,𝟔 𝒙 𝟏,𝟕 𝒙 𝟏,𝟖 𝒙 𝟏,𝟗
𝒙 𝟐,𝟏𝟎 𝒙 𝟐,𝟏𝟏 𝒙 𝟐,𝟏𝟐
𝒙 𝟑,𝟏 𝒙 𝟑,𝟐 𝒙 𝟑,𝟑 𝒙 𝟑,𝟒 𝒙 𝟑,𝟓 𝒙 𝟑,𝟔 𝒙 𝟑,𝟕 𝒙 𝟑,𝟖 𝒙 𝟑,𝟗 𝒙 𝟑,𝟏𝟎 𝒙 𝟑,𝟏𝟏 𝒙 𝟑,𝟏𝟐
𝒙 𝟏,𝟑𝒙 𝟏,𝟏 𝒙 𝟏,𝟐
𝑫𝒆𝒆𝒑 𝑹𝑵𝑵
Label Label Label
𝒙 𝟐,𝟑𝒙 𝟐,𝟏 𝒙 𝟐,𝟐
Label Label Label
𝒙 𝟑,𝟑𝒙 𝟑,𝟏 𝒙 𝟑,𝟐
Label Label Label
素性ベクトル作成
各系列ごとに計算

問題点・解決策
18
深層リカレントモデル (DRM)
複数の述語を同時に考慮できない×
複数の述語を同時に考慮できる〇
深層リカレントグリッドモデル (DRGM)

深層リカレントグリッドモデル

モチベーション
20
• 複数の述語を考慮できるモデルの提案
• 解決策: RNNをグリッド状に連結する
モデルのイメージグリッド連結のイメージ
素性ベクトルの計算を
系列間でも行う

DRMとDRGMの違い
21
DRM
𝒙 𝟐,𝟏 𝒙 𝟐,𝟕
𝒙 𝟏,𝟏𝟐𝒙 𝟏,𝟏 𝒙 𝟏,𝟕
𝒙 𝟐,𝟏𝟐
𝒙 𝟑,𝟏 𝒙 𝟑,𝟕 𝒙 𝟑,𝟏𝟐
𝒙 𝟏,𝟏𝟐𝒙 𝟏,𝟏 𝒙 𝟏,𝟕
Label Label Label
・・・・・・
・・・・・・
𝒙 𝟐,𝟏𝟐𝒙 𝟐,𝟏 𝒙 𝟐,𝟕
Label Label Label
・・・・・・
・・・・・・
𝒙 𝟑,𝟏𝟐𝒙 𝟑,𝟏 𝒙 𝟑,𝟕
Label Label Label
・・・・・・
・・・・・・
Label Label Label・・・・・・
DRGM
・・・・・・
・・・・・・
・・・・・・

使用する素性
22
𝒙 𝟐,𝟏 𝒙 𝟐,𝟐 𝒙 𝟐,𝟑 𝒙 𝟐,𝟒 𝒙 𝟐,𝟓 𝒙 𝟐,𝟔 𝒙 𝟐,𝟕 𝒙 𝟐,𝟖 𝒙 𝟐,𝟗
1 2 3 4 5 6 7 8 9 10 11 12
1
2
p t
3 朝起きて、彼女はコロッケを食べ、学校に向かった。
𝒙 𝟏,𝟏𝟎 𝒙 𝟏,𝟏𝟏 𝒙 𝟏,𝟏𝟐𝒙 𝟏,𝟏 𝒙 𝟏,𝟐 𝒙 𝟏,𝟑 𝒙 𝟏,𝟒 𝒙 𝟏,𝟓 𝒙 𝟏,𝟔 𝒙 𝟏,𝟕 𝒙 𝟏,𝟖 𝒙 𝟏,𝟗
𝒙 𝟐,𝟏𝟎 𝒙 𝟐,𝟏𝟏 𝒙 𝟐,𝟏𝟐
𝒙 𝟑,𝟏 𝒙 𝟑,𝟐 𝒙 𝟑,𝟑 𝒙 𝟑,𝟒 𝒙 𝟑,𝟓 𝒙 𝟑,𝟔 𝒙 𝟑,𝟕 𝒙 𝟑,𝟖 𝒙 𝟑,𝟗 𝒙 𝟑,𝟏𝟎 𝒙 𝟑,𝟏𝟏 𝒙 𝟑,𝟏𝟐

ネットワークアーキテクチャ
23
𝑥1,1
𝑥2,1
𝑥3,1
Input
Layer
𝑥1,𝑡
𝑥2,𝑡
𝑥3,𝑡
𝑥1,𝑇
𝑥2,𝑇
𝑥3,𝑇
Grid
Layer 1
・・・
・・・
・・・
・・・
・・・・・・
・・・・・・
Grid
Layer 2
・・・・・・
・・・・・・
・・・・・・
・・・・・・
・・・・・・
Output
Layer
・・・・・・
・・・・・・
・・・・・・
・・・
・・・
・・・
GA 0.2
WO 0.1
NI 0.2
NONE 0.4
PRED 0.1
ラベルの確率

各グリッド層
24
ℎ1,2
(𝑙)
ℎ1,1
(𝑙)
ℎ1,3
(𝑙)
ℎ1,4
(𝑙)
ℎ1,5
(𝑙)
• 単語間の接続
深層リカレントモデルと同様

各グリッド層
25
ℎ1,2
(𝑙)
ℎ1,1
(𝑙)
ℎ2,1
(𝑙)
ℎ3,1
(𝑙)
ℎ1,3
(𝑙)
ℎ1,4
(𝑙)
ℎ1,5
(𝑙)
ℎ2,2
(𝑙)
ℎ2,3
(𝑙)
ℎ2,4
(𝑙)
ℎ2,5
(𝑙)
ℎ3,2
(𝑙)
ℎ3,3
(𝑙)
ℎ3,4
(𝑙)
ℎ3,5
(𝑙)
• 系列にまたがる接続

実験設定
27
 データセット
NAIST Text Corpus Ver. 1.5
 訓練 25,000
 開発 5,000
 評価 9,000
 実装
 ライブラリ: Theano
 ハイパーパラメータ
 単語/隠れ層の次元: 32次元, ランダム初期化
 最適化手法: Adam
 L2正則化: [0.0001, 0.0005, 0.001]

実験結果: F値
28
中間層数開発評価
深層リカレント
モデル
(DRM)
2 80.14 80.58
4 80.66 80.91
6 80.52 80.37
8 80.74 80.70
深層リカレント
グリッドモデル
(DRGM)
2 80.43 80.63
4 80.78 80.93
6 81.14 81.22
8 80.90 81.06
• DRM < DRGM
• 複数の述語を考慮することによる効果

実験結果: 先行研究とのF値比較
29
Imamura+ 09 78.15
Matsubayashi+ 14 80.90
Ouchi+ 15 79.23
DRM 80.70
DRGM 81.22
NAIST Text Corpus 1.5を用いた先行研究との比較
• 先行研究の性能を上回る結果

実験結果: 格ごとのF値
30
係り受け有文内ゼロ
ガヲニガヲニ
DRM 88.74 92.90 64.84 51.24 35.13 8.90
DRGM 88.66 93.95 66.50 51.57 38.06 9.44
Imamura+ 09 86.50 92.84 30.97 45.56 21.38 0.83
Matsubayashi+ 14 87.8 94.0 63.7 49.0 27.7 25.7
Ouchi+ 15 88.13 92.74 38.39 48.11 24.43 4.80
• 係り受け有
• 文内ゼロ

結論
31
1. 深層RNNを用いた述語項構造解析モデルの提案
2. 最先端の解析器を上回る精度を達成
https://github.com/hiroki13/neural-pasa-system
ソースコード
今後の課題
まとめ
• 本モデルの詳細なエラー分析
• 文間にまたがる述語項の同定

深層リカレントニューラルネットワークを用いた日本語述語項構造解析

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (9)

深層リカレントニューラルネットワークを用いた日本語述語項構造解析