Acl reading 2nd

Accurate Linear-Time
Chinese Word Segmentation
via Embedding Matching
Jianqiang Ma and Erhard Hinrichs
ACL読み会2015@小町研究室
M1 北川善彬
1

Abstract
• embedding matching によるアプローチで中国の単語分割
（CWS）をしてみた話（あとで詳しく）
• 従来通りの系列ラベリングを分散表現を利用して一般化
• 学習と予測を線形時間で実現
• 外部リソースを使わないかつシンプルな素性セットでNN
で作った先行研究の CWS を上回る性能を達成 
stage-of-the-art にも張り合う性能
2

Motivating Example
• 中国 ⃝ 格外 (where ⃝ {⻛风, 规, …})
⃝：ターゲット → これを左と繋げるかを考える
• 中国⻛风格外（特殊な例）
• 中国规格外（よくある例）
→ 同じような構成でも切れたり切れなかったり 
→ 構成とターゲットの文字を考慮したマッチングモデル
3
⃝に入りうるもの

Conﬁguration-Action-Matching
アクションベースの分割
a. 猫占领了婴儿床
b. 猫占领了婴儿床
c. The cat occupied the crib
4
• a が与えられたとき b を得たい（cは英訳）
• 左に繋げる（-c (combibation)）か分けるか（-s (separation)）のアクション
• 今の例ではこんな感じ 
猫 -s, 占 -s, 领 -c, 了-s, 婴-s, 儿-c, 床-c

モデルの構造ベースで
説明します

Context feature
• window size h=5 としたときの uni-gram と bi-
gram を利用する素性
• 例：猫占领了婴儿床
• uni-gram素性: 猫, 占, 领, 了, 婴
• bi-gram素性: 猫占, 占领, 领了, 了婴
9
window size h=5

History feature
• 前のアクションを l=2 個分って作る素性
• 例：猫占领了婴儿床
• 履歴素性: 猫 -s 战 -s
• これを作るため文頭には START-s START-s をつける
部分的に構文的、意味的情報をとられるための素性
11
l=2

matching model  
の学習のための定式化
• a: 分割の構成を表す（history feature）
• c: 文脈を表す（context feature）
• b: それらをまとめた構成を表すもの
12

入力側の構造の構成
• 入力側は3段構成
1. Look-up table 
学習データから 
次元 N の embedding ベクトル
を学習
2. Concatenation 
単純に連結する 
次元: N K (K: 素性総数)
3. Softmax 
（出力と絡むので後のスライドで）
15

出力側の構造の構成
• 出力側は単純な2段構成
1. Look-up table 
学習データからターゲットのアク
ション素性のembedding ベクトル  
次元: N K 
別々に学習し次元をえておく（理
由は後でわかる）
2. Softmax 
（入力と絡むので次のスライドで）
17

モデルの構造
18
最後に入力と出力をmatching

Matching して Softmax
• 次元の同じ（N K）入力と出力ベクトルの内積を取
る
• Softmaxで確率にする
19

Softmax と
最適な分割の定式化
• k は -s か -c の2つなので
• は领-c, 领-s を表す
20
• 最適な分割はこれ
Softmaxの分母が2回の定数回すだけ

Greedy Segmenter 1/3
• CRFを用いてビタビをつかう手法は 
Greedy search と同程度であることが予備実験で
わかったのでこれを使用
• START-s からはじめて左から右に予測していく
21

Greedy Segmenter 2/3 
Hybrid matching と Complexity
• ターゲットの未知語、低頻度の問題があるが Hybrid
matching で対処 
ALL-s, ALL-c のそれぞれを平均したもので置き換える
• 計算時間について（Complexity）
Softmax の和が定数時間でできる（C）
Greedy search は文の長さで計算できる（n）
つまり n C の線形時間で可能
22

Greedy Segmenter 3/3 
Training
• 目的関数を 
クロスエントロピー 
損失関数で定義 
これを最小化する
• 正則化項を追加
• 微分して勾配を計算
• 素性の更新
23

データと評価
• データ: 中国語のコーパス PKU と MSR を使用
24
• 評価: Precision, Recall, F-score, R_oov 
R_oov は未知語に関しての分割のRecall

embdeddingの先行研究
との比較
• pre-training は外部リソースを使ったかどうか
• 使わない場合はすべて勝っている26

stage-of-the-art との比較
• 最近のstage-of-the-
art は洗練された素性
設計と半教師あり学習
によるもの
• シンプルなモデルで外
部リソースも使わない
でこの結果になってい
る
27

提案手法の素性の評価
• 注目すべきは action の素性が uni-gram 素性より有用であること
• 先行研究と比べても同程度かそれ以下の n-gram素性だが精度が
高い → matching が良いということ
28

まとめ
• 分散表現を用いた matching によるシンプルで線
形時間で解ける CWS 手法を提案
• 性能もstage-of-the-art 相当である
• 外部リソースの利用や CNN などを試すことで更な
る向上が見込めるかもしれない (Future work)
29

Acl reading 2nd

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (7)

En vedette

En vedette (10)

Plus de Ace12358

Plus de Ace12358 (9)

Acl reading 2nd