SlideShare une entreprise Scribd logo
1  sur  29
Télécharger pour lire hors ligne
Accurate Linear-Time
Chinese Word Segmentation
via Embedding Matching
Jianqiang Ma and Erhard Hinrichs
ACL読み会2015@小町研究室
M1 北川善彬
1
Abstract
• embedding matching によるアプローチで中国の単語分割
(CWS)をしてみた話(あとで詳しく)
• 従来通りの系列ラベリングを分散表現を利用して一般化
• 学習と予測を線形時間で実現
• 外部リソースを使わない かつ シンプルな素性セットでNN
で作った先行研究の CWS を上回る性能を達成

stage-of-the-art にも 張り合う性能
2
Motivating Example
• 中国 ⃝ 格外 (where ⃝ {⻛风, 规, …})
⃝:ターゲット → これを左と繋げるかを考える
• 中国⻛风 格外 (特殊な例)
• 中国 规格 外 (よくある例)
→ 同じような構成でも切れたり切れなかったり

→ 構成 と ターゲットの文字 を考慮したマッチングモデル
3
⃝に入りうるもの
Configuration-Action-Matching
アクションベースの分割
a. 猫占领了婴儿床
b. 猫 占领 了 婴儿床
c. The cat occupied the crib
4
• a が 与えられたとき b を得たい (cは英訳)
• 左に繋げる(-c (combibation))か 分けるか(-s (separation))のアクション
• 今の例ではこんな感じ

 猫 -s, 占 -s, 领 -c, 了-s, 婴-s, 儿-c, 床-c
モデルの構造
5
モデルの構造ベースで
説明します
モデルの構造
7
入力の素性の話
Context feature
• window size h=5 としたときの uni-gram と bi-
gram を利用する素性
• 例:猫占领了婴儿床
• uni-gram素性: 猫, 占, 领, 了, 婴
• bi-gram素性: 猫占, 占领, 领了, 了婴
9
window size h=5
モデルの構造
10
History feature
• 前のアクション を l=2 個分 って作る素性
• 例:猫 占领 了 婴儿床
• 履歴素性: 猫 -s 战 -s
• これを作るため文頭には START-s START-s をつける
部分的に構文的、意味的情報をとられるための素性
11
l=2
matching model 

の学習のための定式化
• a: 分割の構成を表す(history feature)
• c: 文脈を表す(context feature)
• b: それらをまとめた構成を表すもの
12
次は構造の話
モデルの構造
14
入力側の構造  の構成
• 入力側は3段構成
1. Look-up table

学習データから

次元 N の embedding ベクトル
を学習
2. Concatenation

単純に連結する

次元: N K (K: 素性総数)
3. Softmax

(出力と絡むので後のスライドで)
15
モデルの構造
16
出力側の構造  の構成
• 出力側は単純な2段構成
1. Look-up table

学習データからターゲットのアク
ション素性のembedding ベクトル 

次元: N K

別々に学習し次元を えておく(理
由は後でわかる)
2. Softmax

(入力と絡むので次のスライドで)
17
モデルの構造
18
最後に入力と出力をmatching
Matching して Softmax
• 次元の同じ(N K)入力と出力ベクトルの内積を取
る
• Softmaxで確率にする
19
Softmax と
最適な分割 の 定式化
• k は -s か -c の2つなので
•   は 领-c, 领-s を表す
20
• 最適な分割はこれ
Softmaxの分母が2回の定数回すだけ
Greedy Segmenter 1/3
• CRFを用いてビタビをつかう手法は

Greedy search と同程度であることが予備実験で
わかったのでこれを使用
• START-s からはじめて左から右に予測していく
21
Greedy Segmenter 2/3

Hybrid matching と Complexity
• ターゲットの未知語、低頻度の問題があるが Hybrid
matching で対処

ALL-s, ALL-c のそれぞれを平均したもので置き換える
• 計算時間について(Complexity)
Softmax の和が定数時間でできる(C)
Greedy search は 文の長さで計算できる(n)
つまり n C の線形時間で可能
22
Greedy Segmenter 3/3

Training
• 目的関数を

クロスエントロピー

損失関数で定義

これを最小化する
• 正則化項を追加
• 微分して勾配を計算
• 素性の更新
23
データと評価
• データ: 中国語のコーパス PKU と MSR を使用
24
• 評価: Precision, Recall, F-score, R_oov

R_oov は 未知語に関しての分割のRecall
Results
embdeddingの先行研究
との比較
• pre-training は外部リソースを使ったかどうか
• 使わない場合はすべて勝っている26
stage-of-the-art との比較
• 最近のstage-of-the-
art は洗練された素性
設計と半教師あり学習
によるもの
• シンプルなモデルで外
部リソースも使わない
でこの結果になってい
る
27
提案手法の素性の評価
• 注目すべきは action の素性が uni-gram 素性より有用であること
• 先行研究と比べても同程度かそれ以下の n-gram素性だが精度が
高い → matching が良いということ
28
まとめ
• 分散表現を用いた matching によるシンプルで線
形時間で解ける CWS 手法を提案
• 性能もstage-of-the-art 相当である
• 外部リソースの利用や CNN などを試すことで更な
る向上が見込めるかもしれない (Future work)
29

Contenu connexe

Tendances

A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...Ace12358
 
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...Ace12358
 
論文の書き方・読み方
論文の書き方・読み方論文の書き方・読み方
論文の書き方・読み方Satoshi Miura
 
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2Masayoshi Kondo
 
論文紹介: Differentiable reasoning over a virtual knowledge base
論文紹介: Differentiable reasoning over a virtual knowledge base論文紹介: Differentiable reasoning over a virtual knowledge base
論文紹介: Differentiable reasoning over a virtual knowledge basenaoto moriyama
 
深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1Masayoshi Kondo
 
研究発表のためのパワーポイント資料作成の基本
研究発表のためのパワーポイント資料作成の基本研究発表のためのパワーポイント資料作成の基本
研究発表のためのパワーポイント資料作成の基本Hisashi Ishihara
 

Tendances (7)

A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
 
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
 
論文の書き方・読み方
論文の書き方・読み方論文の書き方・読み方
論文の書き方・読み方
 
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
 
論文紹介: Differentiable reasoning over a virtual knowledge base
論文紹介: Differentiable reasoning over a virtual knowledge base論文紹介: Differentiable reasoning over a virtual knowledge base
論文紹介: Differentiable reasoning over a virtual knowledge base
 
深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1
 
研究発表のためのパワーポイント資料作成の基本
研究発表のためのパワーポイント資料作成の基本研究発表のためのパワーポイント資料作成の基本
研究発表のためのパワーポイント資料作成の基本
 

En vedette

Naacl2015unsupervised morph
Naacl2015unsupervised morphNaacl2015unsupervised morph
Naacl2015unsupervised morphAce12358
 
EMNLPreading@Ace12358
EMNLPreading@Ace12358 EMNLPreading@Ace12358
EMNLPreading@Ace12358 Ace12358
 
DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358Ace12358
 
ACLreading2014@Ace12358
ACLreading2014@Ace12358ACLreading2014@Ace12358
ACLreading2014@Ace12358Ace12358
 
Emnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cwsEmnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cwsAce12358
 
DeepLearning3@Ace12358
DeepLearning3@Ace12358DeepLearning3@Ace12358
DeepLearning3@Ace12358Ace12358
 
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)Yusuke Oda
 
Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)Yusuke Oda
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@Yusuke Oda
 
Chainer meetup lt
Chainer meetup ltChainer meetup lt
Chainer meetup ltAce12358
 

En vedette (10)

Naacl2015unsupervised morph
Naacl2015unsupervised morphNaacl2015unsupervised morph
Naacl2015unsupervised morph
 
EMNLPreading@Ace12358
EMNLPreading@Ace12358 EMNLPreading@Ace12358
EMNLPreading@Ace12358
 
DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358
 
ACLreading2014@Ace12358
ACLreading2014@Ace12358ACLreading2014@Ace12358
ACLreading2014@Ace12358
 
Emnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cwsEmnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cws
 
DeepLearning3@Ace12358
DeepLearning3@Ace12358DeepLearning3@Ace12358
DeepLearning3@Ace12358
 
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
 
Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@
 
Chainer meetup lt
Chainer meetup ltChainer meetup lt
Chainer meetup lt
 

Plus de Ace12358

Can language models be biomedical knowledge bases
Can language models be biomedical knowledge basesCan language models be biomedical knowledge bases
Can language models be biomedical knowledge basesAce12358
 
I know what you asked graph path learning using amr for commonsense reasoning
I know what you asked  graph path learning using amr for commonsense reasoningI know what you asked  graph path learning using amr for commonsense reasoning
I know what you asked graph path learning using amr for commonsense reasoningAce12358
 
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...Ace12358
 
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filteringThe contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filteringAce12358
 
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb  a-dual_learning_bridge_between_text_and_knowledge_baseDual tkb  a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_baseAce12358
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingAce12358
 
Low-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsLow-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsAce12358
 
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...Ace12358
 
Emnl preading2016
Emnl preading2016Emnl preading2016
Emnl preading2016Ace12358
 

Plus de Ace12358 (9)

Can language models be biomedical knowledge bases
Can language models be biomedical knowledge basesCan language models be biomedical knowledge bases
Can language models be biomedical knowledge bases
 
I know what you asked graph path learning using amr for commonsense reasoning
I know what you asked  graph path learning using amr for commonsense reasoningI know what you asked  graph path learning using amr for commonsense reasoning
I know what you asked graph path learning using amr for commonsense reasoning
 
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
 
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filteringThe contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
 
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb  a-dual_learning_bridge_between_text_and_knowledge_baseDual tkb  a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embedding
 
Low-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsLow-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddings
 
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
 
Emnl preading2016
Emnl preading2016Emnl preading2016
Emnl preading2016
 

Acl reading 2nd