Approximate Scalable Bounded Space Sketch for Large Data NLP
Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)
1. Language
Models
as
Representa1ons
for
Weakly-‐Supervised
NLP
Tasks
Fei
Huang,
Alexander
Yates,
Arun
Ahuja
and
Doug
Downey
CoNLL2011
紹介者
:
松田
2011/12/13
1
4. Previous
Work
• 素性表現についての研究は主に四つに分類される
1. 文書レベルでの共起指標に基づくVector
Space
Model
2. Vector
Space
Modelに対する次元削減
3. 分布類似度に基づくクラスタリング
4. 言語モデルに基づく素性表現
• PL-‐MRFという新しいrepresenta1onを提案し、 POS
Taggerにお
いてstate-‐of-‐the-‐artな性能を達成したところがcontribu1on
• Domain
Adapta1onの研究としては
– targetドメインのラベルつきデータがある設定
– targetドメインのラベルつきデータが無い設定
– 本研究は後者
2011/12/13
4
5. Representa1ons
• A
representa1on
is
a
set
of
features
that
describe
instances
for
a
classifier
• 形式的な定義
– 事例集合から素性空間への写像を行う関数
– R(x)
:
Yという素性空間(
such
as
Rd
)
の中の一つの
ベクトル
2011/12/13
5
16. ?
?
?
?
?
?
p red
leaves
don t
hide
blue
jays
?
?
?
?
?
?
red
leaves
don t
hide
blue
jays
?
?
?
?
?
?
leaves
red
don t
hide
blue
jays
?
?
?
?
?
?
red
don t
leaves
hide
blue
jays
p ?
?
?
?
?
?
red
leaves
hide
don t
blue
jays
?
?
?
?
?
?
red
leaves
don t
blue
hide
jays
?
?
?
?
?
?
red
leaves
don t
hide
jays
blue
2011/12/13
16
Smith
and
Eisner,
ACL2005発表スライドより引用
18. Domain
Adapta1on
for
a
POS
Tagger
Newspaper
Domain(WSJ)
=>
Biomedical
Domain(MEDLINE)
へのドメイン適応
Penn
Treebank
Penn
Treebank
+MEDLINE
MEDLINE
71306
sentence
561
sentence
labeled
training
data
unlabeled
training
data
labeled
test
data
for
POS
Tagger
for
train
LMs
2011/12/13
POS
Taggerの学習モデルはCRF
18
19. Domain
Adapta1on
for
a
POS
Tagger
trigram
on
Web1T
8
layer,
80
state
20
layer,
binary
可能な状態数
I-‐HMM
:
1015
,
PL-‐MRF
:
106
bioドメインの
PL-‐MRFはOOV-‐errorを大幅に下げることに成功している
ラベルつきデータ併用
2011/12/13
19