SlideShare une entreprise Scribd logo
1  sur  15
KB + Text => Great KB
な論文を多読してみた
Koji Matsuda (@conditional)
1
※各ページの図は元論文からの引用です。
KB + Text => Great KB な論文た
ち1. Connecting Language and Knowledge Bases with Embedding Models for Relation
Extraction, Weston+, EMNLP 2013
2. Knowledge Graph and Text Jointly Embedding, Wang+, EMNLP 2014
3. Representing Text for Joint Embedding of Text and Knowledge Bases, Toutanova+,
EMNLP 2015
4. Representation Learning of Knowledge Graphs with Entity Descriptions, Xie+,
AAAI 2016 (2月)
5. Text-Enhanced Representation Learning for Knowledge Graph, Wang and Li, IJCAI
2016 (7月)
6. Distributed representation learning for knowledge graphs with entity descriptions,
Fan+, Pattern Recognition Letters, 2016/09
7. Knowledge Representation via Joint Learning of Sequential Text and Knowledge
Graphs, Wu+, https://arxiv.org/abs/1609.07075
8. WebBrain: Joint Neural Learning of Large-Scale Commonsense Knowledge,
Chen+, ISWC 2016 (10月?)
9. Joint Representation Learning of Text and Knowledge for Knowledge Graph
Completion, Han+, https://arxiv.org/pdf/1611.04125v1.pdf
2
赤字は筆頭著者が精華大
所属の論文
(グループは一つじゃないらしい…)
KB + Text => Great KB
• 知識グラフ(Freebase)に書いてある知識を、
テキストを使って「増強」する
– 知識ベースに書いていない知識を予測する
3
Wikipedia, NYT
ClueWeb(FACC1)
Freebase
WordNet
知識の埋め込み
TransE or RESCAL
メンションの埋め込み
CNN, RNN etc
もっと凄い
知識ベース
知識ベース
テキスト
input
output
+ 融合
準備: Knowledge Graph
• 知識ベースをグラフとして表現
– ノード: エンティティ, エッジ: 関係の種類
• 知識 : (head, relation, tail)
– (Washinton, CapitalOf, USA)
– (Barack Obama, gender, Male)
• 個別の知識をつなぎあわせるとグラフになる
– Knowledge Graphと呼ばれる
– Freebase, WordNet…
準備: Ditributed Knowledge
Representation
• Knowledge Graphのエンティティ/関係をベ
クトル空間に埋め込む
– 応用: テキストからの関係抽出, 知識ベースの拡充
(欠けたタプルを予測)
– TransE [Bordes+, 2013]
– TransH [Wang+, 2014]
• headを適当な空間に射影してから relationを足す
– TransR [Lin+, 2015]
• エンティティをリレーションの空間に写像
f
o
d
a-
s,
h
h
h
e
-
d
-
e
y
asatranslation between entities. WeintroduceTransE and its
extensions TransH and TransR in detail.
TransE
For each triple(h, r, t), TransE [Bordeset al., 2013] wants
h + r ⇡ t when (h, r, t) holds. This indicates that t should
bethenearest entity from (h + r). Hence, TransE definesthe
following energy function
f r (h, t) = kh + r − t kL 1/ L 2 (1)
Thefunction returnslow scoreif (h, r, t) holds, viceversa.
TransH
TransH [Wang et al., 2014b] enables an entity to havedis-
tinct embeddings when involved in different relations. For
a relation r, TransH models the relation with a vector r and
a hyperplane with wr as the normal vector. Then the score
ways shared
esand rela-
ith entities,
ework, each
nected with
sented with
eddings are
ies accord-
TransH and
ased on en-
erformance
uding entity
ction. The
eling of at-
outperforms
at effort on
TransE
For each triple(h, r, t), TransE [Bordeset al., 2013] wants
h + r ⇡ t when (h, r, t) holds. This indicates that t should
bethenearest entity from (h + r). Hence, TransE definesthe
following energy function
f r (h, t) = kh + r − t kL 1/ L 2 (1)
Thefunction returnslow scoreif (h, r, t) holds, viceversa.
TransH
TransH [Wang et al., 2014b] enables an entity to havedis-
tinct embeddings when involved in different relations. For
a relation r, TransH models the relation with a vector r and
a hyperplane with wr as the normal vector. Then the score
function isdefined as
f r (h, t) = − kh − wT
r hwr + r − (t − wT
r twr )kL 1/ L 2 (2)
TransR
TransR [Lin et al., 2015b] models entities and relations in
entity space and relation spaces, and performs translation in
relation spaces. TransR setsaprojection matrix M r 2 Rk⇥d
,
ed with
ings are
accord-
nsH and
d on en-
ormance
ng entity
on. The
g of at-
erforms
ffort on
orks and
elational
ties and
and cap-
., 2006;
f r (h, t) = kh + r − tkL 1/ L 2 (1)
Thefunction returnslow scoreif (h, r,t) holds, viceversa.
TransH
TransH [Wang et al., 2014b] enables an entity to havedis-
tinct embeddings when involved in different relations. For
a relation r, TransH models the relation with a vector r and
a hyperplane with wr as the normal vector. Then the score
function isdefined as
f r (h, t) = − kh − wT
r hwr + r − (t − wT
r twr )kL 1/ L 2 (2)
TransR
TransR [Lin et al., 2015b] models entities and relations in
entity space and relation spaces, and performs translation in
relation spaces. TransR setsaprojection matrix M r 2 Rk⇥d
,
which may projects entities from entity space to relation
space. Via the mapping matrix, the energy function is cor-
respondingly defined as
f r (h,t) = khM r + r − tM r kL 1/ L 2 (3)
準備: データセット/評価について
• Knowledge Base Completion の評価に用いら
れる標準的データセット: FB15k
• 評価
– KBC: エンティティ(head, tail)予測、関係予測
• (h, r, ?) : head, relationが与えられたもとで tailを予測
• 評価指標: MRR, Top N Acc(%)
– 三つ組分類: (h,r,t) が与えられたときに それが KB
に含まれるか否か: Acc, AUC
– テキストからの関係抽出: P-R Graph, AUC 6
その他:
FB20k [Xie+ AAAI2016]
ゼロショット実験向け
FB15k-237 [Toutanova 2015]
関係の種類を237に絞ったもの
• Relation Extractionに KB 由来の情報を使う
– head と tail が与えられたときに r という関係を持つ
かどうかのスコア関数にKB由来の情報を導入
Connecting Language and Knowledge Bases
with Embedding Models for Relation Extraction
Weston+ EMNLP 2013
7
メンション, relationペアの
スコア関数(学習する)
TransE
h,t を含む全てのmに対して和
NYTからの関係抽出問題において、
テキストのみを用いるベースラインに
対して性能向上 (赤線 -> 黒線)
Knowledge Graph and Text Jointly
Embedding
Wang+, EMNLP 2014
8
• TransEの確率化: pTransE
• 単語間の関係モデル
• アラインメントモデル
• Jointで最適化
Wikipediaから学習
結果: out-of-kb エンティティに対しても推論ができるように
いくつかよくわからないところがある論文だが…
softmaxにのせただけ
Representing Text for Joint Embedding
of Text and Knowledge Bases
Toutanova+, EMNLP 2015
• DistMultモデル
– TransEではなく、RESCALというモデルがベー
ス
• f(h, r, t) = rT (h⦿t)
• 係り受けパスをCNNで
ベクトル空間に埋め込む
• 実験: FB15k 上での予測
– テキスト: EL が適用済みのコーパス FACC1
• 2.7M relation
– テキストの併用:MRRで2ポイント程度改善
• 効果はかなり小さいと思う 9
Representation Learning of Knowledge Graphs
with Entity Descriptions
Xie+, AAAI 2016
• Freebase 内のエンティティの説明をエン
コードに使うモデル: DKRL
– 知識グラフの埋め込み
は TransE
– エンコードは CNN
• エンティティが KB に含まれていなくても、
説明文さえあれば推論できる (Zero-shot)
– FB20k という新しいデータを作って実証
10
Distributed representation learning for
knowledge graphs with entity descriptions
Fan+, Pattern Recognition Letters 2016/09
• 前の論文とやっていることは同じ
– head, tail の descriptionを埋め込む
– 全体が浅い確率モデルになっている
• あるエンティティからdescriptionが生成される確
率モデル
11
h
w1
前の論文と比較して、
パラメータが少なく、性能も良い
(↑これが主な貢献)
Text-Enhanced Representation Learning
for Knowledge Graph
Wang and Li, IJCAI 2016
• EL済みのコーパス→エンティティの周辺
文脈の表現を学習
– 文脈の埋め込み:重み付き平均
– エンティティの埋め込みとの統合:線形変換
12
文脈の埋め込みに変換行列をかけて、
TransEの表現を足す
結果: 1-to-N, N-to-1 の関係推定が性能向上
Knowledge Representation via Joint Learning
of Sequential Text and Knowledge Graphs
Wu+, arXiv 2016/09
13
• エンティティに言及している文はエン
ティティの理解に役立つ
– 一般に複数ある
– が、ゴミも混ざるので Attentionで排除
• 定義文っぽいものに強く Attend するイメージ
Joint Representation Learning of Text and
Knowledge for Knowledge Graph Completion
Han+, arXiv 2016/11
• [Toutanova+ 2015]と同様
– 係り受けパスではなく、関係パタンにCNN
• 係り受け解析はWebテキストに対してはよく失敗
するので、shallowな方がよいという主張
– テキストは distant supervisionで獲得
• head, tailを両方含んでいる文から知識獲得
14
関係分類タスク on NYT : テキストのみ
使うベースラインより性能向上
まとめ
KB埋め込み Text埋め込み 結合 評価
Weston+ EMNLP
2013
TransE
(4M ent)
関係予測モデル
NYTコーパス
Composite Score 関係抽出
on NYT+FB
Wang+ EMNLP2014 pTransE
Freebase
(巨大)
Skip-gram/
Wikipedia
アラインメントモ
デル+Composite
Score
三つ組分類,
関係抽出,Analogy
Toutanova+
EMNLP2015
DistMult
(RESCAL)
FB15K
係り受けパス+CNN
EL済みClueWeb12
(FACC1)
Composite Score KBC on FB15k
Xie+
AAAI2016
TransE
FB15K
CNN
Freebaseの
Description
Composite Score KBC on FB15k &
Zeroshot(FB20k)
Wang and Li
IJCAI2016
Trans*
FB15k / WN
キーワード抽出 &
平均
エンティティ空間
に線形写像
KBC
多対多の関係
Wu+
arXiv 2016/09
TransE
FB15k
リファレンス文
LSTM+Attention
(Wikipedia)
Composite Score KBC/三つ組分類
Han+
arXiv 2016/11
TransE
FB15k
関係パタン+CNN
NYT+distant
supervision
Composite Score KBC on FB15k
関係分類 on NYT
15赤字: 面白かったので精読したい論文

Contenu connexe

Tendances

融合変換による最適化の理論的基盤と正当性 (2006-06-20)
融合変換による最適化の理論的基盤と正当性 (2006-06-20)融合変換による最適化の理論的基盤と正当性 (2006-06-20)
融合変換による最適化の理論的基盤と正当性 (2006-06-20)Masahiro Sakai
 
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105STAIR Lab Seminar 202105
STAIR Lab Seminar 202105Sho Takase
 
Retrofitting Word Vectors to Semantic Lexicons
Retrofitting Word Vectors to Semantic LexiconsRetrofitting Word Vectors to Semantic Lexicons
Retrofitting Word Vectors to Semantic LexiconsSho Takase
 
Model Transport: Towards Scalable Transfer Learning on Manifolds 論文紹介
Model Transport: Towards Scalable Transfer Learning on Manifolds 論文紹介Model Transport: Towards Scalable Transfer Learning on Manifolds 論文紹介
Model Transport: Towards Scalable Transfer Learning on Manifolds 論文紹介Kohta Ishikawa
 
深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論Naoaki Okazaki
 
Low-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsLow-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsAce12358
 

Tendances (7)

融合変換による最適化の理論的基盤と正当性 (2006-06-20)
融合変換による最適化の理論的基盤と正当性 (2006-06-20)融合変換による最適化の理論的基盤と正当性 (2006-06-20)
融合変換による最適化の理論的基盤と正当性 (2006-06-20)
 
Skip gram shirakawa_20141121
Skip gram shirakawa_20141121Skip gram shirakawa_20141121
Skip gram shirakawa_20141121
 
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105STAIR Lab Seminar 202105
STAIR Lab Seminar 202105
 
Retrofitting Word Vectors to Semantic Lexicons
Retrofitting Word Vectors to Semantic LexiconsRetrofitting Word Vectors to Semantic Lexicons
Retrofitting Word Vectors to Semantic Lexicons
 
Model Transport: Towards Scalable Transfer Learning on Manifolds 論文紹介
Model Transport: Towards Scalable Transfer Learning on Manifolds 論文紹介Model Transport: Towards Scalable Transfer Learning on Manifolds 論文紹介
Model Transport: Towards Scalable Transfer Learning on Manifolds 論文紹介
 
深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論
 
Low-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsLow-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddings
 

En vedette

Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Koji Matsuda
 
アラビア語とペルシャ語の見分け方 #DSIRNLP 5
アラビア語とペルシャ語の見分け方 #DSIRNLP 5アラビア語とペルシャ語の見分け方 #DSIRNLP 5
アラビア語とペルシャ語の見分け方 #DSIRNLP 5Shuyo Nakatani
 
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013Shuyo Nakatani
 
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...Shuyo Nakatani
 
階層ディリクレ過程事前分布モデルによる画像領域分割
階層ディリクレ過程事前分布モデルによる画像領域分割階層ディリクレ過程事前分布モデルによる画像領域分割
階層ディリクレ過程事前分布モデルによる画像領域分割tn1031
 
猫に教えてもらうルベーグ可測
猫に教えてもらうルベーグ可測猫に教えてもらうルベーグ可測
猫に教えてもらうルベーグ可測Shuyo Nakatani
 
数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013Shuyo Nakatani
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門Shuyo Nakatani
 
ドラえもんでわかる統計的因果推論 #TokyoR
ドラえもんでわかる統計的因果推論 #TokyoRドラえもんでわかる統計的因果推論 #TokyoR
ドラえもんでわかる統計的因果推論 #TokyoRShuyo Nakatani
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
知識を紡ぐための言語処理と、 そのための言語資源
知識を紡ぐための言語処理と、そのための言語資源知識を紡ぐための言語処理と、そのための言語資源
知識を紡ぐための言語処理と、 そのための言語資源Koji Matsuda
 
実装ディープラーニング
実装ディープラーニング実装ディープラーニング
実装ディープラーニングYurie Oka
 
機械学習と深層学習の数理
機械学習と深層学習の数理機械学習と深層学習の数理
機械学習と深層学習の数理Ryo Nakamura
 
人工知能と機械学習の違いって?
人工知能と機械学習の違いって?人工知能と機械学習の違いって?
人工知能と機械学習の違いって?Shuyo Nakatani
 

En vedette (15)

Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
 
アラビア語とペルシャ語の見分け方 #DSIRNLP 5
アラビア語とペルシャ語の見分け方 #DSIRNLP 5アラビア語とペルシャ語の見分け方 #DSIRNLP 5
アラビア語とペルシャ語の見分け方 #DSIRNLP 5
 
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
 
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
 
階層ディリクレ過程事前分布モデルによる画像領域分割
階層ディリクレ過程事前分布モデルによる画像領域分割階層ディリクレ過程事前分布モデルによる画像領域分割
階層ディリクレ過程事前分布モデルによる画像領域分割
 
猫に教えてもらうルベーグ可測
猫に教えてもらうルベーグ可測猫に教えてもらうルベーグ可測
猫に教えてもらうルベーグ可測
 
数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
 
ドラえもんでわかる統計的因果推論 #TokyoR
ドラえもんでわかる統計的因果推論 #TokyoRドラえもんでわかる統計的因果推論 #TokyoR
ドラえもんでわかる統計的因果推論 #TokyoR
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
LDA入門
LDA入門LDA入門
LDA入門
 
知識を紡ぐための言語処理と、 そのための言語資源
知識を紡ぐための言語処理と、そのための言語資源知識を紡ぐための言語処理と、そのための言語資源
知識を紡ぐための言語処理と、 そのための言語資源
 
実装ディープラーニング
実装ディープラーニング実装ディープラーニング
実装ディープラーニング
 
機械学習と深層学習の数理
機械学習と深層学習の数理機械学習と深層学習の数理
機械学習と深層学習の数理
 
人工知能と機械学習の違いって?
人工知能と機械学習の違いって?人工知能と機械学習の違いって?
人工知能と機械学習の違いって?
 

Plus de Koji Matsuda

Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Koji Matsuda
 
「今日から使い切る」 ための GNU Parallel による並列処理入門
「今日から使い切る」ための GNU Parallelによる並列処理入門「今日から使い切る」ための GNU Parallelによる並列処理入門
「今日から使い切る」 ための GNU Parallel による並列処理入門Koji Matsuda
 
場所参照表現タグ付きコーパスの 構築と評価
場所参照表現タグ付きコーパスの構築と評価 場所参照表現タグ付きコーパスの構築と評価
場所参照表現タグ付きコーパスの 構築と評価 Koji Matsuda
 
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Koji Matsuda
 
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5Koji Matsuda
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesKoji Matsuda
 
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...Koji Matsuda
 
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary FeaturesJoint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary FeaturesKoji Matsuda
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component AnalysisKoji Matsuda
 
A Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleA Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleKoji Matsuda
 
Information-Theoretic Metric Learning
Information-Theoretic Metric LearningInformation-Theoretic Metric Learning
Information-Theoretic Metric LearningKoji Matsuda
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation MaximizationKoji Matsuda
 
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Koji Matsuda
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節Koji Matsuda
 
研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節Koji Matsuda
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Koji Matsuda
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 

Plus de Koji Matsuda (17)

Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
 
「今日から使い切る」 ための GNU Parallel による並列処理入門
「今日から使い切る」ための GNU Parallelによる並列処理入門「今日から使い切る」ための GNU Parallelによる並列処理入門
「今日から使い切る」 ための GNU Parallel による並列処理入門
 
場所参照表現タグ付きコーパスの 構築と評価
場所参照表現タグ付きコーパスの構築と評価 場所参照表現タグ付きコーパスの構築と評価
場所参照表現タグ付きコーパスの 構築と評価
 
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
 
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architectures
 
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
 
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary FeaturesJoint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component Analysis
 
A Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleA Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by Example
 
Information-Theoretic Metric Learning
Information-Theoretic Metric LearningInformation-Theoretic Metric Learning
Information-Theoretic Metric Learning
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation Maximization
 
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節
 
研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 

KB + Text => Great KB な論文を多読してみた

  • 1. KB + Text => Great KB な論文を多読してみた Koji Matsuda (@conditional) 1 ※各ページの図は元論文からの引用です。
  • 2. KB + Text => Great KB な論文た ち1. Connecting Language and Knowledge Bases with Embedding Models for Relation Extraction, Weston+, EMNLP 2013 2. Knowledge Graph and Text Jointly Embedding, Wang+, EMNLP 2014 3. Representing Text for Joint Embedding of Text and Knowledge Bases, Toutanova+, EMNLP 2015 4. Representation Learning of Knowledge Graphs with Entity Descriptions, Xie+, AAAI 2016 (2月) 5. Text-Enhanced Representation Learning for Knowledge Graph, Wang and Li, IJCAI 2016 (7月) 6. Distributed representation learning for knowledge graphs with entity descriptions, Fan+, Pattern Recognition Letters, 2016/09 7. Knowledge Representation via Joint Learning of Sequential Text and Knowledge Graphs, Wu+, https://arxiv.org/abs/1609.07075 8. WebBrain: Joint Neural Learning of Large-Scale Commonsense Knowledge, Chen+, ISWC 2016 (10月?) 9. Joint Representation Learning of Text and Knowledge for Knowledge Graph Completion, Han+, https://arxiv.org/pdf/1611.04125v1.pdf 2 赤字は筆頭著者が精華大 所属の論文 (グループは一つじゃないらしい…)
  • 3. KB + Text => Great KB • 知識グラフ(Freebase)に書いてある知識を、 テキストを使って「増強」する – 知識ベースに書いていない知識を予測する 3 Wikipedia, NYT ClueWeb(FACC1) Freebase WordNet 知識の埋め込み TransE or RESCAL メンションの埋め込み CNN, RNN etc もっと凄い 知識ベース 知識ベース テキスト input output + 融合
  • 4. 準備: Knowledge Graph • 知識ベースをグラフとして表現 – ノード: エンティティ, エッジ: 関係の種類 • 知識 : (head, relation, tail) – (Washinton, CapitalOf, USA) – (Barack Obama, gender, Male) • 個別の知識をつなぎあわせるとグラフになる – Knowledge Graphと呼ばれる – Freebase, WordNet…
  • 5. 準備: Ditributed Knowledge Representation • Knowledge Graphのエンティティ/関係をベ クトル空間に埋め込む – 応用: テキストからの関係抽出, 知識ベースの拡充 (欠けたタプルを予測) – TransE [Bordes+, 2013] – TransH [Wang+, 2014] • headを適当な空間に射影してから relationを足す – TransR [Lin+, 2015] • エンティティをリレーションの空間に写像 f o d a- s, h h h e - d - e y asatranslation between entities. WeintroduceTransE and its extensions TransH and TransR in detail. TransE For each triple(h, r, t), TransE [Bordeset al., 2013] wants h + r ⇡ t when (h, r, t) holds. This indicates that t should bethenearest entity from (h + r). Hence, TransE definesthe following energy function f r (h, t) = kh + r − t kL 1/ L 2 (1) Thefunction returnslow scoreif (h, r, t) holds, viceversa. TransH TransH [Wang et al., 2014b] enables an entity to havedis- tinct embeddings when involved in different relations. For a relation r, TransH models the relation with a vector r and a hyperplane with wr as the normal vector. Then the score ways shared esand rela- ith entities, ework, each nected with sented with eddings are ies accord- TransH and ased on en- erformance uding entity ction. The eling of at- outperforms at effort on TransE For each triple(h, r, t), TransE [Bordeset al., 2013] wants h + r ⇡ t when (h, r, t) holds. This indicates that t should bethenearest entity from (h + r). Hence, TransE definesthe following energy function f r (h, t) = kh + r − t kL 1/ L 2 (1) Thefunction returnslow scoreif (h, r, t) holds, viceversa. TransH TransH [Wang et al., 2014b] enables an entity to havedis- tinct embeddings when involved in different relations. For a relation r, TransH models the relation with a vector r and a hyperplane with wr as the normal vector. Then the score function isdefined as f r (h, t) = − kh − wT r hwr + r − (t − wT r twr )kL 1/ L 2 (2) TransR TransR [Lin et al., 2015b] models entities and relations in entity space and relation spaces, and performs translation in relation spaces. TransR setsaprojection matrix M r 2 Rk⇥d , ed with ings are accord- nsH and d on en- ormance ng entity on. The g of at- erforms ffort on orks and elational ties and and cap- ., 2006; f r (h, t) = kh + r − tkL 1/ L 2 (1) Thefunction returnslow scoreif (h, r,t) holds, viceversa. TransH TransH [Wang et al., 2014b] enables an entity to havedis- tinct embeddings when involved in different relations. For a relation r, TransH models the relation with a vector r and a hyperplane with wr as the normal vector. Then the score function isdefined as f r (h, t) = − kh − wT r hwr + r − (t − wT r twr )kL 1/ L 2 (2) TransR TransR [Lin et al., 2015b] models entities and relations in entity space and relation spaces, and performs translation in relation spaces. TransR setsaprojection matrix M r 2 Rk⇥d , which may projects entities from entity space to relation space. Via the mapping matrix, the energy function is cor- respondingly defined as f r (h,t) = khM r + r − tM r kL 1/ L 2 (3)
  • 6. 準備: データセット/評価について • Knowledge Base Completion の評価に用いら れる標準的データセット: FB15k • 評価 – KBC: エンティティ(head, tail)予測、関係予測 • (h, r, ?) : head, relationが与えられたもとで tailを予測 • 評価指標: MRR, Top N Acc(%) – 三つ組分類: (h,r,t) が与えられたときに それが KB に含まれるか否か: Acc, AUC – テキストからの関係抽出: P-R Graph, AUC 6 その他: FB20k [Xie+ AAAI2016] ゼロショット実験向け FB15k-237 [Toutanova 2015] 関係の種類を237に絞ったもの
  • 7. • Relation Extractionに KB 由来の情報を使う – head と tail が与えられたときに r という関係を持つ かどうかのスコア関数にKB由来の情報を導入 Connecting Language and Knowledge Bases with Embedding Models for Relation Extraction Weston+ EMNLP 2013 7 メンション, relationペアの スコア関数(学習する) TransE h,t を含む全てのmに対して和 NYTからの関係抽出問題において、 テキストのみを用いるベースラインに 対して性能向上 (赤線 -> 黒線)
  • 8. Knowledge Graph and Text Jointly Embedding Wang+, EMNLP 2014 8 • TransEの確率化: pTransE • 単語間の関係モデル • アラインメントモデル • Jointで最適化 Wikipediaから学習 結果: out-of-kb エンティティに対しても推論ができるように いくつかよくわからないところがある論文だが… softmaxにのせただけ
  • 9. Representing Text for Joint Embedding of Text and Knowledge Bases Toutanova+, EMNLP 2015 • DistMultモデル – TransEではなく、RESCALというモデルがベー ス • f(h, r, t) = rT (h⦿t) • 係り受けパスをCNNで ベクトル空間に埋め込む • 実験: FB15k 上での予測 – テキスト: EL が適用済みのコーパス FACC1 • 2.7M relation – テキストの併用:MRRで2ポイント程度改善 • 効果はかなり小さいと思う 9
  • 10. Representation Learning of Knowledge Graphs with Entity Descriptions Xie+, AAAI 2016 • Freebase 内のエンティティの説明をエン コードに使うモデル: DKRL – 知識グラフの埋め込み は TransE – エンコードは CNN • エンティティが KB に含まれていなくても、 説明文さえあれば推論できる (Zero-shot) – FB20k という新しいデータを作って実証 10
  • 11. Distributed representation learning for knowledge graphs with entity descriptions Fan+, Pattern Recognition Letters 2016/09 • 前の論文とやっていることは同じ – head, tail の descriptionを埋め込む – 全体が浅い確率モデルになっている • あるエンティティからdescriptionが生成される確 率モデル 11 h w1 前の論文と比較して、 パラメータが少なく、性能も良い (↑これが主な貢献)
  • 12. Text-Enhanced Representation Learning for Knowledge Graph Wang and Li, IJCAI 2016 • EL済みのコーパス→エンティティの周辺 文脈の表現を学習 – 文脈の埋め込み:重み付き平均 – エンティティの埋め込みとの統合:線形変換 12 文脈の埋め込みに変換行列をかけて、 TransEの表現を足す 結果: 1-to-N, N-to-1 の関係推定が性能向上
  • 13. Knowledge Representation via Joint Learning of Sequential Text and Knowledge Graphs Wu+, arXiv 2016/09 13 • エンティティに言及している文はエン ティティの理解に役立つ – 一般に複数ある – が、ゴミも混ざるので Attentionで排除 • 定義文っぽいものに強く Attend するイメージ
  • 14. Joint Representation Learning of Text and Knowledge for Knowledge Graph Completion Han+, arXiv 2016/11 • [Toutanova+ 2015]と同様 – 係り受けパスではなく、関係パタンにCNN • 係り受け解析はWebテキストに対してはよく失敗 するので、shallowな方がよいという主張 – テキストは distant supervisionで獲得 • head, tailを両方含んでいる文から知識獲得 14 関係分類タスク on NYT : テキストのみ 使うベースラインより性能向上
  • 15. まとめ KB埋め込み Text埋め込み 結合 評価 Weston+ EMNLP 2013 TransE (4M ent) 関係予測モデル NYTコーパス Composite Score 関係抽出 on NYT+FB Wang+ EMNLP2014 pTransE Freebase (巨大) Skip-gram/ Wikipedia アラインメントモ デル+Composite Score 三つ組分類, 関係抽出,Analogy Toutanova+ EMNLP2015 DistMult (RESCAL) FB15K 係り受けパス+CNN EL済みClueWeb12 (FACC1) Composite Score KBC on FB15k Xie+ AAAI2016 TransE FB15K CNN Freebaseの Description Composite Score KBC on FB15k & Zeroshot(FB20k) Wang and Li IJCAI2016 Trans* FB15k / WN キーワード抽出 & 平均 エンティティ空間 に線形写像 KBC 多対多の関係 Wu+ arXiv 2016/09 TransE FB15k リファレンス文 LSTM+Attention (Wikipedia) Composite Score KBC/三つ組分類 Han+ arXiv 2016/11 TransE FB15k 関係パタン+CNN NYT+distant supervision Composite Score KBC on FB15k 関係分類 on NYT 15赤字: 面白かったので精読したい論文