Contenu connexe Plus de Koji Matsuda (19) Joint Modeling of a Matrix with Associated Text via Latent Binary Features1. Joint
Modeling
of
a
Matrix
with
Associated
Text
via
Latent
Binary
Features
XianXing
Zhang
and
Lawrence
Carin
NIPS
2012
すずかけ論文読み会#5
2013/08/03
紹介者
:
matsuda
13/08/03
1
2. 問題
• 議員の投票行動をモデル化したい
0
1
1
1
1
0
1
0
1
0
1
1
1
1
0
1
0
1
0
1
1
1
1
1
1
0
1
0
1
1
1
1
0
1
0
1
0
1
0
1
1
0
1
0
1
0
1
1
0
1
1
1
0
1
0
1
1
1
1
0
1
0
1
1
1
0
1
1
0
1
0
1
0
1
1
1
1
0
1
0
1
議員P人
法案N個
各法案(テキスト)
投票だけなら,協調フィルタリングでモデル化可能.
テキストが利用可能な場合,どのように用いるか?
13/08/03
2
1:賛成
0:反対
3. モデル
• FTM(Focused
Topic
Model)
+
BMF(Binary
Matrix
FactorizaRon)のJoint
Model
– FTM
• IBP(Indian
Buffet
Process)
+
(H)DP(Dirichlet
Process)
– IBP
:
無限に「素性」が出てくるようなPrior
– DP
:
無限に「クラス」が出てくるようなPrior
– BMF
:
X
=
LHRT
(
L,
Rの要素は
{0,1}
)となる分解
• この
L,
R
のPrior
にも
IBP
を用いる
• 低ランクの仮定をおく
– テキストをFTMで,voRngの行列をBMFでモデル化
• 事後分布は一気にサンプリングすることで推定
• “どのように繋げるか がポイント
13/08/03
3
6. Indian
Buffet
Process(IBP)
• 無限隠れ素性モデルのPrior
– [Griffiths
and
Ghahramani,
2005]
• Chinese
Restaurant
Processは無限隠れクラスのPrior
構成法
– 要するに・・・
• Binary
Matrixに対するPrior
• Beta-‐Bernoulli過程の行列に対する拡張(自信なし)
13/08/03
6
7. Indian
Buffet
ProcessとCRP
• Chinese
Restaurant
Process
• Indian
Buffet
Process
テーブルは「クラス」
お皿は「素性」
from
hep://mlg.eng.cam.ac.uk/zoubin/talks/turin09.pdf
(IBPとその応用についていろいろ書いてあるスライド,おすすめ)
13/08/03
7
8. Focused
Topic
Model(1/2)
• Nonparametric
Topic
Modelのひとつ[Williamson
+
2010](HDPの拡張)
– HDPは,コーパス全体のTopic出現率と,個々のド
キュメント内でのTopicの割合に高い相関がでてしま
う
• ドキュメント一つ一つの「専門性」が高い場合は不適切,と
いうことのよう(あくまで自分の理解)
• 野球の話題に触れているドキュメントは「コーパス全体の中
の割合としては」少ないが,その数少ないドキュメントでは,
ほとんど野球にしか触れていない
– IBPを導入することで,スパースにする
• ドキュメント内の主要な部分に
“Focus”
する効果が生まれ
る
13/08/03
8
9. Focused
Topic
Model(2/2)
• IBP
+
DP
ドキュメント
j
でトピック
t
が用いられるか否か(
{0,1}
)を
SRck
Breakingでモデル
document,
word
の生成はほぼ
LDA
と同じ
(
b
●
λ
:
ベクトル要素ごとの積)
λは全ドキュメントで共有
(
HDPの 基底に相当)
このへん
ふつうのHDPはλをそのまま
用いるが,FTMにおいては
0/1ベクトルbjを用いてフィル
タリングしているのがポイント
※bjtがゼロのところは消える
13/08/03
9
10. Binary
Matrix
FactorizaRon
• X
∈
RP×N
な行列Xの分解
X
=
LHRT
– L
∈
{0,1}P×KL,
H
∈
RKL×KR,
R
∈
{0,1}N×KR
– KL,
KR
:
行列のランク(無限大のこともある)
X
H
L
R
N(人数)
P(
数
)
KL
P
KR
N
=
L,
R はIBPでモデル(KL,
KRは可変)
このへん
13/08/03
10
11. Binary
Matrix
FactorizaRon
with
low
rank
assumpRon(1/2)
• 観測されるvoRng行列Yは隠れた真の値にノイズが
乗ったもの(を,0/1に離散化した)と仮定
– イメージとしては,「どれくらい賛成か」という度合い
• 分解された行列Hに低ランク性を仮定(Kc:小)
Hを,ランク1の行列Kc個の足しあわせで表す(sk
:
重み)
Kc,
skをどのように求めるか・・・・?
このへん
13/08/03
11
12. Binary
Matrix
FactorizaRon
with
low
rank
assumpRon(2/2)
• xは以下のような正規分布でモデル化
– probit
model
– l,
r
は
{0,1}のベクトルであることに注意
• uk,
vkのうち,l,rで値が立っているとこだけFilterするイメージ
• sk,
Kcは
mulRplicaRve
gamma
process(MGP)でモデル
– ランクを深くすると,skは速やかに減少(Theorem1)
– AdapRve
Samplerというサンプリング法+閾値で求める
13/08/03
12
13. BMFとFTMのJoint
Model
• FTMのbベクトルと,BMFのrベクトル
– b:FTMにおいて,ある文書中であるトピックが扱われるかどうかの0/1
ベクトル
– r
:
BMFにおいて,行列を分解した結果得られたある実数ベクトルvを,
filterするような0/1ベクトル
• v
:
Hから1ランク分とってきたようなイメージ
• 単純に
b
=
r
とおく
• Inferenceは省略・・・
– ちょっとややこしすぎます
• v,u
:
Hを構成する実数値ベクトル
• sk
:
ランク1行列の重み(スカラー)
• τ,
δ
:
MGPのパラメータ
• r
:
0/1ベクトル
– ハイパーパラメータ
• αl
,
αr
:
IBPのbeta分布,
αc
:
MGPのgamma分布
• γ
:
FTMのgamma分布,
η
:
FTMのDirichlet分布,
κ
:
MGPのthreshold
b
=
r
13/08/03
13
15. 行列穴埋め実験
縦軸:正解率,横軸:rank
Binary
Matrix
FactorizaRon
(with
low-‐rank
assumpRon)の効果を確かめる
(この実験においては,テキストは一切用いていない)
PMF
:
ProbabilisRc
Matrix
FactorizaRon
[Salakhutdinov+,
NIPS’07]
PMF
+
MGP
:
PMFのrankをMGPで推定
BMF
:
Binary
Matrix
FactorizaRon
[Meeds+,
NIPS’06]
(・・・フルランク?)
Proposed
:
BMFのrankをMGPで推定
13/08/03
15
BMFは表現力が低いが,MGPを導入するとPMFとcompeRRveになる
16. 新法案に対する予測
モデルを学習したあと,テキストだけが与えられたときに,
その法案が採択されるかを予測
• IPTM
:
Ideal
Point
Topic
Model[Gerrish
and
Blei,
ICML’11]
• FATM
:
因子分析+Topic
Model
+
Markov
Process[Wang+,
NIPS’10]
横軸:トピック数(本来は自動で推論できるが,比較のため外から決定)
縦軸:正解率(どう評価すべきか悩ましい)
13/08/03
16
IPTMについては
hep://www.ism.ac.jp/~daichi/lectures/ISM-‐2012-‐TopicModels_day2_4_supervised.pdf
の後半部分に,NTT石黒さんによる解説があります
17. トピックの分析
賛成が90%以上の法案
• 子供を守る
• 環境問題
• テロリストへ屈しない
賛成が60%以下の法案
• 議会会期の問題?
• 減税に関する問題
• すでにある法案の修正
13/08/03
17
誰もが賛成するようなトピック
意見がわかれるようなトピック
18. まとめ/感想
• 行列とテキストのJoint
Modelを提案
– feature側にIBP
Priorをおいてbinary
shared
featureを学習
• FTMのbと,BMFのrを結びつける
latent
な
feature
– 分解の結果得られたlatent
real
matrixに低ランク性を仮定
• 問題設定は面白い
– が,問題の特徴を生かしきれていない気も・・・
• 政党など,同じvoteをしやすい会派(アメリカではあまり問題にならない?,Hの低ランク
性でいちおう考慮はしている)
• 時間(社会の状況)によって,賛否が異なる
• どこまで問題specificにするかは難しいところ
– 性能評価も難しい
• 採択/非採択の2クラス予測で,90 94%はどれほどのものか
• ここまで複雑にする必要があるのか疑問
– 基本的には,コンテンツ推薦システムと同様の問題設定
– content
–
collabolaRve
filteringのハイブリッドなら,他にもいろいろある
– やり過ぎ感がある一方,キャプチャーしきれていない要素もありそうで,何と
もいえない読後感
13/08/03
18
19. 13/08/03
19
αr
αl
αc
γ
η
y
:
xを0/1に離散化
x
:
probit(s,u,l,v,r)
IBP
IBP
MGP
Dir
gamma
θ
Dir(λ
●
r)
Mult
Mult
Focused
Topic
Model
Binary
Matrix
FactorizaRon
with
low
rank
assumpRon
Mult
行列モデルとトピックモデ
ルでシェアされる変数
行列分解モデル
トピックモデル
ドキュメント数
ユーザー数