27. キーワードの出現確率
Kleinbergのバースト解析では,各日におけるキーワードの出現確率を求めます.
文書集合におけるキーワードw の出現確率rt /dt は,
一日の文書数dt と,
そのキーワードw を含む文書の数rt から求めることができます
t における
rt /dt 文書集合
w w w w
rt 10
=
d t = 33 w w w w
w w
時間
t1 t2 t3 t4 t5 t6 t7 t8 t9 ………. t365 27 27
28. バースト解析[Kleinberg02]
(直観的理解)
すると,解析したい期間におけるキーワードの平均出現確率p0が求まります
そして,
期間内平均出現確率 p0 をどれだけ上回るかにより,
バースト状態・非バースト状態を識別することになります
rt /dt
例
∑r t バースト
p0 = t
= 0 . 050 例
状態
∑d
t
t
閾値 = 0.072
p0
時間
t1 t2 t3 t4 t5 t6 t7 t8 t9 ………. t365
非バースト
状態 28
28
29. バースト解析[Kleinberg02]
直観的には先程の説明で問題ありませんが,厳密には,
各日の出現確率 rt /dt から,バースト状態・非バースト状態を
遷移する系列q のコストを計算して最小コスト系列を求めたものが解になります
⎛ m −1 ⎞ ⎛ m ⎞
c(q | rt , d t ) = ⎜ ∑τ (it | it +1 ) ⎟ + ⎜ ∑ σ (it , rt , d t ) ⎟
⎝ t =0 ⎠ ⎝ t =1 ⎠
バースト
状態 q1
時間
非バースト
状態 q0
t1 t2 t3 t4 t5 t6 t7 t8 t9 ………. t365 29 29
32. キーワードの出現確率
さきほどの説明を振り返ってみると
Kleinbergのバースト解析では,
各日におけるキーワードw の出現確率rt /dt が必要でした
ということは・・・
t における
rt /dt 文書集合
w w w w
rt 10
=
dt 33 w w w w
w w
時間
t1 t2 t3 t4 t5 t6 t7 t8 t9 ………. t365 32
33. トピックの出現確率
同様に,
文書集合におけるトピックz の出現確率rt /dt を求めるため,
一日の文書数dt と,そのトピックz の文書の数rt を得ることができれば
トピックをバースト解析できると考えられます
t における
文書集合
rt /dt
z z z z
rt 12
= z z z z
dt 33
z z z z
時間
t1 t2 t3 t4 t5 t6 t7 t8 t9 ………. t365 33 33
34. トピックの出現確率
では,どのようにしてトピックz の出現確率rt /dt の分子である
トピックz の文書の数rt を求めるかですが,
ここで先に説明した 「トピックモデル」 を使います
t における
文書集合
rt /dt
z z z z
rt 12
= z z z z
dt 33
z z z z
時間
t1 t2 t3 t4 t5 t6 t7 t8 t9 ………. t365 34 34