PRML 1.6 情報理論

PRML読書会第1回
1.6

2010-05-01
SUHARA YOSHIHIKO
id:sleepy_yoshi

目次
• 1.6 情報
– 1.6.1 相対エントロピーと情報

1

情報の定義
• p(x) の情報 h(x)
– (1) h(x) は p(x) の単調減少関数
• しい出事の方が「きの合い」が大きい
– (2) h(x,y) = h(x) + h(y)
• 情報の加法性

上記を満たす関数 ⇒ 対数のみ (演習1.28)

h( x) = − log 2 p( x) (1.92)

ここでいう情報はあくまで
情報 (information theory) における約束事
3

ンのをんでた

5

[Shannon 1948]より

6

＿＿＿
／＼
／ノ＼ u. ＼！？
／（●）（●）＼
| （__人__） u. |
＼ u.｀ ⌒´ ／
ノ＼
／´ ヽ

＿＿＿_
／＼！？？
／ u ノ＼
／ u （●）＼
| （__人__）|
＼ u .｀ ⌒／
ノ＼
／´ ヽ

7

naoya_tさんに答えを
教えてもらった

8

演習1.28
• h(p2) = h(p p) = h(p) + h(p) = 2h(p)

• h(pk+1) = h(pk p) = h(pk) + h(p)
= k h(p) + h(p) = (k + 1) h(p)

• h(pn/m) = n h(p1/m) = m・n/m h(p1/m)
= n/m h(pm/m) = n/m h(p)

ここでp=qx
h( p ) h( q x ) xh(q) h(q)
= x
= =
ln( p) ln(q ) x ln(q) ln(q)

h( p) : h(q) = ln( p) : ln(q) ∴ h( p) ∝ ln( p) 9

よって
対数で表現される!
＿＿＿_
／＼／＼ｷﾘｯ
. ／（ー）（ー）＼
／ ⌒（__人__）⌒ ＼
| |r┬-| |
＼ `ー’´ ／
ノ＼
／´ ヽ
| ｌ＼
ヽ -一””””~~｀`’ー?､ -一”””’ー-､.
ヽ＿＿＿＿(⌒)(⌒)⌒) ) (⌒＿(⌒)⌒)⌒))

10

ポイント：
における

11

エントロピー

12

エントロピーの定義
• エントロピー: 情報の平均
– 情報 (1.92)の期待値

H[ x] = −∑ p ( x) log 2 p( x) (1.93)
x

ただし，lim p →0 p ln p = 0 より

p ( x) = 0 のとき p ( x) ln p( x) = 0

13

エントロピーの
• 1)
– 8個の状態を等で取る変数xの場合
1 1
H[ x] = −8 × log 2 = 3bit
8 8
• 2)
– 8個の状態 {a,b,c,d,e,f,g,h}
– は (1/2, 1/4, 1/8, 1/16, 1/64, 1/64, 1/64, 1/64)
1 1 1 1 1 1 1 1 4 4
H[ x] = − log 2 − log 2 − log 2 − log 2 − log 2 = 2bit
2 2 4 4 8 8 16 16 64 64

非一様な分布のエントロピーは，
一様な分布のエントロピーより小さい 14

符号化におけるエントロピーの解釈
• 変数がどの状態にあるかを受信者に伝えたい
– (非一様の分布の場合) よく起きる事象に短い符号を，
ま起きない事象にい符号を使うことで，符号
の平均を短くできる

• 2)の場合
– {a,b,c,d,e,f,g,h}に対し，符号偱 (0, 10, 110, 1110,
111100, 11101, 111110, 11111) を割り当てる

1 1 1 1 1
平均符号長 = ×1 + × 2 + × 3 + × 4 + 4 × × 6 = 2bit
2 4 8 16 64
変数のエントロピーと同じ
⇒ イなし符号化 (noiseless coding theorem) 15

ポイント：
エントロピー最短符号

16

エントロピーの別の解釈 (1/2)
• 同じ物体を箱に分けて入れる問題
– N個の物体をたくさんの箱に分けて入れる
– i番目の箱にはni個の物体が存在
– N個の物体を箱に入れる方法: N!通り
– i番目の箱に物体を入れた順番: ni!通り ←区別しない

⇒ N個の物体の箱への入れ方の総数 ( ) は，
!
W= (1.94)
∏i ni !
17

エントロピーの別の解釈 (2/2)
• エントロピーを多の対数を適当に定数し
たものと定義
1 1 1
H= ln W = ln !− ∑ ln n !
i
i (1.95)

スターリングの近似式 ln !≅ ln − と ∑n
i i = より

 ni   ni 
H = lim ∑   ln  = −∑ pi ln pi (1.97)
i    
→∞
i

箱は偶変数Xの状態xiと解釈でき，p(X=xi) = piとすると

H [ p] = −∑ p( xi ) ln p( xi ) (1.98)18
i

分布とエントロピーの関係
• 鋭いピークを持つ分布 ⇒ エントロピー小
• 多くの値に広がる分布 ⇒ エントロピー大

19

エントロピーの最大化

20

エントロピーの最大化 (1/2)
• ラグランジュ乗数法を使って最大値を求める
– の総和は1という制約を入れる

~  
H = −∑ p ( xi ) ln p ( xi ) + λ  ∑ p( xi ) − 1 (1.99)
i  i 
∂   
 − ∑ p( xi ) ln p ( xi ) + λ  ∑ p( xi ) − 1  = 0
∂p ( xk )  i
  i 


− (ln p ( xk ) + 1) + λ = 0

p(xi) が全て等しいとき (p(xi) = 1/M) 最大化
最大値はln M 21

エントロピーの最大化 (2/2)
• エントロピーの2階微分を計算
~
∂H 1
= − I ij (1.100)
∂p ( xi )∂p ( x j ) pi

参考 (1階微分): − (ln p ( xi ) + 1) + λ

• 負定値のため，凹関数であることがわかり，停
点が最大値であることが示された

22

補足: ラグランジュ乗数法
• 制約付き非線形最適化の常套手段 (詳しくは付録E)

• g(x) = 0 の制約において f(x) を最適化
⇒ 以下で定義されるラグランジュ関数の停点を求める

L ( x, λ ) ≡ f ( x ) + λ g ( x )
すなわち
∇f ( x ) + λ ∇g ( x ) = 0

23

演習1.29
• エントロピー最大化をJensenの等式からく
• 解)
– あ・と・で

24

エントロピーの連続値への拡張

25

連続値への拡張
• 基本的にΣが∫に変わるだけ

26

連続値への拡張
(終)

27

連続値への拡張 (1/2)
• xを等間隔の区間Δに分ける
• p(x)が連続であると仮定すれば値のよ
り，各区間に対して以下を満たすxiが存在する
( i +1) ∆
∫
i∆
p( x)dx = p ( xi )∆ (1.101)

p(x)

p(xi)

iΔ (i+1)Δ 29
x

• Σp(xi)Δ=1 がりつので
H ∆ = −∑ p ( xi )∆ ln( p ( xi )∆)
i

= −∑ p ( xi )∆ ln p ( xi ) − ∑ p ( xi )∆ ln ∆
i i

= −∑ p ( xi )∆ ln p ( xi ) − ln ∆ (1.102)
i

• 第2項のlnΔを無視してΔ→0の極限を考える
– 第1項はp(x)ln p(x) に収束
 
lim− ∑ p ( xi )∆ ln p( xi ) = − ∫ p ( x) ln p ( x)dx (1.103)
∆ →0
 i  微分エントロピー
30

• Σp(xi)Δ=1 がりつので
H ∆ = −∑ p ( xi )∆ ln( p ( xi )∆) 連続変数を厳密に規
i 定するために無限
= −∑ p ( xi )∆ ln p ( xi ) − ∑ p (ビット数が必要であ
xi )∆ ln ∆
ることを反映
i i

= −∑ p ( xi )∆ ln p ( xi ) − ln ∆ (1.102)
i

• 第2項のlnΔを無視してΔ→0の極限を考える
– 第1項はp(x)ln p(x) に収束
 
lim− ∑ p ( xi )∆ ln p( xi ) = − ∫ p ( x) ln p ( x)dx (1.103)
∆ →0
 i  微分エントロピー
31

微分エントロピーの最大化 (1/2)
H[x] = − ∫ p (x) ln p (x)dx (1.104)

連続変数の場合のエントロピー最大化を考える．
以下の3つの制約のもとで最大化
∞
規格化 ∫ p ( x ) dx = 1 (1.105)
−∞
∞
分布の平均 ∫ xp( x)dx = µ (1.106)
−∞
∞
分布の広がり ∫ ( x − µ ) 2 p ( x ) dx = σ 2 (1.107)
−∞

ラグランジュ関数=
∞
 ∞ p ( x)dx − 1
− ∫ p ( x) ln p ( x)dx +λ1  ∫ 
−∞  −∞ 
 ∞ xp( x)dx − µ  + λ  ∞ ( x − µ ) 2 p ( x)dx − σ 2 
+ λ2  ∫  3  ∫−∞  32
 −∞   

微分して0とおきます

33

微分エントロピーの最大化 (2/2)
• 以下の結果が得られる (演習1.34)
⇒ 微分エントロピーを最大化する分布はガウス分布
1  ( x − µ )2 
p( x) = exp−  (1.109)
(2πσ 2 )1/ 2  2σ 
2

非負制約を設けなかったけれど，結果オーライ
ガウス分布の微分エントロピーは以下になる (演習1.35)

H [ x] =
1
2
{1 + ln(2πσ 2 ) } (1.110)

σ2が増えて分布が幅広くなるにつれて大きくなる
> 2πσ 2 のとき，H[x] < 0 となる
1
e 34

条件付きエントロピー
• 同時分布 p(x,y) を考える
• xの値が既知とすれば，対応するyの値を特定す
るために必要な情報は- ln p(y|x)
• したがって，yを特定するために必要な情報の平
均は，

H[y | x] = − ∫∫ p(y, x) ln p(y | x)dydx (1.111)

これをxに対するyの条件付きエントロピーと呼ぶ
35

演習1.37
• H[x,y] = H[y|x] + H[x] を証明せよ
⇒ ホワイトボード

36

1.6.1
相対エントロピーと相

37

相対エントロピー
• 未知の分布 p(x) を近似的に q(x) でモデル化
– q(x) を用いて
– xの値を特定するために必要な加情報の平均は

(
KL( p || q) = − ∫ p(x) ln q (x)dx − − ∫ p(x) ln p(x)dx )
 q ( x) 
= − ∫ p(x) ln  dx (1.113)
 p ( x) 

この値は，カルバック-ライブラーダイバージェンス (KLd)
または相対エントロピーと呼ばれる

注意: KL( p || q) ≠ KL(q || p) 38

やや唐突ですが
凸関数の話をします

39

凸関数
f (λa + (1 − λ )b) ≤ λf (a) + (1 − λ ) f (b) (1.114)

40

演習1.36
• 関数が真に凸であることと，2階微分が正である
ことと等価であることを示せ

• 直感的な解
– 2階微分が正 ⇒ 微分 (接線の傾き) が常に増加

41

インセンの等式
• (1.114)を任意の点集合へ拡張した(1.115)は，
イェンンのと呼ばれる (演習1.38)
M  M
f  ∑ λi xi  ≤ ∑ λi f ( xi ) (1.115)
 i =1  i =1
ここで λi ≥ 0 ∑λ
i i =1

λi を変数x上の分布となすと
f (E[ x]) ≤ E[ f ( x)] (1.116)

連続変数に対しては，
f (∫ xp(x)dx) ≤ ∫ f (x) p(x)dx (1.117)
42

KLdの解釈
• インセンの等式をKLdへ適用
– ln(x) が凸関数であることを用

 q ( x) 
KL( p || q) = − ∫ p (x) ln  dx ≥ − ln ∫ q(x)dx = 0
 p ( x)  (1.118)

等号は全てのxについてq(x) = p(x) のときりつので
KLdは2つの分布 p(x)とq(x) の隔たりを表していることがわかる

43

KLdの最小化 ⇒ ?!
• 未知の分布のモデル化の問題
– データが未知の分布 p(x) からサンプルされる
– 可変なパラメータθを持つ分布 q(x|θ) を用いて近似
– θを決める方法
⇒ p(x) と p(x|θ) のKLdをθについて最小化
• p(x) はわからないので,xnの有限和で近似 ((1.35)式)

1
KL( p || q ) ≈ ∑ {− ln q(x
n =1
n | θ ) + ln p (x n )}

KLdの最小化 ⇒ の最大化
44

再掲: 演習1.29
• エントロピー最大化をJensenの等式からく
• 解)
M
1
H [ x] = ∑ p ( xi ) ln
i p ( xi )

ln(x)は凹関数なので，Jensenの等式より

M 1 
H [ x] ≤ ln ∑ p ( xi )
  = ln M
 i p ( xi ) 


45

相僆情報
• 同時分布 p(x, y) を考える
• たつの変数がの場合 p(x,y)=p(x)p(y)
• 変数同士の「近さ」を測るために，同時分布と周
辺分布の積のKLdを考える

I[x, y ] ≡ KL( p (x, y ) || p (x) p (y ))

 p ( x) p ( y ) 
= − ∫∫ p(x, y ) ln
 p(x, y ) dxdy 
 
これを変数x,yの間の相と呼ぶ
47

相僆情報とエントロピーの関係
• の加法・乗法定を用いて以下のとおりに
表すことができる (演習1.41)

I[x, y ] = H[x] − H[x | y ] = H[y ] − H[y | x]

• ベイズの観点からp(x) をxの事前分布，p(x|y)
を新たなデータyを観測した後の事後分布と考え
られる
⇒ 相僆情報は，新たなyを観測した結果として，
xに関する実性が減少した合いを表す

48

演習1.41
• I[x,y] = H[x] – H[x|y] を証明
 p ( x) p ( y ) 
− ∫∫ p (x, y ) ln
 p (x, y ) dxdy
 
 p ( x) p ( y ) 
= − ∫∫ p(x, y ) ln
 p (x | y ) p (y ) dxdy

 

= − ∫∫ p(x, y ) ln p(x)dxdy + ∫∫ p (x, y ) ln p (x | y )dxdy

= − ∫ p (x) ln p(x)dx + ∫∫ p(x, y ) ln p(x | y )dxdy

= H[x] − H[x | y ] 49

xxエントロピー/xx
でおなかいっぱいのアナタに

50

補足: 各種エントロピーの関係
• ベンでるとわかりすい

H[X]
H[Y]

H[X|Y] I[X,Y] H[Y|X]

H[X,Y]

51

まとめ
情報の基をしました
• 情報
– 情報における定義
• エントロピー
– 条件付きエントロピー
– 相対エントロピー
• カルバック・ライブラーダイバージェンス
• 相僆情報

おまけあり・・・
53

相僆情報の応用
• pointwise mutual information (PMI)
– a.k.a. self mutual information (SMI)
– 関連語抽出などに用いられる

 p( x) p ( y ) 
PMI(x = x, y = y ) = − ln
 p ( x, y )  
 
• expected mutual information
– PMIは，語にっ張られる問題があるので，期
待値を取ってあげる
 p( x) p( y ) 
EMI(x = x, y = y ) = − p ( x, y ) ln
 p ( x, y )  
  55

実験: 相僆情報による関連語の抽
出
• データセット
– 20newsgroups
• 公開データセット
• http://people.csail.mit.edu/jrennie/20Newsgroups/
– ニュースグループの20カテゴリに投稿された記事1000文書ずつ
• 実験
– PMI(カテゴリ，単語)，EMI(カテゴリ，単語) を高い順に並べる

alt.atheism sci.crypt
comp.graphics sci.electronics
comp.os.ms-windows.misc sci.med
comp.sys.ibm.pc.hardware sci.space
comp.sys.mac.hardware soc.religion.christian
comp.windows.x talk.politics.guns
misc.forsale talk.politics.mideast
rec.autos talk.politics.misc
rec.motorcycles talk.religion.misc
rec.sport.baseball
57
rec.sport.hockey

実験結果
• 別紙参照

59

PRML 1.6 情報理論

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à PRML 1.6 情報理論

Similaire à PRML 1.6 情報理論 (20)

Plus de sleepy_yoshi

Plus de sleepy_yoshi (20)

Dernier

Dernier (9)

PRML 1.6 情報理論