2013 03 25

.
§4.4 推定の高次漸近理論
§4.5 情報量の分解定理
.

小島睦月
＠工学部 14 号館

2013 年 3 月 25 日

1 / 17

高次漸近理論とは

データ: x = (x1 , . . . xn )
モデル: {p(x, θ)}
推定: e : x → θ
推定量を真のパラメータ (θ∗ ) のまわりでテイラー展開:

e
e(x) = θ∗ + e (e(x) − θ∗ ) + (e(x) − θ∗ )2 + · · ·
2

.
高次漸近理論とは
.
n 回微分までの ”大きさ ”を評価して，その評価の下で最適な
推定量の性質を調べる理論 (Cram´r–Rao など)
. e

2 / 17

推定量の性質

不偏性 [unbaisedness]: E[ˆ ] = u
u
一致性 [consistency]: limN →∞ u = u
ˆ in probability
A(u) = {x ∈ S : u (x) = u}（e で u と推定されるデータ全体）
ˆ

x の収束先 η(u) が A(u) に含まれる ⇐⇒ u consistent
¯ ˆ

u が標本数に依る場合でも同様:
ˆ

ˆ −1
η(u) ∈ AN (u) = uN (u) (N → ∞)

3 / 17

一致推定量の推定誤差

観測点: η = x (N → ∞ で真のパラメータ η(u) に飛ぶ)
ˆ ¯
√ d
x := N (¯ − η(u)) ⇒ N (0, gij ) (CLT)
˜ x

S の点 η はどの A(u) か，A(u) の中でどこにかで決まる:

η = w = (u, v)

η = (ˆ , v ) は (u, 0) に近いので規格化:
ˆ u ˆ
√ √
u = N (ˆ − u), v = N v ,
˜ u ˜ ˆ w = (˜ , v )
˜ u ˜

4 / 17

一致推定量の推定誤差

w = (u, 0) のまわりでテイラー展開:
( )
w
˜ η w2 η
˜ w3
˜ 1
η =w+η √ +
ˆ + √ +O (4.27)
N 2! N 3! N N N2

推定の仕方 (A(u)) で η の微分の”大きさ”が変わってくる

5 / 17

線形近似理論

接空間 Tη(u) は M の方向と A(u) の方向の直和で表せる:
{ } { }
∂ ∂
Tη(u) = span a
⊕ span
∂u ∂v κ
( = Tη(u) M ⊕ Tη(u) A(u))

計量も M 上の計量行列と A(u) 上の計量行列に分けて考える
（ブロック行列）:
[ ]
g g
gαβ = eα , eβ = ab aλ
gκb gκλ
∂ ∂
(eα = , eκ = )
∂u a ∂v κ

6 / 17

線形近似論
テイラー展開で線形の項までしか考えないと

w α = B αi xi
˜ ˜ (4.33)

{
X ∼ N (0, Σ) ⇒ AX ∼ N (0, AΣA ),
√ d
x := N (¯ − η(u)) ⇒ N (0, gij )
˜ x

より
w ∼ N (0, g αβ )
˜
M に射影した推定量 u の漸近分散は
˜

g ab = (gab − gaλ g κλ gκb )−1
¯
( [ ] [ ])
A B (A − BC −1 B )−1 ∗
X= ⇒ X −1 =
B C ∗ ∗

7 / 17

A ≥ B ⇒ B −1 ≥ A−1 より

g ab ≥ g ab
¯

等号は gaλ = 0，つまり計量行列がブロック対角化されているとき

⇒ M と A(u) が直交するときに限り推定量の漸近分散最小

.
定義 (有効推定量)
.
漸近的に分散の下界を達成する漸近不偏推定量を一次有効推定量
という
.

8 / 17

§4.4 まとめ

.
定理 (4.3)
.
推定量 u は，その推定部分空間 A(u) が点 η(u) を通るとき，この
ˆ
ときに限り一致性を持つ
.
.
定理 (4.4)
.
一致推定量 u の漸近分散 g ab は
ˆ ¯

g ab = (gab − gaκ g κλ gλb )−1
¯

で与えられ，これは A(u) と M が直交するときに，この時に限り
一次有効である．
.

9 / 17

最尤推定量の直観的（幾何学的）理解

ˆ
最尤推定量: θmle := arg max log p(x; θ)
θ
∫
q
KL divergence: D(p||q) := q log dx
p
ˆ
P をデータから計算される点 η ，P(u) をパラメータ u の分布とす
ˆ
ると
ˆ 1
D(P||P(u)) = ψ(ˆ) − log p(x1 , . . . , xN ; u)
η
N
最尤推定量はデータ P ˆ から KL divergence の意味で最小の距離
（m-測地線）にあるモデルのパラメータのことである．

10 / 17

定理 3.6 より，最尤推定の推定部分空間 A(u) とモデル M が直交
することが分かる

⇒ 最尤推定量は一次有効推定量

11 / 17

より高次へ

2 次の項まで一致するように補正した最尤推定量:
1
u∗ = u +
ˆ ˆ C (ˆ )
u
2N
バイアス補正推定量の分散は
1 ab 1
NE[(ˆ ∗a − u a )(ˆ ∗b − u b )] = g ab +
u u K + O( 2 )
2N N
ただし
(m) (e) (m)
K ab = (ΓM ) + 2(HM ) + (Hλ )
推定の幾何的な量が第三項で，これより A(u) の m-曲率が 0
になれば 1/N 2 のオーダーで最良の推定となる．m-測地線は
自己平行な m-平坦部分多様体であったから，最尤推定量は
1/N 2 項までみて最良の推定量

12 / 17

.
定理 (4.6)
.
バイアス補正を行った最尤推定量 u ∗ は 1/N 2 の項まで評価しても
ˆ
最良の推定量である
.

Rao, Ghosh, Efron, 竹内などの仕事により明らかになった

13 / 17

情報量分解定理

y = f (¯)
x
f が全単射でないと Fisher 情報量は小さくなる:

gab (Y ) := E[∂a log p(y; u)∂b log p(y; u)]

{f −1 (y)} で分割．クラス間とクラス内の分散に分解:
¯
gab (X ) = gab (Y ) + E[Cov[∂a l(¯; u), ∂b (¯; u)|y]]
x x

第二項を情報量損失 ∆gab という

14 / 17

一次有効推定量の情報量損失

x をもとに u を推定することは情報量損失過程
¯ ˆ
.
定理
.
一次有効推定量 u の情報量損失は
ˆ
( )
(e) 1 (m) 1
∆gab = (HM )2 + (Hλ )2 + O
ab ab
. 2 N

N 個の観測の Fisher 情報量 Ngab に比べて情報量損失は O(1)

失われた情報量はどこに行ったのか？

15 / 17

失われた情報量の行方

推定 u はモデル M への写像であるから，データが S の中でどの
ˆ
ような位置にあったのかという情報が”失われている”
.
定理 (4.8)
.
∞
∑
N −p+1 (HM ,p )2ab
(e)
Ngab = gab (ˆ ) +
u
p=1

データの情報量は高次の e-曲率方向の寄与分にその次数に応じて
分解できる
.

16 / 17

補助統計量

v の曲率方向の成分 rab を知っていれば
ˆ ˆ
.
定理 (4.9)
. ( )
1
NE[(ˆ − u )(ˆ − u )] = g
ua a
u b b ab
+r
ˆ ab
+O
N
√
. rab は 1/ N オーダーの情報を与えている
ˆ

rab のように情報を補う統計量を補助統計量という
ˆ

17 / 17

2013 03 25

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 2013 03 25

Similar to 2013 03 25 (20)

2013 03 25