2. 高次漸近理論とは
データ: x = (x1 , . . . xn )
モデル: {p(x, θ)}
推定: e : x → θ
推定量を真のパラメータ (θ∗ ) のまわりでテイラー展開:
e
e(x) = θ∗ + e (e(x) − θ∗ ) + (e(x) − θ∗ )2 + · · ·
2
.
高次漸近理論とは
.
n 回微分までの ”大きさ ”を評価して,その評価の下で最適な
推定量の性質を調べる理論 (Cram´r–Rao など)
. e
2 / 17
3. 推定量の性質
不偏性 [unbaisedness]: E[ˆ ] = u
u
一致性 [consistency]: limN →∞ u = u
ˆ in probability
A(u) = {x ∈ S : u (x) = u}(e で u と推定されるデータ全体)
ˆ
x の収束先 η(u) が A(u) に含まれる ⇐⇒ u consistent
¯ ˆ
u が標本数に依る場合でも同様:
ˆ
ˆ −1
η(u) ∈ AN (u) = uN (u) (N → ∞)
3 / 17
4. 一致推定量の推定誤差
観測点: η = x (N → ∞ で真のパラメータ η(u) に飛ぶ)
ˆ ¯
√ d
x := N (¯ − η(u)) ⇒ N (0, gij ) (CLT)
˜ x
S の点 η はどの A(u) か,A(u) の中でどこにかで決まる:
η = w = (u, v)
η = (ˆ , v ) は (u, 0) に近いので規格化:
ˆ u ˆ
√ √
u = N (ˆ − u), v = N v ,
˜ u ˜ ˆ w = (˜ , v )
˜ u ˜
4 / 17
5. 一致推定量の推定誤差
w = (u, 0) のまわりでテイラー展開:
( )
w
˜ η w2 η
˜ w3
˜ 1
η =w+η √ +
ˆ + √ +O (4.27)
N 2! N 3! N N N2
推定の仕方 (A(u)) で η の微分の”大きさ”が変わってくる
5 / 17
6. 線形近似理論
接空間 Tη(u) は M の方向と A(u) の方向の直和で表せる:
{ } { }
∂ ∂
Tη(u) = span a
⊕ span
∂u ∂v κ
( = Tη(u) M ⊕ Tη(u) A(u))
計量も M 上の計量行列と A(u) 上の計量行列に分けて考える
(ブロック行列):
[ ]
g g
gαβ = eα , eβ = ab aλ
gκb gκλ
∂ ∂
(eα = , eκ = )
∂u a ∂v κ
6 / 17
7. 線形近似論
テイラー展開で線形の項までしか考えないと
w α = B αi xi
˜ ˜ (4.33)
{
X ∼ N (0, Σ) ⇒ AX ∼ N (0, AΣA ),
√ d
x := N (¯ − η(u)) ⇒ N (0, gij )
˜ x
より
w ∼ N (0, g αβ )
˜
M に射影した推定量 u の漸近分散は
˜
g ab = (gab − gaλ g κλ gκb )−1
¯
( [ ] [ ])
A B (A − BC −1 B )−1 ∗
X= ⇒ X −1 =
B C ∗ ∗
7 / 17
8. A ≥ B ⇒ B −1 ≥ A−1 より
g ab ≥ g ab
¯
等号は gaλ = 0,つまり計量行列がブロック対角化されているとき
⇒ M と A(u) が直交するときに限り推定量の漸近分散最小
.
定義 (有効推定量)
.
漸近的に分散の下界を達成する漸近不偏推定量を一次有効推定量
という
.
8 / 17
9. §4.4 まとめ
.
定理 (4.3)
.
推定量 u は,その推定部分空間 A(u) が点 η(u) を通るとき,この
ˆ
ときに限り一致性を持つ
.
.
定理 (4.4)
.
一致推定量 u の漸近分散 g ab は
ˆ ¯
g ab = (gab − gaκ g κλ gλb )−1
¯
で与えられ,これは A(u) と M が直交するときに,この時に限り
一次有効である.
.
9 / 17
10. 最尤推定量の直観的(幾何学的)理解
ˆ
最尤推定量: θmle := arg max log p(x; θ)
θ
∫
q
KL divergence: D(p||q) := q log dx
p
ˆ
P をデータから計算される点 η ,P(u) をパラメータ u の分布とす
ˆ
ると
ˆ 1
D(P||P(u)) = ψ(ˆ) − log p(x1 , . . . , xN ; u)
η
N
最尤推定量はデータ P ˆ から KL divergence の意味で最小の距離
(m-測地線)にあるモデルのパラメータのことである.
10 / 17
12. より高次へ
2 次の項まで一致するように補正した最尤推定量:
1
u∗ = u +
ˆ ˆ C (ˆ )
u
2N
バイアス補正推定量の分散は
1 ab 1
NE[(ˆ ∗a − u a )(ˆ ∗b − u b )] = g ab +
u u K + O( 2 )
2N N
ただし
(m) (e) (m)
K ab = (ΓM ) + 2(HM ) + (Hλ )
推定の幾何的な量が第三項で,これより A(u) の m-曲率が 0
になれば 1/N 2 のオーダーで最良の推定となる.m-測地線は
自己平行な m-平坦部分多様体であったから,最尤推定量は
1/N 2 項までみて最良の推定量
12 / 17
14. 情報量分解定理
y = f (¯)
x
f が全単射でないと Fisher 情報量は小さくなる:
gab (Y ) := E[∂a log p(y; u)∂b log p(y; u)]
{f −1 (y)} で分割.クラス間とクラス内の分散に分解:
¯
gab (X ) = gab (Y ) + E[Cov[∂a l(¯; u), ∂b (¯; u)|y]]
x x
第二項を情報量損失 ∆gab という
14 / 17
15. 一次有効推定量の情報量損失
x をもとに u を推定することは情報量損失過程
¯ ˆ
.
定理
.
一次有効推定量 u の情報量損失は
ˆ
( )
(e) 1 (m) 1
∆gab = (HM )2 + (Hλ )2 + O
ab ab
. 2 N
N 個の観測の Fisher 情報量 Ngab に比べて情報量損失は O(1)
失われた情報量はどこに行ったのか?
15 / 17
16. 失われた情報量の行方
推定 u はモデル M への写像であるから,データが S の中でどの
ˆ
ような位置にあったのかという情報が”失われている”
.
定理 (4.8)
.
∞
∑
N −p+1 (HM ,p )2ab
(e)
Ngab = gab (ˆ ) +
u
p=1
データの情報量は高次の e-曲率方向の寄与分にその次数に応じて
分解できる
.
16 / 17
17. 補助統計量
v の曲率方向の成分 rab を知っていれば
ˆ ˆ
.
定理 (4.9)
. ( )
1
NE[(ˆ − u )(ˆ − u )] = g
ua a
u b b ab
+r
ˆ ab
+O
N
√
. rab は 1/ N オーダーの情報を与えている
ˆ
rab のように情報を補う統計量を補助統計量という
ˆ
17 / 17