SlideShare une entreprise Scribd logo
1  sur  59
Télécharger pour lire hors ligne
MLaPP Ch.9
⼀般化線形モデルと指数型分布族
Generalized linear models
and
the exponential family
1 / 56
Generalized linear models and the exponential family
アウトライン
1. イントロダクション
2. 指数型分布族
3. ⼀般化線形モデル
4. プロビット回帰
5. マルチタスク学習
6. ⼀般化線形混合モデル
7. ランキング学習
2 / 56
Generalized linear models and the exponential family Introduction
Subsection 1
Introduction
3 / 56
Generalized linear models and the exponential family Introduction
この章で扱う内容
▶ 指数型分布族 (exponential family) と呼ばれる確率
分布の族の導⼊とその性質
▶ ⼀般化線形モデル (generalized linear model) と
呼ばれる線形回帰やロジスティック回帰を⼀般化し
たモデルの紹介と応⽤
▶ ランキング学習 (learning for rank)
4 / 56
Generalized linear models and the exponential family The exponential family
Subsection 2
The exponential family
5 / 56
Generalized linear models and the exponential family The exponential family
指数型分布族
▶ ある条件を満たす確率分布の族
▶ ガウス分布、ベルヌーイ分布、ガンマ分布...
▶ 指数分布も含まれますが特に関係ありません
▶ 様々な良い性質を持っている
▶ ⼗分統計量や共役事前分布が存在
▶ 分布に関する制約があるとき制約を満たす分布の中
で最適
▶ ⼀般化線形モデルや変分推定の考え⽅のもとになる
6 / 56
Generalized linear models and the exponential family The exponential family
1. 定義
2. 例
3. 対数分配関数
4. 指数型分布族に対する最尤推定
5. 指数型分布族に対するベイズ法
6. 最⼤エントロピー原理による指数分布族の導出
7 / 56
Generalized linear models and the exponential family The exponential family
Definition
確率密度関数または確率質量関数
p (x|θ)
(
x = (x1, . . . , xm) ∈ Xm
, θ ∈ Θ ⊆ Rd
)
が以下の形で
書けるような確率分布の族を指数型分布族と⾔う
p (x|θ) =
1
Z (θ)
h (x) exp
[
θT
ϕ (x)
]
= h (x) exp
[
θT
ϕ (x) − A (θ)
]
.
ここで
Z (θ) =
ˆ
Xm
h (x) exp
[
θT
ϕ (x)
]
dx
A (θ) = log Z (θ) .
8 / 56
Generalized linear models and the exponential family The exponential family
p (x|θ) =
1
Z (θ)
h (x) exp
[
θT
ϕ (x)
]
= h (x) exp
[
θT
ϕ (x) − A (θ)
]
Z (θ) =
ˆ
Xm
h (x) exp
[
θT
ϕ (x)
]
dx
A (θ) = log Z (θ)
▶ θ: ⾃然パラメータ (natural parameter) または
正準パラメータ (canonical parameter)
▶ ϕ (x) ∈ Rd: ⼗分統計量 (sufficient statistics)
▶ Z (x): 分配関数 (partition function) →規格化定数に対応
▶ A (θ): 対数分配関数 (log partition function) または
キュムラント⽣成関数 (cumulant function)
または⾃由エネルギー (free energy)
9 / 56
Generalized linear models and the exponential family The exponential family
p (x|θ) =
1
Z (θ)
h (x) exp
[
θT
ϕ (x)
]
= h (x) exp
[
θT
ϕ (x) − A (θ)
]
Z (θ) =
ˆ
Xm
h (x) exp
[
θT
ϕ (x)
]
dx
A (θ) = log Z (θ)
▶ h (x): スケールパラメータ
▶ 通常はh (x) = 1 (になるように ϕ を選ぶ)
▶ x ⾃⾝が⼗分統計量 (ϕ (x) = x) のとき⾃然な指数分布族
(natural exponential family) と呼ぶ (xの測度をいじれば...)
9 / 56
Generalized linear models and the exponential family The exponential family
▶ 指数型分布族の形式
p (x|θ) = h (x) exp
[
θT
ϕ (x) − A (θ)
]
をある関数 η (θ) によって
p (x|θ) = h (x) exp
[
η (θ)T
ϕ (x) − A (θ)
]
と書いたとき dim (θ) < dim (η (θ)) なら曲指数型分布族
(curved exponential family) と呼ぶ
▶ このとき⼗分統計量の次元はパラメータより多い
▶ η (θ) = θ の形を指数分布族の確率モデルの標準形
(canonical form) と呼ぶ
▶ この η (θ) = θ の時に θ を⾃然パラメータ (natural parameter) と呼ぶ
流儀もある?
10 / 56
Generalized linear models and the exponential family The exponential family
ベルヌーイ分布
Ber (x|µ) = µx
(1 − µ)1−x
= exp [x log µ + (1 − x) log (1 − µ)]
= exp
[
ϕ (x)T
θ
]
▶ ϕ (x) = [I (x = 0) , I (x = 1)] , θ = [log µ, log (1 − µ)]
▶ 上の定式化は over-complete
11 / 56
Generalized linear models and the exponential family The exponential family
ベルヌーイ分布
Ber (x|µ) = µx
(1 − µ)1−x
= (1 − µ) exp
[
x log
(
µ
1 − µ
)]
= exp
[
ϕ (x) θ − ln(1 + eθ
)
]
▶ ϕ (x) = x, θ = log
(
µ
1−µ
)
▶ θ = log
(
µ
1−µ
)
は対数オッズ (log-odds ratio)
▶ µ = sigm (θ) = 1/
(
1 + e−θ
)
11 / 56
Generalized linear models and the exponential family The exponential family
マルチヌーイ分布 (カテゴリカル分布)
Cat (x|µ) =
K∏
k=1
µxk
k = exp
[ K∑
k=1
xk log µk
]
= exp
[K−1∑
k=1
xk log
µk
µK
+ log µK
]
▶ xk = I (x = k)
▶ θ =
[
log µ1
µK
, . . . , log
µK−1
µK
]
, ϕ (x) = [x1, . . . , xK−1]
12 / 56
Generalized linear models and the exponential family The exponential family
(1変量) ガウス分布
N
(
x|µ, σ2
)
=
1
(2πσ2)1/2
exp
[
−
1
2σ2
(x − µ)2
]
=
1
(2πσ2)1/2
exp
[
−
1
2σ2
x2
+
µ
σ2
x −
1
σ2
µ2
]
▶ θ = (θ1, θ2) =
( µ
σ2 , − 1
2σ2
)
, ϕ (x) = (x, x2
)
▶ A (θ) = −
θ2
1
4θ2
− 1
2
log (−2θ2) − 1
2
log (2π)
13 / 56
Generalized linear models and the exponential family The exponential family
指数型分布族でない分布
▶ ⼀様分布 Unif (a, b)
p (x|a, b) =
{
1
b−a
a < x < b
0 otherwise
▶ 分布のサポートがパラメータに依存
▶ スチューデントのt分布
14 / 56
Generalized linear models and the exponential family The exponential family
対数分配関数について
▶ 対数分配関数A (θ)はキュムラント⺟関数とも呼ばれ
級数展開した時の各項の係数をキュムラントと呼ぶ
▶ キュムラント⺟関数やキュムラントは指数型以外の
分布にもあります (別の定義を使う)
▶ A (θ) を使って ϕ (x) の平均や分散などが計算できる
▶ dA
dθ
= E [ϕ (x)] , d2A
dθ2 = var [ϕ (x)] , ...
▶ 2A (θ) = cov [ϕ (x)]
▶ 共分散⾏列は正定値 ⇒ A (θ) は凸関数
15 / 56
Generalized linear models and the exponential family The exponential family
ベルヌーイ分布
Ber (x|µ) = µx
(1 − µ)1−x
= (1 − µ) exp
[
x log
(
µ
1 − µ
)]
= exp
[
ϕ (x) θ − ln(1 + eθ
)
]
A (θ) = ln(1 + eθ
)
dA
dθ
=
eθ
1 + eθ
=
1
1 + e−θ
= sigm (θ) = µ = E [x] = E [ϕ (x)]
d2
A
dθ2
=
(
略
)
= (1 − µ) µ = Var [x] = Var [ϕ (x)]
16 / 56
Generalized linear models and the exponential family The exponential family
指数型分布族に対する最尤推定
▶ 指数型分布族のモデルにおいてサンプル
D = (x1, . . . , xN) に対するパラメータ θ の最尤推定量
argmax
θ
p (D|θ) は次式を満たす θ になる
(
dA
dθ
=
)
E [ϕ (x)] =
1
N
N∑
i=1
ϕ (xi)
これを moment matching と呼ぶ
17 / 56
Generalized linear models and the exponential family The exponential family
▶ 指数型分布族のモデルの尤度は次のようにかける
(η (θ) = θ なら g (θ) = 1/Z (θ) とすればよい)
p (D|θ) =
[ N∏
i=1
h (xi)
]
g (θ)N
exp
(
η (θ)T
[ N∑
i=1
ϕ (xi)
])
▶ ⼗分統計量
ϕ (D) =
[ N∑
i=1
ϕ1 (xi) , . . . ,
N∑
i=1
ϕK (xi)
]
▶ (適当な正則条件の下で) 有限個の⼗分統計量を持つ
分布は指数型分布族だけである
(Pitman-Koopman-Darmois theorem)
▶ 正則条件を満たさないときは成り⽴たない
(例: ⼀様分布)
18 / 56
Generalized linear models and the exponential family The exponential family
指数型分布族に対するベイズ法
▶ 共役事前分布は有限個の⼗分統計量が存在するとき
にのみ存在
▶ 指数型分布族のモデルの尤度
p (D|θ) ∝ g (θ)N
exp
(
η (θ)T
sN
)
ただしsN =
∑N
i=1 s (xi)
▶ θ の共役事前分布は
p (θ|ν0, τ0) ∝ g (θ)ν0
exp
(
η (θ)T
τ0
)
▶ θ の事後分布は (上の2式の積だから)
p (θ|D) = p (θ|νN, τN) = p (θ|ν0 + N, τ0 + sN)
∝ g (θ)ν0+N0
exp
(
η (θ)T
(τ0 + sN)
)
19 / 56
Generalized linear models and the exponential family The exponential family
事後予測分布
▶ D = (x1, . . . , xN) が観測された下での
D′
= (˜x1, . . . , ˜xN′ ) の事後予測分布は
p (D′
|D) =
ˆ
p (D′
|θ) p (θ|D) dθ
=
[ N′
∏
i=1
h (˜xi)
]
Z ( ˜τ0 + ˜s (D) + ˜s (D′
))
Z ( ˜τ0 + ˜s (D))
▶ ˜τ0 = (ν0, τ0) , ˜s (D) = (N, s (D)) , ˜s (D′) = (N′, s (D′))
▶ Z: p (θ|˜τ) の正規化定数
(Z (˜τ) =
´
g (θ)ν
exp
(
η (θ)T
τ
)
dθ )
20 / 56
Generalized linear models and the exponential family The exponential family
最⼤エントロピー原理による導出
▶ 分布 p (x) が関数 fk と定数 Fk (k = 1, . . .) に対して
以下の制約を満たすとする
∑
x
fk (x) p (x) = Fk
▶ 上の制約の下で分布のモーメントと経験分布のモー
メントが⼀致する分布の中で最もエントロピーが⼤
きい (⼀様分布に近い) 分布は定数 λk を使って
p (x) =
1
Z
exp
(
−
∑
k
λkfk (x)
)
と指数型分布族の形でかける
▶ p (x) はギブス分布として知られている
▶ (平衡状態において系のエネルギーが従う分布)
21 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
Subsection 3
Generalized linear models (GLMs)
22 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
⼀般化線形モデル
⼀般化線形モデル (generalized linear model; GLM)
出⼒の分布が指数型分布族であり、分布の平均が⼊⼒の
線形結合 (またはその⾮線形な変換) で表されるモデル
▶ 線形回帰やロジスティック回帰を⼀般化したモデル
▶ 出⼒の分布と⼊⼒と出⼒の関係に関してより柔軟な
モデルが作れる
23 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
出⼒の分布
▶ ⼊⼒を持たず1変数の出⼒ yi を持つ簡単なモデル
p
(
yi|θ, σ2
)
= exp
[
yiθ − A (θ)
σ2
+ c
(
yi, σ2
)
]
▶ σ2: dispersion parameter
▶ θ: ⾃然パラメータ
▶ A: 分配関数
▶ c: 正規化係数
▶ 指数型分布族ではある可逆な関数 ψ によって平均 µ
と⾃然パラメータ θ が θ = ψ (µ) と書き表せる
▶ ⼀般に µ = ψ−1 (θ) = A′ (θ)
24 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
リンク関数 (link function)
▶ ⼊⼒の線形結合 ηi に関する可逆で単調な関数により
出⼒ yi の (⼊⼒が xi の条件付き) 分布の平均を表す
µi = g−1
(ηi) = g−1
(
wT
xi
)
この g−1
を mean function と呼び
g をリンク関数 (link function) と呼ぶ
▶ 要するに出⼒の平均と⼊⼒との関係を表す関数
▶ 可逆かつ適当な定義域をもつ任意の関数が使える
▶ 特に g = ψ のとき正準リンク関数 (canonical link
function) と呼ぶ
25 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
正準リンク関数を使ったGLM
▶ さっきのモデルに⼊⼒を追加
p
(
yi|xi, w, σ2
)
= exp
[
yiwT
x − A
(
wT
x
)
σ2
+ c
(
yi, σ2
)
]
出⼒の分布と対応する正準リンク関数の例
y の分布 y の範囲 リンク g (µ) θ = ψ (µ) µ = ψ−1 (θ) = E [y]
N
(
µ, σ2
)
(−∞, ∞) identity θ = µ µ = θ
Bin (N, µ) 0, . . . , N logit θ = log
(
µ
1−µ
)
µ = sigm (θ)
Poi (µ) 0, 1, 2, . . . log θ = log µ µ = eθ
26 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
線形回帰
出⼒が正規分布でリンク関数が恒等変換
log p
(
yi|xi, w, σ2
)
=
yiµi −
µ2
i
2
σ2
−
1
2
(
y2
i
σ2
+ log
(
2πσ2
)
)
▶ yi ∈ R
▶ θi = µi = wT
xi
▶ A (θ) = θ2
/2, E [yi] = µi, Var [yi] = σ2
27 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
⼆項回帰 (binomial regression)
出⼒が⼆項分布でリンク関数がロジット関数
log p (yi|xi, w) = yi log
(
πi
1 − πi
)
+ Ni log (1 − πi) + log
(
Ni
yi
)
▶ yi ∈ {0, 1, . . . , Ni}
▶ πi = sigm
(
wT
xi
)
, θi = log (πi/ (1 − πi)) = wT
xi,
σ2
= 1
▶ A (θ) = Ni log
(
1 + eθ
)
, E [yi] = Niπi,
Var [yi] = Niπi (1 − πi)
28 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
ポアソン回帰 (poisson regression)
出⼒がポアソン分布でリンク関数が対数関数
log p (yi|xi, w) = yi log (µi) + µi + log (yi!)
▶ yi ∈ {0, 1, 2, . . .}
▶ µi = exp
(
wT
x
)
, θi = log (µi) = wT
xi, σ2
= 1
▶ A (θ) = eθ
, E [yi] = Var [yi] = µi
29 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
最尤推定とMAP推定
▶ ロジスティック回帰 (8章) と同様に w を最適化
▶ 対数尤度
ℓ (w) = log p (D|w) =
1
σ2
N∑
i=1
ℓi
ℓi ≜ θiyi − A (θi)
▶ 勾配
dℓi
dwj
= (yi − µi)
dθi
dµi
dµi
dηi
xij
▶ 特に正準なリンク関数を使うとき
wℓ (w) =
1
σ2
[ N∑
i=1
(yi − µi) xi
]
▶ 2次の勾配法でより効率的に計算できる
▶ MAP推定もロジスティック回帰と同様に
30 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
ベイズ推定
▶ w の事後分布を求める
▶ MCMC (24章)
▶ メトロポリス法, ギブスサンプリング,...
▶ ガウス近似や変分法
31 / 56
Generalized linear models and the exponential family Probit regression
Subsection 4
Probit regression
32 / 56
Generalized linear models and the exponential family Probit regression
プロビット回帰
▶ 出⼒の分布がベルヌーイ/⼆項分布のときリンク関数
としてプロビット関数 (正規分布の累積分布関数の
逆関数) を使う⽅法
−6 −4 −2 0 2 4 6
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
sigmoid
probit
33 / 56
Generalized linear models and the exponential family Probit regression
プロビット回帰の利点
▶ 最適化が簡単になる (?)
▶ 潜在変数によるモデルの解釈ができる (random
utility model; RUM)
▶ 出⼒が順序つきの離散値であるモデルへの拡張
(ordinal regression)
▶ 出⼒が多クラスのモデルへの拡張 (multinomial
probit)
34 / 56
Generalized linear models and the exponential family Multi-task learning
Subsection 5
Multi-task learning
35 / 56
Generalized linear models and the exponential family Multi-task learning
マルチタスク学習 (multi-task learning)
▶ 関係のある複数の分類や回帰モデルを学習したい時
それらのタスクが似ていると仮定することによって
同時に学習を⾏い性能を向上させる⼿法
36 / 56
Generalized linear models and the exponential family Multi-task learning
階層ベイズによるマルチタスク学習
▶ 階層ベイズ (→5章) で複数のグループを同時に扱う
▶ 例: J 校の学校にそれぞれ Nj ⼈の⽣徒がおり yij を
j 番⽬ (j = 1, . . . , J) の学校の i 番⽬
(
i = 1, . . . , Nj
)
の
⽣徒の試験の成績とする
▶ xij を yij に対応する特徴としたときに各グループに
対してそれぞれモデル p (yij|xij) を学習するのが⽬的
▶ しかし、⼀部のグループは⼤量のデータを持つ⼀⽅
多くのグループには少量のデータしかない
37 / 56
Generalized linear models and the exponential family Multi-task learning
▶ 出⼒の条件付き分布の平均をリンク関数 g で表して
各グループを特徴付けるパラメータ βj が共通の分布
に従うと仮定
E [yij|xij] = g−1
(
xT
ijβj
)
βj ∼ N
(
β∗, σ2
j
)
β∗ ∼ N
(
µ, σ2
∗
)
▶ 共通のパラメータ β∗ を通して各 βj が相関するため
サンプルが少数のグループでもうまく学習できる
(5.5節参照)
38 / 56
Generalized linear models and the exponential family Multi-task learning
マルチタスク学習の応⽤例
▶ Personalized spam filter
▶ メールがスパムかどうかをユーザー毎に予測
E [yi|xi, u = j] =
(
βT
∗ + wj
)T
xi
▶ β∗: 全ユーザーのメールから推定されるパラメータ
▶ wj: ユーザーj のメールから推定されるパラメータ
▶ Domain adaptation (ドメイン適応)
▶ 異なる分布で表されるデータ上での分類器の集合を
学習する問題
39 / 56
Generalized linear models and the exponential family Multi-task learning
▶ ⾃然⾔語処理におけるドメイン適応の例
▶ 固有表現認識 (named entity recognition)
▶ 構⽂解析
という2つのタスクに階層ベイズモデルを適⽤
Finkel, Jenny Rose, and Christopher D. Manning. ”Hierarchical bayesian domain adaptation.” Proceedings
of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the
Association for Computational Linguistics. Association for Computational Linguistics, 2009.
40 / 56
Generalized linear models and the exponential family Multi-task learning
事前分布の種類
▶ マルチタスク学習では事前分布としてガウス分布を
仮定することが多い
▶ 他の事前分布がよいこともある
▶ sparsity-promoting prior
▶ Conjoint analysis (マーケティングにおいて商品の
どの要素が最も客に好まれるかの分析) で使われる
▶ 混合ガウス分布
▶ 全てのタスクが同様に似ていると仮定できないとき
41 / 56
Generalized linear models and the exponential family Generalized linear mixed models
Subsection 6
Generalized linear mixed models
42 / 56
Generalized linear models and the exponential family Generalized linear mixed models
⼀般化線形混合モデル
▶ マルチタスク学習のモデルを⼀般化
E
[
yij|xij, xj
]
= g
(
ϕ1
(
xij
)T
βj + ϕ2
(
xj
)T
β′
j + ϕ3
(
xij
)
α + ϕ4
(
xj
)
α′
)
▶ xj: 各グループを表す特徴
▶ βj, β′
j: 各グループごとのパラメータ
▶ α, α′
: 全グループ共通のパラメータ
▶ ϕk: 基底関数
xj
xij
yij
Nj
βj
J
µβ σ2
β
αµα
σ2
α
σ2
y
43 / 56
Generalized linear models and the exponential family Generalized linear mixed models
⼀般化線形混合モデル
▶ マルチタスク学習のモデルを⼀般化
E
[
yij|xij, xj
]
= g
(
ϕ1
(
xij
)T
βj + ϕ2
(
xj
)T
β′
j + ϕ3
(
xij
)
α + ϕ4
(
xj
)
α′
)
▶ xj: 各グループを表す特徴
▶ βj, β′
j: 各グループごとのパラメータ
▶ α, α′
: 全グループ共通のパラメータ
▶ ϕk: 基底関数
▶ 頻度主義統計では βj を変量効果 (random effects)
α を固定効果 (fixed effects) と呼んで概念上区別し
これらを含んだモデルを混合モデル (mixed model)
と呼ぶ
▶ p (y|x) がGLMのとき⼀般化線形 (混合) 効果モデル
(generalized linear mixed effects model; GLMM,
GLME) と呼ぶ
43 / 56
Generalized linear models and the exponential family Generalized linear mixed models
例: 医療データ
▶ ⾻に含まれるミネラルの密度について
1. ⼈種間での違いがあるかどうか解明
2. 年齢による説明
を⾏いたい
▶ 使うデータ
▶ yij: j 番の⼈の i 回⽬に測った⾻ミネラル濃度
▶ xij: j 番の⼈の i 回⽬に測った年齢
▶ xj: j 番の⼈の⼈種 (White, Asian, Black, Hispanic)
44 / 56
Generalized linear models and the exponential family Generalized linear mixed models
▶ 線形回帰とノンパラメトリック回帰を組み合わせた
セミパラメトリックモデル (semi-parametric
model) を使う
▶ ⾻ミネラル濃度の年齢に関する⾮線形性を表すため
▶ さらに個⼈差を変量効果とみなし混合モデルで表す
▶ ϕ1
(
xij
)
= 1,ϕ2
(
xj
)
= 0
▶ ϕ3
(
xij
)
= b
(
xij
)
=
[
bk
(
xij
)]
(ノンパラ担当)
▶ bk: k 次スプライン基底関数
▶ ϕ4
(
xj
)
=
[
I
(
xj = White
)
, . . . , I
(
xj = Hispanic
)]
▶ 出⼒を正規分布、リンク関数を線形関数とすれば
最終的なモデルは
yij =βj + αT
b (xij) + ϵij
+ α′
wI (xj = W) + · · · + α′
hI (xj = H)
(教科書から微修正)
▶ ϵij ∼ N
(
0, σ2
y
)
45 / 56
Generalized linear models and the exponential family Generalized linear mixed models
22 M. P. WAND
age in years
spinalbonemineraldensity(g/cm2
)
0.6
0.8
1.0
1.2
1.4
10 15 20 25
Asian Black
Hispanic
10 15 20 25
0.6
0.8
1.0
1.2
1.4
White
Figure 9. MCMC-based estimate of the non-linear age effect in the spinal bone mineral density example.
The dashed lines correspond to pointwise 95% credible sets.
for the spinal bone mineral density example. The main difference is that y is now a binary
rather than a Gaussian node.
Wand, M. P. ”Semiparametric regression and graphical models.” Australian & New Zealand Journal of
Statistics 51.1 (2009): 9-41.
46 / 56
Generalized linear models and the exponential family Learning to rank
Subsection 7
Learning to rank
47 / 56
Generalized linear models and the exponential family Learning to rank
ランキング学習 (Learning to rank; LETOR)
▶ 項⽬をランク付けする関数を学習する問題
▶ GLMとは特に関係ないけど他に適当な場所がないのでここで紹介
▶ 代表的な応⽤は情報検索
▶ クエリqとそれに関連するかもしれないドキュメント
d1
, . . . , dm
を考える
▶ 例: q という⽂字列を含む全てのドキュメント
▶ q との適合性の⾼い順に d1
, . . . , dm
をソートして
上位 k 項をユーザーに⽰したい
48 / 56
Generalized linear models and the exponential family Learning to rank
適合性 (relevance) の評価
▶ Bag of words にもとづく確率的⾔語モデルにより
適合性を評価する例
sim (q, d) ≜ p (q|d) =
n∏
i=1
p (qi|d)
▶ qi: q の i 番⽬の単語または項 (i = 1, . . . , n)
▶ p (qi|d): d に出現する単語の頻度から推定される
マルチヌーイ分布
▶ 頻度だけでなく PageRank のような他のシグナルも
組み合わせて適合性を評価したい
PageRank webのリンク構造から導出されるwebページ
の信頼性の指標
49 / 56
Generalized linear models and the exponential family Learning to rank
The pointwise approach
▶ クエリとドキュメントの組み合わせによって決まる
特徴量 x (q, d) に対して
▶ 適合する/しないの2値分類 または
▶ 数段階の適合性に順序回帰
を⾏って事後確率 p (y = 1 or r|x (q, d)) でソート
▶ 特徴量には例えば query-document similarity
score や page rank score が含まれる
▶ 教師データのラベルはクエリのログでドキュメント
が⼀定回数以上クリックされたかどうかで与える
▶ ドキュメントのリスト上での位置を考慮しないため
リストの最下位と最上位での誤差を全く同じように
罰してしまう (??)
50 / 56
Generalized linear models and the exponential family Learning to rank
The pairwise approach
▶ 適合性を各ドキュメントに対する絶対評価ではなく
ドキュメント間の相対評価で決める
▶ ラベル yjk を、ドキュメント dj が dk より適合して
いれば 1 、そうでなければ 0 とする
▶ シグモイド関数を使えば
p
(
yjk = 1|xj, xk
)
= sigm (f (xj) − f (xk))
▶ f (x): スコア関数
▶ f (x) = wT
x とすればこのモデルは RankNet として
知られるニューラルネットワークの⼀種になる
51 / 56
Generalized linear models and the exponential family Learning to rank
The listwise approach
▶ 全ドキュメントのリストを直接モデル化
▶ 順序を Plackett-Luce distribution でモデリング
Plackett-Luce distribution
下式で表されるリストの並び替え π : j → π (j) の分布
p (π|s) =
m∏
j=1
sj
∑m
u=j su
▶ sj = s (π−1
(j)): π によって j 番⽬にランクされた
ドキュメントのスコア
▶ ドキュメントの上位への出現しやすさを表している
52 / 56
Generalized linear models and the exponential family Learning to rank
Plackett-Luce distribution の例
▶ ランキング π = (A, B, C) の確率 p (π) は
p (π|s) =
sA
sA + sB + sC
×
sB
sB + sC
×
sC
sC
▶
sA
sA+sB+sC
: A が1番⽬にランクされる確率
▶
sB
sB+sC
: A が1番⽬にランクされたときに、
B が2番⽬にランクされる確率
▶
sC
sC
: A, B が1,2番⽬にランクされたときに、
C が3番⽬にランクされる確率
53 / 56
Generalized linear models and the exponential family Learning to rank
▶ クエリ q に対する各ドキュメントのスコアを
s (d) = f (x (q, d)) とすればクエリが与えられたとき
のランクの分布が決められる
▶ f (x) = wT
x がよく使われ ListNet と呼ばれる
54 / 56
Generalized linear models and the exponential family Learning to rank
ランキングに対する損失関数
Mean reciprocal rank (MRR) クエリ q に1番適合する
ドキュメントの順位 r (q) の逆数 1/r (q)
Mean average precision (MAP) precision at k (P@k)
の適合するドキュメント (の順位の) 全体に
ついての平均 (1に近いほど良い)
P@k (π) ≜
πの上位k件中の適合するドキュメントの数
k
Normalized discounted cumulative gain (NDGG)  
適合性が数段階に表されているときに使う
Rank correlation 基準となるランキングとの相関を使う
(普通の意味での相関とは違い種類も様々)
55 / 56
Generalized linear models and the exponential family Learning to rank
▶ 損失関数はベイズか頻度かで使い⽅が変わる
▶ ベイズ的アプローチではパラメータの事後分布から
のサンプリングや平均によって期待損失を計算
▶ 頻度的アプローチでは損失を直接最⼩化
▶ 関数が微分可能ではないため最⼩化には勾配を使わ
ない最適化か計算しやすい代理の損失関数を使う
▶ 例えば precision@k (P@k) の近似として wieghted
approximate-rank pairwise (WARP) がある
56 / 56

Contenu connexe

Tendances

PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2matsuolab
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
20180118 一般化線形モデル(glm)
20180118 一般化線形モデル(glm)20180118 一般化線形モデル(glm)
20180118 一般化線形モデル(glm)Masakazu Shinoda
 
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデルlogics-of-blue
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布についてhoxo_m
 
階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギーHiroshi Shimizu
 
基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)TeranishiKeisuke
 
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)STAIR Lab, Chiba Institute of Technology
 
心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズHiroshi Shimizu
 
PRML 2.3 ガウス分布
PRML 2.3 ガウス分布PRML 2.3 ガウス分布
PRML 2.3 ガウス分布KokiTakamiya
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)Yoshitake Takebayashi
 
2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰logics-of-blue
 
大阪PRML読書会#1資料
大阪PRML読書会#1資料大阪PRML読書会#1資料
大阪PRML読書会#1資料Hiromasa Ohashi
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータStanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータMiki Katsuragi
 
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】Hiroyuki Muto
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 

Tendances (20)

PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
20180118 一般化線形モデル(glm)
20180118 一般化線形モデル(glm)20180118 一般化線形モデル(glm)
20180118 一般化線形モデル(glm)
 
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
 
階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギー
 
基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)
 
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
 
心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ
 
PRML 2.3 ガウス分布
PRML 2.3 ガウス分布PRML 2.3 ガウス分布
PRML 2.3 ガウス分布
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
 
2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰
 
大阪PRML読書会#1資料
大阪PRML読書会#1資料大阪PRML読書会#1資料
大阪PRML読書会#1資料
 
PRML8章
PRML8章PRML8章
PRML8章
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータStanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
 
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 

Similaire à MLaPP 9章 「一般化線形モデルと指数型分布族」

PRML 2.3.9-2.4.1
PRML 2.3.9-2.4.1PRML 2.3.9-2.4.1
PRML 2.3.9-2.4.1marugari
 
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定070 統計的推測 母集団と推定
070 統計的推測 母集団と推定t2tarumi
 
2022年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2022. 10. 27)
2022年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2022. 10. 27) 2022年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2022. 10. 27)
2022年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2022. 10. 27) Akira Asano
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知Chika Inoshita
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)Kota Mori
 
Introduction to the particle filter
Introduction to the particle filterIntroduction to the particle filter
Introduction to the particle filterSatoshi Minakuchi
 
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)Akihiro Nitta
 
ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学ssuserf4860b
 
Coq関係計算ライブラリの開発と写像の性質の証明
Coq関係計算ライブラリの開発と写像の性質の証明Coq関係計算ライブラリの開発と写像の性質の証明
Coq関係計算ライブラリの開発と写像の性質の証明Yoshihiro Mizoguchi
 
mathemaical_notation
mathemaical_notationmathemaical_notation
mathemaical_notationKenta Oono
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-Tomoshige Nakamura
 
【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門Zansa
 
8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論sleepy_yoshi
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布t2tarumi
 

Similaire à MLaPP 9章 「一般化線形モデルと指数型分布族」 (20)

PRML 2.3節
PRML 2.3節PRML 2.3節
PRML 2.3節
 
PRML セミナー
PRML セミナーPRML セミナー
PRML セミナー
 
PRML 8.4-8.4.3
PRML 8.4-8.4.3 PRML 8.4-8.4.3
PRML 8.4-8.4.3
 
PRML 2.3.9-2.4.1
PRML 2.3.9-2.4.1PRML 2.3.9-2.4.1
PRML 2.3.9-2.4.1
 
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定070 統計的推測 母集団と推定
070 統計的推測 母集団と推定
 
2022年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2022. 10. 27)
2022年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2022. 10. 27) 2022年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2022. 10. 27)
2022年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2022. 10. 27)
 
PRML_titech 8.1 - 8.2
PRML_titech 8.1 - 8.2PRML_titech 8.1 - 8.2
PRML_titech 8.1 - 8.2
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
 
Introduction to the particle filter
Introduction to the particle filterIntroduction to the particle filter
Introduction to the particle filter
 
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
 
NLPforml5
NLPforml5NLPforml5
NLPforml5
 
ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学
 
Coq関係計算ライブラリの開発と写像の性質の証明
Coq関係計算ライブラリの開発と写像の性質の証明Coq関係計算ライブラリの開発と写像の性質の証明
Coq関係計算ライブラリの開発と写像の性質の証明
 
mathemaical_notation
mathemaical_notationmathemaical_notation
mathemaical_notation
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-
 
【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門
 
8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布
 
PRML 10.4 - 10.6
PRML 10.4 - 10.6PRML 10.4 - 10.6
PRML 10.4 - 10.6
 

MLaPP 9章 「一般化線形モデルと指数型分布族」

  • 2. Generalized linear models and the exponential family アウトライン 1. イントロダクション 2. 指数型分布族 3. ⼀般化線形モデル 4. プロビット回帰 5. マルチタスク学習 6. ⼀般化線形混合モデル 7. ランキング学習 2 / 56
  • 3. Generalized linear models and the exponential family Introduction Subsection 1 Introduction 3 / 56
  • 4. Generalized linear models and the exponential family Introduction この章で扱う内容 ▶ 指数型分布族 (exponential family) と呼ばれる確率 分布の族の導⼊とその性質 ▶ ⼀般化線形モデル (generalized linear model) と 呼ばれる線形回帰やロジスティック回帰を⼀般化し たモデルの紹介と応⽤ ▶ ランキング学習 (learning for rank) 4 / 56
  • 5. Generalized linear models and the exponential family The exponential family Subsection 2 The exponential family 5 / 56
  • 6. Generalized linear models and the exponential family The exponential family 指数型分布族 ▶ ある条件を満たす確率分布の族 ▶ ガウス分布、ベルヌーイ分布、ガンマ分布... ▶ 指数分布も含まれますが特に関係ありません ▶ 様々な良い性質を持っている ▶ ⼗分統計量や共役事前分布が存在 ▶ 分布に関する制約があるとき制約を満たす分布の中 で最適 ▶ ⼀般化線形モデルや変分推定の考え⽅のもとになる 6 / 56
  • 7. Generalized linear models and the exponential family The exponential family 1. 定義 2. 例 3. 対数分配関数 4. 指数型分布族に対する最尤推定 5. 指数型分布族に対するベイズ法 6. 最⼤エントロピー原理による指数分布族の導出 7 / 56
  • 8. Generalized linear models and the exponential family The exponential family Definition 確率密度関数または確率質量関数 p (x|θ) ( x = (x1, . . . , xm) ∈ Xm , θ ∈ Θ ⊆ Rd ) が以下の形で 書けるような確率分布の族を指数型分布族と⾔う p (x|θ) = 1 Z (θ) h (x) exp [ θT ϕ (x) ] = h (x) exp [ θT ϕ (x) − A (θ) ] . ここで Z (θ) = ˆ Xm h (x) exp [ θT ϕ (x) ] dx A (θ) = log Z (θ) . 8 / 56
  • 9. Generalized linear models and the exponential family The exponential family p (x|θ) = 1 Z (θ) h (x) exp [ θT ϕ (x) ] = h (x) exp [ θT ϕ (x) − A (θ) ] Z (θ) = ˆ Xm h (x) exp [ θT ϕ (x) ] dx A (θ) = log Z (θ) ▶ θ: ⾃然パラメータ (natural parameter) または 正準パラメータ (canonical parameter) ▶ ϕ (x) ∈ Rd: ⼗分統計量 (sufficient statistics) ▶ Z (x): 分配関数 (partition function) →規格化定数に対応 ▶ A (θ): 対数分配関数 (log partition function) または キュムラント⽣成関数 (cumulant function) または⾃由エネルギー (free energy) 9 / 56
  • 10. Generalized linear models and the exponential family The exponential family p (x|θ) = 1 Z (θ) h (x) exp [ θT ϕ (x) ] = h (x) exp [ θT ϕ (x) − A (θ) ] Z (θ) = ˆ Xm h (x) exp [ θT ϕ (x) ] dx A (θ) = log Z (θ) ▶ h (x): スケールパラメータ ▶ 通常はh (x) = 1 (になるように ϕ を選ぶ) ▶ x ⾃⾝が⼗分統計量 (ϕ (x) = x) のとき⾃然な指数分布族 (natural exponential family) と呼ぶ (xの測度をいじれば...) 9 / 56
  • 11. Generalized linear models and the exponential family The exponential family ▶ 指数型分布族の形式 p (x|θ) = h (x) exp [ θT ϕ (x) − A (θ) ] をある関数 η (θ) によって p (x|θ) = h (x) exp [ η (θ)T ϕ (x) − A (θ) ] と書いたとき dim (θ) < dim (η (θ)) なら曲指数型分布族 (curved exponential family) と呼ぶ ▶ このとき⼗分統計量の次元はパラメータより多い ▶ η (θ) = θ の形を指数分布族の確率モデルの標準形 (canonical form) と呼ぶ ▶ この η (θ) = θ の時に θ を⾃然パラメータ (natural parameter) と呼ぶ 流儀もある? 10 / 56
  • 12. Generalized linear models and the exponential family The exponential family ベルヌーイ分布 Ber (x|µ) = µx (1 − µ)1−x = exp [x log µ + (1 − x) log (1 − µ)] = exp [ ϕ (x)T θ ] ▶ ϕ (x) = [I (x = 0) , I (x = 1)] , θ = [log µ, log (1 − µ)] ▶ 上の定式化は over-complete 11 / 56
  • 13. Generalized linear models and the exponential family The exponential family ベルヌーイ分布 Ber (x|µ) = µx (1 − µ)1−x = (1 − µ) exp [ x log ( µ 1 − µ )] = exp [ ϕ (x) θ − ln(1 + eθ ) ] ▶ ϕ (x) = x, θ = log ( µ 1−µ ) ▶ θ = log ( µ 1−µ ) は対数オッズ (log-odds ratio) ▶ µ = sigm (θ) = 1/ ( 1 + e−θ ) 11 / 56
  • 14. Generalized linear models and the exponential family The exponential family マルチヌーイ分布 (カテゴリカル分布) Cat (x|µ) = K∏ k=1 µxk k = exp [ K∑ k=1 xk log µk ] = exp [K−1∑ k=1 xk log µk µK + log µK ] ▶ xk = I (x = k) ▶ θ = [ log µ1 µK , . . . , log µK−1 µK ] , ϕ (x) = [x1, . . . , xK−1] 12 / 56
  • 15. Generalized linear models and the exponential family The exponential family (1変量) ガウス分布 N ( x|µ, σ2 ) = 1 (2πσ2)1/2 exp [ − 1 2σ2 (x − µ)2 ] = 1 (2πσ2)1/2 exp [ − 1 2σ2 x2 + µ σ2 x − 1 σ2 µ2 ] ▶ θ = (θ1, θ2) = ( µ σ2 , − 1 2σ2 ) , ϕ (x) = (x, x2 ) ▶ A (θ) = − θ2 1 4θ2 − 1 2 log (−2θ2) − 1 2 log (2π) 13 / 56
  • 16. Generalized linear models and the exponential family The exponential family 指数型分布族でない分布 ▶ ⼀様分布 Unif (a, b) p (x|a, b) = { 1 b−a a < x < b 0 otherwise ▶ 分布のサポートがパラメータに依存 ▶ スチューデントのt分布 14 / 56
  • 17. Generalized linear models and the exponential family The exponential family 対数分配関数について ▶ 対数分配関数A (θ)はキュムラント⺟関数とも呼ばれ 級数展開した時の各項の係数をキュムラントと呼ぶ ▶ キュムラント⺟関数やキュムラントは指数型以外の 分布にもあります (別の定義を使う) ▶ A (θ) を使って ϕ (x) の平均や分散などが計算できる ▶ dA dθ = E [ϕ (x)] , d2A dθ2 = var [ϕ (x)] , ... ▶ 2A (θ) = cov [ϕ (x)] ▶ 共分散⾏列は正定値 ⇒ A (θ) は凸関数 15 / 56
  • 18. Generalized linear models and the exponential family The exponential family ベルヌーイ分布 Ber (x|µ) = µx (1 − µ)1−x = (1 − µ) exp [ x log ( µ 1 − µ )] = exp [ ϕ (x) θ − ln(1 + eθ ) ] A (θ) = ln(1 + eθ ) dA dθ = eθ 1 + eθ = 1 1 + e−θ = sigm (θ) = µ = E [x] = E [ϕ (x)] d2 A dθ2 = ( 略 ) = (1 − µ) µ = Var [x] = Var [ϕ (x)] 16 / 56
  • 19. Generalized linear models and the exponential family The exponential family 指数型分布族に対する最尤推定 ▶ 指数型分布族のモデルにおいてサンプル D = (x1, . . . , xN) に対するパラメータ θ の最尤推定量 argmax θ p (D|θ) は次式を満たす θ になる ( dA dθ = ) E [ϕ (x)] = 1 N N∑ i=1 ϕ (xi) これを moment matching と呼ぶ 17 / 56
  • 20. Generalized linear models and the exponential family The exponential family ▶ 指数型分布族のモデルの尤度は次のようにかける (η (θ) = θ なら g (θ) = 1/Z (θ) とすればよい) p (D|θ) = [ N∏ i=1 h (xi) ] g (θ)N exp ( η (θ)T [ N∑ i=1 ϕ (xi) ]) ▶ ⼗分統計量 ϕ (D) = [ N∑ i=1 ϕ1 (xi) , . . . , N∑ i=1 ϕK (xi) ] ▶ (適当な正則条件の下で) 有限個の⼗分統計量を持つ 分布は指数型分布族だけである (Pitman-Koopman-Darmois theorem) ▶ 正則条件を満たさないときは成り⽴たない (例: ⼀様分布) 18 / 56
  • 21. Generalized linear models and the exponential family The exponential family 指数型分布族に対するベイズ法 ▶ 共役事前分布は有限個の⼗分統計量が存在するとき にのみ存在 ▶ 指数型分布族のモデルの尤度 p (D|θ) ∝ g (θ)N exp ( η (θ)T sN ) ただしsN = ∑N i=1 s (xi) ▶ θ の共役事前分布は p (θ|ν0, τ0) ∝ g (θ)ν0 exp ( η (θ)T τ0 ) ▶ θ の事後分布は (上の2式の積だから) p (θ|D) = p (θ|νN, τN) = p (θ|ν0 + N, τ0 + sN) ∝ g (θ)ν0+N0 exp ( η (θ)T (τ0 + sN) ) 19 / 56
  • 22. Generalized linear models and the exponential family The exponential family 事後予測分布 ▶ D = (x1, . . . , xN) が観測された下での D′ = (˜x1, . . . , ˜xN′ ) の事後予測分布は p (D′ |D) = ˆ p (D′ |θ) p (θ|D) dθ = [ N′ ∏ i=1 h (˜xi) ] Z ( ˜τ0 + ˜s (D) + ˜s (D′ )) Z ( ˜τ0 + ˜s (D)) ▶ ˜τ0 = (ν0, τ0) , ˜s (D) = (N, s (D)) , ˜s (D′) = (N′, s (D′)) ▶ Z: p (θ|˜τ) の正規化定数 (Z (˜τ) = ´ g (θ)ν exp ( η (θ)T τ ) dθ ) 20 / 56
  • 23. Generalized linear models and the exponential family The exponential family 最⼤エントロピー原理による導出 ▶ 分布 p (x) が関数 fk と定数 Fk (k = 1, . . .) に対して 以下の制約を満たすとする ∑ x fk (x) p (x) = Fk ▶ 上の制約の下で分布のモーメントと経験分布のモー メントが⼀致する分布の中で最もエントロピーが⼤ きい (⼀様分布に近い) 分布は定数 λk を使って p (x) = 1 Z exp ( − ∑ k λkfk (x) ) と指数型分布族の形でかける ▶ p (x) はギブス分布として知られている ▶ (平衡状態において系のエネルギーが従う分布) 21 / 56
  • 24. Generalized linear models and the exponential family Generalized linear models (GLMs) Subsection 3 Generalized linear models (GLMs) 22 / 56
  • 25. Generalized linear models and the exponential family Generalized linear models (GLMs) ⼀般化線形モデル ⼀般化線形モデル (generalized linear model; GLM) 出⼒の分布が指数型分布族であり、分布の平均が⼊⼒の 線形結合 (またはその⾮線形な変換) で表されるモデル ▶ 線形回帰やロジスティック回帰を⼀般化したモデル ▶ 出⼒の分布と⼊⼒と出⼒の関係に関してより柔軟な モデルが作れる 23 / 56
  • 26. Generalized linear models and the exponential family Generalized linear models (GLMs) 出⼒の分布 ▶ ⼊⼒を持たず1変数の出⼒ yi を持つ簡単なモデル p ( yi|θ, σ2 ) = exp [ yiθ − A (θ) σ2 + c ( yi, σ2 ) ] ▶ σ2: dispersion parameter ▶ θ: ⾃然パラメータ ▶ A: 分配関数 ▶ c: 正規化係数 ▶ 指数型分布族ではある可逆な関数 ψ によって平均 µ と⾃然パラメータ θ が θ = ψ (µ) と書き表せる ▶ ⼀般に µ = ψ−1 (θ) = A′ (θ) 24 / 56
  • 27. Generalized linear models and the exponential family Generalized linear models (GLMs) リンク関数 (link function) ▶ ⼊⼒の線形結合 ηi に関する可逆で単調な関数により 出⼒ yi の (⼊⼒が xi の条件付き) 分布の平均を表す µi = g−1 (ηi) = g−1 ( wT xi ) この g−1 を mean function と呼び g をリンク関数 (link function) と呼ぶ ▶ 要するに出⼒の平均と⼊⼒との関係を表す関数 ▶ 可逆かつ適当な定義域をもつ任意の関数が使える ▶ 特に g = ψ のとき正準リンク関数 (canonical link function) と呼ぶ 25 / 56
  • 28. Generalized linear models and the exponential family Generalized linear models (GLMs) 正準リンク関数を使ったGLM ▶ さっきのモデルに⼊⼒を追加 p ( yi|xi, w, σ2 ) = exp [ yiwT x − A ( wT x ) σ2 + c ( yi, σ2 ) ] 出⼒の分布と対応する正準リンク関数の例 y の分布 y の範囲 リンク g (µ) θ = ψ (µ) µ = ψ−1 (θ) = E [y] N ( µ, σ2 ) (−∞, ∞) identity θ = µ µ = θ Bin (N, µ) 0, . . . , N logit θ = log ( µ 1−µ ) µ = sigm (θ) Poi (µ) 0, 1, 2, . . . log θ = log µ µ = eθ 26 / 56
  • 29. Generalized linear models and the exponential family Generalized linear models (GLMs) 線形回帰 出⼒が正規分布でリンク関数が恒等変換 log p ( yi|xi, w, σ2 ) = yiµi − µ2 i 2 σ2 − 1 2 ( y2 i σ2 + log ( 2πσ2 ) ) ▶ yi ∈ R ▶ θi = µi = wT xi ▶ A (θ) = θ2 /2, E [yi] = µi, Var [yi] = σ2 27 / 56
  • 30. Generalized linear models and the exponential family Generalized linear models (GLMs) ⼆項回帰 (binomial regression) 出⼒が⼆項分布でリンク関数がロジット関数 log p (yi|xi, w) = yi log ( πi 1 − πi ) + Ni log (1 − πi) + log ( Ni yi ) ▶ yi ∈ {0, 1, . . . , Ni} ▶ πi = sigm ( wT xi ) , θi = log (πi/ (1 − πi)) = wT xi, σ2 = 1 ▶ A (θ) = Ni log ( 1 + eθ ) , E [yi] = Niπi, Var [yi] = Niπi (1 − πi) 28 / 56
  • 31. Generalized linear models and the exponential family Generalized linear models (GLMs) ポアソン回帰 (poisson regression) 出⼒がポアソン分布でリンク関数が対数関数 log p (yi|xi, w) = yi log (µi) + µi + log (yi!) ▶ yi ∈ {0, 1, 2, . . .} ▶ µi = exp ( wT x ) , θi = log (µi) = wT xi, σ2 = 1 ▶ A (θ) = eθ , E [yi] = Var [yi] = µi 29 / 56
  • 32. Generalized linear models and the exponential family Generalized linear models (GLMs) 最尤推定とMAP推定 ▶ ロジスティック回帰 (8章) と同様に w を最適化 ▶ 対数尤度 ℓ (w) = log p (D|w) = 1 σ2 N∑ i=1 ℓi ℓi ≜ θiyi − A (θi) ▶ 勾配 dℓi dwj = (yi − µi) dθi dµi dµi dηi xij ▶ 特に正準なリンク関数を使うとき wℓ (w) = 1 σ2 [ N∑ i=1 (yi − µi) xi ] ▶ 2次の勾配法でより効率的に計算できる ▶ MAP推定もロジスティック回帰と同様に 30 / 56
  • 33. Generalized linear models and the exponential family Generalized linear models (GLMs) ベイズ推定 ▶ w の事後分布を求める ▶ MCMC (24章) ▶ メトロポリス法, ギブスサンプリング,... ▶ ガウス近似や変分法 31 / 56
  • 34. Generalized linear models and the exponential family Probit regression Subsection 4 Probit regression 32 / 56
  • 35. Generalized linear models and the exponential family Probit regression プロビット回帰 ▶ 出⼒の分布がベルヌーイ/⼆項分布のときリンク関数 としてプロビット関数 (正規分布の累積分布関数の 逆関数) を使う⽅法 −6 −4 −2 0 2 4 6 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 sigmoid probit 33 / 56
  • 36. Generalized linear models and the exponential family Probit regression プロビット回帰の利点 ▶ 最適化が簡単になる (?) ▶ 潜在変数によるモデルの解釈ができる (random utility model; RUM) ▶ 出⼒が順序つきの離散値であるモデルへの拡張 (ordinal regression) ▶ 出⼒が多クラスのモデルへの拡張 (multinomial probit) 34 / 56
  • 37. Generalized linear models and the exponential family Multi-task learning Subsection 5 Multi-task learning 35 / 56
  • 38. Generalized linear models and the exponential family Multi-task learning マルチタスク学習 (multi-task learning) ▶ 関係のある複数の分類や回帰モデルを学習したい時 それらのタスクが似ていると仮定することによって 同時に学習を⾏い性能を向上させる⼿法 36 / 56
  • 39. Generalized linear models and the exponential family Multi-task learning 階層ベイズによるマルチタスク学習 ▶ 階層ベイズ (→5章) で複数のグループを同時に扱う ▶ 例: J 校の学校にそれぞれ Nj ⼈の⽣徒がおり yij を j 番⽬ (j = 1, . . . , J) の学校の i 番⽬ ( i = 1, . . . , Nj ) の ⽣徒の試験の成績とする ▶ xij を yij に対応する特徴としたときに各グループに 対してそれぞれモデル p (yij|xij) を学習するのが⽬的 ▶ しかし、⼀部のグループは⼤量のデータを持つ⼀⽅ 多くのグループには少量のデータしかない 37 / 56
  • 40. Generalized linear models and the exponential family Multi-task learning ▶ 出⼒の条件付き分布の平均をリンク関数 g で表して 各グループを特徴付けるパラメータ βj が共通の分布 に従うと仮定 E [yij|xij] = g−1 ( xT ijβj ) βj ∼ N ( β∗, σ2 j ) β∗ ∼ N ( µ, σ2 ∗ ) ▶ 共通のパラメータ β∗ を通して各 βj が相関するため サンプルが少数のグループでもうまく学習できる (5.5節参照) 38 / 56
  • 41. Generalized linear models and the exponential family Multi-task learning マルチタスク学習の応⽤例 ▶ Personalized spam filter ▶ メールがスパムかどうかをユーザー毎に予測 E [yi|xi, u = j] = ( βT ∗ + wj )T xi ▶ β∗: 全ユーザーのメールから推定されるパラメータ ▶ wj: ユーザーj のメールから推定されるパラメータ ▶ Domain adaptation (ドメイン適応) ▶ 異なる分布で表されるデータ上での分類器の集合を 学習する問題 39 / 56
  • 42. Generalized linear models and the exponential family Multi-task learning ▶ ⾃然⾔語処理におけるドメイン適応の例 ▶ 固有表現認識 (named entity recognition) ▶ 構⽂解析 という2つのタスクに階層ベイズモデルを適⽤ Finkel, Jenny Rose, and Christopher D. Manning. ”Hierarchical bayesian domain adaptation.” Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2009. 40 / 56
  • 43. Generalized linear models and the exponential family Multi-task learning 事前分布の種類 ▶ マルチタスク学習では事前分布としてガウス分布を 仮定することが多い ▶ 他の事前分布がよいこともある ▶ sparsity-promoting prior ▶ Conjoint analysis (マーケティングにおいて商品の どの要素が最も客に好まれるかの分析) で使われる ▶ 混合ガウス分布 ▶ 全てのタスクが同様に似ていると仮定できないとき 41 / 56
  • 44. Generalized linear models and the exponential family Generalized linear mixed models Subsection 6 Generalized linear mixed models 42 / 56
  • 45. Generalized linear models and the exponential family Generalized linear mixed models ⼀般化線形混合モデル ▶ マルチタスク学習のモデルを⼀般化 E [ yij|xij, xj ] = g ( ϕ1 ( xij )T βj + ϕ2 ( xj )T β′ j + ϕ3 ( xij ) α + ϕ4 ( xj ) α′ ) ▶ xj: 各グループを表す特徴 ▶ βj, β′ j: 各グループごとのパラメータ ▶ α, α′ : 全グループ共通のパラメータ ▶ ϕk: 基底関数 xj xij yij Nj βj J µβ σ2 β αµα σ2 α σ2 y 43 / 56
  • 46. Generalized linear models and the exponential family Generalized linear mixed models ⼀般化線形混合モデル ▶ マルチタスク学習のモデルを⼀般化 E [ yij|xij, xj ] = g ( ϕ1 ( xij )T βj + ϕ2 ( xj )T β′ j + ϕ3 ( xij ) α + ϕ4 ( xj ) α′ ) ▶ xj: 各グループを表す特徴 ▶ βj, β′ j: 各グループごとのパラメータ ▶ α, α′ : 全グループ共通のパラメータ ▶ ϕk: 基底関数 ▶ 頻度主義統計では βj を変量効果 (random effects) α を固定効果 (fixed effects) と呼んで概念上区別し これらを含んだモデルを混合モデル (mixed model) と呼ぶ ▶ p (y|x) がGLMのとき⼀般化線形 (混合) 効果モデル (generalized linear mixed effects model; GLMM, GLME) と呼ぶ 43 / 56
  • 47. Generalized linear models and the exponential family Generalized linear mixed models 例: 医療データ ▶ ⾻に含まれるミネラルの密度について 1. ⼈種間での違いがあるかどうか解明 2. 年齢による説明 を⾏いたい ▶ 使うデータ ▶ yij: j 番の⼈の i 回⽬に測った⾻ミネラル濃度 ▶ xij: j 番の⼈の i 回⽬に測った年齢 ▶ xj: j 番の⼈の⼈種 (White, Asian, Black, Hispanic) 44 / 56
  • 48. Generalized linear models and the exponential family Generalized linear mixed models ▶ 線形回帰とノンパラメトリック回帰を組み合わせた セミパラメトリックモデル (semi-parametric model) を使う ▶ ⾻ミネラル濃度の年齢に関する⾮線形性を表すため ▶ さらに個⼈差を変量効果とみなし混合モデルで表す ▶ ϕ1 ( xij ) = 1,ϕ2 ( xj ) = 0 ▶ ϕ3 ( xij ) = b ( xij ) = [ bk ( xij )] (ノンパラ担当) ▶ bk: k 次スプライン基底関数 ▶ ϕ4 ( xj ) = [ I ( xj = White ) , . . . , I ( xj = Hispanic )] ▶ 出⼒を正規分布、リンク関数を線形関数とすれば 最終的なモデルは yij =βj + αT b (xij) + ϵij + α′ wI (xj = W) + · · · + α′ hI (xj = H) (教科書から微修正) ▶ ϵij ∼ N ( 0, σ2 y ) 45 / 56
  • 49. Generalized linear models and the exponential family Generalized linear mixed models 22 M. P. WAND age in years spinalbonemineraldensity(g/cm2 ) 0.6 0.8 1.0 1.2 1.4 10 15 20 25 Asian Black Hispanic 10 15 20 25 0.6 0.8 1.0 1.2 1.4 White Figure 9. MCMC-based estimate of the non-linear age effect in the spinal bone mineral density example. The dashed lines correspond to pointwise 95% credible sets. for the spinal bone mineral density example. The main difference is that y is now a binary rather than a Gaussian node. Wand, M. P. ”Semiparametric regression and graphical models.” Australian & New Zealand Journal of Statistics 51.1 (2009): 9-41. 46 / 56
  • 50. Generalized linear models and the exponential family Learning to rank Subsection 7 Learning to rank 47 / 56
  • 51. Generalized linear models and the exponential family Learning to rank ランキング学習 (Learning to rank; LETOR) ▶ 項⽬をランク付けする関数を学習する問題 ▶ GLMとは特に関係ないけど他に適当な場所がないのでここで紹介 ▶ 代表的な応⽤は情報検索 ▶ クエリqとそれに関連するかもしれないドキュメント d1 , . . . , dm を考える ▶ 例: q という⽂字列を含む全てのドキュメント ▶ q との適合性の⾼い順に d1 , . . . , dm をソートして 上位 k 項をユーザーに⽰したい 48 / 56
  • 52. Generalized linear models and the exponential family Learning to rank 適合性 (relevance) の評価 ▶ Bag of words にもとづく確率的⾔語モデルにより 適合性を評価する例 sim (q, d) ≜ p (q|d) = n∏ i=1 p (qi|d) ▶ qi: q の i 番⽬の単語または項 (i = 1, . . . , n) ▶ p (qi|d): d に出現する単語の頻度から推定される マルチヌーイ分布 ▶ 頻度だけでなく PageRank のような他のシグナルも 組み合わせて適合性を評価したい PageRank webのリンク構造から導出されるwebページ の信頼性の指標 49 / 56
  • 53. Generalized linear models and the exponential family Learning to rank The pointwise approach ▶ クエリとドキュメントの組み合わせによって決まる 特徴量 x (q, d) に対して ▶ 適合する/しないの2値分類 または ▶ 数段階の適合性に順序回帰 を⾏って事後確率 p (y = 1 or r|x (q, d)) でソート ▶ 特徴量には例えば query-document similarity score や page rank score が含まれる ▶ 教師データのラベルはクエリのログでドキュメント が⼀定回数以上クリックされたかどうかで与える ▶ ドキュメントのリスト上での位置を考慮しないため リストの最下位と最上位での誤差を全く同じように 罰してしまう (??) 50 / 56
  • 54. Generalized linear models and the exponential family Learning to rank The pairwise approach ▶ 適合性を各ドキュメントに対する絶対評価ではなく ドキュメント間の相対評価で決める ▶ ラベル yjk を、ドキュメント dj が dk より適合して いれば 1 、そうでなければ 0 とする ▶ シグモイド関数を使えば p ( yjk = 1|xj, xk ) = sigm (f (xj) − f (xk)) ▶ f (x): スコア関数 ▶ f (x) = wT x とすればこのモデルは RankNet として 知られるニューラルネットワークの⼀種になる 51 / 56
  • 55. Generalized linear models and the exponential family Learning to rank The listwise approach ▶ 全ドキュメントのリストを直接モデル化 ▶ 順序を Plackett-Luce distribution でモデリング Plackett-Luce distribution 下式で表されるリストの並び替え π : j → π (j) の分布 p (π|s) = m∏ j=1 sj ∑m u=j su ▶ sj = s (π−1 (j)): π によって j 番⽬にランクされた ドキュメントのスコア ▶ ドキュメントの上位への出現しやすさを表している 52 / 56
  • 56. Generalized linear models and the exponential family Learning to rank Plackett-Luce distribution の例 ▶ ランキング π = (A, B, C) の確率 p (π) は p (π|s) = sA sA + sB + sC × sB sB + sC × sC sC ▶ sA sA+sB+sC : A が1番⽬にランクされる確率 ▶ sB sB+sC : A が1番⽬にランクされたときに、 B が2番⽬にランクされる確率 ▶ sC sC : A, B が1,2番⽬にランクされたときに、 C が3番⽬にランクされる確率 53 / 56
  • 57. Generalized linear models and the exponential family Learning to rank ▶ クエリ q に対する各ドキュメントのスコアを s (d) = f (x (q, d)) とすればクエリが与えられたとき のランクの分布が決められる ▶ f (x) = wT x がよく使われ ListNet と呼ばれる 54 / 56
  • 58. Generalized linear models and the exponential family Learning to rank ランキングに対する損失関数 Mean reciprocal rank (MRR) クエリ q に1番適合する ドキュメントの順位 r (q) の逆数 1/r (q) Mean average precision (MAP) precision at k (P@k) の適合するドキュメント (の順位の) 全体に ついての平均 (1に近いほど良い) P@k (π) ≜ πの上位k件中の適合するドキュメントの数 k Normalized discounted cumulative gain (NDGG)   適合性が数段階に表されているときに使う Rank correlation 基準となるランキングとの相関を使う (普通の意味での相関とは違い種類も様々) 55 / 56
  • 59. Generalized linear models and the exponential family Learning to rank ▶ 損失関数はベイズか頻度かで使い⽅が変わる ▶ ベイズ的アプローチではパラメータの事後分布から のサンプリングや平均によって期待損失を計算 ▶ 頻度的アプローチでは損失を直接最⼩化 ▶ 関数が微分可能ではないため最⼩化には勾配を使わ ない最適化か計算しやすい代理の損失関数を使う ▶ 例えば precision@k (P@k) の近似として wieghted approximate-rank pairwise (WARP) がある 56 / 56