PRML14.3 Boosting

PRML#17 (最終回)
14.3 ブースティング

2010-09-11
YOSHIHIKO SUHARA
id:sleepy_yoshi
@sleepy_yoshi

目次
• 14.3 ブースティング
– 指数誤差の最小化
– ブースティングのための誤差関数

1

本節の概要
• ブースティング
– AdaBoostアルゴリズム

• 指数誤差最小化の導出

• 指数誤差最小化の意味

2

14.3
ブースティング

3

ブースティング
• 複数の「ベース」分類器を統合する手法
– 弱学習機 (weak learner) とも呼ばれる

• 様々な手法が提案されている
– 本節では最も有名なAdaBoostを紹介

• ベース分類器を逐次的に学習
– バギングでは独立した訓練データからモデルを学習
– 並列化が困難 

4

AdaBoostのイメージ
試行回数訓練データ
ベース分類器

１ × y1

y1が苦手とする事例を
重み付き訓練データ適切に分類

２ × ×
y2

ベース分類器を
重み付け和
…
…
…

重み付き訓練データ

M yM 分類器
5

Algorithm: AdaBooost
(1)
1. n=1,…,Nのデータの重み {wn} を �� = 1/�� で初期化
2. m=1,…,Mについて以下を繰り返す:
(a) 分類器 �� を，以下の誤差関数を最小化するように学習
��
��
�� = �� (�� (�� ) ≠ �� ) (14.15)
��=1

(b) �� の値を計算し，�� を求める
��
��=1 �� (�� (�� ) ≠ �� ) 1 − ��
�� = (��)
(14.16) �� = ln (14.17)
��
��=1 ��

(c) データ点の重みを以下の式で更新
(��+1) (��)
�� = �� exp*�� (�� (�� ) ≠ �� )+ (14.18)

3. 以下の式で最終モデルの予測を構成
��

�� = sign �� (��) (14.19) 6
��=1

決定株 (decision stump)
• ベース分類器の訓練に利用
• ひとつの素性でクラスを決定するような分類器
– 重み付き誤差を最小にするような株を選ぶ

-1 +1

x1

8

補足: 事例の重みを利用できない場合
• Q. 重み付き訓練データを利用できない学習アル
ゴリズムを用いてベース分類器を生成する方法
は?

• A. 事例の重みに基づいて復元抽出することによ
り，ベース分類器の訓練データを作成する

なかなか記述を見つけられない…
9
[Hastie 02]に記述があった記憶が…

※ 非線形な分離平面を構築 10

14.3.1
指数誤差の最小化

11

指数誤差の最小化
• 指数誤差関数
��

�� = exp⁡ −�� (�� )+
* (14.20)
��=1

• fmはベース分類器の線形結合で表現

��
1
�� = �� (��) (14.21)
2
��=1

重み係数αlとylのパラメータについて
誤差関数を最小化したい 12

最適化の方針 (1/2)
• α1…αm-1とy1…ym-1が固定されていると仮定し，
αm，ymのみについて最小化を行う

��
1
�� = exp −�� −1 �� − �� (�� )
2
��=1

��
(��) 1
= �� exp − �� (�� ) (14.22)
2
��=1

ここで �� = exp −�� −1 ��
(��)

13

最適化の方針 (2/2)
• ym(x)により正しく分類されるデータ点の集合をTmとし，
残りの誤分類される点をMmとする

(��) (��)
�� = �� −�� /2 �� + �� /2 ��
��∈�� ∈��
正解不正解

��
��
− 2 �� − 2 (��)
�� = �� 2 − �� ≠ �� + �� (14.23)
��=1 ��=1
(14.15)

• ym(x)に関する最小化 ⇔ (14.15)の最小化
• αmに関する最小化 (演習14.6)
14

演習14.6
• αmについての最小化を考える ��
�� = 0
– (14.23)をαmについて微分して0とおく ��
��
1 �� 1 −�� 1 −��
�� 2 + �� 2 �� ≠ �� − �� 2 �� =0
2 2 2
��=1 ��=1

��
��
− 2 �� − 2 ��
�� 2 + �� ≠ �� = ��
��=1 ��=1
��
�� − 2
��=1 �� ≠ �� 1
��
= �� = ��
��
��=1 �� 2 + − ��
�� 2 �� + 1
��

1 1 − �� 1 − ��
�� = �� = ∴ �� = ln
�� + 1 ��
15

データ点の重み更新
• (14.22)に基づき，得られたαm，ym(x)を利用してデー
タ点の重みを更新する
(��+1) (��) 1
�� = �� exp − �� (�� ) (14.24)
2
過去のベース分類器の (��)
エラーの情報を保持
参考:⁡�� = exp −�� −1 ��
今までのエラーの蓄積

�� = 1 − 2��(�� (�� ) ≠ �� ) (14.25)

(14.25)を利用すると

(��+1) (��)
�� = �� exp −�� /2 exp*�� (�� (�� ) ≠ �� )+ (14.26)

これより(14.18)を得る 16

データ点の分類
• 全てのベース分類器の訓練が終われば (14.21) の符号
によって分類できる
– 符号に影響を与えない1/2を省略すると(14.19)を得る

��

�� = sign �� (��) (14.19)
��=1

17

14.3.2
ブースティングのための誤差関数

18

指数誤差再考
• AdaBoostで用いられている指数誤差を考える

��,�� exp −�� = exp −�� (14.)
��

• AdaBoostは逐次的な最適化という制約の下，最良の対
数オッズ比の近似を探索する (演習14.7)

1 ��(�� = 1|��)
�� = ln
2 ��(�� = −1|��)

19

演習14.7: 対数オッズ比の導出
• AdaBoostで用いられている指数誤差を考える
– 変分最小化を行う (参考: 付録D)

�� = exp −��
��

= exp −�� = +1 �� + exp �� = −1 ��
��(�� , ��)

��は�� ′ �� に依存していないので�� で微分すればよい ��(�� , ��)
=0
��(��)
−exp −�� = +1 �� + exp �� = −1 �� = 0

exp �� = −1 �� = exp −�� = +1 ��

exp*��(��)+ ��(�� = +1|��) ��(�� = +1|��)
= 2��(��) = ln
exp*−��(��)+ ��(�� = −1|��) ��(�� = −1|��) 20

その他の誤差関数との関係
• 交差エントロピー誤差 (Logistic regression): 赤線
• ヒンジ誤差 (SVM): 青線
• 0-1損失: 黒線

指数誤差の欠点:
ty(x)が負の大きな値を持つ場合に
交差エントロピーに比べて強い
ペナルティを与えてしまう
⇒ 外れ値に対して頑健性が低い

※ AdaBoostは指数誤差を必ず減少させるが、
0-1損失を必ずしも減少させるわけではない

21

指数誤差の欠点
•  外れ値に対して頑健性が低い (再掲)
•  対数尤度関数として解釈できない (演習14.9)
•  多クラスへの問題に容易に一般化できない

22

回帰問題への拡張
• 二乗和誤差関数を利用
– 新しいベース分類器を，それ以前のモデルの残留誤
差 �� − ��−1 (�� ) で適合すればよい (演習14.9)
– 二乗和誤差も外れ値に頑健ではないので絶対値誤差
|�� − ��| を利用することで対処できる

23

演習14.9
• 二乗誤差関数の逐次最小化
��
1 2
1
�� = �� − �� = �� (��) (14.21)
2 2
��=1 ��=1
1
�� = ��−1 �� + �� (��)
(14.21)を用いると 2

�� 2
1 1
�� = �� − ��−1 �� − �� (��)
2 2
��=1
ひとつ前のモデルの残差

誤差Eを�� (��)について最小化
⇒ �� (��)を残差にフィットさせる 24

ブースティングこぼれ話
• さまざまなブースティング手法
– 損失関数の違い (参考資料)

• 並列化しづらい?

• モデルを改造しづらい?

• ブースティング職人?

25

まとめ
• ブースティング
– AdaBoostの概要
– AdaBoostアルゴリズム

• 指数誤差最小化の導出
– 更新式の妥当性

• 指数誤差最小化の意味
– 指数誤差の欠点

26

PRML14.3 Boosting

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Plus de sleepy_yoshi

Plus de sleepy_yoshi (20)

Dernier

Dernier (9)

PRML14.3 Boosting