SlideShare une entreprise Scribd logo
1  sur  29
4.1.3.-4.1.4
分類における最小二乗
フィッシャーの線形判別


               @ry_okun
目的
  分類問題を最小二乗法を用いて解く
分布に正規分布を仮定したときの、目的変数値
        E[t|x]
の条件付き期待値    を近似するから    


1-of-K符号化法をとる.
例えばクラス4であるとすると

                             T
   t = (0   0   0   1   0)
いつもと同じく、目的変数ベクトルとの
二乗誤差関数を考える

各クラス毎に
線形モデルは以下のように表される
              T
  yk (x) =   wk x   + wk0
                      k = 1, 2, . . . , K
以下のようにまとめる

             ˜ Tx
      y(x) = W ˜
学習データ {xn , tn } (n = 1, 2, . . . , N )
が得られたとすると

二乗和誤差関数は以下で与えられる


        1        n                             o
    ˜        ˜ ˜
ED (W) = Tr (XW               T˜ ˜
                           T) (XW         T)
        2
ここでなぜかトレースが出てくる


               X
    (AB)ij =            aik bkj
                k
                X
      T
    (A A)ij =            aki akj
                    k

この表記で考えるいろいろとてもわかりやすいと
思う
X
               T
      Tr(A A) =                aku aku
                         k,u
                         X
                                2
                     =         aku
                         k,u
二乗のトレースをとると全ての要素の二乗和の
足し合わせが得られる
           X
 ˜ ˜
(XW)ij =       xik wkj
               ˜ ˜
           k
 i番目のデータのj番目のクラスでの出力
         1  n               o
      ˜ = Tr (XW T)T (XW T)
  ED (W)      ˜ ˜     ˜ ˜
         2
       誤差の各要素の二乗和
˜
  W       による微分計算
 n                    o    Xn                   o2
    ˜ ˜
Tr (XW      T ˜ ˜
          T) (XW    T) =           ˜ ˜
                                 ( XW    T)st
                           s,t

であるので

   @            1 @   Xn                 o2
           ˜
       ED (W) =             ˜ ˜
                           (XW T)st
  @wij          2 @wij s,t
                X               @ ˜ ˜
              =       ˜ ˜
                     (XW T)st      ( XW         T)st
                 s,t
                              @wij

                    全体の微分         中身の微分
X                      @ ˜ ˜
=           ˜ ˜
          ( XW       T)st      (XW T)st
                          @wij
    s,t
    X                           Xtは後から消えるので省く
            ˜ ˜            @
=         ( XW       T)st     (   xsu wut )
                                  ˜ ˜
    s,t
                          @wij u
    X
=             ˜ ˜
            ( XW     T)st xsu
                          ˜     iu jt
                                        この書き方もおすすめ
    s,t,u
    X
=           ˜ ˜
          ( XW      T)sj xsi
                         ˜
     s
    X
=          ˜       ˜ ˜
          (XT )is (XW      T)sj
     s
    ˜ T )(XW
= ((X     ˜ ˜           T))ij
@       ˜      ˜    ˜ ˜
        ED (W) = ((XT )(XW    T))ij
   @wij

    @      ˜      ˜    ˜ ˜
       ED (W) = ((XT )(XW     T))
   @W˜

よりいつもの疑似逆行列による以下の解が得られる
    ˜ = (XT X)
    W    ˜ ˜      1   ˜ TT
                      X
演習4.2
                       T
目的変数ベクトルがある定数       a ,b
に対して以下の線形制約
      T
     a tn + b = 0

を満たすときモデル予測も以下を満たすことを
示せ
       T
      a y(x) + b = 0
1           T                     T          T
    ED (W) = Tr (XW + 1w0                 T) (XW +     1w0        T)
            2

0                         1
 x11    x12    ..   x1D
@ :      :     :     : A w1         w2   ..   wK
 xN 1   xN 2   ..   xN D

                                              0                        1
    0 1                                        t11    t12    ..   t1K
     1                                        @ :      :     :      : A
    B1C
    B C    w01      w02       ..   w0K         tN 1   tN 2   ..   tN K
    @:A
     1
w0 に関して微分すると
       右辺は全要素の二乗和の足し合わせだった
       ことを利用して
                         (                              )
      @            @          1X
         ED (W) =                   (XW + 1wT
                                            0    T)2
                                                   st
     @w0          @w0         2 s,t


  @ED (W)      X                          @
(         )i =     (XW + 1wT
                           0        T)st      (XW + 1wT
                                                      0     T)st
    @w0        s,t
                                         @w0i
  (1wT )st = 1s w0t = 1s w0t より右辺は
     0
                 T


               X
                                T
                      (XW +   1w0    T)st   it
                s,t
X
                T
      (XW +   1w0       T)st   it
s,t
    X
                    T
=         (XW +   1w0     T)si
      s




      (                 )           T
                                        i
                                            (   )
              i

                    T               T
= ((XW +          1w0          T) 1)i
@
       ED (W) = (XW + 1wT
                        0   T)T 1
   @w0

  =0として解くと

          1  T          T   T
      w0 = (T        W X )1
          N

     1 T
   ¯= T 1                 1 T
   t                    x= X 1
                        ¯
     N                    N
とすると
(それぞれ各クラス得点、入力値のN回の平均ベ
クトルである)
w0 = ¯
                  t    w x
                         ¯ T

   となり、バイアスベクトルは平均値のずれを
   吸収するように決定されることが分かる

   これを最初の二乗和誤差関数に代入
        1         ¯   ¯              ¯   ¯
ED (W) = Tr (XW + T   XW   T)T (XW + T   XW   T)
        2
               ˆ =T
               T           ¯
                           T
               ˆ
               X=X         ¯
                           X
      とおくと最初と同じ形式になる   ˆ +T
                     W=X ˆ
⇤            T ⇤
     y(x ) = W x + w0
                   T ⇤
              = W x +¯
                     t               ¯
                                   W x  T


              =t ˆ x
               ¯ + TT (ˆ+ )T (x⇤            x)
                                            ¯

 T    ⇤       T¯       T ˆT       + T   ⇤
a y(x ) = a t + a T (ˆ ) (x
                     x                      x)
                                            ¯
           b      ˆ       ¯
                         T=T            T

                   b     b   ..    b
0 1
    1
   B1C
 a=B C
   @:A   b=1
    1


とするとyの要素の和も1になることが示せる

負になったりするので確率になる保証はない
・t分布との比較でも出てきたが、はずれ値に
 敏感で引っ張られてしまうという欠点がある
 →図4.4

・クラス分類問題の分布は明らかにガウス分布
 とは異なるのでうまく使えない
 (最小二乗法はパラメータの条件付き確率分
 布に正規分布を仮定した方法であった)
フィッシャーの線形判別
線形識別モデルを次元削減とみることも出来る
                     T
 うまくクラス分類できる y = w       x
 のパラメータw を見つけよう
m1
                       平均の分離度が最大に
             m2
                       なるようにしてみる
                            T
                        w (m2        m2 )

演習4.4ラグランジュの未定乗数法より
     T                  T
 L = w (m2    m2 ) + (w w       1)
 w で微分して
               1
     w=          (m2    m2 )
              2
m1
                       平均の分離度が最大に
             m2
                       なるようにしてみる
                            T
                        w (m2        m2 )

演習4.4ラグランジュの未定乗数法より
     T                  T
 L = w (m2    m2 ) + (w w       1)
 w で微分して
               1
     w=          (m2    m2 )
              2
クラス間分離度だけを見ても良い結果が
得られない可能性がある




 射影した後のクラス内分散も考えることにする
射影した時のクラスkのクラス内分散は
                X
        2                           2
       sk   =          (yn   mk )
                n2Ck    クラスkに含まれるデータ平均
                    X
              2
             sk
   総クラス内分散    と定義    
                     
           k
                2                            2
今回はとりあえず2クラスより s1                       +   s2
フィッシャーの判別基準は以下で定義

                        2
        (m2 m1 )             クラス間分散
 J(W) =    2 + s2
          s1    2            クラス内分散
ここで、この式をパラメータ行列を使って書き
 換えてみる(言ってることは全く同じ)

                                                     T
          SB = (m2            m1 )(m2         m1 )
              クラス間共分散行列と呼ぶ
       X                               X
                                 T                                    T
SW =          (xn   m1 )(xn   m1 ) +          (xn    m2 )(xn   m2 )
       n2C1                            n2C2

              総クラス内共分散行列と呼ぶ

 という2つの共分散行列を定義すると
T        T                       T
w SB w = w (m2       m1 )(m2   m1 ) w
                        2
      = (m2      m1 )
      T        T
     w m1 =   m1 w   = m1 だから
X                                              X
SW =          (xn       m1 )(xn          m1 ) T +           (xn     m2 )(xn    m2 ) T
       n2C1                                          n2C2

                          X
   T                            w (xnT
                                                 m1 )(xn             T
                                                                  m1 ) w    +...
 w SW w =
                         n2C1
                         X
                                     T                        T                T
                    =           w (xn                m1 )(w (xn            m1 )) +...
                        n2C1
                        X
                                                 2
                    =          (yn        m1 )       +...
                        n2C1

                                                              となる
0                    0
    d f (x)   f (x) g(x) f (x)g (x)
            =               2
   dx g(x)             g(x)
                                                 を用いて
 @
   J(W) を解くと
@w
      T                     T
    (w SB w)SW w = (w SW w)SB w
                                X
     = (m2   m1 )   2       =          (yn       m1 )2 +...
                                n2C1


この2つはスカラーなのでとりあえず無視する

          SW w / SB w
SW w / SB w
                              T
    SB w = (m2   m1 )(m2   m1 ) w
        / (m2    m1 )


   よって以下が得られる
             1
      w/   SW (m2   m1 )


クラス内共分散が等方的ならクラス平均の差に比例
射影方向が決定したら




              クラスの条件付き確率密度
    データ数   p(y|Ck ) をモデル化できる




                 y
例えばデータから最尤法を用いてパラメータ決定

Contenu connexe

Tendances

PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28
kurotaki_weblab
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 

Tendances (20)

PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
Prml 2.3
Prml 2.3Prml 2.3
Prml 2.3
 
PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28
 
MCMC法
MCMC法MCMC法
MCMC法
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8
 
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう 「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
 
Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論
 
クラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシンクラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシン
 
PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2
 
PRML 2.4
PRML 2.4PRML 2.4
PRML 2.4
 
PRML 2.3 ガウス分布
PRML 2.3 ガウス分布PRML 2.3 ガウス分布
PRML 2.3 ガウス分布
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
PRML8章
PRML8章PRML8章
PRML8章
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 

Similaire à prml4.1.3-4.1.4

パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
Miyoshi Yuya
 
ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3
noname409
 

Similaire à prml4.1.3-4.1.4 (20)

Re revenge chap03-1
Re revenge chap03-1Re revenge chap03-1
Re revenge chap03-1
 
線形識別モデル
線形識別モデル線形識別モデル
線形識別モデル
 
linhyp.pdf
linhyp.pdflinhyp.pdf
linhyp.pdf
 
Graph cut5.1 5.2_takmin
Graph cut5.1 5.2_takminGraph cut5.1 5.2_takmin
Graph cut5.1 5.2_takmin
 
ndwave4.pdf
ndwave4.pdfndwave4.pdf
ndwave4.pdf
 
Prml 4.1.1
Prml 4.1.1Prml 4.1.1
Prml 4.1.1
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
 
統計概論 isseing333
統計概論 isseing333統計概論 isseing333
統計概論 isseing333
 
2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第7回 2階線形微分方程式(1) (2014. 11. 6)
2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第7回 2階線形微分方程式(1) (2014. 11. 6)2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第7回 2階線形微分方程式(1) (2014. 11. 6)
2014年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 / 第7回 2階線形微分方程式(1) (2014. 11. 6)
 
2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10)
2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10) 2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10)
2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10)
 
Introduction to the particle filter
Introduction to the particle filterIntroduction to the particle filter
Introduction to the particle filter
 
2015年度秋学期 応用数学(解析) 第5回 微分方程式とは・変数分離形 (2015. 10. 29)
2015年度秋学期 応用数学(解析) 第5回 微分方程式とは・変数分離形 (2015. 10. 29) 2015年度秋学期 応用数学(解析) 第5回 微分方程式とは・変数分離形 (2015. 10. 29)
2015年度秋学期 応用数学(解析) 第5回 微分方程式とは・変数分離形 (2015. 10. 29)
 
分布 isseing333
分布 isseing333分布 isseing333
分布 isseing333
 
ndwave5.pdf
ndwave5.pdfndwave5.pdf
ndwave5.pdf
 
Prml07
Prml07Prml07
Prml07
 
PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現
 
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM) コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
 
ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3
 
2015年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2015. 11. 5)
2015年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2015. 11. 5)2015年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2015. 11. 5)
2015年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2015. 11. 5)
 
Linera lgebra
Linera lgebraLinera lgebra
Linera lgebra
 

prml4.1.3-4.1.4

Notes de l'éditeur

  1. \n
  2. \n
  3. \n
  4. \n
  5. \n
  6. \n
  7. \n
  8. \n
  9. \n
  10. \n
  11. \n
  12. \n
  13. \n
  14. \n
  15. \n
  16. \n
  17. \n
  18. \n
  19. \n
  20. \n
  21. \n
  22. \n
  23. \n
  24. \n
  25. \n
  26. \n
  27. \n
  28. \n
  29. \n