Contenu connexe
Similaire à 2値分類・多クラス分類 (20)
2値分類・多クラス分類
- 3. Xn
y
X1 X2 X3 X・・・
1
0.5
0
2値分類におけるモデルの入出力のイメージ。
0.5を境にそれ以上は1、以下は0とする。
1
0
イメージ
分布
- 10. p(d|x) = p(d = 1|x)d
p(d = 0|x)1-d
(2.7)
あるデータxが与えられた時、それが正解dである確率(の分布)
*)d=1ではない場合はd=0である。
ベルヌーイ分布f(k;p) = pk
(1-p)1-k
と一致している
式で書く
分布
- 11. ベルヌーイ分布
成功 or 失敗
f(k;p) = pk
(1-p)1-k
ある確率Pで成功する事象が、成功(k=1)または失敗(k=0)する確率の分布。
1回の試行について考えるもの。N回のうちk回成功する確率をnCk pk
(1-p)n-k
とす
る二項分布を導ける。
確率
成功 失敗
p 1-p
分布
- 12. p(d|x) = p(d = 1|x)d
p(d = 0|x)1-d
(2.7)
あるデータxが与えられた時、それが正解d(1または0)である確率
d=1に対応。
あるデータxの正解が d=1のとき、式のこちら側を使う。
あるxを受け取った時、それが正解 d=1である確率の1乗
d=0に対応。
あるデータxの正解が d=0のとき、式のこちら側を使う。
あるxを受け取った時、それが正解 d=0である確率の1-0乗
右辺の片側を使った時、もう片側は xxx の0乗となり、常に1である
右肩のdのイメージは「スイッチ」
分布
- 13. p(d|x) = p(d = 1|x)d
p(d = 0|x)1-d
(2.7)
あるデータxが与えられた時、それが正解d(1または0)である確率
d=1に対応。
あるデータxの正解が d=1のとき、式のこちら側を使う。
あるxを受け取った時、それが正解 d=1である確率の1乗
d=0に対応。
あるデータxの正解が d=0のとき、式のこちら側を使う。
あるxを受け取った時、それが正解 d=0である確率の1-0乗
右辺の片側を使った時、もう片側は xxx の0乗となり、常に1である
この表記方法は、d=1,0両方の場合を考えた事後分布を一つの式で表せる
分布
- 14. N個のデータ全部を正解させたい
・
・
・ ・
・
・
y = dn
xn
W 全部正解になるようなモデルのパラメー
タWを求めたい!一番尤もらしい Wを。
すべての訓練データ{(xn,dn)|n=1,...,N}について、モデルにxnを入力するとき、出力y
はその都度dnと一致してほしい。(つまり、全部正解であってほしい。)
正解を出力してくれるWの、尤もらしさ「尤度」を求める
尤度
- 15. L(w) = Πp(dn
|xn
;w) = Π{y(xn
;w)}dn
{1 - y(xn
;w)} 1-dn
p(d|x) = p(d = 1|x)d
p(d = 0|x)1-d
(2.7)
モデルの出力y=[xを受け取ったときのd=1の確率]なので、2.7式と対応。
違いは、訓練データxnに対して、全データ分(n個)の出力を掛けあわせること。
p(d|x)は正解において1をとり、その積であるL(w)は1が最大。
L(w)=1であるとき、すべてのXnについてyが正解を出力したことになる。
n=1
N
n=1
N
尤度
- 16. L(w) = Πp(dn
|xn
;w) = Π{y(xn
;w)}dn
{1 - y(xn
;w)} 1-dn
今、x1が与えられて、正解はd=1だったとする。
モデルは良く出来ていて(wがよい値で)yが0.9を出力した。
この時、d1=1であるため、xxx の項のみがn=1でのL(w)に寄与するが、
yは0.9を出力しているので、n=1でのL(w)は0.9と、非常に尤もらしい。
逆に、d=1であるにもかかわらず、yが0.1を出力したとする(d=0と判断してしまった)。
この場合は、xxx の項を使用するが、yの値は0.1。L(w)全体の掛け合わせの中で、0.1と
いう小さい値を掛けあわせることになり、その結果L(w)の値は減少する。
もしも、d=0だったなら、xxx の項がアクティブになり、(1-0.1)=0.9という大きな値が結果に
寄与できたのに・・・。
同様に、すべてのnについて、yがdに近い値を出力すれば、L(w)は1に近づき、wは非常
に尤もらしい。
n=1
N
n=1
N
(説明) 尤度
- 18. 最小化問題にしたい
E(w) = - ∑ [dn
log y(xn
;w) + (1 - dn
) log {1 - y(xn
;w)}] (2.8)
n=1
N
先ほどの尤度L(w)の式の対数を取れば導出できる。この式を誤差関数と呼ぶ。
値域は、0<=E(w)?最小化は0を目指すことになる
尤度
- 19. E(w) = - ∑ [dn
log y(xn
;w) + (1 - dn
) log {1 - y(xn
;w)}] (2.8)
n=1
N
yはモデルの出力なので確率(0~1)
L(w) = Πp(dn
|xn
;w) = Π{y(xn
;w)}dn
{1 - y(xn
;w)} 1-dn
① log(a×b)=log a + log b
② log■x
= x log■
の規則で変形可能
※このマイナスは式変形では導けない。
最小化のために付け加えたもの
log yはe(=2.718…)をyにするために必要なべき乗数なので-∞ ~0
(eの-∞乗≒0(近似的に), eの0乗=1)
本当はeを何乗しても0になりませんし、log yの値は小さくてもせいぜい-■▲(2桁)程度だと思います。
- 20. E(w) = - ∑ [dn
log y(xn
;w) + (1 - dn
) log {1 - y(xn
;w)}] (2.8)
n=1
N
dnは0または1なので、やはり下線部は(負の数)~0
L(w) = Πp(dn
|xn
;w) = Π{y(xn
;w)}dn
{1 - y(xn
;w)} 1-dn
元の尤度の式は確率yの積なので0~1しか取らない。
最大化した場合1となる
右側ブロックも同じ計算で、その和∑も(負の数)~0。和はデータ数n分あるので、普通に絶対値の大きい値になる
式全体は頭に-が付いているのでマイナスをかけて(正の値)~0 つまり 0~(正の値)となり、
この式で言う最小化は0を目指すことになる。誤差関数E(w)=0→「誤差がない」
- 25. ・
・
・
・
・
・
y1
y2
yk
LL-1
w11
w12
p(Ck|x) = yk = zk =
∑ euj
euk
j=1
K
(L)
(L)
u1
u2
uk
2値分類同様に考えて、ある xが与えられて、そ
れがクラスCkである確率をp(Ck|x)とすると、
0.1
0.7
0.2
モデルの出力ykは、xがそのykの対応クラスCkに属する
確率となる。←の例では
p(C1)=0.1,
p(C2)=0.7,
p(C3)=0.2
このクラスっぽい!
モデル
- 28. この式も右肩のdがスイッチになって、
p(d|x) = Π p(Ck|x)dk
K
k=1
= p(C1|x)d1
p(C2|x)d2
p(C3|x)d3
・・・p(Ck|x)dk
クラスC1である確率 クラスC2である確率 クラスC3である確率 クラスCkである確率
各クラス、自分のクラスの順番じゃない時は1になって寄与しないので・・・
→ p(C1|x)or p(C2|x) or p(C3|x) or ・・・ or p(Ck|x)
のどれかを計算に使う。
dk = [0 1 0...]T
であることに注意。
分布
- 29. 同様に、モデルの出力を考えて、
L(w)=Πp(dn|xn;w) = Π Π p(Ck|x)dnk
= Π Π (yk(xn;w))dnk
K
k=1
= y1(x1;w)d11
y2(x1;w)d12
y3(x1;w)d13
・・・yk(x1;w)d1k
クラスC1である確率 クラスC2である確率 クラスC3である確率 クラスCkである確率
K
k=1
N
n=1
K
k=1
N
n=1
× y1(x2;w)d21
y2(x2;w)d22
y3(x2;w)d23
・・・yk(x2;w)d2k
× y1(x3;w)d31
y2(x3;w)d32
y3(x3;w)d33
・・・yk(x3;w)d3k
・・・× y1(xn;w)dn1
y2(xn;w)dn2
y3(xn;w)dn3
・・・yk(xn;w)dnk
n=1のブロック
n=2のブロック
n=3のブロック
n=nのブロック
尤度
- 30. 同様に、モデルの出力を考えて、
L(w)=Πp(dn|xn;w) = Π Π p(Ck|x)dnk
= Π Π (yk(xn;w))dnk
K
k=1
= y1(x1;w)d11
y2(x1;w)d12
y3(x1;w)d13
・・・yk(x1;w)d1k
クラスC1である確率 クラスC2である確率 クラスC3である確率 クラスCkである確率
K
k=1
N
n=1
K
k=1
N
n=1
× y1(x2;w)d21
y2(x2;w)d22
y3(x2;w)d23
・・・yk(x2;w)d2k
× y1(x3;w)d31
y2(x3;w)d32
y3(x3;w)d33
・・・yk(x3;w)d3k
・・・× y1(xn;w)dn1
y2(xn;w)dn2
y3(xn;w)dn3
・・・yk(xn;w)dnk
n=1のブロック
n=2のブロック
n=3のブロック
n=nのブロック
2値分類同様、正解であるdk(dk=1となっているk)に対応する項のみ寄与し、
また、モデルの出力が不正解(dkの値から離れている)場合には小さな値として寄与して
しまう。
結果、不正解のxnが多いほど、L(w)は小さな値を取る。(0に近づく)
正解が多いほど、1に近づく。
尤度が1に近づくようなwを求めれば、モデルは優れた分類ができるようになる。優れた分
類をするモデルのwを求めるために、尤度を使う。最大(極大)値になるwは微分で求めら
れる(尤度をwで微分して結果が0になるようなwを求める)。
尤度
- 31. 最小化する
E(w) = - ∑ ∑ dnk
log yk
(xn
;w) (2.7)
2値分類同様、logをとってマイナスをつける。
KN
k=1n=1
交差エントロピーと呼ばれる関数となる。
2値分類同様に、値域が0<=E(w)。最小値は0
尤度