[Ridge-i 論文読み会] ICLR2019における不完全ラベル学習

ICLR2019における不完全ラベル学習
Ridge‑iinc.
MasanariKimura(mkimura@ridge‑i.com)
1

概要
ICLR2019に採択された不完全ラベル学習のまとめ
ラベルが不完全な状況での学習という研究領域を知ってもらう
2

今回紹介する論文たち
[1]LearningfromPositiveandUnlabeledDatawithaSelectionBias
[2]OntheMinimalSupervisionforTrainingAnyBinaryClassifier
fromOnlyUnlabeledData
[3]Multi‑ClassClassificationwithoutMulti‑ClassLabels
3

不完全ラベル学習
学習に用いられるデータのラベルが欠損しているという問題設定
Weakly‑SupervisedLearningなどとも
今回は特に，Kクラス分類の際に，T(<=K)クラスのデータにラベル
がついていないケースを考える．
e.g,2値分類でPositiveクラスのデータにしかラベルが無い(PU)
4

LearningfromPositiveandUnlabeled
DatawithaSelectionBias
MasahiroKato,TakeshiTeshima,JunyaHonda
5

Abstract
SCARを仮定せずにpositiveデータとunlabeledデータのみから学習
より現実の問題設定に即すようにselectionbiasを考慮
6

PULearning
positveクラスとのデータとラベル無しデータのみから学習
7

SelectedCompletelyAtRandom(SCAR)
(Assumption)Positiveなラベル付きデータはPositiveなラベル無し
データと同様の分布に属する
{x } ∼ p(x∣y = +1)i i=1
n i.i.d.
8

IsSCARAlwaysTrue?
現実問題ではラベリングの際のデータの選択に”バイアス”が掛かる
e.g.わかりやすいデータにはラベル付けがされやすい
10

SelectionBiasintheLabelingProcess
ラベリング時のバイアスによって，ラベルのついているpositiveデ
ータとラベルのついていないpositiveデータの分布がずれる
多くの現実の問題設定ではSCARは成り立たない
11

PULearningwithSelectionBias
本論文の目的：PULearningのモデルからSCARの仮定を取り去る
positiveデータ集合{x } とunlabaledデータ集合{x }
{x } ∼ p(x∣y = +1, o = +1),
{x } ∼ p(x),
classpriorπ = p(y = +1)は既知
データ全体のpositiveデータの割合についての事前知識
i i=1
n
i
′
i=1
n′
i i=1
n i.i.d
i
′
i=1
n′ i.i.d
12

IdentificationStrategy
Elkan&Noto(2008)[4]によって，PUlearningに一切の仮定無しに
p(y = +1∣x)を推定することは出来ないことが示されている
一般的にはSCARを仮定
p(x∣y = +1, o = +1) = p(x∣y = +1, o = 0)
p(y = +1∣x) = = =
3番目の等号にSCARを仮定
p(x∣y = +1, o = +1)は実際のサンプルから推定できる
πは過去の事前知識を活用できる
p(x)
p(x,y=+1)
p(x)
p(x∣y=+1)π
p(x)
p(x∣y=+1,o=+1)π
13

InvarianceofOrderAssumption
x , x ∈ χについて，
p(y = +1∣x ) ≤ p(y = +1∣x ) ⇔ p(o = +1∣x ) ≤ p(o = +1∣x )
ラベルはpositivedata(y = +1)のみに付与されることから
i j
i j i j
14

StrategyforPartialIdentificationandClassification
(Theorem)densityratior(x) = について，
p(y = +1∣x ) ≤ p(y = +1∣x ) ⇔ r(x ) ≤ r(x )
が成り立つ．
このr(x)を利用して，BinaryClassifierがつくれる
ある閾値θ を置いたとき，r(x) > θ であればpositive
閾値θ は，事前知識πを利用して計算
π = 1[r(x) ≥ θ ]p(x)dx
p(x)
p(x∣y=+1,o=+1)
i j i j
π π
π
∫ π
15

AlgorithmOverview
1.Input:p(x∣y = +1),p(x),class‑priorπ
2.p(x∣y = +1)とp(x)を使ってdensityratior(x)を計算
3.r(x)を使って閾値θ を計算
4.得られる分類器はh(x) = sign(r(x) − θ )
π
π
16

ExperimentalResults
MNIST,CIFAR‑10,RealDataで実験
17

OntheMinimalSupervisionforTraining
AnyBinaryClassifierfromOnlyUnlabeled
Data
NanLu,GangNiu,AdityaKrishnaMenon,MasashiSugiyama
18

Abstract
出どころの違う２つのラベル無しデータ集合のみから分類器を学習
19

UULearning
データの分布が違う２つのラベルなしデータセットから学習
クラスラベルの代わりに”データの出どころ”にラベリングするイメ
ージ
クラスタリングではなく弱教師あり学習の区分
20

Contribution
任意のBinaryClassifierが単一のラベル無しデータ集合のみから学習
を行うことが不可能であることを証明
分布の違う2つのラベル無しデータ集合からであれば学習を行うこ
とが可能になることを証明
21

IntuitiveUnderstanding
直感的理解
XとX の分布が違うことがわかっている
→分布の違い≒データの含まれる割合の違い
→Xにとっての多数派（赤）とX にとっての少数派（青）が同じ
クラスになるはず
′
′
22

ABriefReviewofEmpiricalRiskMinimization
ERMは以下リスクR(g)を最小化するようにモデルを選択する．
(g) = l(g(x )) + l(−g(x ))
ここでx はpositiveデータ，x はnegtiveデータ
本論文の目的：ERMのxからpositive/negativeの区別を取り去る
R^
n
πp
∑i=1
n
i
+
n′
1−πp
∑j=1
n′
j
−
i
+
j
−
23

RiskRewriteforUU‑Learning
異なるデータの分布p , p に対して，R(g)を以下のように書き換える
R(g) =E [ (g(X))] +E [ (−g(X))]
ここで，
(z) = al(z) + bl(−z)
(z) = cl(z) + dl(−z)
(⋅)は何を意味しているか？
ノイジーなデータセットに対して，損失関数l(⋅)を補正している
labelcorrectionという分野
損失関数に対して適切な係数をかけることでノイジーなデータ
で学習できることを示している
tr tr
′
ptr
l¯+ ptr
′ l¯−
l¯+
l¯−
l¯
24

LabelCorrection
2値分類問題において，入力zのラベルがノイジーであるとする，e.g.,
ラベル0の入力zは1/4の確率で本当はクラス1
ラベル1の入力zは1/5の確率で本当はクラス0
ノイズ発生確率に応じて損失関数に係数をかけると，
(z) = 0.75 × l(z) + 0.8 × l(−z)l¯
25

WhyLabelCorrection?
ラベル無しデータ集合をノイジーなデータ集合に置き換えている．
データセットXはノイジーなPositiveデータセット
データセットX はノイジーなNegativeデータセット′
26

本論文では，およびの係数を，
a = ,b = − ,c = ，d = −
とする．これを代入して式変形していくと，
= αl(g(x )) + α l(−g(x )) − T
α = (θ + π − 2θ π )/(θ − θ )
T =
θおよびθ はXおよびX に正例が含まれる確率，π はデータ全体に正
例が含まれる確率．←事前知識を利用
l¯
+
′ l¯−
θ−θ′
(1−θ)πp
θ−θ′
θ(1−π )p
θ−θ′
θ(1−π )p
θ−θ′
(1−θ)πp
R^uu n
1
∑i=1
n
i n
1
∑j=1
n′
′
j
′
′
p
′
p
′
θ−θ′
θ (1−π )+(1−θ)π′
p p
′ ′
p
27

UU‑LearningwithtwoUnlabeldDataSets
目的（再活）：ERMのxからpositive/negativeの区別を取り去る
得られた (g)は，
= αl(g(x )) + α l(−g(x )) − T
ERMの式から明示的なラベルを削除する代わりに，データの分布に関す
る事前知識を導入することでUU‑Learningを達成
R^uu
R^uu n
1
∑i=1
n
i n
1
∑j=1
n′
′
j
′
28

Multi‑classclassificationwithoutmulti‑
classlabels
Yen‑ChangHsu,ZhaoyangLv,JoelSchlosser,PhillipOdom,Zsolt
Kira
29

Abstract
明示的なクラスラベルの付与なしに分類器を学習
クラスラベルの代わりにサンプル同士の類似度を活用
30

PairwiseSimilarityLearning
クラスラベルではなくペアが似てるかどうかをラベリング
クラス数が膨大な時に効率的にアノテーション可能
タスクによって再アノテーションが必要ない
クラス数可変のタスクに適用できる
31

NotationofMetaClassificationLearning
解きたいタスクは以下のグラフィカルモデルで表現できる
観測
サンプル集合X = {X , ..., X }
類似度集合S = {S }
隠れ変数
クラスラベル集合Y = {Y , ..., Y }
モデルのパラメータθ
1 n
ij 1≤i,j≤n
1 n
32

MetaClassificationLearning
尤度は，
L(θ; X, Y , S) = P(X, Y , S; θ) = P(S∣Y )P(Y ∣X; θ)P(X)
本論文の目的：損失関数内からラベル集合Y を取り去る
33

ALossFunction
最終的に得たい目的関数は，
L = − s log + (1 − s ) log(1 − )
ここではx とx の間の類似度の予測値
類似度を近づけるように学習 → ラベル不要
meta ∑i,j ij sîj ij sîj
sîj i j
34

PairwiseSimilarity
類似度にはベクトルの内積を使える．例えば，
= (0.0, 0.2, 0.8, 0.0)
= (0.2, 0.2, 0.3, 0.3)
= (0.1, 0.3, 0.6, 0.0)
のとき，
s = 0.28
s = 0.56
s = 0.26
となり，とが似ているとみなせる．
v1⃗
v2⃗
v3⃗
12
13
23
v1⃗ v3⃗
35

PairwiseSimilarityforMulti‑LabelClassifier
はx とx の類似度．
x とx に対応するベクトルを決めたい．
多クラス分類器f(x )を用意すると都合が良さそう
s^ij i j
i j
∗
36

多クラス分類器f(x )を用意すると都合が良さそう∗
37

（再活）最終的な目的関数
L = − s log + (1 − s ) log(1 − )
= f(x ; θ) f(x ; θ)
明示的なラベルY を一切使わずに，目的関数に多クラス分類器f(⋅; θ)を
導入できた
meta ∑i,j ij sîj ij sîj
sîj i
T
j
38

Conclusion
ラベル不完全な問題設定のICLR2019採択論文を紹介
本来解けない問題設定でも仮定を導入することで可解になる
見えているタスクだけではなく見えない仮定を意識することが重要
暗黙のうちに好ましくない仮定を置いていないか？
ある仮定を置くことで可解なタスクに落ちないか？
39

References
[1]Kato,Masahiro,Teshima,Takeshi,andHonda,Junya.Learning
frompositiveandunlabeleddatawithaselectionbias.
InInternationalConferenceonLearningRepresentations,2019.
[2]Lu,Nan,Niu,Gang,Menon,AdityaK.,andSugiyama,Masashi.
Ontheminimalsupervisionfortraininganybinaryclassifierfrom
onlyunla‑beleddata.InInternationalConferenceon
LearningRepresentations,2019.
[3]Hsu,Yen‑Chang,Lv,Zhaoyang,Schlosser,Joel,Odom,Phillip,
andKira,Zsolt.Multi‑classclas‑sificationwithoutmulti‑class
labels.InInter‑nationalConferenceonLearning
Representations,2019.
[4]CharlesElkanandKeithNoto.Learningclassifiersfromonly
positiveandunlabeleddata.InICDM,pp.213–220,2008.
40

[Ridge-i 論文読み会] ICLR2019における不完全ラベル学習

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [Ridge-i 論文読み会] ICLR2019における不完全ラベル学習

Similar to [Ridge-i 論文読み会] ICLR2019における不完全ラベル学習 (8)

More from Masanari Kimura

More from Masanari Kimura (6)

[Ridge-i 論文読み会] ICLR2019における不完全ラベル学習