Submit Search
Upload
[Ridge-i 論文読み会] ICLR2019における不完全ラベル学習
•
3 likes
•
1,936 views
Masanari Kimura
Follow
Ridge-i 論文読み会での発表資料 https://ridge-i-yomikai.connpass.com/event/124688/
Read less
Read more
Technology
Report
Share
Report
Share
1 of 40
Download now
Download to read offline
Recommended
ベイズ統計入門
ベイズ統計入門
Miyoshi Yuya
DeepLearning 輪読会 第1章 はじめに
DeepLearning 輪読会 第1章 はじめに
Deep Learning JP
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
joisino
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
弘毅 露崎
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St
(2020.10) 分子のグラフ表現と機械学習: Graph Neural Networks (GNNs) とは?
(2020.10) 分子のグラフ表現と機械学習: Graph Neural Networks (GNNs) とは?
Ichigaku Takigawa
10分でわかるRandom forest
10分でわかるRandom forest
Yasunori Ozaki
Overleafを使った文書作成
Overleafを使った文書作成
Yoshihiro Mizoguchi
Recommended
ベイズ統計入門
ベイズ統計入門
Miyoshi Yuya
DeepLearning 輪読会 第1章 はじめに
DeepLearning 輪読会 第1章 はじめに
Deep Learning JP
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
joisino
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
弘毅 露崎
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St
(2020.10) 分子のグラフ表現と機械学習: Graph Neural Networks (GNNs) とは?
(2020.10) 分子のグラフ表現と機械学習: Graph Neural Networks (GNNs) とは?
Ichigaku Takigawa
10分でわかるRandom forest
10分でわかるRandom forest
Yasunori Ozaki
Overleafを使った文書作成
Overleafを使った文書作成
Yoshihiro Mizoguchi
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
京都大学大学院情報学研究科数理工学専攻
教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破...
教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破...
cvpaper. challenge
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
モンテカルロサンプリング
モンテカルロサンプリング
Kosei ABE
Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
Kohta Ishikawa
識別モデルと生成モデルと損失データ
識別モデルと生成モデルと損失データ
Shohei Miyashita
距離とクラスタリング
距離とクラスタリング
大貴 末廣
KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告
GentaYoshimura
【解説】 一般逆行列
【解説】 一般逆行列
Kenjiro Sugimoto
[DL輪読会]Deep Learning 第5章 機械学習の基礎
[DL輪読会]Deep Learning 第5章 機械学習の基礎
Deep Learning JP
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
Ichigaku Takigawa
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
Hideo Hirose
第52回SWO研究会チュートリアル資料
第52回SWO研究会チュートリアル資料
Takanori Ugai
グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習
Ichigaku Takigawa
MCMC法
MCMC法
MatsuiRyo
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)
Toru Imai
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証
Masaharu Kinoshita
最適輸送入門
最適輸送入門
joisino
Text Categorization
Text Categorization
cympfh
パターン認識 第10章 決定木
パターン認識 第10章 決定木
Miyoshi Yuya
More Related Content
What's hot
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
京都大学大学院情報学研究科数理工学専攻
教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破...
教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破...
cvpaper. challenge
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
モンテカルロサンプリング
モンテカルロサンプリング
Kosei ABE
Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
Kohta Ishikawa
識別モデルと生成モデルと損失データ
識別モデルと生成モデルと損失データ
Shohei Miyashita
距離とクラスタリング
距離とクラスタリング
大貴 末廣
KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告
GentaYoshimura
【解説】 一般逆行列
【解説】 一般逆行列
Kenjiro Sugimoto
[DL輪読会]Deep Learning 第5章 機械学習の基礎
[DL輪読会]Deep Learning 第5章 機械学習の基礎
Deep Learning JP
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
Ichigaku Takigawa
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
Hideo Hirose
第52回SWO研究会チュートリアル資料
第52回SWO研究会チュートリアル資料
Takanori Ugai
グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習
Ichigaku Takigawa
MCMC法
MCMC法
MatsuiRyo
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)
Toru Imai
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証
Masaharu Kinoshita
最適輸送入門
最適輸送入門
joisino
What's hot
(20)
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破...
教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破...
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
モンテカルロサンプリング
モンテカルロサンプリング
Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
識別モデルと生成モデルと損失データ
識別モデルと生成モデルと損失データ
距離とクラスタリング
距離とクラスタリング
KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告
【解説】 一般逆行列
【解説】 一般逆行列
[DL輪読会]Deep Learning 第5章 機械学習の基礎
[DL輪読会]Deep Learning 第5章 機械学習の基礎
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
第52回SWO研究会チュートリアル資料
第52回SWO研究会チュートリアル資料
グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習
MCMC法
MCMC法
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証
最適輸送入門
最適輸送入門
Similar to [Ridge-i 論文読み会] ICLR2019における不完全ラベル学習
Text Categorization
Text Categorization
cympfh
パターン認識 第10章 決定木
パターン認識 第10章 決定木
Miyoshi Yuya
クラシックな機械学習の入門 4. 学習データと予測性能
クラシックな機械学習の入門 4. 学習データと予測性能
Hiroshi Nakagawa
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向について
Plot Hong
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布
sleipnir002
ggplot2 110129
ggplot2 110129
Takashi Minoda
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
実装ディープラーニング
実装ディープラーニング
Yurie Oka
Similar to [Ridge-i 論文読み会] ICLR2019における不完全ラベル学習
(8)
Text Categorization
Text Categorization
パターン認識 第10章 決定木
パターン認識 第10章 決定木
クラシックな機械学習の入門 4. 学習データと予測性能
クラシックな機械学習の入門 4. 学習データと予測性能
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向について
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布
ggplot2 110129
ggplot2 110129
不均衡データのクラス分類
不均衡データのクラス分類
実装ディープラーニング
実装ディープラーニング
More from Masanari Kimura
曲線から多様体まで駆け抜ける微分幾何学入門
曲線から多様体まで駆け抜ける微分幾何学入門
Masanari Kimura
[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
Masanari Kimura
NeurIPS2019参加報告
NeurIPS2019参加報告
Masanari Kimura
[NeurIPS2018論文読み会] Adversarial vulnerability for any classifier
[NeurIPS2018論文読み会] Adversarial vulnerability for any classifier
Masanari Kimura
[Ridge-i 論文よみかい] Wasserstein auto encoder
[Ridge-i 論文よみかい] Wasserstein auto encoder
Masanari Kimura
[GTC2018] 敵対生成学習による外観検査のための異常検知手法 (Ridge-i 発表資料)
[GTC2018] 敵対生成学習による外観検査のための異常検知手法 (Ridge-i 発表資料)
Masanari Kimura
More from Masanari Kimura
(6)
曲線から多様体まで駆け抜ける微分幾何学入門
曲線から多様体まで駆け抜ける微分幾何学入門
[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
NeurIPS2019参加報告
NeurIPS2019参加報告
[NeurIPS2018論文読み会] Adversarial vulnerability for any classifier
[NeurIPS2018論文読み会] Adversarial vulnerability for any classifier
[Ridge-i 論文よみかい] Wasserstein auto encoder
[Ridge-i 論文よみかい] Wasserstein auto encoder
[GTC2018] 敵対生成学習による外観検査のための異常検知手法 (Ridge-i 発表資料)
[GTC2018] 敵対生成学習による外観検査のための異常検知手法 (Ridge-i 発表資料)
[Ridge-i 論文読み会] ICLR2019における不完全ラベル学習
1.
ICLR2019における不完全ラベル学習 Ridge‑iinc. MasanariKimura(mkimura@ridge‑i.com) 1
2.
概要 ICLR2019に採択された不完全ラベル学習のまとめ ラベルが不完全な状況での学習という研究領域を知ってもらう 2
3.
今回紹介する論文たち [1]LearningfromPositiveandUnlabeledDatawithaSelectionBias [2]OntheMinimalSupervisionforTrainingAnyBinaryClassifier fromOnlyUnlabeledData [3]Multi‑ClassClassificationwithoutMulti‑ClassLabels 3
4.
不完全ラベル学習 学習に用いられるデータのラベルが欠損しているという問題設定 Weakly‑SupervisedLearningなどとも 今回は特に,Kクラス分類の際に,T(<=K)クラスのデータにラベル がついていないケースを考える. e.g,2値分類でPositiveクラスのデータにしかラベルが無い(PU) 4
5.
LearningfromPositiveandUnlabeled DatawithaSelectionBias MasahiroKato,TakeshiTeshima,JunyaHonda 5
6.
Abstract SCARを仮定せずにpositiveデータとunlabeledデータのみから学習 より現実の問題設定に即すようにselectionbiasを考慮 6
7.
PULearning positveクラスとのデータとラベル無しデータのみから学習 7
8.
SelectedCompletelyAtRandom(SCAR) (Assumption)Positiveなラベル付きデータはPositiveなラベル無し データと同様の分布に属する {x } ∼
p(x∣y = +1)i i=1 n i.i.d. 8
9.
IsSCARAlwaysTrue? 9
10.
IsSCARAlwaysTrue? 現実問題ではラベリングの際のデータの選択に”バイアス”が掛かる e.g.わかりやすいデータにはラベル付けがされやすい 10
11.
SelectionBiasintheLabelingProcess ラベリング時のバイアスによって,ラベルのついているpositiveデ ータとラベルのついていないpositiveデータの分布がずれる 多くの現実の問題設定ではSCARは成り立たない 11
12.
PULearningwithSelectionBias 本論文の目的:PULearningのモデルからSCARの仮定を取り去る positiveデータ集合{x } とunlabaledデータ集合{x
} {x } ∼ p(x∣y = +1, o = +1), {x } ∼ p(x), classpriorπ = p(y = +1)は既知 データ全体のpositiveデータの割合についての事前知識 i i=1 n i ′ i=1 n′ i i=1 n i.i.d i ′ i=1 n′ i.i.d 12
13.
IdentificationStrategy Elkan&Noto(2008)[4]によって,PUlearningに一切の仮定無しに p(y = +1∣x)を推定することは出来ないことが示されている 一般的にはSCARを仮定 p(x∣y
= +1, o = +1) = p(x∣y = +1, o = 0) p(y = +1∣x) = = = 3番目の等号にSCARを仮定 p(x∣y = +1, o = +1)は実際のサンプルから推定できる πは過去の事前知識を活用できる p(x) p(x,y=+1) p(x) p(x∣y=+1)π p(x) p(x∣y=+1,o=+1)π 13
14.
InvarianceofOrderAssumption x , x
∈ χについて, p(y = +1∣x ) ≤ p(y = +1∣x ) ⇔ p(o = +1∣x ) ≤ p(o = +1∣x ) ラベルはpositivedata(y = +1)のみに付与されることから i j i j i j 14
15.
StrategyforPartialIdentificationandClassification (Theorem)densityratior(x) = について, p(y
= +1∣x ) ≤ p(y = +1∣x ) ⇔ r(x ) ≤ r(x ) が成り立つ. このr(x)を利用して,BinaryClassifierがつくれる ある閾値θ を置いたとき,r(x) > θ であればpositive 閾値θ は,事前知識πを利用して計算 π = 1[r(x) ≥ θ ]p(x)dx p(x) p(x∣y=+1,o=+1) i j i j π π π ∫ π 15
16.
AlgorithmOverview 1.Input:p(x∣y = +1),p(x),class‑priorπ 2.p(x∣y
= +1)とp(x)を使ってdensityratior(x)を計算 3.r(x)を使って閾値θ を計算 4.得られる分類器はh(x) = sign(r(x) − θ ) π π 16
17.
ExperimentalResults MNIST,CIFAR‑10,RealDataで実験 17
18.
OntheMinimalSupervisionforTraining AnyBinaryClassifierfromOnlyUnlabeled Data NanLu,GangNiu,AdityaKrishnaMenon,MasashiSugiyama 18
19.
Abstract 出どころの違う2つのラベル無しデータ集合のみから分類器を学習 19
20.
UULearning データの分布が違う2つのラベルなしデータセットから学習 クラスラベルの代わりに”データの出どころ”にラベリングするイメ ージ クラスタリングではなく弱教師あり学習の区分 20
21.
Contribution 任意のBinaryClassifierが単一のラベル無しデータ集合のみから学習 を行うことが不可能であることを証明 分布の違う2つのラベル無しデータ集合からであれば学習を行うこ とが可能になることを証明 21
22.
IntuitiveUnderstanding 直感的理解 XとX の分布が違うことがわかっている →分布の違い≒データの含まれる割合の違い →Xにとっての多数派(赤)とX にとっての少数派(青)が同じ クラスになるはず ′ ′ 22
23.
ABriefReviewofEmpiricalRiskMinimization ERMは以下リスクR(g)を最小化するようにモデルを選択する. (g) = l(g(x
)) + l(−g(x )) ここでx はpositiveデータ,x はnegtiveデータ 本論文の目的:ERMのxからpositive/negativeの区別を取り去る R^ n πp ∑i=1 n i + n′ 1−πp ∑j=1 n′ j − i + j − 23
24.
RiskRewriteforUU‑Learning 異なるデータの分布p , p
に対して,R(g)を以下のように書き換える R(g) =E [ (g(X))] +E [ (−g(X))] ここで, (z) = al(z) + bl(−z) (z) = cl(z) + dl(−z) (⋅)は何を意味しているか? ノイジーなデータセットに対して,損失関数l(⋅)を補正している labelcorrectionという分野 損失関数に対して適切な係数をかけることでノイジーなデータ で学習できることを示している tr tr ′ ptr l¯+ ptr ′ l¯− l¯+ l¯− l¯ 24
25.
LabelCorrection 2値分類問題において,入力zのラベルがノイジーであるとする,e.g., ラベル0の入力zは1/4の確率で本当はクラス1 ラベル1の入力zは1/5の確率で本当はクラス0 ノイズ発生確率に応じて損失関数に係数をかけると, (z) = 0.75
× l(z) + 0.8 × l(−z)l¯ 25
26.
WhyLabelCorrection? ラベル無しデータ集合をノイジーなデータ集合に置き換えている. データセットXはノイジーなPositiveデータセット データセットX はノイジーなNegativeデータセット′ 26
27.
本論文では, および の係数を, a
= ,b = − ,c = ,d = − とする.これを代入して式変形していくと, = αl(g(x )) + α l(−g(x )) − T α = (θ + π − 2θ π )/(θ − θ ) T = θおよびθ はXおよびX に正例が含まれる確率,π はデータ全体に正 例が含まれる確率.←事前知識を利用 l¯ + ′ l¯− θ−θ′ (1−θ)πp θ−θ′ θ(1−π )p θ−θ′ θ(1−π )p θ−θ′ (1−θ)πp R^uu n 1 ∑i=1 n i n 1 ∑j=1 n′ ′ j ′ ′ p ′ p ′ θ−θ′ θ (1−π )+(1−θ)π′ p p ′ ′ p 27
28.
UU‑LearningwithtwoUnlabeldDataSets 目的(再活):ERMのxからpositive/negativeの区別を取り去る 得られた (g)は, = αl(g(x
)) + α l(−g(x )) − T ERMの式から明示的なラベルを削除する代わりに,データの分布に関す る事前知識を導入することでUU‑Learningを達成 R^uu R^uu n 1 ∑i=1 n i n 1 ∑j=1 n′ ′ j ′ 28
29.
Multi‑classclassificationwithoutmulti‑ classlabels Yen‑ChangHsu,ZhaoyangLv,JoelSchlosser,PhillipOdom,Zsolt Kira 29
30.
Abstract 明示的なクラスラベルの付与なしに分類器を学習 クラスラベルの代わりにサンプル同士の類似度を活用 30
31.
PairwiseSimilarityLearning クラスラベルではなくペアが似てるかどうかをラベリング クラス数が膨大な時に効率的にアノテーション可能 タスクによって再アノテーションが必要ない クラス数可変のタスクに適用できる 31
32.
NotationofMetaClassificationLearning 解きたいタスクは以下のグラフィカルモデルで表現できる 観測 サンプル集合X = {X
, ..., X } 類似度集合S = {S } 隠れ変数 クラスラベル集合Y = {Y , ..., Y } モデルのパラメータθ 1 n ij 1≤i,j≤n 1 n 32
33.
MetaClassificationLearning 尤度は, L(θ; X, Y
, S) = P(X, Y , S; θ) = P(S∣Y )P(Y ∣X; θ)P(X) 本論文の目的:損失関数内からラベル集合Y を取り去る 33
34.
ALossFunction 最終的に得たい目的関数は, L = −
s log + (1 − s ) log(1 − ) ここで はx とx の間の類似度の予測値 類似度を近づけるように学習 → ラベル不要 meta ∑i,j ij s^ij ij s^ij s^ij i j 34
35.
PairwiseSimilarity 類似度にはベクトルの内積を使える.例えば, = (0.0, 0.2,
0.8, 0.0) = (0.2, 0.2, 0.3, 0.3) = (0.1, 0.3, 0.6, 0.0) のとき, s = 0.28 s = 0.56 s = 0.26 となり, と が似ているとみなせる. v1⃗ v2⃗ v3⃗ 12 13 23 v1⃗ v3⃗ 35
36.
PairwiseSimilarityforMulti‑LabelClassifier はx とx の類似度. x
とx に対応するベクトルを決めたい. 多クラス分類器f(x )を用意すると都合が良さそう s^ij i j i j ∗ 36
37.
多クラス分類器f(x )を用意すると都合が良さそう∗ 37
38.
(再活)最終的な目的関数 L = −
s log + (1 − s ) log(1 − ) = f(x ; θ) f(x ; θ) 明示的なラベルY を一切使わずに,目的関数に多クラス分類器f(⋅; θ)を 導入できた meta ∑i,j ij s^ij ij s^ij s^ij i T j 38
39.
Conclusion ラベル不完全な問題設定のICLR2019採択論文を紹介 本来解けない問題設定でも仮定を導入することで可解になる 見えているタスクだけではなく見えない仮定を意識することが重要 暗黙のうちに好ましくない仮定を置いていないか? ある仮定を置くことで可解なタスクに落ちないか? 39
40.
References [1]Kato,Masahiro,Teshima,Takeshi,andHonda,Junya.Learning frompositiveandunlabeleddatawithaselectionbias. InInternationalConferenceonLearningRepresentations,2019. [2]Lu,Nan,Niu,Gang,Menon,AdityaK.,andSugiyama,Masashi. Ontheminimalsupervisionfortraininganybinaryclassifierfrom onlyunla‑beleddata.InInternationalConferenceon LearningRepresentations,2019. [3]Hsu,Yen‑Chang,Lv,Zhaoyang,Schlosser,Joel,Odom,Phillip, andKira,Zsolt.Multi‑classclas‑sificationwithoutmulti‑class labels.InInter‑nationalConferenceonLearning Representations,2019. [4]CharlesElkanandKeithNoto.Learningclassifiersfromonly positiveandunlabeleddata.InICDM,pp.213–220,2008. 40
Download now