Soumettre la recherche
Mettre en ligne
ICML2013読み会: Distributed training of Large-scale Logistic models
•
9 j'aime
•
9,350 vues
S
sleepy_yoshi
Suivre
ICML2013読み会 Distributed training of Large-scale Logistic models の発表資料
Lire moins
Lire la suite
Technologie
Signaler
Partager
Signaler
Partager
1 sur 33
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
PRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじ
sleepy_yoshi
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5
sleepy_yoshi
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5
sleepy_yoshi
RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習
Masayuki Tanaka
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
sleepy_yoshi
Deeplearning4.4 takmin
Deeplearning4.4 takmin
Takuya Minagawa
PRML4.3.3
PRML4.3.3
sleepy_yoshi
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじ
sleepy_yoshi
Recommandé
PRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじ
sleepy_yoshi
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5
sleepy_yoshi
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5
sleepy_yoshi
RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習
Masayuki Tanaka
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
sleepy_yoshi
Deeplearning4.4 takmin
Deeplearning4.4 takmin
Takuya Minagawa
PRML4.3.3
PRML4.3.3
sleepy_yoshi
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじ
sleepy_yoshi
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
Morpho, Inc.
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来
Hidekazu Oiwa
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
Morpho, Inc.
Graph convolution (スペクトルアプローチ)
Graph convolution (スペクトルアプローチ)
yukihiro domae
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
Taiji Suzuki
Limits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break them
Morpho, Inc.
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズム
Miyoshi Yuya
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
Miyoshi Yuya
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
yukihiro domae
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
Masahiro Suzuki
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Morpho, Inc.
多チャンネルバイラテラルフィルタの高速化
多チャンネルバイラテラルフィルタの高速化
Norishige Fukushima
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant Function
Shintaro Takemura
Qlik Tips 20220315 Null値の課題と対策
Qlik Tips 20220315 Null値の課題と対策
QlikPresalesJapan
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
Chika Inoshita
深層学習(講談社)のまとめ 第4章
深層学習(講談社)のまとめ 第4章
okku apot
FeaStNet: Feature-Steered Graph Convolutions for 3D Shape Analysis
FeaStNet: Feature-Steered Graph Convolutions for 3D Shape Analysis
yukihiro domae
領域分割法
領域分割法
ADVENTURE Project
L0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noise
Fujimoto Keisuke
NN, CNN, and Image Analysis
NN, CNN, and Image Analysis
Yuki Shimada
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
sleepy_yoshi
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
Yuya Unno
Contenu connexe
Tendances
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
Morpho, Inc.
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来
Hidekazu Oiwa
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
Morpho, Inc.
Graph convolution (スペクトルアプローチ)
Graph convolution (スペクトルアプローチ)
yukihiro domae
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
Taiji Suzuki
Limits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break them
Morpho, Inc.
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズム
Miyoshi Yuya
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
Miyoshi Yuya
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
yukihiro domae
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
Masahiro Suzuki
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Morpho, Inc.
多チャンネルバイラテラルフィルタの高速化
多チャンネルバイラテラルフィルタの高速化
Norishige Fukushima
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant Function
Shintaro Takemura
Qlik Tips 20220315 Null値の課題と対策
Qlik Tips 20220315 Null値の課題と対策
QlikPresalesJapan
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
Chika Inoshita
深層学習(講談社)のまとめ 第4章
深層学習(講談社)のまとめ 第4章
okku apot
FeaStNet: Feature-Steered Graph Convolutions for 3D Shape Analysis
FeaStNet: Feature-Steered Graph Convolutions for 3D Shape Analysis
yukihiro domae
領域分割法
領域分割法
ADVENTURE Project
L0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noise
Fujimoto Keisuke
NN, CNN, and Image Analysis
NN, CNN, and Image Analysis
Yuki Shimada
Tendances
(20)
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
Graph convolution (スペクトルアプローチ)
Graph convolution (スペクトルアプローチ)
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
Limits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break them
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
多チャンネルバイラテラルフィルタの高速化
多チャンネルバイラテラルフィルタの高速化
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant Function
Qlik Tips 20220315 Null値の課題と対策
Qlik Tips 20220315 Null値の課題と対策
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
深層学習(講談社)のまとめ 第4章
深層学習(講談社)のまとめ 第4章
FeaStNet: Feature-Steered Graph Convolutions for 3D Shape Analysis
FeaStNet: Feature-Steered Graph Convolutions for 3D Shape Analysis
領域分割法
領域分割法
L0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noise
NN, CNN, and Image Analysis
NN, CNN, and Image Analysis
En vedette
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
sleepy_yoshi
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
Yuya Unno
ICML2013読み会 Local Deep Kernel Learning for Efficient Non-linear SVM Prediction
ICML2013読み会 Local Deep Kernel Learning for Efficient Non-linear SVM Prediction
Seiya Tokui
ICML2013読み会 開会宣言
ICML2013読み会 開会宣言
Shohei Hido
ICML2013読み会 Large-Scale Learning with Less RAM via Randomization
ICML2013読み会 Large-Scale Learning with Less RAM via Randomization
Hidekazu Oiwa
Vanishing Component Analysis
Vanishing Component Analysis
Koji Matsuda
論文紹介 Fast imagetagging
論文紹介 Fast imagetagging
Takashi Abe
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Koji Matsuda
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
sleepy_yoshi
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5
Koji Matsuda
基調講演:「多様化する情報を支える技術」/西川徹
基調講演:「多様化する情報を支える技術」/西川徹
Preferred Networks
Vanishing Component Analysisの試作と簡単な実験
Vanishing Component Analysisの試作と簡単な実験
Hiroshi Tsukahara
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architectures
Koji Matsuda
En vedette
(13)
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 Local Deep Kernel Learning for Efficient Non-linear SVM Prediction
ICML2013読み会 Local Deep Kernel Learning for Efficient Non-linear SVM Prediction
ICML2013読み会 開会宣言
ICML2013読み会 開会宣言
ICML2013読み会 Large-Scale Learning with Less RAM via Randomization
ICML2013読み会 Large-Scale Learning with Less RAM via Randomization
Vanishing Component Analysis
Vanishing Component Analysis
論文紹介 Fast imagetagging
論文紹介 Fast imagetagging
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5
基調講演:「多様化する情報を支える技術」/西川徹
基調講演:「多様化する情報を支える技術」/西川徹
Vanishing Component Analysisの試作と簡単な実験
Vanishing Component Analysisの試作と簡単な実験
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architectures
Similaire à ICML2013読み会: Distributed training of Large-scale Logistic models
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向について
Plot Hong
Graph Clustering on Missing Data
Graph Clustering on Missing Data
Yuma Inoue
A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)
Morpho, Inc.
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
Takuji Tahara
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
Preferred Networks
大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法
京都大学大学院情報学研究科数理工学専攻
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
Mai Nishimura
PRML Chapter 14
PRML Chapter 14
Masahito Ohue
第六回「データ解析のための統計モデリング入門」前半
第六回「データ解析のための統計モデリング入門」前半
Atsushi Hayakawa
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
Sigsoftmax: Reanalysis of the Softmax Bottleneck
Sigsoftmax: Reanalysis of the Softmax Bottleneck
RI
CMSI計算科学技術特論A (2015) 第12回 古典分子動力学法の高速化
CMSI計算科学技術特論A (2015) 第12回 古典分子動力学法の高速化
Computational Materials Science Initiative
1次式とノルムで構成された最適化問題とその双対問題
1次式とノルムで構成された最適化問題とその双対問題
京都大学大学院情報学研究科数理工学専攻
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
Sho Kagami
関数プログラミング入門
関数プログラミング入門
Hideyuki Tanaka
PRML輪読#7
PRML輪読#7
matsuolab
コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)
Masaya Kaneko
Similaire à ICML2013読み会: Distributed training of Large-scale Logistic models
(17)
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向について
Graph Clustering on Missing Data
Graph Clustering on Missing Data
A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
PRML Chapter 14
PRML Chapter 14
第六回「データ解析のための統計モデリング入門」前半
第六回「データ解析のための統計モデリング入門」前半
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Sigsoftmax: Reanalysis of the Softmax Bottleneck
Sigsoftmax: Reanalysis of the Softmax Bottleneck
CMSI計算科学技術特論A (2015) 第12回 古典分子動力学法の高速化
CMSI計算科学技術特論A (2015) 第12回 古典分子動力学法の高速化
1次式とノルムで構成された最適化問題とその双対問題
1次式とノルムで構成された最適化問題とその双対問題
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
関数プログラミング入門
関数プログラミング入門
PRML輪読#7
PRML輪読#7
コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)
Plus de sleepy_yoshi
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
sleepy_yoshi
KDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking Measures
sleepy_yoshi
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじ
sleepy_yoshi
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじ
sleepy_yoshi
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじ
sleepy_yoshi
PRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじ
sleepy_yoshi
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
sleepy_yoshi
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
sleepy_yoshi
PRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじ
sleepy_yoshi
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
sleepy_yoshi
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじ
sleepy_yoshi
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
sleepy_yoshi
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
sleepy_yoshi
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじ
sleepy_yoshi
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)
sleepy_yoshi
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7
sleepy_yoshi
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
sleepy_yoshi
SIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to Rank
sleepy_yoshi
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
sleepy_yoshi
ACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model Adaptation
sleepy_yoshi
Plus de sleepy_yoshi
(20)
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking Measures
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじ
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
PRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじ
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじ
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじ
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
SIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to Rank
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
ACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model Adaptation
ICML2013読み会: Distributed training of Large-scale Logistic models
1.
ICML2013読み会: Distributed training of
Large- scale Logistic models 2013-07-09 読む人: Yoshihiko Suhara @sleepy_yoshi 1
2.
Distributed training of
Large-scale Logistic models by SiddharthGopal and Yiming Yang (Carnegie Mellon Univ.) • タスク: クラス数が大規模な多クラスロジスティック回帰の分散学習 – 損失関数を分割できないため,そのままでは分散学習ができない • 本研究では3つの上界,拡張ラグランジュ法の適用を検討 – (A) Piece-wise Bounds (・A・)イクナイ!! – (B) Log-concavity bound (・∀・)イイ!! • 上界の最適解が元の損失関数の最適解に一致することを証明 [貢献] • Block-coordinate descent を用いて収束することを証明 [貢献] – (C) Double majorization bound (・A・)イクナイ!! – (D) 拡張ラグランジュ法 (ADMM) は? (・A・)イクナイ!! • 実データにおいてLog-concavity boundを用いた方法によって比較手 法に比べて最も高速に最適解に収束することを検証 [貢献] 2 1枚概要
3.
イントロ 3
4.
クラス数が大規模な多クラス分類問題 • 世の中にはクラス数が大規模な多クラス分類問題がけっ こうごろごろしている – e.g.,
Open Directory Project (100万規模のカテゴリ), Wikipedia • 正則化付き多クラスロジスティック回帰 (Regularized Multinomial Logistic Regression; RMLR) – マルチクラス分類のひとつの選択肢 – メリット: • 出力が確率値 • ちゃんとしたマルチクラス分類 (cf. SVMのMaxWins) – 補足: ロジスティック回帰の場合には線形分離が可能な場合, 重みベクトルが無限に大きくなってしまうため,正則化が必要 4
5.
多クラスロジスティック回帰の学習 • 以下のような選択肢がある – (1)
first order method (e.g., 最急降下法) • ステップサイズの調整が大変 • 収束が遅い – (2) second order methods (e.g., Newton法) • 収束が速い • ヘッセ行列の逆行列を求めるのが困難 (無理) – (3) 準ニュートン法 (e.g., BFGS, LBFGS) • 少ない計算コストでそこそこ収束が速い • 速度,メモリの観点からLogistic modelsにおけるbest choice な最適化手法 ([Daume III 04]など) 5Daume III, H. Notes on cg and lm-bfgs optimization of logistic regression. 2004.
6.
注意: 東大計数の近くで大きな声で逆行列と 発言しない方がいいかもしれません ※(正確には逆行列をそのまま求める,ですが) 6
7.
LBFGSの限界 • しかしながら大規模なデータセットにおいてはLBFGS の適用には限界 – 理由1.
パラメータ分散の並列計算が不可能 • ※勾配計算を並列化することは可能.これは実験で検証 – 理由2. 直線探索と損失関数評価の繰り返しが必要であ るため,パラメータを全て保持しておく必要 • 今回の実験ではパラメータだけで最大17GBのものに適用 – 理由3. L-BFGSでは過去の勾配情報を保持しておく必要 • たとえば過去5回分を保持するだけで17GBx5=85GB必要 7
8.
オンライン学習は? • もちろん適用可能 – e.g.,
Stochastic Gradient Descent • ただ,今回はクラス数が大規模な状況におい て全データを用いたバッチ学習を想定するの で比較はしない 8
9.
Large-scale RMLRの学習 9
10.
RMLRの学習 • 多クラスロジスティック回帰 – 特徴次元長の重みベクトル𝒘
𝒌(𝒌 = 𝟏, … , 𝑲) をKクラス分保持 • 尤度と損失関数は以下のとおり 10 (1) log-partition function (log-sum-exp) を並列可能な関数に置き換えられるだろうか? (2) その関数はlog-partition function の上界になるのだろうか? logの中にKクラス分のexpが入っているため, このままでは並列計算不可能 Research question ※ 𝑦𝑖𝑘 = 𝐼(𝑡𝑖 = 𝑘) 負の対数尤度↓↓正則化 全クラス分を併せて 対数を取る なんかコレを並列計算したいナー
11.
補足: log-sum-exp は凸関数 •
こんな感じにパラメータに対して凸関数 (証明略) – 例) log exp 𝑥 + exp 2𝑥 + exp 3𝑥 11 -4 -2 0 2 4 -5051015 x logsumexp(x)
12.
(A) Piece-wise bounds •
Piece-wise bound [Hsiung 08] • 適用が困難な理由 – 理由1. パラメータ探索が困難 – 理由2. クラス単位のパラメータに分散不可能 – 理由3. 目的関数が微分不可能 12(・A・)イクナイ!! -4 -2 0 2 4 -5051015 x logsumexp(x) こんな感じに線形関数の 組み合わせでbound ※ 下の方だけ maxとる前の関数を表示
13.
(B) Log-concavity bound
(1/2) • 凹関数の1次の条件により log(𝛾) ≤ 𝑎𝛾 − log 𝑎 − 1 ∀𝛾, 𝑎 > 0 – 補足: 凹関数の1次の条件 𝑓 𝑦 ≤ 𝑓 𝑥 + 𝛻𝑥 𝑓 𝑥 𝑦 − 𝑥 において 𝑦 = 𝛾, 𝑥 = 1 𝑎 とする • 𝛾を exp 𝑤 𝑘 𝑇 𝑥𝑖 𝐾 𝑘=1 に置き換えるとi番目のデータに対する log-sum-exp部分は以下の上界で抑えられる log exp 𝑤 𝑘 𝑇 𝑥𝑖 𝐾 𝑘=1 ≤ 𝑎𝑖 exp 𝑤 𝑘 𝑇 𝑥𝑖 𝐾 𝑘=1 − log 𝑎𝑖 − 1 13 𝑥 𝑦 𝛻𝑥 𝑓 𝑥 𝑦 − 𝑥 kクラスの和で計算並列化可能! 今回のイチオシ!
14.
図解: Log-concavity bound •
こんな感じ (𝑎 = 1, … , 5) – i.e., 𝑎 = 1 𝛾 のとき一致 14 0 1 2 3 4 5 -2024 x log(x) 0 1 2 3 4 5 -2024 0 1 2 3 4 5 -2024 0 1 2 3 4 5 -2024 0 1 2 3 4 5 -2024 0 1 2 3 4 5 -2024 0 1 2 3 4 5 -2024 0 1 2 3 4 5 -2024 0 1 2 3 4 5 -2024 0 1 2 3 4 5 -2024 0 1 2 3 4 5 -2024
15.
(B) Log-concavity bound
(2/2) • この上界を用いる場合,各クラスのパラメータ𝑤 𝑘は以下の最適化 問題となる argmin 𝑤 𝑘 𝜆 2 𝑤 𝑘 2 − 𝑦𝑖𝑘 𝑁 𝑖=1 𝑤 𝑘 𝑇 𝑥𝑖 + 𝑎𝑖 exp(𝑤 𝑘 𝑇 𝑥𝑖) 𝑁 𝑖=1 • 利点 – 理由1. 𝑤 𝑘で並列化可能 • 𝑎𝑖が固定されていれば,クラス数K個の損失関数に分解できる – 理由2. 閉形式で𝑎𝑖を求めることができる – 理由3. 微分可能 • ただひとつの欠点 – 凸じゃない 凸じゃない 凸じゃない... 15そんな上界で大丈夫か? 大丈夫だ,問題ない 𝑤 𝑘に関係のない部分は無視
16.
Log-concavity boundを用いた損失関数と それが大丈夫な理由 • 以下の3つを示すことによって保証
(詳しい証明は略) – 1. OPT2の停留点がただひとつであること – 2. その停留点がOPT1の最適解と一致すること – 3. Block coordinate descentによって停留点に収束すること 16 本研究のポイント (・∀・)イイ!! • Log-concavity bound を用いた損失関数
17.
OPT2の停留点を求める • 2. の導出 –
停留点の一次条件すなわち勾配が0になる点においてOPT1と一致 – 停留点がOPT1と一致.OPT1は凸関数であるため,停留点は大域的最適解 – これよりOPT2の停留点はOPT1の大域的最適解と一致 17 𝑎𝑖は閉形式で求まる なんか見たことある.そうだ多クラスロジスティック回帰の勾配だ!
18.
Block coordinate descent
algorithm • 以下の繰り返し – クラス毎のパラメータを並列計算 – 各データに対応する 𝑎𝑖 を求める 18 クラス数分並列計算 𝑎𝑖に関しては同期計算
19.
(C) Double majorization
bound • こんなbound [Bouchard 07] log exp 𝑤 𝑘 𝑇 𝑥𝑖 𝐾 𝑖=1 ≤ 𝑎𝑖 + log 1 + exp 𝑤 𝑘 𝑇 𝑥𝑖 − 𝑎𝑖 𝐾 𝑘=1 • 3つの利点 – コイツは並列化可能 – 微分可能 – なんと凸関数! 凸関数! 凸関数! 19 クラス毎に分散計算が可能
20.
実データでの検証結果 • 元の損失関数とのギャップが大きい –
上界として緩すぎる (・A・)イクナイ!!
21.
(D) 拡張ラグランジュ法 (1/2) •
Alternating Direction Method of Multipliers (ADMM) – 拡張ラグランジュ法の一種 • 複数の損失関数の和に分解可能な最適化問題に対して,冗長な 変数を導入して並列計算可能にする手法 21
22.
(D) 拡張ラグランジュ法 (2/2) •
RMLRにADMMを適用 22 , 𝒛 1つのデータに対する損失関数 以下の繰り返しで最適化: 𝑊に関する最小化𝑧に関する最小化ラグランジュ関数に関する最小化
23.
ADMMが適さない3つの理由 • 本タスクにADMMが適さない3つの理由 – 理由1.
分解後の計算量がlog-concavity boundに比 べて大きい – 理由2. 変数𝑍 (𝑧𝑖𝑘が𝑤 𝑘 𝑇 𝑥𝑖に対応) 導入によってメモリ コストが𝑂(𝑁)から𝑂(𝑁𝐾)に増加 – 理由3. ADMMは収束が遅い [Boyd 11] • 実験的にも検証 23 (・A・)イクナイ!!
24.
ここまでのまとめ 24 ↑ここまで説明 あとは実験結果を説明して終わり • タスク: クラス数が大規模な多クラスロジスティック回帰の分散学習 –
損失関数を分割できないため,そのままでは分散学習ができない • 本研究では3つの上界,拡張ラグランジュ法の適用を検討 – (A) Piece-wise Bounds (・A・)イクナイ!! – (B) Log-concavity bound (・∀・)イイ!! • 上界の最適解が元の損失関数の最適解に一致することを証明 [貢献] • Block-coordinate descent を用いて収束することを証明 [貢献] – (C) Double majorization bound (・A・)イクナイ!! – (D) 拡張ラグランジュ法 (ADMM) は? (・A・)イクナイ!! • 実データにおいてLog-concavity boundを用いた方法によって比較手 法に比べて最も高速に最適解に収束することを検証 [貢献]
25.
実験 25
26.
4つのデータセット 4つの比較手法 • 4つのデータセット 26 •
4つの比較手法 – ADMM – LC: Log-concavity (提案手法) – LBFGS: 勾配の計算を並列化 – DM: Double Majorization 15.9GiBfloat (32bit)
27.
実験条件 • メモリ共有コア分散とマシン分散の2つの分散 方式で検証 – (1)
Single machine (48 core 32GB RAM) • For CLEF, NEWS20, LSHTC-small – (2) Hadoop 0.20.2 + 64 workers (8 core 16GB RAM) • For LSHTC-large 27
28.
28 ※両対数であることに注意 結果 (1/2)
29.
29 ※両対数であることに注意 結果 (1/2) イテレーション数では LBFGSが一番よい LCとBFGSのみが実用時間で収束
30.
30 結果 (2/2) LCはパラメータサイズが17GBの データセットにもスケール ※ LBFGSは実用時間で動作せず LC以外の方法は検証せず
31.
Distributed training of
Large-scale Logistic models by SiddharthGopal and Yiming Yang (Carnegie Mellon Univ.) • タスク: クラス数が大規模な多クラスロジスティック回帰の分散学習 – 損失関数を分割できないため,そのままでは分散学習ができない • 本研究では3つの上界,拡張ラグランジュ法の適用を検討 – (A) Piece-wise Bounds (・A・)イクナイ!! – (B) Log-concavity bound (・∀・)イイ!! • 上界の最適解が元の損失関数の最適解に一致することを証明 [貢献] • Block-coordinate descent を用いて収束することを証明 [貢献] – (C) Double majorization bound (・A・)イクナイ!! – (D) 拡張ラグランジュ法 (ADMM) は? (・A・)イクナイ!! • 実データにおいてLog-concavity boundを用いた方法によって比較手 法に比べて最も高速に最適解に収束することを検証 [貢献] 31 まとめ 1枚概要 (再掲)
32.
感想 • Logistic Regressionのバッチ学習,オンライン 学習でどの程度性能に差があるのだろうか? –
損失関数の収束具合 ≠ モデル精度 • 勉強になった (小学生並みの感想) • ちょっと試してみたい 32
33.
おしまい 33
Télécharger maintenant