SlideShare une entreprise Scribd logo
1  sur  33
Télécharger pour lire hors ligne
ICML2013読み会:
Distributed training of Large-
scale Logistic models
2013-07-09
読む人: Yoshihiko Suhara
@sleepy_yoshi
1
Distributed training of Large-scale Logistic models
by SiddharthGopal and Yiming Yang (Carnegie Mellon Univ.)
• タスク: クラス数が大規模な多クラスロジスティック回帰の分散学習
– 損失関数を分割できないため,そのままでは分散学習ができない
• 本研究では3つの上界,拡張ラグランジュ法の適用を検討
– (A) Piece-wise Bounds (・A・)イクナイ!!
– (B) Log-concavity bound (・∀・)イイ!!
• 上界の最適解が元の損失関数の最適解に一致することを証明 [貢献]
• Block-coordinate descent を用いて収束することを証明 [貢献]
– (C) Double majorization bound (・A・)イクナイ!!
– (D) 拡張ラグランジュ法 (ADMM) は? (・A・)イクナイ!!
• 実データにおいてLog-concavity boundを用いた方法によって比較手
法に比べて最も高速に最適解に収束することを検証 [貢献]
2
1枚概要
イントロ
3
クラス数が大規模な多クラス分類問題
• 世の中にはクラス数が大規模な多クラス分類問題がけっ
こうごろごろしている
– e.g., Open Directory Project (100万規模のカテゴリ), Wikipedia
• 正則化付き多クラスロジスティック回帰 (Regularized
Multinomial Logistic Regression; RMLR)
– マルチクラス分類のひとつの選択肢
– メリット:
• 出力が確率値
• ちゃんとしたマルチクラス分類 (cf. SVMのMaxWins)
– 補足: ロジスティック回帰の場合には線形分離が可能な場合,
重みベクトルが無限に大きくなってしまうため,正則化が必要
4
多クラスロジスティック回帰の学習
• 以下のような選択肢がある
– (1) first order method (e.g., 最急降下法)
•  ステップサイズの調整が大変
•  収束が遅い
– (2) second order methods (e.g., Newton法)
•  収束が速い
•  ヘッセ行列の逆行列を求めるのが困難 (無理)
– (3) 準ニュートン法 (e.g., BFGS, LBFGS)
•  少ない計算コストでそこそこ収束が速い
• 速度,メモリの観点からLogistic modelsにおけるbest choice
な最適化手法 ([Daume III 04]など)
5Daume III, H. Notes on cg and lm-bfgs optimization of logistic regression. 2004.
注意: 東大計数の近くで大きな声で逆行列と
発言しない方がいいかもしれません
※(正確には逆行列をそのまま求める,ですが)
6
LBFGSの限界
• しかしながら大規模なデータセットにおいてはLBFGS
の適用には限界
– 理由1. パラメータ分散の並列計算が不可能
• ※勾配計算を並列化することは可能.これは実験で検証
– 理由2. 直線探索と損失関数評価の繰り返しが必要であ
るため,パラメータを全て保持しておく必要
• 今回の実験ではパラメータだけで最大17GBのものに適用
– 理由3. L-BFGSでは過去の勾配情報を保持しておく必要
• たとえば過去5回分を保持するだけで17GBx5=85GB必要 
7
オンライン学習は?
• もちろん適用可能
– e.g., Stochastic Gradient Descent
• ただ,今回はクラス数が大規模な状況におい
て全データを用いたバッチ学習を想定するの
で比較はしない
8
Large-scale RMLRの学習
9
RMLRの学習
• 多クラスロジスティック回帰
– 特徴次元長の重みベクトル𝒘 𝒌(𝒌 = 𝟏, … , 𝑲) をKクラス分保持
• 尤度と損失関数は以下のとおり
10
(1) log-partition function (log-sum-exp) を並列可能な関数に置き換えられるだろうか?
(2) その関数はlog-partition function の上界になるのだろうか?
logの中にKクラス分のexpが入っているため,
このままでは並列計算不可能 
Research question
※ 𝑦𝑖𝑘 = 𝐼(𝑡𝑖 = 𝑘)
負の対数尤度↓↓正則化
全クラス分を併せて
対数を取る
なんかコレを並列計算したいナー
補足: log-sum-exp は凸関数
• こんな感じにパラメータに対して凸関数 (証明略)
– 例) log exp 𝑥 + exp 2𝑥 + exp 3𝑥
11
-4 -2 0 2 4
-5051015
x
logsumexp(x)
(A) Piece-wise bounds
• Piece-wise bound [Hsiung 08]
• 適用が困難な理由
– 理由1. パラメータ探索が困難
– 理由2. クラス単位のパラメータに分散不可能
– 理由3. 目的関数が微分不可能
12(・A・)イクナイ!!
-4 -2 0 2 4
-5051015
x
logsumexp(x)
こんな感じに線形関数の
組み合わせでbound
※ 下の方だけ
maxとる前の関数を表示
(B) Log-concavity bound (1/2)
• 凹関数の1次の条件により
log(𝛾) ≤ 𝑎𝛾 − log 𝑎 − 1 ∀𝛾, 𝑎 > 0
– 補足: 凹関数の1次の条件 𝑓 𝑦 ≤ 𝑓 𝑥 + 𝛻𝑥 𝑓 𝑥 𝑦 − 𝑥 において
𝑦 = 𝛾, 𝑥 =
1
𝑎
とする
• 𝛾を exp 𝑤 𝑘
𝑇
𝑥𝑖
𝐾
𝑘=1 に置き換えるとi番目のデータに対する
log-sum-exp部分は以下の上界で抑えられる
log exp 𝑤 𝑘
𝑇
𝑥𝑖
𝐾
𝑘=1
≤ 𝑎𝑖 exp 𝑤 𝑘
𝑇
𝑥𝑖
𝐾
𝑘=1
− log 𝑎𝑖 − 1
13
𝑥 𝑦
𝛻𝑥 𝑓 𝑥 𝑦 − 𝑥
kクラスの和で計算並列化可能!
今回のイチオシ!
図解: Log-concavity bound
• こんな感じ (𝑎 = 1, … , 5)
– i.e., 𝑎 =
1
𝛾
のとき一致
14
0 1 2 3 4 5
-2024
x
log(x)
0 1 2 3 4 5
-2024
0 1 2 3 4 5
-2024
0 1 2 3 4 5
-2024
0 1 2 3 4 5
-2024
0 1 2 3 4 5
-2024
0 1 2 3 4 5
-2024
0 1 2 3 4 5
-2024
0 1 2 3 4 5
-2024
0 1 2 3 4 5
-2024
0 1 2 3 4 5
-2024
(B) Log-concavity bound (2/2)
• この上界を用いる場合,各クラスのパラメータ𝑤 𝑘は以下の最適化
問題となる
argmin 𝑤 𝑘
𝜆
2
𝑤 𝑘
2
− 𝑦𝑖𝑘
𝑁
𝑖=1
𝑤 𝑘
𝑇
𝑥𝑖 + 𝑎𝑖 exp(𝑤 𝑘
𝑇
𝑥𝑖)
𝑁
𝑖=1
• 利点 
– 理由1. 𝑤 𝑘で並列化可能
• 𝑎𝑖が固定されていれば,クラス数K個の損失関数に分解できる
– 理由2. 閉形式で𝑎𝑖を求めることができる
– 理由3. 微分可能
• ただひとつの欠点 
– 凸じゃない 凸じゃない 凸じゃない...
15そんな上界で大丈夫か?  大丈夫だ,問題ない
𝑤 𝑘に関係のない部分は無視
Log-concavity boundを用いた損失関数と
それが大丈夫な理由
• 以下の3つを示すことによって保証 (詳しい証明は略)
– 1. OPT2の停留点がただひとつであること
– 2. その停留点がOPT1の最適解と一致すること
– 3. Block coordinate descentによって停留点に収束すること
16
本研究のポイント
(・∀・)イイ!!
• Log-concavity bound を用いた損失関数
OPT2の停留点を求める
• 2. の導出
– 停留点の一次条件すなわち勾配が0になる点においてOPT1と一致
– 停留点がOPT1と一致.OPT1は凸関数であるため,停留点は大域的最適解
– これよりOPT2の停留点はOPT1の大域的最適解と一致
17
 𝑎𝑖は閉形式で求まる
なんか見たことある.そうだ多クラスロジスティック回帰の勾配だ!
Block coordinate descent algorithm
• 以下の繰り返し
– クラス毎のパラメータを並列計算
– 各データに対応する 𝑎𝑖 を求める
18
 クラス数分並列計算
 𝑎𝑖に関しては同期計算
(C) Double majorization bound
• こんなbound [Bouchard 07]
log exp 𝑤 𝑘
𝑇
𝑥𝑖
𝐾
𝑖=1
≤ 𝑎𝑖 + log 1 + exp 𝑤 𝑘
𝑇
𝑥𝑖 − 𝑎𝑖
𝐾
𝑘=1
• 3つの利点 
– コイツは並列化可能
– 微分可能
– なんと凸関数! 凸関数! 凸関数!
19
クラス毎に分散計算が可能
実データでの検証結果
• 元の損失関数とのギャップが大きい 
– 上界として緩すぎる
(・A・)イクナイ!!
(D) 拡張ラグランジュ法 (1/2)
• Alternating Direction Method of Multipliers (ADMM)
– 拡張ラグランジュ法の一種
• 複数の損失関数の和に分解可能な最適化問題に対して,冗長な
変数を導入して並列計算可能にする手法
21
(D) 拡張ラグランジュ法 (2/2)
• RMLRにADMMを適用
22
, 𝒛
1つのデータに対する損失関数
以下の繰り返しで最適化:
𝑊に関する最小化𝑧に関する最小化ラグランジュ関数に関する最小化
ADMMが適さない3つの理由
• 本タスクにADMMが適さない3つの理由
– 理由1. 分解後の計算量がlog-concavity boundに比
べて大きい
– 理由2. 変数𝑍 (𝑧𝑖𝑘が𝑤 𝑘
𝑇
𝑥𝑖に対応) 導入によってメモリ
コストが𝑂(𝑁)から𝑂(𝑁𝐾)に増加
– 理由3. ADMMは収束が遅い [Boyd 11]
• 実験的にも検証
23
(・A・)イクナイ!!
ここまでのまとめ
24
↑ここまで説明
あとは実験結果を説明して終わり
• タスク: クラス数が大規模な多クラスロジスティック回帰の分散学習
– 損失関数を分割できないため,そのままでは分散学習ができない
• 本研究では3つの上界,拡張ラグランジュ法の適用を検討
– (A) Piece-wise Bounds (・A・)イクナイ!!
– (B) Log-concavity bound (・∀・)イイ!!
• 上界の最適解が元の損失関数の最適解に一致することを証明 [貢献]
• Block-coordinate descent を用いて収束することを証明 [貢献]
– (C) Double majorization bound (・A・)イクナイ!!
– (D) 拡張ラグランジュ法 (ADMM) は? (・A・)イクナイ!!
• 実データにおいてLog-concavity boundを用いた方法によって比較手
法に比べて最も高速に最適解に収束することを検証 [貢献]
実験
25
4つのデータセット 4つの比較手法
• 4つのデータセット
26
• 4つの比較手法
– ADMM
– LC: Log-concavity (提案手法)
– LBFGS: 勾配の計算を並列化
– DM: Double Majorization
15.9GiBfloat (32bit)
実験条件
• メモリ共有コア分散とマシン分散の2つの分散
方式で検証
– (1) Single machine (48 core 32GB RAM)
• For CLEF, NEWS20, LSHTC-small
– (2) Hadoop 0.20.2 + 64 workers (8 core 16GB
RAM)
• For LSHTC-large
27
28
※両対数であることに注意
結果 (1/2)
29
※両対数であることに注意
結果 (1/2)
イテレーション数では
LBFGSが一番よい
LCとBFGSのみが実用時間で収束
30
結果 (2/2)
LCはパラメータサイズが17GBの
データセットにもスケール
※ LBFGSは実用時間で動作せず
LC以外の方法は検証せず
Distributed training of Large-scale Logistic models
by SiddharthGopal and Yiming Yang (Carnegie Mellon Univ.)
• タスク: クラス数が大規模な多クラスロジスティック回帰の分散学習
– 損失関数を分割できないため,そのままでは分散学習ができない
• 本研究では3つの上界,拡張ラグランジュ法の適用を検討
– (A) Piece-wise Bounds (・A・)イクナイ!!
– (B) Log-concavity bound (・∀・)イイ!!
• 上界の最適解が元の損失関数の最適解に一致することを証明 [貢献]
• Block-coordinate descent を用いて収束することを証明 [貢献]
– (C) Double majorization bound (・A・)イクナイ!!
– (D) 拡張ラグランジュ法 (ADMM) は? (・A・)イクナイ!!
• 実データにおいてLog-concavity boundを用いた方法によって比較手
法に比べて最も高速に最適解に収束することを検証 [貢献]
31
まとめ 1枚概要 (再掲)
感想
• Logistic Regressionのバッチ学習,オンライン
学習でどの程度性能に差があるのだろうか?
– 損失関数の収束具合 ≠ モデル精度
• 勉強になった (小学生並みの感想)
• ちょっと試してみたい
32
おしまい
33

Contenu connexe

Tendances

(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMMMorpho, Inc.
 
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来Hidekazu Oiwa
 
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature FilterMorpho, Inc.
 
Graph convolution (スペクトルアプローチ)
Graph convolution (スペクトルアプローチ)Graph convolution (スペクトルアプローチ)
Graph convolution (スペクトルアプローチ)yukihiro domae
 
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Taiji Suzuki
 
Limits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break themLimits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break themMorpho, Inc.
 
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムMiyoshi Yuya
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化Miyoshi Yuya
 
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...yukihiro domae
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習Masahiro Suzuki
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
多チャンネルバイラテラルフィルタの高速化
多チャンネルバイラテラルフィルタの高速化多チャンネルバイラテラルフィルタの高速化
多チャンネルバイラテラルフィルタの高速化Norishige Fukushima
 
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionPRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionShintaro Takemura
 
Qlik Tips 20220315 Null値の課題と対策
Qlik Tips 20220315 Null値の課題と対策Qlik Tips 20220315 Null値の課題と対策
Qlik Tips 20220315 Null値の課題と対策QlikPresalesJapan
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知Chika Inoshita
 
深層学習(講談社)のまとめ 第4章
深層学習(講談社)のまとめ 第4章深層学習(講談社)のまとめ 第4章
深層学習(講談社)のまとめ 第4章okku apot
 
FeaStNet: Feature-Steered Graph Convolutions for 3D Shape Analysis
FeaStNet: Feature-Steered Graph Convolutions for 3D Shape AnalysisFeaStNet: Feature-Steered Graph Convolutions for 3D Shape Analysis
FeaStNet: Feature-Steered Graph Convolutions for 3D Shape Analysisyukihiro domae
 
L0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noiseL0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noiseFujimoto Keisuke
 
NN, CNN, and Image Analysis
NN, CNN, and Image AnalysisNN, CNN, and Image Analysis
NN, CNN, and Image AnalysisYuki Shimada
 

Tendances (20)

(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来
 
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
 
Graph convolution (スペクトルアプローチ)
Graph convolution (スペクトルアプローチ)Graph convolution (スペクトルアプローチ)
Graph convolution (スペクトルアプローチ)
 
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
 
Limits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break themLimits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break them
 
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズム
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
 
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
多チャンネルバイラテラルフィルタの高速化
多チャンネルバイラテラルフィルタの高速化多チャンネルバイラテラルフィルタの高速化
多チャンネルバイラテラルフィルタの高速化
 
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionPRML 4.1 Discriminant Function
PRML 4.1 Discriminant Function
 
Qlik Tips 20220315 Null値の課題と対策
Qlik Tips 20220315 Null値の課題と対策Qlik Tips 20220315 Null値の課題と対策
Qlik Tips 20220315 Null値の課題と対策
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
 
深層学習(講談社)のまとめ 第4章
深層学習(講談社)のまとめ 第4章深層学習(講談社)のまとめ 第4章
深層学習(講談社)のまとめ 第4章
 
FeaStNet: Feature-Steered Graph Convolutions for 3D Shape Analysis
FeaStNet: Feature-Steered Graph Convolutions for 3D Shape AnalysisFeaStNet: Feature-Steered Graph Convolutions for 3D Shape Analysis
FeaStNet: Feature-Steered Graph Convolutions for 3D Shape Analysis
 
領域分割法
領域分割法領域分割法
領域分割法
 
L0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noiseL0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noise
 
NN, CNN, and Image Analysis
NN, CNN, and Image AnalysisNN, CNN, and Image Analysis
NN, CNN, and Image Analysis
 

En vedette

ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...sleepy_yoshi
 
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning AlgorithmICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning AlgorithmYuya Unno
 
ICML2013読み会 Local Deep Kernel Learning for Efficient Non-linear SVM Prediction
ICML2013読み会 Local Deep Kernel Learning for Efficient Non-linear SVM PredictionICML2013読み会 Local Deep Kernel Learning for Efficient Non-linear SVM Prediction
ICML2013読み会 Local Deep Kernel Learning for Efficient Non-linear SVM PredictionSeiya Tokui
 
ICML2013読み会 開会宣言
ICML2013読み会 開会宣言ICML2013読み会 開会宣言
ICML2013読み会 開会宣言Shohei Hido
 
ICML2013読み会 Large-Scale Learning with Less RAM via Randomization
ICML2013読み会 Large-Scale Learning with Less RAM via RandomizationICML2013読み会 Large-Scale Learning with Less RAM via Randomization
ICML2013読み会 Large-Scale Learning with Less RAM via RandomizationHidekazu Oiwa
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component AnalysisKoji Matsuda
 
論文紹介 Fast imagetagging
論文紹介 Fast imagetagging論文紹介 Fast imagetagging
論文紹介 Fast imagetaggingTakashi Abe
 
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...Koji Matsuda
 
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical SearchWSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Searchsleepy_yoshi
 
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5Koji Matsuda
 
基調講演:「多様化する情報を支える技術」/西川徹
基調講演:「多様化する情報を支える技術」/西川徹基調講演:「多様化する情報を支える技術」/西川徹
基調講演:「多様化する情報を支える技術」/西川徹Preferred Networks
 
Vanishing Component Analysisの試作と簡単な実験
Vanishing Component Analysisの試作と簡単な実験Vanishing Component Analysisの試作と簡単な実験
Vanishing Component Analysisの試作と簡単な実験Hiroshi Tsukahara
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesKoji Matsuda
 

En vedette (13)

ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
 
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning AlgorithmICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
 
ICML2013読み会 Local Deep Kernel Learning for Efficient Non-linear SVM Prediction
ICML2013読み会 Local Deep Kernel Learning for Efficient Non-linear SVM PredictionICML2013読み会 Local Deep Kernel Learning for Efficient Non-linear SVM Prediction
ICML2013読み会 Local Deep Kernel Learning for Efficient Non-linear SVM Prediction
 
ICML2013読み会 開会宣言
ICML2013読み会 開会宣言ICML2013読み会 開会宣言
ICML2013読み会 開会宣言
 
ICML2013読み会 Large-Scale Learning with Less RAM via Randomization
ICML2013読み会 Large-Scale Learning with Less RAM via RandomizationICML2013読み会 Large-Scale Learning with Less RAM via Randomization
ICML2013読み会 Large-Scale Learning with Less RAM via Randomization
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component Analysis
 
論文紹介 Fast imagetagging
論文紹介 Fast imagetagging論文紹介 Fast imagetagging
論文紹介 Fast imagetagging
 
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
 
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical SearchWSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
 
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5
 
基調講演:「多様化する情報を支える技術」/西川徹
基調講演:「多様化する情報を支える技術」/西川徹基調講演:「多様化する情報を支える技術」/西川徹
基調講演:「多様化する情報を支える技術」/西川徹
 
Vanishing Component Analysisの試作と簡単な実験
Vanishing Component Analysisの試作と簡単な実験Vanishing Component Analysisの試作と簡単な実験
Vanishing Component Analysisの試作と簡単な実験
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architectures
 

Similaire à ICML2013読み会: Distributed training of Large-scale Logistic models

Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてPlot Hong
 
Graph Clustering on Missing Data
Graph Clustering on Missing DataGraph Clustering on Missing Data
Graph Clustering on Missing DataYuma Inoue
 
A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)Morpho, Inc.
 
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)Takuji Tahara
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東) BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東) Mai Nishimura
 
第六回「データ解析のための統計モデリング入門」前半
第六回「データ解析のための統計モデリング入門」前半第六回「データ解析のための統計モデリング入門」前半
第六回「データ解析のための統計モデリング入門」前半Atsushi Hayakawa
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 
Sigsoftmax: Reanalysis of the Softmax Bottleneck
Sigsoftmax: Reanalysis of the Softmax BottleneckSigsoftmax: Reanalysis of the Softmax Bottleneck
Sigsoftmax: Reanalysis of the Softmax BottleneckRI
 
CMSI計算科学技術特論A (2015) 第12回 古典分子動力学法の高速化
CMSI計算科学技術特論A (2015) 第12回 古典分子動力学法の高速化CMSI計算科学技術特論A (2015) 第12回 古典分子動力学法の高速化
CMSI計算科学技術特論A (2015) 第12回 古典分子動力学法の高速化Computational Materials Science Initiative
 
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」Sho Kagami
 
関数プログラミング入門
関数プログラミング入門関数プログラミング入門
関数プログラミング入門Hideyuki Tanaka
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7matsuolab
 
コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)Masaya Kaneko
 

Similaire à ICML2013読み会: Distributed training of Large-scale Logistic models (17)

Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向について
 
Graph Clustering on Missing Data
Graph Clustering on Missing DataGraph Clustering on Missing Data
Graph Clustering on Missing Data
 
A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)
 
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法
 
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東) BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
 
PRML Chapter 14
PRML Chapter 14PRML Chapter 14
PRML Chapter 14
 
第六回「データ解析のための統計モデリング入門」前半
第六回「データ解析のための統計モデリング入門」前半第六回「データ解析のための統計モデリング入門」前半
第六回「データ解析のための統計モデリング入門」前半
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Sigsoftmax: Reanalysis of the Softmax Bottleneck
Sigsoftmax: Reanalysis of the Softmax BottleneckSigsoftmax: Reanalysis of the Softmax Bottleneck
Sigsoftmax: Reanalysis of the Softmax Bottleneck
 
CMSI計算科学技術特論A (2015) 第12回 古典分子動力学法の高速化
CMSI計算科学技術特論A (2015) 第12回 古典分子動力学法の高速化CMSI計算科学技術特論A (2015) 第12回 古典分子動力学法の高速化
CMSI計算科学技術特論A (2015) 第12回 古典分子動力学法の高速化
 
1次式とノルムで構成された最適化問題とその双対問題
1次式とノルムで構成された最適化問題とその双対問題1次式とノルムで構成された最適化問題とその双対問題
1次式とノルムで構成された最適化問題とその双対問題
 
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
 
関数プログラミング入門
関数プログラミング入門関数プログラミング入門
関数プログラミング入門
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 
コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)
 

Plus de sleepy_yoshi

KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twittersleepy_yoshi
 
KDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking MeasuresKDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking Measuressleepy_yoshi
 
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじPRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじPRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじPRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじsleepy_yoshi
 
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and RecommendationSEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and Recommendationsleepy_yoshi
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-sleepy_yoshi
 
PRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじPRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじsleepy_yoshi
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するsleepy_yoshi
 
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじPRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじsleepy_yoshi
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Ranksleepy_yoshi
 
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5sleepy_yoshi
 
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじPRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじsleepy_yoshi
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)sleepy_yoshi
 
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7sleepy_yoshi
 
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)sleepy_yoshi
 
SIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to RankSIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to Ranksleepy_yoshi
 
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++sleepy_yoshi
 
ACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model AdaptationACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model Adaptationsleepy_yoshi
 

Plus de sleepy_yoshi (20)

KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
 
KDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking MeasuresKDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking Measures
 
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじ
 
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじPRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじ
 
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじPRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじ
 
PRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじPRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじ
 
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and RecommendationSEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
 
PRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじPRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじ
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
 
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじPRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじ
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
 
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
 
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじPRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじ
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)
 
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7
 
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
 
SIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to RankSIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to Rank
 
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
 
ACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model AdaptationACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model Adaptation
 

ICML2013読み会: Distributed training of Large-scale Logistic models

  • 1. ICML2013読み会: Distributed training of Large- scale Logistic models 2013-07-09 読む人: Yoshihiko Suhara @sleepy_yoshi 1
  • 2. Distributed training of Large-scale Logistic models by SiddharthGopal and Yiming Yang (Carnegie Mellon Univ.) • タスク: クラス数が大規模な多クラスロジスティック回帰の分散学習 – 損失関数を分割できないため,そのままでは分散学習ができない • 本研究では3つの上界,拡張ラグランジュ法の適用を検討 – (A) Piece-wise Bounds (・A・)イクナイ!! – (B) Log-concavity bound (・∀・)イイ!! • 上界の最適解が元の損失関数の最適解に一致することを証明 [貢献] • Block-coordinate descent を用いて収束することを証明 [貢献] – (C) Double majorization bound (・A・)イクナイ!! – (D) 拡張ラグランジュ法 (ADMM) は? (・A・)イクナイ!! • 実データにおいてLog-concavity boundを用いた方法によって比較手 法に比べて最も高速に最適解に収束することを検証 [貢献] 2 1枚概要
  • 4. クラス数が大規模な多クラス分類問題 • 世の中にはクラス数が大規模な多クラス分類問題がけっ こうごろごろしている – e.g., Open Directory Project (100万規模のカテゴリ), Wikipedia • 正則化付き多クラスロジスティック回帰 (Regularized Multinomial Logistic Regression; RMLR) – マルチクラス分類のひとつの選択肢 – メリット: • 出力が確率値 • ちゃんとしたマルチクラス分類 (cf. SVMのMaxWins) – 補足: ロジスティック回帰の場合には線形分離が可能な場合, 重みベクトルが無限に大きくなってしまうため,正則化が必要 4
  • 5. 多クラスロジスティック回帰の学習 • 以下のような選択肢がある – (1) first order method (e.g., 最急降下法) •  ステップサイズの調整が大変 •  収束が遅い – (2) second order methods (e.g., Newton法) •  収束が速い •  ヘッセ行列の逆行列を求めるのが困難 (無理) – (3) 準ニュートン法 (e.g., BFGS, LBFGS) •  少ない計算コストでそこそこ収束が速い • 速度,メモリの観点からLogistic modelsにおけるbest choice な最適化手法 ([Daume III 04]など) 5Daume III, H. Notes on cg and lm-bfgs optimization of logistic regression. 2004.
  • 7. LBFGSの限界 • しかしながら大規模なデータセットにおいてはLBFGS の適用には限界 – 理由1. パラメータ分散の並列計算が不可能 • ※勾配計算を並列化することは可能.これは実験で検証 – 理由2. 直線探索と損失関数評価の繰り返しが必要であ るため,パラメータを全て保持しておく必要 • 今回の実験ではパラメータだけで最大17GBのものに適用 – 理由3. L-BFGSでは過去の勾配情報を保持しておく必要 • たとえば過去5回分を保持するだけで17GBx5=85GB必要  7
  • 8. オンライン学習は? • もちろん適用可能 – e.g., Stochastic Gradient Descent • ただ,今回はクラス数が大規模な状況におい て全データを用いたバッチ学習を想定するの で比較はしない 8
  • 10. RMLRの学習 • 多クラスロジスティック回帰 – 特徴次元長の重みベクトル𝒘 𝒌(𝒌 = 𝟏, … , 𝑲) をKクラス分保持 • 尤度と損失関数は以下のとおり 10 (1) log-partition function (log-sum-exp) を並列可能な関数に置き換えられるだろうか? (2) その関数はlog-partition function の上界になるのだろうか? logの中にKクラス分のexpが入っているため, このままでは並列計算不可能  Research question ※ 𝑦𝑖𝑘 = 𝐼(𝑡𝑖 = 𝑘) 負の対数尤度↓↓正則化 全クラス分を併せて 対数を取る なんかコレを並列計算したいナー
  • 11. 補足: log-sum-exp は凸関数 • こんな感じにパラメータに対して凸関数 (証明略) – 例) log exp 𝑥 + exp 2𝑥 + exp 3𝑥 11 -4 -2 0 2 4 -5051015 x logsumexp(x)
  • 12. (A) Piece-wise bounds • Piece-wise bound [Hsiung 08] • 適用が困難な理由 – 理由1. パラメータ探索が困難 – 理由2. クラス単位のパラメータに分散不可能 – 理由3. 目的関数が微分不可能 12(・A・)イクナイ!! -4 -2 0 2 4 -5051015 x logsumexp(x) こんな感じに線形関数の 組み合わせでbound ※ 下の方だけ maxとる前の関数を表示
  • 13. (B) Log-concavity bound (1/2) • 凹関数の1次の条件により log(𝛾) ≤ 𝑎𝛾 − log 𝑎 − 1 ∀𝛾, 𝑎 > 0 – 補足: 凹関数の1次の条件 𝑓 𝑦 ≤ 𝑓 𝑥 + 𝛻𝑥 𝑓 𝑥 𝑦 − 𝑥 において 𝑦 = 𝛾, 𝑥 = 1 𝑎 とする • 𝛾を exp 𝑤 𝑘 𝑇 𝑥𝑖 𝐾 𝑘=1 に置き換えるとi番目のデータに対する log-sum-exp部分は以下の上界で抑えられる log exp 𝑤 𝑘 𝑇 𝑥𝑖 𝐾 𝑘=1 ≤ 𝑎𝑖 exp 𝑤 𝑘 𝑇 𝑥𝑖 𝐾 𝑘=1 − log 𝑎𝑖 − 1 13 𝑥 𝑦 𝛻𝑥 𝑓 𝑥 𝑦 − 𝑥 kクラスの和で計算並列化可能! 今回のイチオシ!
  • 14. 図解: Log-concavity bound • こんな感じ (𝑎 = 1, … , 5) – i.e., 𝑎 = 1 𝛾 のとき一致 14 0 1 2 3 4 5 -2024 x log(x) 0 1 2 3 4 5 -2024 0 1 2 3 4 5 -2024 0 1 2 3 4 5 -2024 0 1 2 3 4 5 -2024 0 1 2 3 4 5 -2024 0 1 2 3 4 5 -2024 0 1 2 3 4 5 -2024 0 1 2 3 4 5 -2024 0 1 2 3 4 5 -2024 0 1 2 3 4 5 -2024
  • 15. (B) Log-concavity bound (2/2) • この上界を用いる場合,各クラスのパラメータ𝑤 𝑘は以下の最適化 問題となる argmin 𝑤 𝑘 𝜆 2 𝑤 𝑘 2 − 𝑦𝑖𝑘 𝑁 𝑖=1 𝑤 𝑘 𝑇 𝑥𝑖 + 𝑎𝑖 exp(𝑤 𝑘 𝑇 𝑥𝑖) 𝑁 𝑖=1 • 利点  – 理由1. 𝑤 𝑘で並列化可能 • 𝑎𝑖が固定されていれば,クラス数K個の損失関数に分解できる – 理由2. 閉形式で𝑎𝑖を求めることができる – 理由3. 微分可能 • ただひとつの欠点  – 凸じゃない 凸じゃない 凸じゃない... 15そんな上界で大丈夫か?  大丈夫だ,問題ない 𝑤 𝑘に関係のない部分は無視
  • 16. Log-concavity boundを用いた損失関数と それが大丈夫な理由 • 以下の3つを示すことによって保証 (詳しい証明は略) – 1. OPT2の停留点がただひとつであること – 2. その停留点がOPT1の最適解と一致すること – 3. Block coordinate descentによって停留点に収束すること 16 本研究のポイント (・∀・)イイ!! • Log-concavity bound を用いた損失関数
  • 17. OPT2の停留点を求める • 2. の導出 – 停留点の一次条件すなわち勾配が0になる点においてOPT1と一致 – 停留点がOPT1と一致.OPT1は凸関数であるため,停留点は大域的最適解 – これよりOPT2の停留点はOPT1の大域的最適解と一致 17  𝑎𝑖は閉形式で求まる なんか見たことある.そうだ多クラスロジスティック回帰の勾配だ!
  • 18. Block coordinate descent algorithm • 以下の繰り返し – クラス毎のパラメータを並列計算 – 各データに対応する 𝑎𝑖 を求める 18  クラス数分並列計算  𝑎𝑖に関しては同期計算
  • 19. (C) Double majorization bound • こんなbound [Bouchard 07] log exp 𝑤 𝑘 𝑇 𝑥𝑖 𝐾 𝑖=1 ≤ 𝑎𝑖 + log 1 + exp 𝑤 𝑘 𝑇 𝑥𝑖 − 𝑎𝑖 𝐾 𝑘=1 • 3つの利点  – コイツは並列化可能 – 微分可能 – なんと凸関数! 凸関数! 凸関数! 19 クラス毎に分散計算が可能
  • 21. (D) 拡張ラグランジュ法 (1/2) • Alternating Direction Method of Multipliers (ADMM) – 拡張ラグランジュ法の一種 • 複数の損失関数の和に分解可能な最適化問題に対して,冗長な 変数を導入して並列計算可能にする手法 21
  • 22. (D) 拡張ラグランジュ法 (2/2) • RMLRにADMMを適用 22 , 𝒛 1つのデータに対する損失関数 以下の繰り返しで最適化: 𝑊に関する最小化𝑧に関する最小化ラグランジュ関数に関する最小化
  • 23. ADMMが適さない3つの理由 • 本タスクにADMMが適さない3つの理由 – 理由1. 分解後の計算量がlog-concavity boundに比 べて大きい – 理由2. 変数𝑍 (𝑧𝑖𝑘が𝑤 𝑘 𝑇 𝑥𝑖に対応) 導入によってメモリ コストが𝑂(𝑁)から𝑂(𝑁𝐾)に増加 – 理由3. ADMMは収束が遅い [Boyd 11] • 実験的にも検証 23 (・A・)イクナイ!!
  • 24. ここまでのまとめ 24 ↑ここまで説明 あとは実験結果を説明して終わり • タスク: クラス数が大規模な多クラスロジスティック回帰の分散学習 – 損失関数を分割できないため,そのままでは分散学習ができない • 本研究では3つの上界,拡張ラグランジュ法の適用を検討 – (A) Piece-wise Bounds (・A・)イクナイ!! – (B) Log-concavity bound (・∀・)イイ!! • 上界の最適解が元の損失関数の最適解に一致することを証明 [貢献] • Block-coordinate descent を用いて収束することを証明 [貢献] – (C) Double majorization bound (・A・)イクナイ!! – (D) 拡張ラグランジュ法 (ADMM) は? (・A・)イクナイ!! • 実データにおいてLog-concavity boundを用いた方法によって比較手 法に比べて最も高速に最適解に収束することを検証 [貢献]
  • 26. 4つのデータセット 4つの比較手法 • 4つのデータセット 26 • 4つの比較手法 – ADMM – LC: Log-concavity (提案手法) – LBFGS: 勾配の計算を並列化 – DM: Double Majorization 15.9GiBfloat (32bit)
  • 27. 実験条件 • メモリ共有コア分散とマシン分散の2つの分散 方式で検証 – (1) Single machine (48 core 32GB RAM) • For CLEF, NEWS20, LSHTC-small – (2) Hadoop 0.20.2 + 64 workers (8 core 16GB RAM) • For LSHTC-large 27
  • 31. Distributed training of Large-scale Logistic models by SiddharthGopal and Yiming Yang (Carnegie Mellon Univ.) • タスク: クラス数が大規模な多クラスロジスティック回帰の分散学習 – 損失関数を分割できないため,そのままでは分散学習ができない • 本研究では3つの上界,拡張ラグランジュ法の適用を検討 – (A) Piece-wise Bounds (・A・)イクナイ!! – (B) Log-concavity bound (・∀・)イイ!! • 上界の最適解が元の損失関数の最適解に一致することを証明 [貢献] • Block-coordinate descent を用いて収束することを証明 [貢献] – (C) Double majorization bound (・A・)イクナイ!! – (D) 拡張ラグランジュ法 (ADMM) は? (・A・)イクナイ!! • 実データにおいてLog-concavity boundを用いた方法によって比較手 法に比べて最も高速に最適解に収束することを検証 [貢献] 31 まとめ 1枚概要 (再掲)
  • 32. 感想 • Logistic Regressionのバッチ学習,オンライン 学習でどの程度性能に差があるのだろうか? – 損失関数の収束具合 ≠ モデル精度 • 勉強になった (小学生並みの感想) • ちょっと試してみたい 32