SlideShare a Scribd company logo
1 of 21
Download to read offline
坪坂正志
mail : m.tsubosaka(at)gmail(dot)com
紹介する論文
   The Big Data Bootstrap
     Ariel Kleiner, Ameet Talwalkar, Purnamrita Sarkar,
        Michael I. Jordan
       スライド
       http://biglearn.org/files/slides/contributed/kleiner.pdf
       より詳細な資料
       http://arxiv.org/abs/1112.5016
       大規模データに対するブートストラップ手法として
        有用なBag of Little Bootstrap(BLB)という手法を提案
Problem
   データ𝑋1 , … , 𝑋 𝑛 を観測
     Webのアクセスログ
     メールの文章がスパムかどうかのラベルデータ
   データから何らかの量𝜃 𝑛 = 𝜃(𝑋1 , … , 𝑋 𝑛 )を推定
    する
     あるアクセスのUser AgentがIE6である確率
     Linear SVMにより学習したメールの各単語に対す
     る重みベクトルの値
   𝜃 𝑛 の信頼区間などを求めたい
理想的な手法
1.   データ𝑋1 , … , 𝑋 𝑛 を観測
2.   データから何らかの量𝜃 𝑛 = 𝜃(𝑋1 , … , 𝑋 𝑛 )を
     推定する
3.   1,2を何回も繰り返す
ブートストラップ(Efron 1979)
 現実には𝑋1 , … , 𝑋 𝑛 を繰り返し発生させるこ
  とは困難
 このため観測された𝑋1 , … , 𝑋 𝑛 から復元抽出
  を何回も繰り返して、仮想的に𝑋1 , … , 𝑋 𝑛 を
  生成して、𝜃 𝑛 を計算する
ブートストラップの概要




   イメージとしては上の図のようになる
ブートストラップの例
   コインをN回投げてM回表がでるという事象
     𝑋1 , … , 𝑋 𝑁 を観測、例えばその中で𝑋1 = ⋯ = 𝑋 𝑀 =
     1, 残りは0と表現できる
                        𝑋1 +⋯+𝑋 𝑁
   この時表の出る確率は                    で推定できる
                             𝑁
   こういう処理を何回も行った時に表の出る
    確率の推定値の分布はどうなるか?
N=10 , M =1
N=100, M=10
N=100, M=1
例から分かること
   平均に関してはNが十分に大きければ、平均
    の分布は正規分布に近づく
     中心極限定理より
   NもしくはMが少ない場合は必ずしもそうは
    ならない
     中心極限定理は漸近的な性質について述べてい
     るので、有限の値のみ観測してるため
   bootstrapを使うと𝑋が連続値の場合などで
    はメディアンや信頼区間の計算もできる
ブートストラップの問題点
 ブートストラップで復元抽出を行った時、
  異なる点の数は約0.632nとなる
 このため元のデータの点の数が108 のとき、
  約6.3 ∗ 107 点のデータに対して𝜃 𝑛 を繰り返
  す計算する必要がある
 このため大規模なデータに対してブートス
  トラップを適用するのは困難
     また中規模なデータに関しては各復元抽出での
    サンプルがメモリに載るので並列化は容易であ
    るが、大規模な場合はそうはならない
𝑏 out of 𝑛 bootstrap (BOFN)
(Bickel+ 1997)
1.   𝑚 = 𝑏 𝑛 < 𝑛個のサンプルを𝑋1 , … , 𝑋 𝑛 から
     復元抽出する
2.   𝜃 𝑏(𝑛) を推定する
3.   1,2を繰り返す
4.   複数の𝜃 𝑏(𝑛) を使って信頼区間などを計算す
     る
𝑏 out of 𝑛 bootstrapの問題点
 𝑚を小さく取れば、 𝜃 𝑏(𝑛) の計算コストは小
  さくてすむ
 しかし、小さく取り過ぎると精度が極端に
  悪くなることがある
Bag of Little Bootstraps (BLB)
  本論文における提案手法
1. 𝑏 𝑛 < 𝑛個のサンプルを𝑋1 , … , 𝑋 𝑛 から非復元抽
   出する
2. 各サブサンプルに対して
     A)        𝑏 𝑛 種類の異なるデータから𝑛個復元抽出する
          1.   多項分布に従う乱数を使う
     B)        𝜃 𝑛 の計算を行う
          1.   ここでは計算量は異なるデータ点の数𝑏 𝑛 に依存する
               と考えている
     C) A,Bを繰り返す
3.    1,2を繰り返して、最後に平均を取る
アルゴリズム
BLBのメリット
   Bootstrapと比較して、各subsampleで保持
    するデータが少なくて済む
     例えば元データが1TBのとき、Bootstrapでは
     640GB必要だけど、BLBで𝑏 𝑛 = 𝑛0.6 のとき4GB
     で済む
  𝑏 𝑛
       → 0(𝑛 → ∞)の時の収束性の保証がある
    𝑛
実験
   𝑋𝑖 =   𝑋 𝑖 , 𝑌𝑖 ∼ 𝑃からn=20000点データを生
    成
                                             𝑇
     𝑋 𝑖 , 𝑌𝑖 の関係は𝑌𝑖 ∼ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(1 + exp −𝑋 𝑖 1 )と
      いうような関係を考える
     具体的には{𝑋 𝑖 }に関して回帰問題or判別問題を解
      いて、モデルパラメータを計算する
実験結果
   BOFNと比較して、サイズが 𝑛程度でもう
    まく推定できている
実験結果
   データが大規模の時はBoostingよりもはる
    かに収束が早い
まとめ
 大規模なデータに対して自動的かつ並列性
  がよく精度の高いブートストラップ手法を
  提案した
 個人的にはこの手法を使って推定した重み
  ベクトルなどを使った時の二値分類などの
  精度がどうなるかが気になった

More Related Content

What's hot

パターン認識02 k平均法ver2.0
パターン認識02 k平均法ver2.0パターン認識02 k平均法ver2.0
パターン認識02 k平均法ver2.0sleipnir002
 
データ解析のための統計モデリング入門3章後半
データ解析のための統計モデリング入門3章後半データ解析のための統計モデリング入門3章後半
データ解析のための統計モデリング入門3章後半Shinya Akiba
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章Masanori Takano
 
20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)Yoichi Shirasawa
 
MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出JAVA DM
 

What's hot (6)

パターン認識02 k平均法ver2.0
パターン認識02 k平均法ver2.0パターン認識02 k平均法ver2.0
パターン認識02 k平均法ver2.0
 
データ解析のための統計モデリング入門3章後半
データ解析のための統計モデリング入門3章後半データ解析のための統計モデリング入門3章後半
データ解析のための統計モデリング入門3章後半
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章
 
20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)
 
MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出
 
RUPC2017:L解説
RUPC2017:L解説RUPC2017:L解説
RUPC2017:L解説
 

Viewers also liked

Deeplearning勉強会20160220
Deeplearning勉強会20160220Deeplearning勉強会20160220
Deeplearning勉強会20160220正志 坪坂
 
Introduction to contexual bandit
Introduction to contexual banditIntroduction to contexual bandit
Introduction to contexual bandit正志 坪坂
 
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計正志 坪坂
 
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMiningContexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining正志 坪坂
 
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング正志 坪坂
 
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor modelWSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model正志 坪坂
 
Tokyowebmining ctr-predict
Tokyowebmining ctr-predictTokyowebmining ctr-predict
Tokyowebmining ctr-predict正志 坪坂
 
static index pruningについて
static index pruningについてstatic index pruningについて
static index pruningについて正志 坪坂
 
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)Hiroko Ohki Takagi
 
Exreme coffee brewing 2013 summer
Exreme coffee brewing 2013 summerExreme coffee brewing 2013 summer
Exreme coffee brewing 2013 summerHiroko Ohki Takagi
 
Creator's night 05 31 2013
Creator's night 05 31 2013Creator's night 05 31 2013
Creator's night 05 31 2013Len Matsuyama
 
eXtreme Coffee Brewing 2014 summer
eXtreme Coffee Brewing 2014 summereXtreme Coffee Brewing 2014 summer
eXtreme Coffee Brewing 2014 summerHiroko Ohki Takagi
 
Hadoop World 2011: Large Scale Log Data Analysis for Marketing in NTT Communi...
Hadoop World 2011: Large Scale Log Data Analysis for Marketing in NTT Communi...Hadoop World 2011: Large Scale Log Data Analysis for Marketing in NTT Communi...
Hadoop World 2011: Large Scale Log Data Analysis for Marketing in NTT Communi...Kenji Hara
 

Viewers also liked (20)

KDD 2015読み会
KDD 2015読み会KDD 2015読み会
KDD 2015読み会
 
Recsys2014 recruit
Recsys2014 recruitRecsys2014 recruit
Recsys2014 recruit
 
Tokyowebmining2012
Tokyowebmining2012Tokyowebmining2012
Tokyowebmining2012
 
Deeplearning勉強会20160220
Deeplearning勉強会20160220Deeplearning勉強会20160220
Deeplearning勉強会20160220
 
Recsys2015
Recsys2015Recsys2015
Recsys2015
 
Introduction to contexual bandit
Introduction to contexual banditIntroduction to contexual bandit
Introduction to contexual bandit
 
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
 
KDD2014_study
KDD2014_study KDD2014_study
KDD2014_study
 
EMNLP2014_reading
EMNLP2014_readingEMNLP2014_reading
EMNLP2014_reading
 
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMiningContexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
 
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
 
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor modelWSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model
 
Recsys2016勉強会
Recsys2016勉強会Recsys2016勉強会
Recsys2016勉強会
 
Tokyowebmining ctr-predict
Tokyowebmining ctr-predictTokyowebmining ctr-predict
Tokyowebmining ctr-predict
 
static index pruningについて
static index pruningについてstatic index pruningについて
static index pruningについて
 
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
 
Exreme coffee brewing 2013 summer
Exreme coffee brewing 2013 summerExreme coffee brewing 2013 summer
Exreme coffee brewing 2013 summer
 
Creator's night 05 31 2013
Creator's night 05 31 2013Creator's night 05 31 2013
Creator's night 05 31 2013
 
eXtreme Coffee Brewing 2014 summer
eXtreme Coffee Brewing 2014 summereXtreme Coffee Brewing 2014 summer
eXtreme Coffee Brewing 2014 summer
 
Hadoop World 2011: Large Scale Log Data Analysis for Marketing in NTT Communi...
Hadoop World 2011: Large Scale Log Data Analysis for Marketing in NTT Communi...Hadoop World 2011: Large Scale Log Data Analysis for Marketing in NTT Communi...
Hadoop World 2011: Large Scale Log Data Analysis for Marketing in NTT Communi...
 

Similar to Big Data Bootstrap (ICML読み会)

ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRDaisuke Yoneoka
 
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場Daisuke Yoneoka
 
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
[The Elements of Statistical Learning]Chapter8: Model Inferennce and AveragingYu Otsuka
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へZansa
 
距離とクラスタリング
距離とクラスタリング距離とクラスタリング
距離とクラスタリング大貴 末廣
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度Seiichi Uchida
 
DS Exercise Course 4
DS Exercise Course 4DS Exercise Course 4
DS Exercise Course 4大貴 末廣
 
単純ベイズ法による異常検知 #ml-professional
単純ベイズ法による異常検知  #ml-professional単純ベイズ法による異常検知  #ml-professional
単純ベイズ法による異常検知 #ml-professionalAi Makabi
 
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient DescentRyutaro Yamauchi
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7Shunsuke Nakamura
 
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布sleipnir002
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木 Miyoshi Yuya
 
アンサンブル学習
アンサンブル学習アンサンブル学習
アンサンブル学習Hidekazu Tanaka
 
Let中部2012シンポスライド
Let中部2012シンポスライドLet中部2012シンポスライド
Let中部2012シンポスライドMizumoto Atsushi
 
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslassoOracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslassoSatoshi Kato
 

Similar to Big Data Bootstrap (ICML読み会) (20)

ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
 
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場
 
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 
距離とクラスタリング
距離とクラスタリング距離とクラスタリング
距離とクラスタリング
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
 
DS Exercise Course 4
DS Exercise Course 4DS Exercise Course 4
DS Exercise Course 4
 
Deep learning入門
Deep learning入門Deep learning入門
Deep learning入門
 
単純ベイズ法による異常検知 #ml-professional
単純ベイズ法による異常検知  #ml-professional単純ベイズ法による異常検知  #ml-professional
単純ベイズ法による異常検知 #ml-professional
 
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
 
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木
 
Pad入門その3
Pad入門その3Pad入門その3
Pad入門その3
 
アンサンブル学習
アンサンブル学習アンサンブル学習
アンサンブル学習
 
ma92007id395
ma92007id395ma92007id395
ma92007id395
 
Let中部2012シンポスライド
Let中部2012シンポスライドLet中部2012シンポスライド
Let中部2012シンポスライド
 
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslassoOracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslasso
 

More from 正志 坪坂

KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossingKDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing正志 坪坂
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会正志 坪坂
 
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回OnlineMatching勉強会第一回
OnlineMatching勉強会第一回正志 坪坂
 
WSDM 2012 勉強会資料
WSDM 2012 勉強会資料WSDM 2012 勉強会資料
WSDM 2012 勉強会資料正志 坪坂
 
Complex network-reading 7
Complex network-reading 7Complex network-reading 7
Complex network-reading 7正志 坪坂
 
転置インデックスとTop k-query
転置インデックスとTop k-query転置インデックスとTop k-query
転置インデックスとTop k-query正志 坪坂
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会正志 坪坂
 
Cvpr2011 reading-tsubosaka
Cvpr2011 reading-tsubosakaCvpr2011 reading-tsubosaka
Cvpr2011 reading-tsubosaka正志 坪坂
 
Icml2011 reading-sage
Icml2011 reading-sageIcml2011 reading-sage
Icml2011 reading-sage正志 坪坂
 
TokyowebminingInferNet
TokyowebminingInferNetTokyowebminingInferNet
TokyowebminingInferNet正志 坪坂
 
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみたInfer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた正志 坪坂
 

More from 正志 坪坂 (14)

Recsys2018 unbiased
Recsys2018 unbiasedRecsys2018 unbiased
Recsys2018 unbiased
 
WSDM2018Study
WSDM2018StudyWSDM2018Study
WSDM2018Study
 
KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossingKDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回OnlineMatching勉強会第一回
OnlineMatching勉強会第一回
 
WSDM 2012 勉強会資料
WSDM 2012 勉強会資料WSDM 2012 勉強会資料
WSDM 2012 勉強会資料
 
Complex network-reading 7
Complex network-reading 7Complex network-reading 7
Complex network-reading 7
 
転置インデックスとTop k-query
転置インデックスとTop k-query転置インデックスとTop k-query
転置インデックスとTop k-query
 
EMNLP 2011 reading
EMNLP 2011 readingEMNLP 2011 reading
EMNLP 2011 reading
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
 
Cvpr2011 reading-tsubosaka
Cvpr2011 reading-tsubosakaCvpr2011 reading-tsubosaka
Cvpr2011 reading-tsubosaka
 
Icml2011 reading-sage
Icml2011 reading-sageIcml2011 reading-sage
Icml2011 reading-sage
 
TokyowebminingInferNet
TokyowebminingInferNetTokyowebminingInferNet
TokyowebminingInferNet
 
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみたInfer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた
 

Big Data Bootstrap (ICML読み会)

  • 2. 紹介する論文  The Big Data Bootstrap  Ariel Kleiner, Ameet Talwalkar, Purnamrita Sarkar, Michael I. Jordan  スライド  http://biglearn.org/files/slides/contributed/kleiner.pdf  より詳細な資料  http://arxiv.org/abs/1112.5016  大規模データに対するブートストラップ手法として 有用なBag of Little Bootstrap(BLB)という手法を提案
  • 3. Problem  データ𝑋1 , … , 𝑋 𝑛 を観測  Webのアクセスログ  メールの文章がスパムかどうかのラベルデータ  データから何らかの量𝜃 𝑛 = 𝜃(𝑋1 , … , 𝑋 𝑛 )を推定 する  あるアクセスのUser AgentがIE6である確率  Linear SVMにより学習したメールの各単語に対す る重みベクトルの値  𝜃 𝑛 の信頼区間などを求めたい
  • 4. 理想的な手法 1. データ𝑋1 , … , 𝑋 𝑛 を観測 2. データから何らかの量𝜃 𝑛 = 𝜃(𝑋1 , … , 𝑋 𝑛 )を 推定する 3. 1,2を何回も繰り返す
  • 5. ブートストラップ(Efron 1979)  現実には𝑋1 , … , 𝑋 𝑛 を繰り返し発生させるこ とは困難  このため観測された𝑋1 , … , 𝑋 𝑛 から復元抽出 を何回も繰り返して、仮想的に𝑋1 , … , 𝑋 𝑛 を 生成して、𝜃 𝑛 を計算する
  • 6. ブートストラップの概要  イメージとしては上の図のようになる
  • 7. ブートストラップの例  コインをN回投げてM回表がでるという事象  𝑋1 , … , 𝑋 𝑁 を観測、例えばその中で𝑋1 = ⋯ = 𝑋 𝑀 = 1, 残りは0と表現できる 𝑋1 +⋯+𝑋 𝑁  この時表の出る確率は で推定できる 𝑁  こういう処理を何回も行った時に表の出る 確率の推定値の分布はどうなるか?
  • 8. N=10 , M =1
  • 11. 例から分かること  平均に関してはNが十分に大きければ、平均 の分布は正規分布に近づく  中心極限定理より  NもしくはMが少ない場合は必ずしもそうは ならない  中心極限定理は漸近的な性質について述べてい るので、有限の値のみ観測してるため  bootstrapを使うと𝑋が連続値の場合などで はメディアンや信頼区間の計算もできる
  • 12. ブートストラップの問題点  ブートストラップで復元抽出を行った時、 異なる点の数は約0.632nとなる  このため元のデータの点の数が108 のとき、 約6.3 ∗ 107 点のデータに対して𝜃 𝑛 を繰り返 す計算する必要がある  このため大規模なデータに対してブートス トラップを適用するのは困難  また中規模なデータに関しては各復元抽出での サンプルがメモリに載るので並列化は容易であ るが、大規模な場合はそうはならない
  • 13. 𝑏 out of 𝑛 bootstrap (BOFN) (Bickel+ 1997) 1. 𝑚 = 𝑏 𝑛 < 𝑛個のサンプルを𝑋1 , … , 𝑋 𝑛 から 復元抽出する 2. 𝜃 𝑏(𝑛) を推定する 3. 1,2を繰り返す 4. 複数の𝜃 𝑏(𝑛) を使って信頼区間などを計算す る
  • 14. 𝑏 out of 𝑛 bootstrapの問題点  𝑚を小さく取れば、 𝜃 𝑏(𝑛) の計算コストは小 さくてすむ  しかし、小さく取り過ぎると精度が極端に 悪くなることがある
  • 15. Bag of Little Bootstraps (BLB)  本論文における提案手法 1. 𝑏 𝑛 < 𝑛個のサンプルを𝑋1 , … , 𝑋 𝑛 から非復元抽 出する 2. 各サブサンプルに対して A) 𝑏 𝑛 種類の異なるデータから𝑛個復元抽出する 1. 多項分布に従う乱数を使う B) 𝜃 𝑛 の計算を行う 1. ここでは計算量は異なるデータ点の数𝑏 𝑛 に依存する と考えている C) A,Bを繰り返す 3. 1,2を繰り返して、最後に平均を取る
  • 17. BLBのメリット  Bootstrapと比較して、各subsampleで保持 するデータが少なくて済む  例えば元データが1TBのとき、Bootstrapでは 640GB必要だけど、BLBで𝑏 𝑛 = 𝑛0.6 のとき4GB で済む 𝑏 𝑛  → 0(𝑛 → ∞)の時の収束性の保証がある 𝑛
  • 18. 実験  𝑋𝑖 = 𝑋 𝑖 , 𝑌𝑖 ∼ 𝑃からn=20000点データを生 成 𝑇  𝑋 𝑖 , 𝑌𝑖 の関係は𝑌𝑖 ∼ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(1 + exp −𝑋 𝑖 1 )と いうような関係を考える  具体的には{𝑋 𝑖 }に関して回帰問題or判別問題を解 いて、モデルパラメータを計算する
  • 19. 実験結果  BOFNと比較して、サイズが 𝑛程度でもう まく推定できている
  • 20. 実験結果  データが大規模の時はBoostingよりもはる かに収束が早い
  • 21. まとめ  大規模なデータに対して自動的かつ並列性 がよく精度の高いブートストラップ手法を 提案した  個人的にはこの手法を使って推定した重み ベクトルなどを使った時の二値分類などの 精度がどうなるかが気になった