SlideShare une entreprise Scribd logo
1  sur  14
Télécharger pour lire hors ligne
Compressing  Neural  Networks  
with  the  Hashing  Trick
(論論⽂文紹介)
ICML2015読み会
2015/08/20  @  ドワンゴセミナールーム
得居  誠也  (Preferred  Networks)
紹介する論論⽂文
Compressing Neural Networks with the Hashing Trick
Wenlin Chen
James T. Wilson
Stephen Tyree
Kilian Q. Weinberger
Yixin Chen
2
←  Hash  で  NN  圧縮、ゲームプレイ、など
←  ⼤大規模学習、博⼠士号取って今は  NVIDIA
←  Feature  Hashing  つくった先⽣生
⾃自⼰己紹介
l  得居  誠也  (Seiya  Tokui)
l  Twitter,  GitHub:  @beam2d
l  東⼤大中川研(修⼠士)→  PFI  →  PFN
l  専⾨門:機械学習
–  中川研時代にハッシュの学習を研究
–  今は主に深層学習、Chainer  の開発など
–  紹介する論論⽂文は  NN+Hash  なので個⼈人的にコンボが決まっています
3
省省メモリで⾼高性能をめざす
ニューラルネットを圧縮する話はいろいろある
l  いらない重みを取り除く  [LeCun+,  ʻ‘89]
l  重み共有(ConvNet,  tied  weights  AE)
l  半精度度浮動⼩小数点  [Courbariaux+,  ʻ‘14]  [Gupta+,  ʻ‘15]
l  重み⾏行行列列の低ランク近似  [Denil+,  ʻ‘13]  [Denton+,  ʻ‘14]
l  モデル圧縮・蒸留留  [Bucilu+,  ʼ’06]  [Hinton+,  ʻ‘14]  [Ba&Caruana,  ʻ‘14]
今⽇日紹介する論論⽂文の⼿手法  (Hashed  Nets)  はこれらと直交するテクニック
で、組み合わせてつかうこともできる
4
Feature  Hashing  [Weinberger+,  ICMLʼ’09]
l  ハッシュ関数を使って、特徴量量を低次元に圧縮する
l  次元の対応とかける  +1/-‐‑‒1  をともにハッシュ関数でつくる
5
特徴
Feature
ゲーム
hashing
⾯面⽩白い
おいしい
……
ハッシュ値
0
1
2
3
……
m
+	
+	
+	
-	
-	
内積 内積
期待値が一致、
分散もバウンドあり
Hashing  Trick
l  ハッシュを使って特徴ベクトルを低次元空間に埋め込むことで、カーネ
ルの内積をその低次元空間での線形な内積で表す
–  Feature  Hashing  を使う=線形カーネル
–  MinHash  を使う=Jaccard  係数カーネル  [Li+,  NIPSʼ’11]
l  Cf.)  カーネルトリック
–  ⾼高次元空間での内積を、ベクトルを陽に作らずに扱う
l  Cf.)  ランダム射影
–  ⾼高次元空間での内積を、低次元空間での内積で近似する
–  FastFood  [Le+,  ICMLʼ’13],  Deep  Fried  ConvNet  [Yang+,  ʻ‘14]
l  3年年半前に  PFI  セミナーでも紹介しました
http://www.slideshare.net/pfi/pfi-‐‑‒seminar-‐‑‒20120315
6
ランダム重み共有
l  全結合層の重みをランダムに共有する  (論論⽂文  Figure  1)
l  どの辺でどの重みをつかうかは辺の  ID  に対するハッシュで決める
7
ランダム重み共有を特徴ハッシュで実装する  (Hashed  Nets)
l  出⼒力力ユニットごとに特徴をハッシュして、同じ重みで出⼒力力を計算する
l  Feature  Hashing  にならってハッシュ部分で  ±1  をかけてもよい(実
験ではこちらを使⽤用)
8
ハッシュ部分では
重みをかけない
出⼒力力側で同じ⾊色の辺は
同じ重みをかける
誤差逆伝播
l  このグラフに従って素直に誤差逆伝播するだけ
l  重みの勾配も基本はそのまま(式  (12)  にまとまってる)
9
実験
l  MNIST(とその様々な変形バージョン)と  CONVEX,  RECT  データ
セットで実験
l  既存の圧縮⼿手法と⽐比較
–  ベースラインとして、単純にネットワークを⼩小さくして同じパラメータ数と
した無圧縮の  NN  とも⽐比較
–  提案⼿手法  (HashedNets)  については  Dark  Knowledge  との組み合わせも実
験
10
実験1)圧縮率率率  vs  エラー率率率(論論⽂文  Figure  2,  3)
11
実験2)メモリ量量を固定して「もとのNN」を⼤大きくしていく
12
まとめ
l  NN  を圧縮する試みはいろいろある
l  出⼒力力ユニットごとの特徴ハッシュは、(ハッシュを使った)ランダム重
み共有と等価
l  特徴ハッシュによる  NN  の圧縮は、既存の圧縮⼿手法と⽐比べて、⼤大きく圧
縮しても予測性能があまり落落ちない
l  使えるストレージ(メモリ)のサイズが決まってる場合、パラメータ数
を固定して次元を上げていくことで単純な⼩小さい  NN  よりも予測性能を
上げられる  (inflated  NN)
13
感想
l  既存⼿手法とくらべて想像以上に性能がよさそう
l  特徴次元に対する操作だけなので、ConvNet  にもおそらく応⽤用できる
l  GoogLeNet  がやったような  1x1  conv  による(ボトルネック型の)次
元圧縮とどちらが良良いのか気になる
–  Hashed  Nets  は⼀一⾒見見ボトルネック型の  NN  だが、ボトルネックでの
値が出⼒力力ユニットごとにバラバラなので少し違う
14

Contenu connexe

Tendances

階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
 
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
Preferred Networks
 

Tendances (20)

pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話
 
[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数
 
Stan勉強会資料(前編)
Stan勉強会資料(前編) Stan勉強会資料(前編)
Stan勉強会資料(前編)
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
Greed is Good: 劣モジュラ関数最大化とその発展
Greed is Good: 劣モジュラ関数最大化とその発展Greed is Good: 劣モジュラ関数最大化とその発展
Greed is Good: 劣モジュラ関数最大化とその発展
 
StanとRでベイズ統計モデリング 1,2章
StanとRでベイズ統計モデリング 1,2章StanとRでベイズ統計モデリング 1,2章
StanとRでベイズ統計モデリング 1,2章
 
[Dl輪読会]A simple neural network module for relational reasoning
[Dl輪読会]A simple neural network module for relational reasoning[Dl輪読会]A simple neural network module for relational reasoning
[Dl輪読会]A simple neural network module for relational reasoning
 
基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
 
WAICとWBICのご紹介
WAICとWBICのご紹介WAICとWBICのご紹介
WAICとWBICのご紹介
 
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 
[DL輪読会]Neuroscience-Inspired Artificial Intelligence
[DL輪読会]Neuroscience-Inspired Artificial Intelligence[DL輪読会]Neuroscience-Inspired Artificial Intelligence
[DL輪読会]Neuroscience-Inspired Artificial Intelligence
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
 
Sliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデルSliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデル
 
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺について
 
Sigfin Neural Fractional SDE NET
Sigfin Neural Fractional SDE NETSigfin Neural Fractional SDE NET
Sigfin Neural Fractional SDE NET
 
DID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpactDID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpact
 

En vedette

ICML2015読み会:Optimal and Adaptive Algorithms for Online Boosting
ICML2015読み会:Optimal and Adaptive Algorithms for Online BoostingICML2015読み会:Optimal and Adaptive Algorithms for Online Boosting
ICML2015読み会:Optimal and Adaptive Algorithms for Online Boosting
irrrrr
 

En vedette (20)

20110822文献紹介
20110822文献紹介20110822文献紹介
20110822文献紹介
 
スライドの作り方
スライドの作り方スライドの作り方
スライドの作り方
 
論文紹介 Deterministic Independent Component Analysis
論文紹介 Deterministic Independent Component Analysis論文紹介 Deterministic Independent Component Analysis
論文紹介 Deterministic Independent Component Analysis
 
ICML2015概要
ICML2015概要ICML2015概要
ICML2015概要
 
ICML2015読み会 資料
ICML2015読み会 資料ICML2015読み会 資料
ICML2015読み会 資料
 
ICML2015読み会:Optimal and Adaptive Algorithms for Online Boosting
ICML2015読み会:Optimal and Adaptive Algorithms for Online BoostingICML2015読み会:Optimal and Adaptive Algorithms for Online Boosting
ICML2015読み会:Optimal and Adaptive Algorithms for Online Boosting
 
Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit...
Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit...Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit...
Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit...
 
Trust Region Policy Optimization
Trust Region Policy OptimizationTrust Region Policy Optimization
Trust Region Policy Optimization
 
深層学習フレームワークChainerの紹介とFPGAへの期待
深層学習フレームワークChainerの紹介とFPGAへの期待深層学習フレームワークChainerの紹介とFPGAへの期待
深層学習フレームワークChainerの紹介とFPGAへの期待
 
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entriesIcml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
 
Introduction to Chainer
Introduction to ChainerIntroduction to Chainer
Introduction to Chainer
 
Introduction to Chainer: A Flexible Framework for Deep Learning
Introduction to Chainer: A Flexible Framework for Deep LearningIntroduction to Chainer: A Flexible Framework for Deep Learning
Introduction to Chainer: A Flexible Framework for Deep Learning
 
Recurrent Neural Networks
Recurrent Neural NetworksRecurrent Neural Networks
Recurrent Neural Networks
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
Deep Learning技術の今
Deep Learning技術の今Deep Learning技術の今
Deep Learning技術の今
 
Learning stochastic neural networks with Chainer
Learning stochastic neural networks with ChainerLearning stochastic neural networks with Chainer
Learning stochastic neural networks with Chainer
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用
 
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
 
Chainer v2 alpha
Chainer v2 alphaChainer v2 alpha
Chainer v2 alpha
 

Plus de Seiya Tokui

Plus de Seiya Tokui (18)

Chainer/CuPy v5 and Future (Japanese)
Chainer/CuPy v5 and Future (Japanese)Chainer/CuPy v5 and Future (Japanese)
Chainer/CuPy v5 and Future (Japanese)
 
Chainer v3
Chainer v3Chainer v3
Chainer v3
 
Chainer v2 and future dev plan
Chainer v2 and future dev planChainer v2 and future dev plan
Chainer v2 and future dev plan
 
Chainer Update v1.8.0 -> v1.10.0+
Chainer Update v1.8.0 -> v1.10.0+Chainer Update v1.8.0 -> v1.10.0+
Chainer Update v1.8.0 -> v1.10.0+
 
Differences of Deep Learning Frameworks
Differences of Deep Learning FrameworksDifferences of Deep Learning Frameworks
Differences of Deep Learning Frameworks
 
Overview of Chainer and Its Features
Overview of Chainer and Its FeaturesOverview of Chainer and Its Features
Overview of Chainer and Its Features
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
Chainer Development Plan 2015/12
Chainer Development Plan 2015/12Chainer Development Plan 2015/12
Chainer Development Plan 2015/12
 
Towards Chainer v1.5
Towards Chainer v1.5Towards Chainer v1.5
Towards Chainer v1.5
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
 
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding ModelNIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
 
ICML2013読み会 Local Deep Kernel Learning for Efficient Non-linear SVM Prediction
ICML2013読み会 Local Deep Kernel Learning for Efficient Non-linear SVM PredictionICML2013読み会 Local Deep Kernel Learning for Efficient Non-linear SVM Prediction
ICML2013読み会 Local Deep Kernel Learning for Efficient Non-linear SVM Prediction
 
Deep Learningの技術と未来
Deep Learningの技術と未来Deep Learningの技術と未来
Deep Learningの技術と未来
 
Tprimal agh
Tprimal aghTprimal agh
Tprimal agh
 
rinko2011-agh
rinko2011-aghrinko2011-agh
rinko2011-agh
 
rinko2010
rinko2010rinko2010
rinko2010
 
Ml4nlp 4 2
Ml4nlp 4 2Ml4nlp 4 2
Ml4nlp 4 2
 

Dernier

Dernier (11)

Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

論文紹介 Compressing Neural Networks with the Hashing Trick