Contenu connexe Similaire à 効率的学習 / Efficient Training(メタサーベイ) (20) 効率的学習 / Efficient Training(メタサーベイ)5. Efficientなモデルの変遷(`17~`19)
5
amoeba net
モデル
NAS
NAS
2017
NASNet
2018
amoeba
NAS
mobilenetv1 mobilenetv2
SENet
2019
mobilenetv3
efficientNet
Mobile
NAS
MNASnet
squeeze-
extend
構造の提案
depthwise
separable
conv.の提案
inverted
residual
blockを使用
・SENetのsqueeze-extend
構造を採用
・reluの代わりにh-swish
:hand-craftなモデル
:NASによるモデル
NASの概念を
初めて提唱
モデル全体で
はなく,
モジュールに
分割してNAS
を行なった
さまざまな繋げ方を
許容し,
従来より自由度の高
いNASを行う
platform-awareなNAS
階層的なarchitecture search
も行う
MNASnetをベースに
,depth/width/resolutionを線形
に探索することでコスパ最強の
画像認識モデルを構築
6. Efficientなモデルの変遷(`19~`21)
6
2019
2020
2021
● EfficientNetの登場によりだいたい収束した...かに思われたが,ViTの登場により再活
性化?
● ViTを効率化するといいモデルが得られたりするらしい
EfficientNet efficientNetV2
DeiT
ViT
の
登
場
EfficientDet
Efficient
DETR
RepVGG
EfficientNAS
グラフ理論により
NASの探索空間を
効率化
depthwise
convの廃止と
スケーリング
の工夫で
efficientnetを
さらに効率化
reparameterizat
ionによりVGG
でも効率的な推
論が可能
:hand-craftなモデル
:NASによるモデル
:ViTがらみの話
複数段特徴をうまく扱う
BiFPNとefficientnet流のス
ケール探索によるSoTAな
detectionモデル
8. EfficientDet: Scalable and Efficient Object Detection
8
会議 : CVPR2020
著者 : Mingxing Tan, Ruoming Pang, Quoc V. Le
● 目的:メモリ・演算効率の良い物体検出ネットワークの構築とそのスケールアップ
● 先行研究の課題:解像度の異なる特徴が等価に扱われていた.また,バックボーンのネットワークの巨
大化に依存
● 新規性:様々なスケールの特徴量を統合するための構造としてweighted bi-directional feature pyramid
net (BiFPN) を提案.また,EfficientNet同様にCompound scaling methodを導入
● 結果:COCOデータセットにおいてSOTAとなる52.2APを,4~9倍パラメータ効率が良く,13~42倍高速な
モデルで達成
EfficientDet architecture
9. Efficient Forward Architecture Search
9
会議 : AutoML@ICML 2019
著者 : Hanzhang Hu, John Langford, Rich Caruana, Saurajit Mukherjee, Eric Horvitz and Debadeepta Dey
● 目的:NASによる効率的なネットワーク構成の探索.特に,ベースとなるモデルがあるようなWarm-start
の場合
● 新規性:NASと勾配ブースティングの類似性から,中間層への処理の追加を弱学習器の追加とみなし
,ベースモデルに処理を追加しながらより複雑なモデルを構築するPetridishという手法を提案.
stop-gradientとstop-forward関数により,FFとBPの処理時に既存部分と追加部分を分離することで効
率的に学習できるよう工夫した.
● 結果:飛躍的改善は無いがSOTAレベルの性能を達成.macro-searchはcell-searchよりも性能が出な
いという既存の結果と異なり,cell-searchでも近い性能が得られることを示した.
10. Deep Networks with Stochastic Depth
10
会議: ECCV2016
著者: Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, Kilian Weinberger
● 概要: Residual Blockを確率的にドロップさせることで,学習時間の短縮や勾配消失を抑制する
Stochastic Depthを提案.
● 新規性: ネットワークの幅を狭くするDropoutとは異なり,ネットワークのlayerの数(深さ)を確率的に変え
ることによって,汎化性能を高めるのが狙い.また,ネットワークのlayer数を減らす(学習時は浅く,テス
ト時はより深くする)ことによって,従来のResNetで膨大とされていた学習時間を短縮することに成功.
● 結果: CIFAR-10のtest errorを6.41%から5.23%に改善させるなど,学習時間を短縮しながら精度の改善
を達成.
11. Xception: Deep Learning with Depthwise Separable Convolutions
11
会議: CVPR2017
著者: François Chollet
● 概要: Inception moduleをdepth方向に分離可能な畳み込みに置き換えた新しいネットワーク構造であ
るXceptionを提案.
● 新規性: channel間の相関と空間的(width, height)な相関を同時に学習していた従来の畳み込みを,こ
の2つを独立させることでより効率的な学習を実現.
● 結果: ImageNetやJFTを用いた評価で,従来のInception-v3を上回る性能を達成.(パラメータ数は
Inception-v3と同じなので,モデルの大きさではなくパラメータを効率よく使用できたことを意味する.)
12. Squeeze-and-Excitation Networks
12
会議: CVPR2018
著者: Jie Hu, Li Shen, Samuel Albanie, Gang Sun, Enhua Wu
● 概要: 新たにSqueeze-and-Excitation blockを導入することで,画像特徴の識別能力を高めることを示
した.
● 新規性: 新しい構造を既存のネットワークに組み込むことによって,ネットワークが各特徴マップの重み
を適切に調整することができるように,畳み込み層の各チャネルにパラメータを追加可能.提案したブ
ロックを組み込んでもその計算量は1%未満の増加に留まっており,様々なモデルに適用可能.
● 結果: ResNet-50にこのブロックを追加することで,ResNet-100とほぼ同等の精度を達成した.(計算量
は約半分)
13. Lite Transformer with Long-Short Range Attention
13
会議: ICLR2020
著者: Zhanghao Wu, Zhijian Liu, Ji Lin, Yujun Lin, Song Han
● 概要: Transformerのモバイルアプリへの適用を目的とし,計算コストやモデルサイズの圧縮のために
Lite Transformerを提案.
● 新規性: embedding sizeの縮小によってモデルサイズや計算量を削減するのが従来手法での解決策で
あったが,単語の距離の関係を捉えることが難しくなることを指摘した上で,LSRA(Long-Short Range
Attention)を提案.attention layerでの時間依存性をより正確に捉えることが可能.ローカルまたはグ
ローバルな文脈理解を2つのブランチそれぞれで処理してからfeed-forward networkで混合することで
,全体の計算量を削減することに成功.
● 結果:WMT En-Fr データセットを対象とし,約18.2倍のモデルサイズの圧縮を達成.
14. MetaPruning:
Meta Learning for Automatic Neural Network Channel Pruning
14
会議: ICCV2019
著者: Zechun Liu, Haoyuan Mu, Xiangyu Zhang, Zichao Guo, Xin Yang, Tim Kwang-Ting Cheng, Jian Sun
● 概要: 非常に深いネットワーク構造において,channelに対して自動で枝刈り(Pruning)を行うためのメタ
学習の手法を提案.
● 新規性: 学習済みのモデルから必要のないパラメータを除去するために枝刈りをするのではなく,任意
の構造に対して適切な重みを生成するPruningNetを提案.重みは学習されたネットワークによって直接
生成されるので,fine-tuningを必要とせず,非常に効率的である.
● 結果: MobileNet-v1/v2やResNetにおいて,良い性能を発揮していることを確認.
15. ProxylessNAS:
Direct Neural Architecture Search on Task and Hardware
15
会議: ICCV2019
著者: Han Cai, Ligeng Zhu, Song Han
● 概要: 大規模なターゲットタスクとターゲットハードウェアプラットフォームの構造を直接学習することが
できるproxylessのNASを提案.
● 新規性: ネットワーク構造に対して対象となるタスクやハードウェアに対して直に最適化を行うことで,こ
れまでのProxyベースの手法よりも著しく優れた結果を残した.
● 結果: ImageNetに対して,200GPU時間で探索したモデルがMobileNet-v2 1.4と同程度のtop-1
accuracyを出しながらも,1.8倍の高速化を実現.
16. MobileNetv2: Inverted Residuals and Linear Bottlenecks
16
会議: CVPR2018
著者: Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, Liang-Chieh Chen
● 概要: モバイル端末のような限られた計算資源下においても,高い精度を発揮できるモデルとして
MobileNetv2を提案.
● 新規性: 従来手法であるMobileNetv1をベースとした上で,“linear bottlenecks”によって非線形性の原
因である特徴をフィルタリングし,“inverted residuals”によってResNet同様ショートカットを組み込み,学
習時間の短縮と精度の向上を実現.
● 結果: 画像認識で一般的なタスク3つ(ImageNetでの画像分類・COCOでの物体検出・VOCでの
segmentation)において,精度の向上を確認.
17. MnasNet: Platform-Aware Neural Architecture Search for Mobile
17
会議: CVPR2019
著者: Mingxing Tan, Bo Chen, Ruoming Pang, Vijay Vasudevan, Mark Sandler, Andrew Howard, Quoc V. Le
● 概要: 強化学習を用いて,モバイル端末で機械学習の最適なモデルを探索する手法を提案.
● 新規性: 強化学習の手法を用いて実デバイス上の速度と正確性を報酬関数に設定することで,モバイ
ル用端末でのモデルの自動設計を実現.また,特定のプラットフォームでモデルを実際に実行すること
でモデルの速度を実際に測定するアプローチで,機器固有の精度と速度のトレードオフの最適化を達
成.
● 結果: MobileNetv2よりも1.5倍高速,NASNetよりも2.4倍高速.物体検出においても高い精度と反応速度
を実現.
18. AMLA: an AutoML frAmework for Neural Network Design
18
会議: ICMLworkshop2019
著者: Purushotham Kamath, Abhishek Singh, Debo Dutta
● 概要: 画像分類に使用するための,CNNを生成するAutoMLアルゴリズムを導入するための機械学習
フレームワークを提案.
● 新規性: 異なるAutoMLのアルゴリズムを,同じハイパーパラメータと基盤を使って比較でき,お互いの
結果の正規化が不要である.このそれぞれのアルゴリズムの制約を満たすモデルを生成するために,
満たすための情報をフィードバックするためのループ設計を導入.
19. Analyzing Multi-Head Self-Attention:Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned
19
会議: ICMLworkshop2019
著者: Purushotham Kamath, Abhishek Singh, Debo Dutta
● 概要: TransformerのEncoder内で,それぞれのAttention Headの貢献度を評価した上で,それぞれの
Headが持つ役割を明らかにした論文.最も貢献度が高いAttention Headは一貫して言語的に解釈可
能な役割を持っている.
● 新規性: 確率的なgateとL0
penaltyに基づいて枝刈りを行う手法を提案.
● 結果: 英語-ロシア語間のWMTデータセットにおいて,48個のHeadの内38個を枝刈りしてもBLEUの低
下はわずか0.15にとどまった.
20. Densely Connected Convolutional Networks
20
会議 : CVPR2017
著者 : Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger
● ResNetBlockに代わるDenseNetBlockを提案
● DenseNetBlock : CNNの各レイヤの特徴量マップを共有し,L個のレイヤに対しL(L-1)/2個の結合を行
う(従来のResNetは高々L個の結合しかない)
● 全ての層の情報を元に推論を行うことができるようになったため,少ないパラメータで効率的に学習が
可能かつ勾配消失を起こしづらいというメリット
● bottleneck層を組み合わせたDenseNet-Bや情報圧縮(結合の数を確率的に減らす)を行う
DenseNet-Cなどでも実験を行い,より効率的な学習が可能に
21. Gpipe: Easy scaling with micro-batch pipeline parallelism
21
会議 : arxiv2018
著者 : Yanping Huang, Youlong Cheng, Ankur Bapna, Orhan Firat, Mia Xu Chen, Dehao Chen, HyoukJoong Lee, Jiquan Ngiam, Quoc V. Le, Yonghui Wu,
Zhifeng Chen
● 従来のネットワークの学習をさらに細かい単位に区切って行うことにより,
さまざまなハードウェアにお
いて汎用的かつ効率的な学習を可能にするフレームワーク
を提案
● 従来はモデルの順伝播・逆伝播をシーケンシャルに行っていたのに対し,それぞれのレイヤにおける
計算をも分割して行うことにより時間効率とスケーラビリティを向上した
● 画像認識と自然言語処理の両タスクで
従来のフレームワークを上回る性能を達成
22. Deep Compression : compressing deep neural networks with pruning, trained
quantization and huffman coding
22
会議 : ICLR2016
著者 : Song Han, Huizi Mao, William J. Dally
● 深層学習モデルをプルーニング(重要なパラメタの剪定)
・パラメータの量子化・ハフマン符号化の三段
階の処理を行うことによりモデルサイズを
50分の1程にまで圧縮した
● プルーニングによりパラメータ数は10分の1に,量子化により情報量は3分の1にできる
● プルーニング及び量子化の際には精度が下がらないように処理後に追加での学習を行なっている
● モデルのパラメータの出現頻度の分布に応じたハフマン符号化によりモデルの重さを20~30%削減でき
る
23. AMC : AutoML for model compression and acceleration acceleration on mobile
devices
23
会議 : ECCV2018
著者 : Yihui He • Ji Lin • Zhijian Liu • Hanrui Wang • Li-Jia Li • Song Han
● 深層学習モデルの圧縮のために強化学習を使用
● モデルのうち削減するべき層を選択するというタスクを強化学習により実行
● 報酬として精度だけでなく計算時間や圧縮率,特徴表現の質などを用いることによって,さまざまな要
素に関しての最適化を行うことができる
● それまで行われてきた人の手による圧縮
に比べて効率を大幅に改善した
24. Learning to prune deep neural networks via reinforcement learning
24
会議 : ICML workshop
著者 : Yihui He • Ji Lin • Zhijian Liu • Hanrui Wang • Li-Jia Li • Song Han
● AMCを改善し,パラメータ選定(プルーニング)を行うごとに報酬関数を計算するようにした
● 従来手法ではネットワーク全体のプルーニングを行なったのちにエージェントに報酬を与えていたが,
本手法ではネットワーク内の一つの層に対してプルーニングを行うごとに報酬を与えた
● これによりプルーニングを85%効率化することに成功
25. LCNN : Lookup-based convolutional neural network
25
会議 : ECCV2018
著者 : Yihui He • Ji Lin • Zhijian Liu • Hanrui Wang • Li-Jia Li • Song Han
● ネットワークの重みをそれぞれ別個に学習するのではなく,ネットワークの重みを辞書ベクトルの線型
結合で表現する
● パラメータを辞書ベクトルの組み合わせで表現
することによりモデルの重さを抑えた
● パラメータ数が減ったことにより,
few-shot learningやfew-iterationの性能
も向上した
26. XNOR-Net: ImageNet classification using binary convolutional neural networks
26
会議 : ECCV2016
著者 : Mohammad Rastegari, Vicente Ordonez, Joseph Redmon, Ali Farhadi
● 深層学習モデルの重みと入出力を全て二値化して扱うことにより軽量化
● 先行研究のBinaryweightでは重みだけを二値化するが本手法ではレイヤの入出力も二値化
● scale parameterαを使用して以下のように畳み込みを近似
● これによりXNOR演算とビットカウントによってのみ畳み込みを表現することができる
27. 参考記事
Learning transferable architectures for scalable image recognition
会議 : CVPR2018
著者 : Barret Zoph, Vijay Vasudevan, Jonathon Shlens,
Quoc V Le
● 強化学習によってモデルの構造を最適化するNeural
Architecture Searchにおいて,モデル全体の構造のサーチを
するのではなくCNNセルという小さいまとまり単位での最適化
を行なった
● CNNを”Normal cell”と”Reduction cell”の組み合わせと捉え
直し,これらのセルの内部構造のみを最適化すればよいとい
う発想
● セルに分割することで,あるデータセットで探索したCNNセル
を別のデータセットの認識に用いることができるというメリット
がある
CNNセ
ル
↑従来モデル(左)を二種類のセルの
組み合わせと捉える(右)
←探索の結果得られた
Normal / Reduction cell
の構造
28. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
28
会議 : ICML2019
著者 : Mingxing Tan, Quoc V. Le
● モデルのスケール(depth, width, resolution)を網羅的に探索
○ 新規性として,上記3つのパラメータを同時にスケーリングすることが可能
● NASを用いてベースラインネットワークを開発(EfficientNets)し,スケールアップすることでSOTA
を達成
● 更に,従来のモデルよりもパラメータ数を削減することに成功
29. EfficientNetV2: Smaller Models and Faster Training
29
会議 : arXiv2021
著者 : Mingxing Tan, Quoc V. Le
● EfficientNetでの問題点
○ 画像サイズが大きい場合,学習の速度が低下
○ Depthwise Convを浅い層に用いると学習の速度が低下
○ 各層においてdepth,width,resolutionを均等にスケールアップする方法は不適
● 上記の問題点を解決して,現状のSOTAモデルの学習速度を凌駕
○ 従来のMBConvの{depthwise + Conv 1×1}ではなく従来の{Conv 3×3}
を適用したFused-MBConvを提案
○ 学習時に入力解像度を徐々に大きくし,正則化も強くする学習手法を提案
30. Efficient DETR: Improving End-to-End Object Detector with Dense Prior
30
会議 : arXiv2021
著者 : Zhuyu Yao, Jiangbo Ai, Boxun Li, Chi Zhang
● DETRシリーズにおける学習速度低下の原因
○ 6つのデコーダを持ちobject queriesの反復的な更新
○ object containerをランダムに初期化
■ {object queries + reference point} = object container
● {sparse, dense}なproposal両方を使用することで高速かつ
高精度を実現
○ 特徴マップを利用してobject containerを初期化することにより
デコーダ層が1つに削減
○ object queriesをエンコーダの特徴量を用いて初期化することで
デコーダ層の数が1つの場合と6つの場合の格差を改善
○ 学習中にproposalの数を動的に変化させる手法を提案
■ 学習の安定化に寄与
31. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
31
会議 : arXiv2017
著者 : Andrew G, Howard, Menglong Zhu ,Bo Chen, Dmitry Kalenichenko,
Weijun Wang ,Tobias Weyan,d Marco Andreetto, Hartwig Adam
● モバイルアプリケーションに適用するための小型かつ高速なMobileNetsを提案
● 畳み込み層をdepthwiseとpointwiseに分割することで計算量の削減に成功
● acuuracyとlatencyのトレードオフの関係を最適化するためのハイパラを導入
○ Width multiplier
■ 入力,出力のチャンネル数に乗算することで各層で
ネットワークのwidthを調整可能
○ Resolution multiplier
■ 入力される画像に対して乗算することで解像度を
調整可能
32. Efficient Neural Architecture Search via Parameter Sharing
32
会議 : ICML2018
著者 : Hieu Pham, Melody Y. Guan, Barret Zoph, Quoc V. Le, Jeff Dean
● 従来のNAS: 450 GPU, 3 - 4 日 ➡ 提案手法: 1 GPU, 16時間未満まで計算コストを短縮
● NASにDAGを適用することで探索空間内のchild modelsの間でパラメータを共有可能
● グラフ構造においてエッジの有効化,ノードの処理方法を探索することで柔軟なモデルを
探索可能
● controller parameters,child modelのtwo-stageの学習
○ child modelのaccuracy(報酬)を最大化するように最適化
○ controllerのパラメータを固定してモデルのロスが最小になるよう
に学習
33. Efficient Neural Architecture Transformation Search in Channel-Level for Object Detection
33
会議 : NeurIPS2019
著者 : Junran Peng, Ming Sun, Zhaoxiang Zhang, Tieniu Tan, Junjie Yan
● 物体検知におけるバックボーンのNASの研究は少数
○ ImageNetの事前学習が必要になるため探索におけるコストが増大
○ 検出器とバックボーンの探索を同時に実施するのは非効率的
● 物体検知に焦点を当てたNASの手法を提案
○ スクラッチから探索するのではなく,事前学習モデルを利用して探索
○ セル(層)レベルではなく,チャンネルレベルで探索することで効率化
36. Energy-Aware Computing Group (EnyAC)
36
● Diana Marculescu先生率いるEnyAC
● CMUとUT Austinの2大学で構成
● ハードウェアの観点から最新のCV技術を省電力でアプリケーションへ
● Facebook Research/Intel/SAMSUNG等がスポンサーとして支援
● グループが掲げる目標
■ Our goal is to bring computational efficiency to applications with high societal
impact.
https://workshop-edlcv.github.io/slides/901-talk.pdf
https://enyac.org/#
37. NVIDIA Learning and Perception Research Team
37
● やはりNVIDIAによる計算効率化がすごい!
● 最大限のGPUを駆使した研究と最低限のGPUを研究の両立
● NLPやCV等の主4つのアプリケーションに特化した研究グループ
● Top Conf.の採択数が凄まじい!
■ CVPR2021: 10本,ECCV2020:9本,CVPR2020:9本
● NVIDIA Research全体では120+名の研究者
■ NVIDIAとなると研究者も豪華メンバー
■ Jan Kautz,Pavlo Molchanov...etc.
https://www.nvidia.com/en-us/research/
38. MIT-IBM Watson AI Lab. (1/2)
38
● MITとIBMによる産学連携機関
● 2017年の設立で,10年間で約2億4000万ドルの投資を発表
● 100人以上の研究員と50のプロジェクトを推進
● 研究所が掲げる目標は “Broad AI (広いAI)”
■ 現在のように,限られたタスクでその性能を発揮するAIは膨大な
データが必要
■ これからは少ないデータであらゆるタスクを処理することができる
ようにする!(Neuro-Symbolic AI)
39. MIT-IBM Watson AI Lab. (2/2)
39
● Broad AI普及のために4つの目標を設定
● 少数のデータで学習と推論が可能なアルゴリズムの提案
● 産業応用に向けた手法の開発
● AIの物理的インフラ性の改善(消費電力量の削減など)
● 公平性を担保し,多くの人が豊かさを共有できるAIの研究
→産業応用の観点からしても,AIアルゴリズムの計算コストや電力コストの削
減は大きな課題であり,トップ研究者も研究の1つの大きな軸として捉えてい
る!
40. Google(1/2)
40
効率化に関する研究を促進させる取り組み
● Google Brain Team
■ NeurIPS2020でEfficient Open-Domain Question Answering (コンペ)を開
催
■ tQAのシステムをメモリ容量に制限を設置
● Algorithms & Optimizationチーム
■ 機械学習における分散学習,デバイスへの組み込み,上記の2つに関す
る最適化
■ Algorithms and Optimization Workshopを開催
●
リンク
リンク
44. 44
● 慶應義塾大学 青木研究室M2
● 東京都出身
● 趣味: スポーツ観戦 (プロ野球・ラグビー), 料理
小暮 駿介(こぐれ しゅんすけ)
【研究テーマや興味がある研究】
● 研究テーマ:Action Segmentation, Video Summarization, Fairness
● 興味のある研究:Graph Convolutional Networks, Representation Learning
【目標】
1年後:トップ会議投稿
10年後:多くの人を先導できる人間になる
?年後:博士号取得 (仕事との両立に挑戦したい)
【最後に一言】
支えてくれている全ての方に感謝しながら研究します
45. 高橋 遼(たかはし りょう)
● 慶應義塾大学大学院 理工学研究科 M2
● 出身:宮崎 / 富山 / オーストラリア
● 趣味:ドライブ,旅行
【研究テーマや興味がある研究】
● 研究テーマ:ドメイン適応,AIの公平性
● 興味のある研究:GAN,シーングラフ
【目標】
1年後:CVPR投稿
2年後:データサイエンティストとして就職
10年後:年収1000万
【最後に一言】
社会にインパクトを与えられる研究を!
卒論研究:上位クラスを考慮したド
メイン適応
46. 渡部 海(わたべ かい)
● 東京電機大学 知能機械システム研究室 M2
● 神奈川県川崎市出身
● 小学生,中学生:サッカー,高校,大学:テニス
● FPSっておもろいですよね
【研究テーマや興味がある研究】
● 研究テーマ:ファッションスタイル解析
● 興味のある研究:マルチモーダル,半教師あり学習,物体検出
【最後に一言】
● 良い意味で研究に対してフッ軽に