[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
EfficientNet: Rethinking Model Scaling for
Convolutional Neural Networks (ICML2019)
MasashiYokota, RESTAR Inc.

書誌情報
• 著者
– Mingxing Tan, Quoc V. Le
– Google Researchのチーム
– ICML2019 採択
• CNNの層数、チャネル数、解像度を単一のパラメータで最適化す
る手法を提案
2

1. 背景
ハイパーパラメータ: 多
チューニングコスト: 大
4
莫大なパラメータを持つネットワークは
数多く提案されている
Gpipe [Huang et. al. 2018]より引用

1.2. 現行の問題点（もう少し具体的に）
• 従来は層数、チャネル数、解像度をそれぞれ独立したパラメータを
チューニングしていた。
→ 探索空間が広く、チューニングが大変 5
ベースラインチャネル数増加層数増加解像度増加

1.3. 提案手法の概要
6
• 筆者らの事前実験により各パラメータをバランスよく調整することが
重要だという考察から単一パラメータで層数、チャネル数、解像度を
複合的に調整することで、高精度・高効率なモデルの探索を容易にした。
単一パラメータφ
のみ調整し、
3パラメータを
バランスよく調整

2.1. 関連研究 (枝切り・量子化等によるモデル圧縮)
Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman
Coding [Han et. al. ICLR2016]
• 大きなモデルをscale downしてモデルを効率化する。具体的には、枝
切り、量子化、ハフマン符号化を同時に行うことで精度を落とさず
AlexNetとVGG-16をそれぞれ35倍、49倍圧縮した。 8

• モバイル端末用のモデルのネットワーク構造探索を強化学習で
行った研究。精度とモバイル端末のレイテンシ双方を考慮した指
標を提案し、それを報酬として強化学習を行うことで、
実行環境に最適なモデルを自動構築する。 9
2.2. 関連研究 (探索によるモデル構築)
MnasNet: Platform-Aware Neural Architecture Search for Mobile
[Tan et. al. CVPR2019]

2.3. 関連研究の問題点
• これらの手法は小さなモデルに適用されており、設計が複雑で探
索がより困難な巨大なモデルへどのように適用するかは不明。
• 本論文では巨大なCNNにフォーカスし、モデル圧縮のように大き
なモデルを小さくするのではなく、モデルをscale upさせることで、
高精度・高効率なモデル探索を可能にしている。
10

3. 提案手法
Compound Model Scaling
11

3. 提案手法
1. 問題の定式化
2. パラメータについて
3. Compound Scaling
4. アーキテクチャ探索
12

3.1.1. CNNの定式化
• i番目Conv層を以下のように定義:
• また、シンプルなk層のCNNは以下のように定義する:
• ResNetのように一つのブロックが同じタイプのConv層を複数持
つことを考慮し、CNNを以下のように定義する:
14
𝑌𝑖: 𝑖層の出力, 𝑋𝑖: 𝑖層の入力, 𝐹𝑖: 𝑖層の𝑜𝑝𝑒𝑟𝑎𝑡𝑖𝑜𝑛
𝐹𝑖
𝐿 𝑖
: 𝑖番目の𝑠𝑡𝑎𝑔𝑒で𝐹𝑖を𝐿𝑖回リピート
𝐻𝑖: 𝑖番目の入力Height
𝑊𝑖: 𝑖番目の入力𝑊𝑖𝑑𝑡ℎ
𝐶𝑖: 𝑖番目の入力𝐶ℎ𝑎𝑛𝑛𝑒𝑙

3.1.2 問題の定式化
• 本研究では先の式にd,w,rを導入し以下の式を最適化する:
15
𝑑: Depth (層数), 𝑤: 𝑊𝑖𝑑𝑡ℎ(チャネル数), 𝑟: 𝑅𝑒𝑠𝑜𝑙𝑢𝑡𝑖𝑜𝑛 (解像度)

3.2. パラメータについて
16

3.2.1 Depth (d)
• Depth(d): 層数
• dを増やすとモデルがよりリッチな特
徴量を取得できる一方で、深すぎる
と勾配消失問題が起こる。
• 左図では、dがある程度大きくなると
改善幅が頭打ちしていることがわ
かる
17

3.2.2. Width (w)
• Width(w): チャネル数
• wを増やすと、よりfine-grainedな
特徴量を獲得できる
• 一方で、wに比べてネットワークが
浅いと高レベルな特徴量を捉えら
れず、左図のようにｗがある程度
大きくなると精度の改善幅が小さ
くなってくる
18

3.2.3. Resolution (r)
• Resolution(r): 解像度
• 初期CNNのImageNet入力画像解
像度は224x224であり、そこから
480x480(ex. Gpipe [Huang et. al.
2018])まで大きくなっている。それ
に比例し良い性能を達成している。
• 一方で、rが大きくなるにつれ多様
な特徴量を獲得できるようにモデ
ルのパラメータ数も増やす必要が
ある。
19
※ r=1.0の時: 解像度224x224
r=2.5の時: 解像度560x560

3.2.4 各パラメータの予備実験から得られた考察
• モデルの層数や、チャンネル数、解像度の各パラメータを大きくす
ると性能が向上するが、大きくするに従い改善幅は小さくなってい
く 20

3.3.1 Compound Scalingの予備実験
• 各パラメータすべてをチューニン
グしたときの性能を比較
• 各パラメータを上手く調整するこ
とで、少ないFLOPSで高いパ
フォーマンスを出せる
各パラメータをバランスよく
調整することが重要
22

3.3.2 提案手法 Compound Scaling Method
• 先の予備実験から、d,w,rをバランスよく増加させるために
共通のパラメータφを導入し、以下の式でd,w,rを決定する:
• α,β,γはハイパーパラメータ。の制限により、FLOPS
が2 𝜙
で増加していくのでFLOPSを見積もりやすくしている
23
メモ: CNNの式

3.4. アーキテクチャ探索
24

3.4.1 アーキテクチャー探索の全体像
本論文では①ベースモデルを決定し、②α,β,γを探索し各パラメータの重
みを決め、③φのチューニングをすることで徐々にモデルのスケールを
上げている。それにより、できるだけ小さい探索空間でモデル探索を可
能にしている。
25
Step1:
ベースモデル
の探索
Step2:
α,β,γの
探索
Step3:
φの
探索

3.4.2. [Step1] ベースモデルのアーキテクチャ探索
• 本提案手法はベースモデルをscale upしていくためモデルはでき
るだけ筋が良いモデルである必要がある。
→MNasNetを用いて精度とFLOPS双方を実現できるモデルを構
築する。この際に以下を報酬としてモデル探索を行う。
26
𝑚: モデル
𝑇: ターゲット𝐹𝐿𝑂𝑃𝑆
𝜔(=−0.07): ACCとFLOPSの
バランスを取るハイパーパラメータ

3.4.3 [Step1] 探索によって得られたアーキテクチャ
• squeeze-and-excitationを持つmobile inverted bottleneck
MBConvをメインに構成されている18層CNN 27

3.4.4 [Step2-3] パラメータチューニング
1. α,β,γの探索:
φ=1で固定し、α,β,γをグリッドサーチする
※ グリッドサーチしていているが、小さいCNNかつ
𝛼 ∙ 𝛽2
∙ 𝛾2
≈ 2の制約があるので探索空間は小さい
2. φの探索:
α,β,γを固定し、φのパラメータをチューニングする
28

4. 実験
1. compound scaling自体の有効性検証:
既存モデル(ResNet, MobileNet)にcompound scalingを用いてス
ケールアップ
2. EfficientNet + compound scalingの有効性検証:
EfficientNetをImageNetで学習
3. 転移学習における有効性検証:
EfficientNetの転移学習
30

4.1. compound scaling自体の有効性検証:
既存モデルのcompound scalingを用いたスケールアップ
• MobileNet V1/2とResNet
をベースモデルとし、提案
手法でスケールアップす
る
• ほぼ同程度のFLOPSで
あってもcompound scaling
させる方が性能が良い
• 学習率等の実験条件は
不明
31

4.2. EfficientNet + compound scalingの有効性検証:
• 実験条件:
– Optimizer: RMSProp (decay: 0.9, momentum: 0.9)
– Learning Rate: 0.256 (2.4epoch毎に0.97 decayしていく)
– Dropout Ratio: φの増加するに従って0.2から0.5へ段階的に上げる
– その他:
• Weight decay: 1e-5
• swish activation
• fixed AutoAugment policy
• stochastic depth (drop connect ratio: 0.2)
32

33
EfficientNetをImageNetで学習 (実験結果)

34
EfficientNetをImageNetで学習(FLOPSと精度の比較)

35
(Intel Xeon CPU E5-2690での推論速度比較)

• ImageNetで学習したモデルから以下のデータセットでそれぞれ転
移学習を行う
36
4.3. 転移学習における有効性検証:
EfficientNetの転移学習

37
EfficientNetの転移学習(実験結果 1/2)

38
EfficientNetの転移学習(実験結果 2/2)

5. Discussion
• Compound scaling自体がどれくらい有益か詳しく分析する
1. 単体パラメータチューニングとcompound scalingの性能比較
2. Class Activation Mapによる活性領域の可視化
3. 2.で可視化したモデルの性能比較
40

5.1. 単体パラメータチューニングとcompound scalingの性能比較
• バランスよくパラメータをチューニングすることは、性能向上に大
きく寄与している
41

5.2. Class Activation Mapによる活性領域の可視化
• Compound scalingが最も上手く特徴量を取れていることがわかる
42

5.3. 可視化したモデルの性能比較
• 先で可視化したモデルの性能を比較。FLOPSが同等な一方で精
度は他より大きく改善されており、compound scalingは少ない
FLOPSでより良い性能のモデルが構築できている
43

まとめと感想
• CNNの層数、チャネル数、解像度を単一のパラメータφでチュー
ニングする手法を提案
• 小さいモデルをMNasNetで構築し、3つのパラメータ(α,β,γ)をグ
リットサーチで探索。その後、3パラメータを固定し、φのパラメー
タチューニングを行っている
• 他手法よりも少ないパラメータ数、FLOPSで高性能を実現
• (感想)CNNを単一パラメータでチューニングできるのは感動。予備
実験からの考察も面白い。一方で思った以上にφチューニングに
至るまでのプロセスが多いので改善の余地がありそう。また、学
習率等も一緒にチューニングできると面白そう。
44

[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

Similar to [DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (7)

[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks