[DL Hacks]Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions

2. Paper information 論文名: Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions 著者: Bichen Wu, et. al. (UC Berkeley) 公開日: Nov 2017 ※スライド中の図表は特に記述のない限り上記の論文から引用

3. この論文を選んだ動機 • ネットワークの軽量化に興味があった ※ネットワークの軽量化は携帯機器で推論するときなどに重要

4. depth-wise convolution を積和演算もパラメータも不要なものに置き換えることで軽量にした概要

5. Depth-wise convolution DDeepptthh--wwiissee ccoonnvvoolluuttiioonn • Channelごとに分けてそれぞれのChannel内で畳み込む → 計算量激減 • 通常はDepth-wise conv の直後に 1x1 conv をする (Depth-wise conv ではchannel間の情報が混ざらないので1x1 convで channel間の情報を混ぜる)

6. Depth-wise convolution DDeepptthh--wwiissee ccoonnvvoolluuttiioonn のの計計算算量量計算量空間計算量空間計算量/計算量がとても大 1/N倍 But メモリアクセスの時間がボトルネックになっている機器では使いにくい

7. Shift SShhiifftt • 簡単に言うとDepth-wise conv のconvolutionしない版 • Channel方向にDF 2等分して，それぞれを決まった方向にShiftさせる積和計算不要

8. Shift SShhiifftt--bbaasseedd MMoodduulleess • 1x1 convでchannel間の情報をやり取り • Shiftで空間方向の情報をやり取り • 右の図の1回目のShiftがないものをCSC module, あるものをSC2 moduleと定義 (今回紹介する結果にはCSCしか使われていない)

9. 実験一部抜粋 • Shiftの有効性検証 • ShiftNetと他のモデルの比較（ImageNet分類）実験

10. SShhiiffttのの有有効効性性のの検検証証 • ResNetと，ResNetのResBlockをすべてShift-based Modulesに置き換えたものを比較 • Shift-based Modulesは初めの1x1convでchannel数を何倍にするかで変数数を調整(この倍率をεとする) • ResNetの変数数削減方法は • Block内のchannel数を削減 • Blockの入出力のchannel数を削減のうち良い結果のほうをそれぞれ採用実験

11. SShhiiffttのの有有効効性性のの検検証証実験結果パラメタ数を固定して比較するとaccuracyが大幅に向上

12. 実験 SShhiiffttNNeett • Shiftに最適化したネットワーク • これを他のSOTAモデルと比較（ImageNet分類） ShiftNetA ShiftNetB ShiftNetAからそれぞれchannel数半分にしたもの ShiftNetC

13. 実験 SShhiiffttNNeett • Shiftに最適化したネットワーク • これを他のSOTAモデルと比較（ImageNet分類）

14. 変数数が少なく精度の高いモデルを作るために今後できることは… 1. 同じ方向にShiftさせるchannel groupの中でchannel毎の出力の相関を小さくする → 相関の大きいchannelを消す 2. Channel方向にDF 2等分してそれぞれをShiftさせていたが，Shiftの方向によって貢献度が異なる → 貢献度に応じて割り当てるchannel数を変える Discussion

15. 11.. どどののくくららいいのの相相関関がが残残っってていいるるかか • Shift-based Module内のShift層において，同じ方向にShiftさせる channel groupからの出力の相関を見る Discussion → 例えば，他のchannelとの相関がある一定以上になれば channel数を削減するなどとすると良さそう

16. 22.. SShhiiffttのの方方向向にによよるる貢貢献献度度のの違違いい • 最後の1x1 convのweightを見ると各チャネルの貢献度が分かる Discussion → 水平方向の貢献度が大きいことがわかる