Soumettre la recherche
Mettre en ligne
[DL Hacks] Shake-drop by keras
•
1 j'aime
•
1,457 vues
Deep Learning JP
Suivre
2019/10/07 Deep Learning JP: http://deeplearning.jp/hacks/
Lire moins
Lire la suite
Technologie
Signaler
Partager
Signaler
Partager
1 sur 24
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
Recommandé
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
Deep Learning JP
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
Deep Learning JP
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
Contenu connexe
Plus de Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
Deep Learning JP
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
Deep Learning JP
Plus de Deep Learning JP
(20)
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
Dernier
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
Dernier
(9)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
[DL Hacks] Shake-drop by keras
1.
Shake-drop by keras DLHacks
論文実装 (2019.10.7) AlgoAge 林佳音
2.
Agenda ➤ 選定理由 ➤ 概要・アーキテクチャ詳細 ➤
Shake-shake ➤ Stochastic depth (Resdrop) ➤ Random erasing ➤ Shake-drop ➤ 実装 ➤ 実験
3.
➤ 画像認識タスクで過学習してしまった ➤ imgaugやハイパーパラメータの調整では治らず ➤
中間層にaugmentationを入れる手法を使ってみる ➤ Dropout等より効果があるという研究結果(後述) ➤ shake-shakeかshake-dropか? ➤ DLHacksで既にshake-shakeの論文実装はされていた ➤ しかもshake-shakeは既にkerasの実装が出ていた ➤ shake-dropの方が過学習抑制効果が強い ➤ shake-dropをkerasで実装する ➤ 過学習を解決したいモデルがkerasで書かれていたので 選定理由
4.
➤ 書誌情報 ➤ Shake-Shake
regularization ➤ 著者:Xavier Gastaldi ➤ ICLR2017(workshop) ➤ 実装(PyTorch) ➤ 参考資料 ➤ DLHacksでの論文実装 Shake-shake 概要
5.
➤ モチベーション ➤ resnetのoverfitを解決したい ➤
data augmentationは今まで入力画像に対して使われてきたが、 中間層の特徴表現にかけても良いのでは? ➤ 結果 ➤ 単体で使った場合test errorsでbest score(当初) ➤ CIFAR-10: 2.86% ➤ CIFAR-100: 15.85% Shake-shake 概要
6.
➤ Residual unitの最後にランダムな係数(0~1)をかける ➤
通常のResidual unitならこう(2branchの場合) ➤ shake-shakeの場合(0<=α<=1) ➤ 2つの分岐をランダムに混ぜる(shake) ➤ 特徴の割合が変わってもロバストになる ➤ 要素ごとにではなく、特徴マップ全体にかける Shake-shake アーキテクチャ
7.
➤ forwardとbackwardで係数を変え、Test時は0.5(期待値) ➤ 実験結果から ➤
Unitごとに係数を変える Shake-shake アーキテクチャ (元論文より転載)
8.
➤ 書誌情報 ➤ Deep
Networks with Stochastic Depth ➤ 著者:Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, Kilian Q. Weinberger ➤ 人工知能学会第33回全国大会(2019) ➤ 実装(pytorch) ➤ 参考資料 ➤ 解説記事 Stochastic depth (resdrop) 概要
9.
➤ モチベーション ➤ ResNetの学習時間を短縮したい ➤
手法(ざっくり) ➤ Residual unitをランダムにdropする ➤ 正則化の効果あり ➤ 出力に近いunitほどdropさせやすくする ➤ “期待値で見た時の層”が浅くなる Stochastic depth (resdrop) 概要
10.
➤ 書誌情報 ➤ Random
Erasing Data Augmentation ➤ 著者:Zhun Zhong, Liang Zheng, Guoliang Kang, Shaozi Li, Yi Yang ➤ 実装(PyTorch) ➤ 参考資料 ➤ 実装記事 Random Erasing 概要
11.
➤ モデル正則化のための新しいaugmentation手法 ➤ 1日違いで発表されたcutoutとよく似ている ➤
モチベーション ➤ 画像の場合、dropoutしても相関関係で補完できてしまう ➤ 正則化の効果が薄い ➤ 入力画像をランダムにdrop Random Erasing 概要
12.
➤ 手法(ざっくり) ➤ マスクをするか否かランダムに決める(推奨50%) ➤
何%をマスクするかランダムに決める(推奨2~40%) ➤ アスペクト比をランダムに決める(推奨0.3~1/0.3) Random Erasing 概要 (元論文より転載)
13.
➤ 書誌情報 ➤ ResNetsに対する新たな正則化手法ShakeDropの提案 ➤
著者:山田 良博, 岩村 雅一, 黄瀬 浩一 ➤ 人工知能学会第33回全国大会(2019) ➤ 実装(Torch) ➤ 参考資料 ➤ 解説記事 Shake-drop 概要
14.
➤ モチベーション ➤ shake-shakeは2branchのResidual
Unitを前提にしている ➤ 1branchにshake-shakeを無理やり組み込んでも不安定になる ➤ 簡単に実験したらエラー率77.99%だったとのこと ➤ ResDropの手法を組み込んで安定化を図る ➤ 結果 ➤ shake-shakeを超えてtest errorsでbest score(当初) ➤ CIFAR-100: 12.19% Shake-drop 概要
15.
➤ Resdropはunitをdropさせていたが、それをshake-shakeに似たもので置き換え ➤ 上図はℓ番目のunitの構成 ➤
bℓは確率pℓで1, 1-pℓで0を取るベルヌーイ変数(なのでどちらかを通る) ➤ pℓ = 1 - ℓ/2L (L: unit数) ➤ 出力に近い(ℓが大きい)ほどPℓは小さくなり、shakeされやすくなる Shake-drop アーキテクチャ (参考資料より転載の上加筆)
16.
➤ pℓ=0(bℓ=0)の時全てのunitでshake ➤ pℓ=1(bℓ=1)の時は通常のResNetと同じ ➤
αℓ, βℓはスケーリングの一様乱数 ➤ αℓ=βℓ=0の時Resdropと同じ(unitがdropされるだけ) ➤ テスト時はforwardのスケーリングの期待値をかける Shake-drop アーキテクチャ (参考資料より転載の上加筆)
17.
➤ 以下の条件を満たすモデルで使用可能 ➤ 加算直前にBatchNormがある ➤
加算直後にReLUがない ➤ 予備実験の結果(詳しくは記載なし) ➤ BatchNormが必要なのは、一度分布を揃えるためか? ➤ 揃えないとshakeの強さにバラつきが出そう ➤ ReLUが不要なのは、情報削りすぎになるから? ➤ 実験の際はこの条件を満たす構造に変更している ➤ 入力画像のaugmentationとしてrandom erasingを使用 Shake-drop アーキテクチャ
18.
➤ αℓ: -1~1,
βℓ: 0~1の時に最高 ➤ forwardのshakeは強い方が良い ➤ αとβの正負が異なる時、パラメータを戻すことになる ➤ 時々これが入ることで間違った方向に行きすぎなくて済む? ➤ βℓ: -1~1だとshakeが強すぎる Shake-drop アーキテクチャ (元論文より転載)
19.
➤ 1branchの時(元論文より転載) ➤ 正則化なし、Resdrop、Shake-dropで比較 Shake-drop
実験結果
20.
➤ 2branchの時(元論文より転載) ➤ shakeをbranch同士のaddの前に入れるか後に入れるか? ➤
前がType-A、後がType-Bで、Type-Bの方が良かった ➤ 直感的には、初期値が違うだけのbranch同士でshakeしても意味なさそう ➤ 直進のやつとbranchとの比較でスケール見た方が確かに良さそう Shake-drop 実験結果
21.
➤ 参考 ➤ Shake-drop(Pytorch) ➤
Shake-shake(Keras) ➤ 実装 ➤ Qiita記事 実装
22.
➤ shakedropありなしで比較 ➤ その他の条件(データ数や学習率など)は同一 ➤
validation lossに20epoch改善が見られなければ打ち切り (kerasのearlystoppingを使用) ➤ 1epochが短いので20にした 実験
23.
➤ shakedropありなしで比較 ➤ 上がshakedropなし、下があり ➤
左がtraining lossで右がvalidation loss 実験結果
24.
➤ validation lossの最小値 ➤
shakedropなし: 6423 ➤ shakedropあり: 6086 ➤ 学習にかかった時間(1epochはどちらも約17分) ➤ shakedropなし: 48 epoch ➤ shakedropあり: 46 epoch 実験結果
Télécharger maintenant