More Related Content
More from Preferred Networks (20)
【DLL3】20170904_ChainerMN_PFN福田圭祐
- 5. モデルの精度劣化?
GPUを増やす=バッチサイズ増加
– 普通のバッチサイズ × GPU数
バッチサイズを増やしすぎると、得られるモデルが劣化する(場合がある)
– 1エポック内のイテレーション数の減少 = 探索の不足
– 勾配の分散の減少 = 悪い局所解にハマりやすくなる
– 精度に言及していない高速化の報告は意味なし!
バッチサイズ、どれくらいまで大丈夫なの?
– PFN社内の実験:ResNet-50 = 32*128GPU = 4096
までは大丈夫(ほぼ精度劣化なく時間短縮)
– ”Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour” = 8192
– “Scaling SGD Batch Size to 32K for ImageNet Training” = 32768
5
※学習率の調整等のノウハウは必要