Contenu connexe
Similaire à NVIDIA Deep Learning SDK を利用した画像認識 (20)
Plus de NVIDIA Japan (20)
NVIDIA Deep Learning SDK を利用した画像認識
- 1. 森野 慎也, シニア CUDA エンジニア,プラットフォームビジネス本部, エヌビディア合同会社
「NVIDIA Deep Learning SDK を
利用した画像認識」
- 4. 4
トレーニング と 推論(inference)
トレーニング 推論
モデル 種々のモデルを
試す必要がある
モデルは決定済み
演算処理
Back propagationによる
係数の最適化
演算はForwardのみ
係数も決定済み
バッチサイズ
学習データが大量であり、
バッチサイズは大きい
バッチサイズは、認識対象数。
一般にトレーニングより小さい
プラットフォーム
マルチGPU、マルチノードを活用。
ストロングスケーリング
単一の端末で実行。
メモリバンド幅の制約が強い
混合精度演算が有効
要件の比較
- 8. 8
VGG-E
- 19 weight layers
- コンボリューションのサイズは、3x3。
- チャンネル数が変わる。
- 64 → 128 → 256 → 512
Karen Simonyan & Andrew Zisserman,
VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE
RECOGNITION
http://arxiv.org/abs/1409.1556
- 11. 11
推論ソフトウエアの最適化
課題 : グラフ最適化
concat
max pool
input
next input
3x3 conv.
relu
bias
1x1 conv.
relu
bias
3x3 conv.
relu
bias
3x3 conv.
relu
bias
concat
1x1 conv.
relu
bias
3x3 conv.
relu
bias
- 18. 18
データレイアウト・テクスチャ
- テンソルレイアウト
- 例) NHalf2
- GEMMによる行列演算で、事前に係数行列を転置
- NN/NT GEMMの利用
( NT > NN > TN )
- テクスチャメモリをコンボリューションに使用
- 13% 推論性能向上 (GoogLeNet, バッチサイズ 1)
メタパラメータ
5/2/20
- 22. 22
GPU INFERENCE ENGINE
ニューラルネットワークの最適化
• ネットワークレイヤの融合
• Concatenationレイヤの除去
• カーネル特殊化
• ターゲットプラットフォームに対する
オートチューニング
• 最適なテンソルレイアウトの選択
• バッチサイズのチューニング
トレーニング済みの
ニューラルネットワーク
最適化された
推論
エンジン
developer.nvidia.com/gpu-inference-engine