ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)

Kazuhiro Yamasaki, Deep Learning Solution Architect, NVIDIA
Chainer Meetup #10, 08/31/2019
CHAINERRLの学習済みモデルを
GRPC経由で使ってみる試み (+アルファ)

2
いつもの
今日もあります
128 nodes

3
自己紹介
• 山崎和博 (やまさきかずひろ)
• NVIDIAでディープラーニングなどの技術支援や啓蒙を担当
• 昔とった杵柄でAPIサーバの実装検証等々も
• 私生活
• 技術書を買い漁るのが趣味 (≒積読が加速……)
• 私生活と仕事が密結合しｔ（ｒｙ
• 最近のモットー: 健康第一
2回連続失礼します

4
AGENDA
ChainerRLで学習したモデルを
サーバにデプロイして動かしてみる話
何をやるのか
構成
デモ
ChainerからTensorコアを使う話 (最新版)
Tensorコア振り返り
v6系統でのAPI
動作例
最近のNVIDIA

5
CHAINERRLで学習したモデルを
サーバにデプロイして動かしてみる話

6
どういうこと？
背景と動機
なにを話すと
面白い……？
Chainer x 強化学習 x NVIDIA?

7
どういうこと？
背景と動機
NVIDIA提供のクラウドゲーミング: GeForce NOW
強化学習エージェントも
クラウドで動かす時代(?)
だ!!

8
扱う題材
ChainerRLでAtariのゲームエージェントを学習
ChainerRL
https://github.com/chainer/chainerrl
OpenAI Gym [ALE]
https://gym.openai.com

9
扱う題材
学習したモデルをリモートサーバにデプロイ
TensorRT Inference Server
https://github.com/NVIDIA/tensorrt-inference-server
• 複数のフレームワークのモデルをデプロイ可能
• ONNX, TensorFlow, PyTorch, etc...
• デプロイしたモデルをHTTP/gRPCのAPIとして
サービング
• リクエストのキューイング
• 複数モデルの並行実行
• カスタム処理を追加可能
• などなど……

10
• 複数のフレームワークのモデルをデプロイ可能
• ONNX, TensorFlow, PyTorch, etc...
• デプロイしたモデルをHTTP/gRPCのAPIとして
サービング
• リクエストのキューイング
• 複数モデルの並行実行
• カスタム処理を追加可能
• などなど……
扱う題材
学習したモデルをリモートサーバにデプロイ
TensorRT Inference Server
https://github.com/NVIDIA/tensorrt-inference-server
ONNX

11
扱う題材
学習済みモデルをデプロイ可能に変換
ONNX-Chainer
https://github.com/chainer/onnx-chainer
モデルを変換:
ChainerRL -> ONNX

12
システム構成
GPUを使って推論
クライアント
Agent
draw
each
scene
inference & action
step
一般的な構成

13
Google Cloud Platform
システム構成
リモートサーバのGPUを使って推論
クライアント
Agent
draw
each
scene
サーバ
TRTIS
request
(inference)
response
(action)
step inference
action
Tesla T4
今回の構成

14
動かしてみます
デモ

15
(うまく動かなかったときのスライド)
ときどき止まっているのは
推論リクエストが返ってくるのを
待ってるため
(レスポンスタイムの中央値:~10msec.)
(おおよそ20FPS程度)
• 会社オフィスに配置したサーバ
へTRTISをデプロイ
• クライアントは同一NWに配置
し、wifi経由でサーバへ接続

16
デモアプリは公開中
https://github.com/lazykyama/atari_trtis_demo

17
CHAINERからTENSORコアを使う話
(最新版)

18
TENSORコアのおさらい
ディープラーニング向けの専用ユニット
D =
FP32
(FP16)
FP16 FP16 FP32
(FP16)
A0,0 A0,1 A0,2 A0,3
A1,0 A1,1 A1,2 A1,3
A2,0 A2,1 A2,2 A2,3
A3,0 A3,1 A3,2 A3,3
B0,0 B0,1 B0,2 B0,3
B1,0 B1,1 B1,2 B1,3
B2,0 B2,1 B2,2 B2,3
B3,0 B3,1 B3,2 B3,3
C0,0 C0,1 C0,2 C0,3
C1,0 C1,1 C1,2 C1,3
C2,0 C2,1 C2,2 C2,3
C3,0 C3,1 C3,2 C3,3
行列の FMA (Fused Multiply-Add)
4x4 の行列の積和演算を1サイクルで計算する性能:
128 演算/サイクル/Tensor コア、1024 演算/サイクル/SM
A B C

19
性能を最大に引き出すための情報は……
前々回の資料を
https://www.slideshare.net/NVIDIAJapan/chainer-tensor-fp16

20
TENSORコア、どうやって使う？
前々回の説明
def __init__(self, ...):
self.conv1 = L.Convolution2D(
3, 64, 7, 2, 3,
initialW=initializers.HeNormal(dtype=np.float16))
self.bn1 = L.BatchNormalization(
64, dtype=np.float16)
...
def forward(self, x, t):
x = F.cast(x, np.float16)
h = self.bn1(self.conv1(x))
...
データとモデルをFP16へ、
明示的に変換が必要

21
TENSORコア、どうやって使う？
前々回の説明
def __init__(self, ...):
self.conv1 = L.Convolution2D(
3, 64, 7, 2, 3,
initialW=initializers.HeNormal(dtype=np.float16))
self.bn1 = L.BatchNormalization(
64, dtype=np.float16)
...
def forward(self, x, t):
x = F.cast(x, np.float16)
h = self.bn1(self.conv1(x))
...
最新版ではもっと楽に

22
最新版 (V6.3) でTENSORコアを使うには
環境変数を指定する or 内部の変数を実行時に変更する
export CHAINER_DTYPE=mixed16
環境変数
CHAINER_DTYPE
内部変数
chainer.config.dtype
chainer.config.dtype =
chainer.mixed16
指定はこれで（基本的に）OK

23
精度を保つためのテクニックの有効化
optimizer.loss_scaling()
(API reference)
Loss scaling FP32 weight update
optimizer.use_fp32_update()
(API reference)
Accuracyが下がる場合、これらを有効に
(詳細は前々回資料のp.5-7を)

24
• cuDNNのワークスペースサイズを大きめに設定する
• chainer.cuda.set_max_workspace_size(1024*1024*1024) # 今回は1GiB
• cuDNNのAuto Tuningを使う
• chainer.config.autotune = True
(*) 使わないと、適切なアルゴリズムが選択されない、ことが多い
• cuDNNの高速Batch Normalization実装を使う
• chainer.config.cudnn_fast_batch_normalization = True
(*) fp32でも有効、オーバーフローの可能性があるので注意
プラスcuDNNの設定をデフォルトから変更 (前回より再掲)

25
実際に回してみます
ImageNetのサンプルを使って計測
394.1
519.1
585.4
684.8
732.4
0
100
200
300
400
500
600
700
800
FP32 (bs=128) mixed16
(bs=128)
mixed16
(bs=256)
mixed16 w/
DALI (bs=256)
mixed16 w/
DALI & fast
batchnorm
(bs=256)
images/sec.
実験条件
• 1xV100@16GB on DGX-1
• Chainer v6.3.0
• cuDNNのワークスペースは常に
1GiB
• cuDNNのautotuneも常時有効
• Chainerのサンプルにある、シン
グルGPU実装をベースに評価

27
まとめ
• Chainer/ChainerRLで学習したモデルをONNXエクスポートすると、
TRTISを使ってすぐにAPIサーバとして動かせる
• クライアントはgRPC or HTTPで通信可能
• Atariのゲームは(ネットワークが速ければ)それなりに快適に動作
• TensorコアをChainerから使うには、dtypeにmixed16を設定し、
FP32 weight update、loss scalingを有効にする

28
(おまけ)
最近のNVIDIA

29
強化学習と関係する最近のNVIDIA
MLPerfの測定値更新しました
https://mlperf.org/
3 x DGX-1
1 x DGX-1での時間
(27.39 min.) を1GPU換算

30
強化学習と関係する最近のNVIDIA
実装は公開されています
https://mlperf.org/
https://github.com/mlperf/training_results_v0.6/
tree/master/NVIDIA/benchmarks/minigo
TensorFlow実装なのはごめんなさい……

31
組み込み関係も強化中
Jetson Nano/Xavier and more
https://github.com/NVIDIA-AI-IOT/jetbot
https://github.com/NVIDIA-AI-IOT/jetracer
https://developer.nvidia.com/embedded/
jetson-agx-xavier-developer-kit
Jetson AGX Xavier Developer Kit
https://developer.nvidia.com/embedded/
jetson-nano-developer-kit
Jetson Nano Developer Kit

32
GTC: CALL FOR TALKS/POSTERS NOW OPEN!
March 22-26, 2020
https://www.nvidia.com/en-us/gtc/present/call-for-submissions/

33
WE ARE HIRING!!
https://www.nvidia.com/en-us/about-nvidia/careers/

ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)

ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)

Similaire à ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ) (20)

Plus de NVIDIA Japan

Plus de NVIDIA Japan (20)

Dernier

Dernier (9)

ChainerRL の学習済みモデルを gRPC 経由で使ってみる試み (+アルファ)