ディープラーニングイメージで構築する快適・高速な機械学習環境

ディープラーニングイメージで
構築する快適・高速な機械学習環境
Yaboo Oyabu, Machine Learning Specialist, 2018/09/13

GPU 環境のセットアップに
苦労した経験はありますか？

GPU 環境をセットアップする手順 for TensorFlow
● TensorFlow と GPU を連携するために必要なソフトウェア
○ GPU ドライバ (> CUDA 9.0)
○ CUDA Toolkit 9.0 / CUPTI
○ cuDNN SDK (>= 7.0)
○ NCCL 2.2 (multi-GPU を利用する場合)
○ GPU 版 TensorFlow (ソースコンパイルが必要な場合も)
機械学習に専念したい研究者・エンジニアはつらい。

ディープラーニングイメージでラクをしよう
TensorFlo
w
PyTorch
Chainer
# Experimental
Debian 9 “Stretch”
ベースの VM イメージ
Base

ディープラーニングイメージに含まれるもの
Python (2.7 and 3.6) と次のパッケージがインストールされる
● ディープラーニング用ライブラリ (TensorFlow, PyTorch or Chainer)
● GPU / DNN 用ライブラリ (CUDA / CuDNN)
● 機械学習モデルの開発環境 (jupyter notebook/lab)
● 科学計算用ライブラリ (numpy / scipy)
● データ分析用ライブラリ(pandas / matplotlib)
● 機械学習用ライブラリ (sklearn)
● 自然言語用ライブラリ (nltk)
● 画像処理用ライブラリ (Pillow / scikit-image / Opencv-python)

（参考） GCP で利用できる GPU と接続可能数
P100, P4, K80 も選ぶことができます！

実際に起動してみよう
1. Quota を引き上げる
2. インスタンスを起動する with 複数 GPU

手順1. Quota を引き上げる

手順2. 複数 GPU を接続したインスタンスを起動
gcloud compute instances create $INSTANCE_NAME
--project=$PROJECT_NAME
--zone=$ZONE
--maintenance-policy=TERMINATE
--image-family="tf-latest-cu92"
--image-project="deeplearning-platform-release"
--accelerator='type=nvidia-tesla-v100,count=8'
--metadata='install-nvidia-driver=True'
--machine-type='n1-highmem-64'

快適な機械学習環境 : Jupyter Lab

Jupyter notebook の進化版
https://jupyterlab.readthedocs.io/en/stable/_images/interface_jupyterlab.png
1 2
1: サイドバー
- ファイルブラウザ
- 起動中のカーネル
- 起動中のターミナル
- … and more!
2: ワークスペース
- ノートブック + カーネル
- ターミナル
- コードエディター
- … and more!

ノートブックでトレーニング実行ターミナルで GPU 動作確認

Tensorboard も UI から起動可能

高速な機械学習環境 : Multi-GPU + NCCL

NCCL (NVIDIA Collective Communications Library)
https://developer.nvidia.com/sites/default/files/akamai/cuda/images/deeplearning/NCCL.png

NCCL (NVIDIA Collective Communications Library)
https://developer.nvidia.com/sites/default/files/akamai/cuda/images/deeplearning/nccl22_benchmark1.png
DGX-1V における V100 GPU の接続構成
（ハイブリッドキューブメッシュトポロジ）
V100
GPU
V100
GPU
V100
GPU
V100
GPU
V100
GPU
V100
GPU
V100
GPU
V100
GPU
NVLINK (各方向 25 Gb/s)

GCP における V100 x 8 の接続構成
V100
GPU
V100
GPU
V100
GPU
V100
GPU
V100
GPU
V100
GPU
V100
GPU
V100
GPU
DGX-1 における V100 GPU の接続構成
（ハイブリッドキューブメッシュトポロジ）
GCP における V100 x 8 の接続構成
V100
GPU
V100
GPU
V100
GPU
V100
GPU
V100
GPU
V100
GPU
V100
GPU
V100
GPU
NVLINK (各方向 25 Gb/s)

Ring-allreduce algorithm に適した接続構成
V100
GPU
V100
GPU
V100
GPU
V100
GPU
V100
GPU
V100
GPU
V100
GPU
V100
GPU
Ring-allreduce algorithm の計算手順

Multi-GPU を活用してモデルトレーニングを高速化
# Condition: TensorFlow AND Data Parallel
CPUs / GPUs CPUs / GPUs
Horovod
方法 1. MirroredStrategy
(contrib)
方法 2. TensorFlow + Horovod
方法1 に関するサンプルコード : goo.gl/DB6nr4

最後に
GCP のディープラーニングイメージで
簡単・快適・高速
に機械学習モデルを構築しましょう。

ディープラーニングイメージで構築する快適・高速な機械学習環境

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à ディープラーニングイメージで構築する快適・高速な機械学習環境

Similaire à ディープラーニングイメージで構築する快適・高速な機械学習環境 (20)

ディープラーニングイメージで構築する快適・高速な機械学習環境