20171109 Amazon EC2 GPUインスタンス最新動向 P3 instance

Amazon EC2 GPUインスタンス祭り
Amazon EC2
GPUインスタンス最新動向
2017/11/9
Amazon Web Services Japan

Elastic Compute Cloud(EC2)とGPU

クラウドでGPUを使う理由
Time to Science
必要な規模・種類の計算リ
ソースを数分で利⽤可能
Low Cost
使っただけの費⽤
Elastic
簡単にリソースを増減可能
Globally Accessible
世界中の研究者と同じ環境で
コラボレーション可能
Secure
データ暗号化などセキュリティ
対策の機能とコンプライアンス
Scalable
⼤規模なリソースを
利⽤可能

計算リソースが⾜りない
従来のGPU基盤の課題
GPU環境の運⽤が⾯倒
本当に必要なリソースは予測できない
計算リソースが空くまで待つことを強いられる
運⽤の⼿間でモデル開発・改善に注⼒できない
電⼒・熱などの管理が⼤変

イノベーションを加速させるには新しいモデルが必要
御社独⾃の差別化に集中
スタートアップ企業のような変⾰スピード
リスクを低減

AWS のグローバルなインフラ
16 リージョン – 44 アベイラビリティゾーン– 101 エッジロケーション

Amazon EC2(Elastic Compute Cloud)
• 数分で起動し、1時間ごとの従量課⾦で利⽤可能な仮想マシン
• ノード追加・削除、マシンスペック変更も数分で可能
• 管理者権限(root / Administrator) で利⽤可能
1
任意のゾーンに
分散配置可能
リージョン
EC2
アベイラビリティゾーンBアベイラビリティゾーンA

既存のOS/アプリ/ミドルウェアが利⽤可能
HTML5
×
開発⾔語フロントUI
×
フレームワーク
OS

AWS インスタンスタイプの概要
M4
汎⽤
Compute
最適化
Storage IO
最適化
⾼速計算
GPU/FPGA
Memory
最適化
X1 F1
P3
T2
I3 D2
R4
C5
C4
P2
グラフィックス
G3
EG
G2

P3 GPUインスタンスの詳細

© 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Compute GPU インスタンスの主な⽤途
機械学習/AI High Performance Computing
⾃然⾔語処理画像・動画認識
⾃動運転リコメンデーション
流体計算⾦融・データ分析
気象予測分⼦動⼒学

GPUインスタンスの変遷
P2
G2
Compute
Graphics
G3
2017
NVIDIA Tesla K80
NVIDIA GRID K2 NVIDIA M60
NVIDIA Volta V100
20162010
CG1
NVIDIA Tesla M2050
2013
P3

P3 は最新世代のNVIDIA GPUを搭載
P3
NVIDIA
Roadmap
（GTC 2017）

Accelerated Computing インスタンス
P3: NVIDIA Volta GPU Compute Instance
• 1台のインスタンスに最⼤8個のNVIDIA Tesla V100 GPUを搭載
• deep learning, HPCシミュレーション, ⾦融計算, レンダリングなど
G3: NVIDIA Maxwell GPU Graphics (and Compute) Instance
• 1台のインスタンスに最⼤4個の NVIDIA M60 GPUとGRID Virtual Workstation機能を搭載
• 3Dレンダリング,リモートグラフィックワークステーション,ビデオエンコーディング, VR, 単精度
HPC
P2: NVIDIA Kepler GPU Compute Instance
• 1台のインスタンスに最⼤16個の NVIDIA GK210 (8 X K80) GPUを搭載
• deep learning, HPCシミュレーション, ⾦融計算, レンダリングなど
G3
P2
P3

• NVIDIA GPU アーキテクチャ:
• Kepler > Maxwell > Pascal > Volta
• P2 インスタンス： K80 (Kepler アーキテクチャ)
• P3 インスタンス： V100 (Volta アーキテクチャ)
0
20
40
60
80
100
120
140
K80 P100 V100
Mixed/FP16 Perf (TFLOPS)
GPU 性能⽐較
0
2
4
6
8
10
12
14
16
K80 P100 V100
FP32 Perf (TFLOPS)
0
1
2
3
4
5
6
7
8
K80 P100 V100
FP64 Perf (TFLOPS)
0
1000
2000
3000
4000
5000
6000
K80 P100 V100
Resnet-50 8 GPU (Images/sec)
14X
over K80ʼs
max perf.
1.7X 2.6X
7.2X
FP32

P3 インスタンスの仕様
Instance Size GPU数
Accelerator
(V100)
GPU
Peer to Peer
GPU メモリ
(GB)
vCPU
メモリ
(GB)
ネットワーク
帯域
EBS
帯域
P3.2xlarge 1 1 No 16 8 61 最⼤10Gbps 1.7Gbps
P3.8xlarge 4 4 NVLink 64 32 244 10Gbps 7Gbps
• P2 はK80、P3はV100
• P2.16xlarge は8枚の K80 (16 GPU)

Accelerator
(V100)
GPU
Peer to Peer
GPU メモリ
(GB)
vCPU
メモリ
(GB)
ネットワーク
帯域
EBS
帯域
• P3 はGPU間のデータ転送にNVLinkを利⽤可能
• P2 はGPU間のデータ転送に PCI Expressを経由

Accelerator
(V100)
GPU
Peer to Peer
GPU メモリ
(GB)
vCPU
メモリ
(GB)
ネットワーク
帯域
EBS
帯域
• P3.16xlargeは25Gbpsのネットワーク帯域
• EBSとの帯域もP2に⽐較し40% 向上

P3.16xlarge P2.16xlarge P3 GPU 性能比
GPU数 8(V100) 16(GK210) -
GPUカード数 8 (V100) 8 (K80)
GPU – Peer to Peer NVLink – 300 GB/s PCI-Express - 32 GB/s 9.4倍
CPU to GPU スループット
(GPU単体）
8 GB/s 1 GB/s 8倍
CPU to GPU スループット
（インスタンス全体)
64 GB/s
PCIex16 Gen3 x 4
16 GB/s
PCIe Gen3 x1
4倍
Peer-to-Peer ⽐較（P3 vs P2）

P2とP3のp2p帯域⽐較
P2.8xlarge
(8GPU PCIe)
P3.16xlarge
(8GPU NVLink)
ソース：/usr/local/cuda/samples/1_Utilities/p2pBandwidthLatencyTest
NVIDIA Driver 384.81, CUDA9

すぐにGPUインスタンスを利用するには

GPUインスタンスでGPUを使うには
標準のAMIを起動し、NVIDIA DriverやCUDAを”普通に”インストールすれば利⽤可能
ですが。。
AMI
NVIDIA Driver
NVIDIA CUDA
GPUフレームワーク
GPUアプリケーション

AWS Marketplace
• 各種ソフトウェアをセッ
トアップ済みのOSイメー
ジ(AMI)をラインアップ
• CUDA⼊りのAMIも多数
https://aws.amazon.com/marketplace/

AWS Deep Learning AMI
• EC2上で深層学習の環境を簡単に利⽤可能
• 主なフレームワークやツールをプリインストール済み
• CUDA8版AMIに加え、P3に合わせたCUDA9のAMIを提供
https://aws.amazon.com/jp/amazon-ai/amis/
https://aws.amazon.com/jp/blogs/ai/announcing-new-aws-deep-learning-ami-for-amazon-ec2-p3-instances/#more-2093

NVIDIA製AMI
https://aws.amazon.com/marketplace/seller-profile?id=c568fe05-e33b-411c-b0ab-047218431da9
• Windows Server + Driver
• CUDA7.5 + Amazon Linux
• DIGITS4 + Ubuntu 14.04
• etc.

NVIDIA Volta Deep Learning AMI
https://aws.amazon.com/marketplace/pp/B076K31M1S
https://docs.nvidia.com/deeplearning/ngc/ngc-aws-setup-guide/launching-vm-instance-from-console.html
CUDA9, nvidia-dockerインストール済みのAMI
nvidia-dockerもインストール済みで、
起動直後にNVIDIA GPU Cloud上のDockerリポジトリか
らDockerコンテナを起動可能

Spotインスタンスで安く使う

AWS BatchでP3を活⽤
https://aws.amazon.com/jp/blogs/news/deep-learning-on-aws-batch/
http://docs.aws.amazon.com/batch/latest/userguide/batch-gpu-ami.html
AWS Batchで管理
処理を依頼
（ジョブをサブミット）
スケジュール
実⾏学習率 0.01
学習率 0.02
学習率 0.03
• ECS エージェント，cuDNN 等設定済みの AMI を作成
• Docker リポジトリの任意のコンテナを使⽤
• キューに積んだジョブをコンテナ上で実⾏
キューの状況に応じて
インスタンスを⾃動で増減

クラウドGPUとコミュニティ/イベント

JAWS-UG (Japan AWS User Group)
https://jawsug-ai.connpass.com/ https://jawsug-hpc.connpass.com/
AI⽀部 HPC⽀部

JAWS-UG HPC⽀部
• AWS上でのハンズオンイベントや勉強会を開催
• AWS上でcfnclusterを使ってHPCクラスタを構築
• EC2上でOpenFOAMを流す
• Lambdaで流体計算や並列計算
• 前回は10/27に開催
• NVIDIA佐々⽊様がV100最新情報をご紹介
https://jawsug-hpc.connpass.com/

JAWS-UG AI⽀部
• AWS上でのハンズオンイベントや勉強会を開催
• AWS上でTensorflowを使いMNISTを動かすハンズオンを実施
• ⼿順をQiitaで公開(http://qiita.com/ornew/items/acb2d51b6d6e228cbbd0
• 次回はGTC翌⽇の12/14を予定
https://jawsug-ai.connpass.com/

The Deep Learning Revolution
Eye, Robot: Computer Vision and Autonomous Robotics
Exploiting the Power of Language
Reducing Supervision: Making More with Less
Learning Where to Look in Video
Look, Listen, Learn: The Intersection of Vision and Sound
https://aws.amazon.com/jp/blogs/ai/your-guide-to-machine-learning-at-reinvent-2017/

12/12-13 GTC Japan
AWSもブース出展・登壇します
• 12/12 Deep Learning with Apache MXNet and Gluon
• 12/12 TENSORFLOW, MXNET, NVIDIA DOCKER を使ったディープラーニングのワークフロー
• 12/13 AI Made Simple
https://www.gputechconf.jp/sessions.html

20171109 Amazon EC2 GPUインスタンス最新動向 P3 instance

20171109 Amazon EC2 GPUインスタンス最新動向 P3 instance

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à 20171109 Amazon EC2 GPUインスタンス最新動向 P3 instance

Similaire à 20171109 Amazon EC2 GPUインスタンス最新動向 P3 instance (20)

Plus de Amazon Web Services Japan

Plus de Amazon Web Services Japan (20)

20171109 Amazon EC2 GPUインスタンス最新動向 P3 instance