Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
Shinnosuke Furuya, Ph.D., HPC Developer Relations, NVIDIA, 07/04/2019
NGC でインフラ環境整備の時間短縮︕
素早く始めるディープラーニング
3
エヌビディア
AI コンピューティングカンパニー
1993 年創業
創業者兼 CEO ジェンスン フアン
従業員 12,000 ⼈
2018 会計年度売上⾼ 97 億ドル
時価総額 1600 億ドル
4
ディープラーニング (深層学習)
5
ディープラーニングは機械学習の⼀分野
⼈⼯知能 (AI)
ディープラーニング
(深層学習)
マシンラーニング
(機械学習)
6
従来の機械学習との違い
⼿動設計 vs. 学習
予測モデル
(機械学習)
特徴
(⼈間が設計)
Input Output
ディープラーニング
予測モデル
(DNN)
特徴
(学習で獲得)
Input Output
Traditional a...
7
ディープラーニングの 2 つのフェーズ
モデル
⽝
推論 (inference)
蜜⽳熊
学習 (training)
モデル
⽝
狸
猫
フィードバックにより
重みを調整
学習した結果を⽤いる
⽝
猫
8
ディープラーニングを加速する 3 つの要因
“Google’s AI engine also reflects how the world of computer hardware is changing.
(It) depends on ...
9
NVIDIA TESLA プラットフォーム
10
NVIDIA GPU 製品のおおまかな⼀覧
Maxwell
(2014)
Pascal
(2016)
Volta
(2017)
GeForceゲーミング
Quadro
プロフェッショナル
グラフィックス
M40
M6000
GTX
980...
11
NVIDIA TESLA V100
TENSOR コア搭載
世界最先端のデータ センター GPU
5120 CUDA コア
7.8 FP64 TFLOPS | 15.7 FP32 TFLOPS
125 Tensor TFLOPS
900 ...
12
NVIDIA TESLA P100
世界初の AI スーパーコンピューティング向け
データ センター GPU
3584 CUDA コア
5.3 FP64 TFLOPS | 10.6 FP32 TFLOPS
21.2 FP16 TFLOPS...
13
スパコンランキング TOP500
上位 5/10 が GPU スパコン
システム名 概要 サイト
ピーク性能
(TFlops)
1 Summit IBM POWER9, NVIDIA Tesla V100, Mellanox IB EDR...
14
スパコンランキング GREEN500
上位 8/10 が GPU スパコン
システム名 概要 サイト
電⼒効率
(GFlops/watts)
2 DGX SaturnV Volta Intel Xeon, NVIDIA Tesla V10...
15
スパコンランキング TOP 500
アクセラレータのトレンドは NVIDIA GPU
0
20
40
60
80
100
120
140
Nov-11 Nov-12 Nov-13 Nov-14 Nov-15 Nov-16 Nov-17 N...
16
NGC 最新情報
17
NGC
多くの GPU 対応アプリケーションイメージ
各種ディープラーニング フレームワーク、サードパーティの HPC アプリ
ケーション、NVIDIA の HPC 可視化ツール、数々のパートナー アプ
リケーション
数週間ではなく、数分...
18
GPU に最適化されたソフトウェア
NGC に 50 以上のコンテナイメージを⽤意
ディープラーニング ⼀般の機械学習アルゴリズム
HPC 可視化
推論
ゲノミクス
NAMD | GROMACS | more
RAPIDS | H2O |...
19
FP32
Higher Precision
Range: +/- 3.402823x1038
AI と HPC を加速する TENSOR コア
混合精度演算アクセラレーター FP32 演算を最⼤ 5 倍⾼速化1
4x4 Product a...
20
継続的なパフォーマンス改善
ソフトウェアの最適化により、同じハードウェアでも性能が向上
ディープラーニングフレームワークと HPC ソフトウェアスタックの⽉例更新で性能向上
0
2000
4000
6000
8000
10000
1200...
21
新しい NGC
機械学習と HPC のワークフローをシンプルにする GPU 最適化ソフトウェア ハブ
NGC
50 以上のコンテナイメージ
DL, ML, HPC
学習済みモデル
⾃然⾔語処理、画像分類、物体検出など
業種別ソリューション...
22
新しい NGC がもたらすもの
ワークフロー / バリューチェーン
コンテナ イメージ コンテナ イメージ モデル
学習⽤スクリプト
画像分類 | 物体検出 | ⾃然⾔語処理/翻訳
⾳声合成 | レコメンデーション
業種別ソリューション
...
23
NGC コンテナー ユーザーガイド
https://docs.nvidia.com/ngc/pdf/NGC-User-Guide.pdf
24
NGC モデル レジストリ
ポピュラーな AI モデルのレポジトリ
再学習の初期状態、または⾃作モデルのプロトタイプ
やベンチマーク基準
そのまま、またはカスタマイズして楽に使える
アップロード、共有、バージョン管理を⾏う NGC エン
...
25
ドメイン固有 | 推論対応
学習済みモデル
ビデオ分析と医療画像向けのドメイン固有モデル
転移学習と⾃分のデータを使って、素早く正確
な AI を作成
利⽤可能モデル: Organ & tumor
segmentation, x-ray ...
26
27
学習 | ビルド | 最適化 | デプロイ
モデルスクリプト
モデル学習のベストプラクティス
最適化ライブラリと Tensor コアを⽤いた最⾼の
パフォーマンス
最先端の精度
分類、検出、レコメンド、⾃然⾔語処理、
セグメンテーション、...
28
29
Clara Train SDK
PRE-TRAINED MODELS
TRANSFER
LEARNING
AI-ASSISTED
ANNOTATION
DICOM 2
NIFTI
TRAINING PIPELINES
TUNE
TRT I...
30
Transfer Learning Toolkit
PRE-TRAINED MODELS
PRUNETRAINData
Converters
SAMPLE TRAINING PIPELINES
TUNE
AI
Inference
PERC...
31
NVIDIA NGC サポートサービス
ダウンタイムを最⼩化し、システムの稼働率を最⼤に
Availability
• Exclusively for V100 & T4
NGC-Ready systems
• Availability
...
32
NGC クイックスタート ガイド
Alibaba Cloud の東京リージョンで利⽤する⽅法を解説
2019 6
NGC on Alibaba Cloud
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
Prochain SlideShare
Chargement dans…5
×

NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング

7 月 4 日 (木) に開催された第2回 SB クラウドパートナーサミットで古家が講演した資料です。

  • Identifiez-vous pour voir les commentaires

NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング

  1. 1. Shinnosuke Furuya, Ph.D., HPC Developer Relations, NVIDIA, 07/04/2019 NGC でインフラ環境整備の時間短縮︕ 素早く始めるディープラーニング
  2. 2. 3 エヌビディア AI コンピューティングカンパニー 1993 年創業 創業者兼 CEO ジェンスン フアン 従業員 12,000 ⼈ 2018 会計年度売上⾼ 97 億ドル 時価総額 1600 億ドル
  3. 3. 4 ディープラーニング (深層学習)
  4. 4. 5 ディープラーニングは機械学習の⼀分野 ⼈⼯知能 (AI) ディープラーニング (深層学習) マシンラーニング (機械学習)
  5. 5. 6 従来の機械学習との違い ⼿動設計 vs. 学習 予測モデル (機械学習) 特徴 (⼈間が設計) Input Output ディープラーニング 予測モデル (DNN) 特徴 (学習で獲得) Input Output Traditional approach [since 1990] Deep Learning / End-to-End model [since 2012] Ex. Conv net. Ex. Regression & SVM
  6. 6. 7 ディープラーニングの 2 つのフェーズ モデル ⽝ 推論 (inference) 蜜⽳熊 学習 (training) モデル ⽝ 狸 猫 フィードバックにより 重みを調整 学習した結果を⽤いる ⽝ 猫
  7. 7. 8 ディープラーニングを加速する 3 つの要因 “Google’s AI engine also reflects how the world of computer hardware is changing. (It) depends on machines equipped with GPUs… And it depends on these chips more than the larger tech universe realizes.” DNN BIG DATA GPU
  8. 8. 9 NVIDIA TESLA プラットフォーム
  9. 9. 10 NVIDIA GPU 製品のおおまかな⼀覧 Maxwell (2014) Pascal (2016) Volta (2017) GeForceゲーミング Quadro プロフェッショナル グラフィックス M40 M6000 GTX 980 HPC ⽤ GRID ⽤ DL ⽤ M60 GP100P5000 Kepler (2012) K6000 GTX 780 K80 K2 K520 GTX 1080 TITAN X V100データセンタ & クラウド Tesla P40 P100 P6 TITAN V Fermi (2010) M2070 6000 GTX 580 P4 GV100 M6 M10 Turing (2018) RTX 8000 RTX 2080 Ti T4
  10. 10. 11 NVIDIA TESLA V100 TENSOR コア搭載 世界最先端のデータ センター GPU 5120 CUDA コア 7.8 FP64 TFLOPS | 15.7 FP32 TFLOPS 125 Tensor TFLOPS 900 GB/s の 32 GB HBM2 300 GB/s NVLink
  11. 11. 12 NVIDIA TESLA P100 世界初の AI スーパーコンピューティング向け データ センター GPU 3584 CUDA コア 5.3 FP64 TFLOPS | 10.6 FP32 TFLOPS 21.2 FP16 TFLOPS 732 GB/s の 16 GB HBM2 160 GB/s NVLink
  12. 12. 13 スパコンランキング TOP500 上位 5/10 が GPU スパコン システム名 概要 サイト ピーク性能 (TFlops) 1 Summit IBM POWER9, NVIDIA Tesla V100, Mellanox IB EDR アメリカ 148,600.0 2 Sierra IBM POWER9, NVIDIA Tesla V100, Mellanox IB EDR アメリカ 94,640.0 6 Piz Daint Intel Xeon, NVIDIA Tesla P100, Cray Aries interconnect スイス 21,230.0 8 ABCI Intel Xeon, NVIDIA Tesla V100, Mellanox IB EDR ⽇本 19,880.0 10 Lassen IBM POWER9, NVIDIA Tesla V100, Mellanox IB EDR アメリカ 18,200.0 Source: https://www.top500.org
  13. 13. 14 スパコンランキング GREEN500 上位 8/10 が GPU スパコン システム名 概要 サイト 電⼒効率 (GFlops/watts) 2 DGX SaturnV Volta Intel Xeon, NVIDIA Tesla V100, Mellanox IB EDR アメリカ 15.113 3 Summit IBM POWER9, NVIDIA Tesla V100, Mellanox IB EDR アメリカ 14.719 4 ABCI Intel Xeon, NVIDIA Tesla V100, Mellanox IB EDR ⽇本 14.423 5 MareNostrum P9 CTE IBM POWER9, NVIDIA Tesla V100, Mellanox IB EDR スペイン 14.131 6 TSUBAME3.0 Intel Xeon, NVIDIA Tesla P100, Intel OPA ⽇本 13.704 7 PANGEA III IBM POWER9, NVIDIA Tesla V100, Mellanox IB EDR フランス 13.065 8 Sierra IBM POWER9, NVIDIA Tesla V100, Mellanox IB EDR アメリカ 12.723 10 Taiwania 2 Intel Xeon, NVIDIA Tesla V100, Mellanox IB EDR 台湾 11.285 Source: https://www.top500.org
  14. 14. 15 スパコンランキング TOP 500 アクセラレータのトレンドは NVIDIA GPU 0 20 40 60 80 100 120 140 Nov-11 Nov-12 Nov-13 Nov-14 Nov-15 Nov-16 Nov-17 Nov-18 NVIDIA A社 B社 その他 Source: https://www.top500.org
  15. 15. 16 NGC 最新情報
  16. 16. 17 NGC 多くの GPU 対応アプリケーションイメージ 各種ディープラーニング フレームワーク、サードパーティの HPC アプリ ケーション、NVIDIA の HPC 可視化ツール、数々のパートナー アプ リケーション 数週間ではなく、数分でイノベーションを⽣み出す ソフトウェア環境を構築するための複雑な作業を、 ⼤幅に軽減します。 あらゆる環境からアクセス Pascal、Volta、Turing 世代 GPU を搭載した PC、 NVIDIA DGX Systems や各社の NGC-Ready サーバー そして複数のクラウド サービス プロバイダ GPU 対応アプリケーションの総合カタログ
  17. 17. 18 GPU に最適化されたソフトウェア NGC に 50 以上のコンテナイメージを⽤意 ディープラーニング ⼀般の機械学習アルゴリズム HPC 可視化 推論 ゲノミクス NAMD | GROMACS | more RAPIDS | H2O | more TensorRT | DeepStream | more Parabricks ParaView | IndeX | more TensorFlow | PyTorch | more
  18. 18. 19 FP32 Higher Precision Range: +/- 3.402823x1038 AI と HPC を加速する TENSOR コア 混合精度演算アクセラレーター FP32 演算を最⼤ 5 倍⾼速化1 4x4 Product and Accumulate FP32 = FP16 x FP16 + FP32 FP16 Reduced Precision Higher Performance Range: +/- 65,504 4x4 Matrix 16 FP16 values 4x4 Matrix 16 FP16 values Sign (1 bit)Exponent (5 bits) Fraction (10 bits) Sign (1 bit)Exponent (8 bits) Fraction (23 bits) 5X Throughput of FP321 D=A*B+C 1Fastest Tensor Core Speedup by Facebook on NMT (Arxiv paper Sep 2018) https://arxiv.org/pdf/1806.00187.pdf Memory Savings • Half Storage Requirements (larger batch size) • Half the memory traffic by reducing size of gradient/activation tensors
  19. 19. 20 継続的なパフォーマンス改善 ソフトウェアの最適化により、同じハードウェアでも性能が向上 ディープラーニングフレームワークと HPC ソフトウェアスタックの⽉例更新で性能向上 0 2000 4000 6000 8000 10000 12000 18.02 18.09 19.02 Images/Second MxNet Mixed Precision | 128 Batch Size | ResNet-50 Training | 8x V100 0 50000 100000 150000 200000 250000 300000 350000 400000 18.05 18.09 19.02 Tokens/Second PyTorch 0 1000 2000 3000 4000 5000 6000 7000 8000 18.02 18.09 19.02Images/Second TensorFlow Mixed Precision | 128 Batch Size | GNMT | 8x V100 Mixed Precision | 256 Batch Size | ResNet-50 Training | 8x V100 Speedup across Chroma, GROMACS, LAMMPS, QE, MILC, VASP, SPECFEM3D, NAMD, AMBER, GTC, RTM | 4x V100 v. Dual-Skylake | CUDA 9 for Mar '18 & Nov '18, CUDA 10 for Mar '19 x 2x 4x 6x 8x 10x 12x 14x 16x 18x Mar '18 Nov '18 Mar '19 HPC Applications
  20. 20. 21 新しい NGC 機械学習と HPC のワークフローをシンプルにする GPU 最適化ソフトウェア ハブ NGC 50 以上のコンテナイメージ DL, ML, HPC 学習済みモデル ⾃然⾔語処理、画像分類、物体検出など 業種別ソリューション 医⽤画像処理、⾼度な映像解析 モデル学習スクリプト ⾃然⾔語処理、画像分類、物体検出など Innovate Faster Deploy Anywhere Simplify Deployments
  21. 21. 22 新しい NGC がもたらすもの ワークフロー / バリューチェーン コンテナ イメージ コンテナ イメージ モデル 学習⽤スクリプト 画像分類 | 物体検出 | ⾃然⾔語処理/翻訳 ⾳声合成 | レコメンデーション 業種別ソリューション スマートシティ | 医⽤画像処理 トレーニング SDK デプロイメント SDK KubeFlow パイプライン Proficiency of Skills Advanced ML/DL Practitioner Developers & Data Scientists
  22. 22. 23 NGC コンテナー ユーザーガイド https://docs.nvidia.com/ngc/pdf/NGC-User-Guide.pdf
  23. 23. 24 NGC モデル レジストリ ポピュラーな AI モデルのレポジトリ 再学習の初期状態、または⾃作モデルのプロトタイプ やベンチマーク基準 そのまま、またはカスタマイズして楽に使える アップロード、共有、バージョン管理を⾏う NGC エン タープライズ アカウントのためのプライベート レジストリ
  24. 24. 25 ドメイン固有 | 推論対応 学習済みモデル ビデオ分析と医療画像向けのドメイン固有モデル 転移学習と⾃分のデータを使って、素早く正確 な AI を作成 利⽤可能モデル: Organ & tumor segmentation, x-ray classification, classification and object detection for video analytics TensorRT モデル Tensor コアを⽤いた推論対応 精度: INT8, FP16, FP32 マルチ GPU への最適化 利⽤可能モデル: ResNet50, VGG16, InceptionV1, Mobilenet
  25. 25. 26
  26. 26. 27 学習 | ビルド | 最適化 | デプロイ モデルスクリプト モデル学習のベストプラクティス 最適化ライブラリと Tensor コアを⽤いた最⾼の パフォーマンス 最先端の精度 分類、検出、レコメンド、⾃然⾔語処理、 セグメンテーション、⾳声合成、翻訳
  27. 27. 28
  28. 28. 29 Clara Train SDK PRE-TRAINED MODELS TRANSFER LEARNING AI-ASSISTED ANNOTATION DICOM 2 NIFTI TRAINING PIPELINES TUNE TRT INFERENCE SERVER PIPELINE MANAGER STREAMING RENDER DICOM ADAPTER DEPLOYMENT PIPELINES WEBUI Clara Deploy SDK NVIDIA CLARA AI PLATFORM Organ Segmentation for Medical Imaging RETRAIN WITH NEW DATA CT SCANS OF PATIENT’S LIVER SEGMENTED LIVER
  29. 29. 30 Transfer Learning Toolkit PRE-TRAINED MODELS PRUNETRAINData Converters SAMPLE TRAINING PIPELINES TUNE AI Inference PERCEPTION GRAPH TrackingCalibration Processing REFERENE APPLICATIONS Analytics Visualize DeepStream SDK Decoding NVIDIA METROPOLIS Intelligent Video Analytics for Smart Cities RETRAIN WITH NEW DATA` QUERY VIDEO FEED Frames detecting new class of objects
  30. 30. 31 NVIDIA NGC サポートサービス ダウンタイムを最⼩化し、システムの稼働率を最⼤に Availability • Exclusively for V100 & T4 NGC-Ready systems • Availability Now: Cisco Q2: Dell, HPE, Lenovo • Agreement between NVIDIA & end-customer • Purchase from OEM L1-L3 Support by NVIDIA’s subject matter expert • Live phone support during local biz hours • 24/7 phone, portal, email to create support cases Support Coverage • NGC DL & ML containers • NVIDIA drivers • Kubernetes Device Plug-In • NVIDIA Container Runtime • CUDA
  31. 31. 32 NGC クイックスタート ガイド Alibaba Cloud の東京リージョンで利⽤する⽅法を解説 2019 6 NGC on Alibaba Cloud

×