Contenu connexe
Similaire à CMD2021 f01 xilinx_20210921_r1.1 (20)
CMD2021 f01 xilinx_20210921_r1.1
- 1. © Copyright 2021 Xilinx
コンピューティングやAIの高速・低電力化
を実現するアーキテクチャと応用
2021年9月21日
ザイリンクス株式会社
データセンターグループ
堀江義弘
日本機械学会 第34回計算力学講演会(CMD2021)
F01: 計算力学のための次世代計算機環境ーチップからクラウドまでー 講演
- 2. © Copyright 2021 Xilinx
本講演のトピックス
ザイリンクス社 アクセラレーターカード
ユースケース、パフォーマンス
コンピューティングやAIの高速・低電力化を実現するアーキテクチャ
開発環境
まとめ
2
- 3. © Copyright 2021 Xilinx
本社 営業/サポート拠点 R&D/営業
ザイリンクスについて
1984 年設立
売上 (FY21)
31 億 5,000 万ドル
従業員数
約 5,000 人
ハイデラバード
(インド)
ダブリン
(アイルランド)
シンガポール
サンノゼ
(カリフォルニア州)
ロングモント
(コロラド州)
顧客数
6 万以上
業界初
60 以上
特許数
4,800 以上
R&D/エンジニアリング ファブ/製造パートナー
3
- 4. © Copyright 2021 Xilinx
ザイリンクスはアダプティブ コンピューティングの業界リーダー
#1
FPGA-as-a-Service
Amazon クラウド
70%
業界シェア
I-IoT ビジョン
205M
量産体制のユニット
オートモーティブ
世界初
商用 NR を展開
5G 無線
#1
ロジック IC ベンダー
テスト/測定装置
#1
FPGA/SoC
航空宇宙/防衛
4
- 5. © Copyright 2021 Xilinx
アダプティブ コンピューティングの未開拓領域
3 つの大きな課題
データの爆発的増加
ビデオおよび画像コンテンツ
90% 非構造化
より高いスループットとリアルタイムの演算能力が求められる
AI 時代の到来
アプリケーションに最新のインテリジェンスが追加される
エンドポイントからエッジ、クラウドに至るまで、あらゆる業界に浸透
すべての場所の AI 処理を高速化する必要がある
「ムーアの法則」後のコンピューティング
設計サイクルがイノベーションのスピードに追いつかない
多くのアプリケーションが異なるアーキテクチャを必要としている
アクセラレータを使用したヘテロジニアス コンピューティングの必要性が高まる
5
- 6. © Copyright 2021 Xilinx
ASIC/ASSP/GPU
CPU 固定機能アクセラレータ 適応性に優れた
ハードウェア ソリューション
適応型プラットフォームの
ドメイン特化アーキテクチャ (DSA) の必要性
SW プログラマブル、
広く利用されている
大半のワークロードには
非効率的
使いやすいが、柔軟性に欠ける
NRE が高く、シリコン サイクル
が長い (ASIC)
ドメイン固有にカスタマイズ可能
進化する要件に迅速に対応
6
- 7. © Copyright 2021 Xilinx
HWアダプタブルなデバイス 運用可能なエンドシステム FAAS (FPGA as a Service)
アクセラレータ カード
電子システムの
「チップダウン」設計
主なクラウド プロバイダー経由で
ザイリンクス テクノロジを
評価 および 活用
さまざまな運用方法を提供
評価ボード および キット
7
SOM
(システム オン モジュール)
- 8. © Copyright 2021 Xilinx
容易に利用可能
クラウド または オンプレミスで運用
豊富なアプリケーションライブラリ
高いパフォーマンス
高スループット、低レイテンシー
コンピュート、ネットワーク、ストレージの
アクセラレーション
適合性
最適なドメインスペシフィックアーキテクチャを実装
変容するアルゴリズムに柔軟に適合
8
- 10. © Copyright 2021 Xilinx
アクセラレーションのおもな領域
コンピュート
HPC
AI/ML
画像処理
ストレージ
データベース
ネットワーク
SmartNIC
Fintech
10
- 11. © Copyright 2021 Xilinx
ゲノム シーケンス分析
GTX.FPGA
1x Xilinx Alveo U200
0.67
32
46.30
CPU GPU FPGA
Number of WGS* Samples Processed in 24 hours
Dell R940
36 Core Intel
Xeon Gold
8x Nvidia V100
Analysis Pipeline: GATK Best Practice Pipeline for 30x Human WGS Variant Calling
*WGS: Whole Genome Sequencing
11
- 12. © Copyright 2021 Xilinx
ソフトウェア プログラミング モデル - RTM ベンチマーク
Xeon Gold CPUの40倍のパフォーマンス
V100 より 34% 高いパフォーマンス
消費電力は約 1/4
V100 =182W avg, 225W peak
U280 = 40W peak
一層の最適化が可能
12
2D RTM アルゴリズム C++記述から実装
まで1人月で完了
U280
RTM = Reverse Time Migration
- 13. © Copyright 2021 Xilinx
Oil & Gas - Realtime Subsurface Imaging using AI/ML
Performance
Increase
16x
9.6x
1X
CPU FPGA CPU FPGA
Xilinx/Quantico Analysis, QEarth running 200K-1.7M traces
Performance/$
1X
Total
Compute
Time
2Wks
6Mths
Traditional
Geostatistical
Inversion
Quantico
QearthTM
AI Inversion
FPGA
<1Day
13
- 14. © Copyright 2021 Xilinx
疎行列ベクトル積 (spMV)
Vitis ライブラリ
14
0
1
2
3
4
5
6
7
8
Speedup
Speedup vs. V100
0
50
100
150
200
250
300
350
Speedup
Speedup vs. Intel Xeon Platinum
For each device, the mesured time is the time for executing the sparse kernel only
GPU: Nvidia V100 SXM2 16GB, CUSPARSE, CUDA 10.2
CPU: Intel(R) Xeon(R) Platinum 8268 CPU @ 2.90GHz, 2 sockets, 96 cores (using all 96 cores).
Intel MKL mkl_2020.1.217
* NNZ=Numerically Nonzero Entries in the matrix
SuiteSparse Matrix Collection (https://sparse.tamu.edu/)
構造工学、流体力学、熱力学、量子化学、金融モデルなど 様々な
分野の現実的なアプリケーションを反映
Alveo U280 HBM 24チャネルのデザイン
中位のサイズの構造問題のマトリクス (NNZs* < 100K)
Xeon Platinum 8268 と比較して最大 約 292倍の処理性能
V100 と比較して 最大 7.5倍の処理性能
大きいサイズのマトリクス
Xeon Platinum 8268 と比較して最大 約 39倍の処理性能
V100 と比較して 最大 1.2倍の処理性能 (NNZs < 300K)
- 15. © Copyright 2021 Xilinx
JPCG Solver Implementation on Alveo U50
アルゴリズム
倍精度 Gemvをベースとする Jacobi Preconditioned Conjugate Gradient
ベンチマーク結果
1: Alveo U50, Max power 75W, Cost $2,868
2: CPU, Intel® Xeon® CPU E5-2667 v4 @ 3.20GHz, 32 threads
3: Nvidia Tesla V100 PCIe 16GB, Max power 250W, Cost $10,000
Square
matrix
size
Time [ms] / Iteration Device Power [Watt]
U50@333MHz1 CPU2 V1003 U50@333MHz V100
1024 0.073 0.151 0.117 47 58
2048 0.2557 0.285 0.134 47 83
4096 0.9202 4.026 0.252 47 121
8192 3.405 15.209 0.705 47 155
TCO: 2.3x – 8.1x better vs GPU
15
- 16. © Copyright 2021 Xilinx
ラインレートの高速・高圧縮アクセラレーション
0
2000
4000
6000
8000
10000
12000
14000
Throughput
(MB/s)
Throughput by Dataset
gzip Level 9 lz4 Level 1 NoLoad-U50
0
200
400
600
800
1000
1200
1400
1600
1800
Efficiency
(MB/s/core)
Efficiency (MB/s/core) by Dataset
gzip Level 9 lz4 Level 1 NoLoad-U50
Dataset NoLoad gzip (level 9) lz4 (level 1)
CR MB/s/core CR MB/s/core CR MB/s/core
petroleum 2.11 1462 2.2 5 1.97 473
seismic 1.42 1320 1.43 25 1.28 363
medical 2.24 1410 2.35 22 1.57 401
video 1.02 1020 1.02 36 1.02 484
genomics 2.01 1293 2.07 13 1.42 154
big data 2.91 914 3.53 5 2.43 292
HPC (VPIC) 1.23 1526 1.23 7.1 1.01 296
NoLoad® on Alveo U50
カード当たり 入力データ 12GB/s 超える圧縮性能
性能はカード増設に比例してスケール
NoLoad® provides gzip levels of compression with better
throughput and efficiency than lz4!
16
- 17. © Copyright 2021 Xilinx
ザイリンクス Alveo U50 - 高品質ライブビデオ トランスコード
5x Alveo U50
Xilinx HEVC Very-High Quality
20x 1080p30
One Alveo U50 Server
Alveo U50 HEVC Video
Compression
x23 電力コスト
1/8 ハードウェアコスト
40x Xeon Gold
H.265 very-high quality
20x 1080p30
20x Dual CPU Servers
x20 ノード当たりのスループット
17
- 18. © Copyright 2021 Xilinx
差別化のおもなポイント
Smart Retail Smart City Smart Hospital
Alveo U30
Video
Decoder
Image/Data
Pre-Processing
Alveo U50LV
DPU Inference Engine Day
Night
Detection
Model 1
Detection
Model 2
Classification
Model 1
Feature
Extraction
Model
DB
Post-Processing
/Database Plugins
User Applications
Streaming
1) リソースを最大限に活用
(独立したスケーラブルなワークロード)
4) ハードウェアアクセラレーション、ソフトウェア処理のためのカスタムプラグイン
2) カスタマイズ可能な低レイテンシー、
高性能のビデオ処理およびデータ
前処理
5) Design for Exchangeability (DFX) 機能
(通常) 推論実行のプラットフォームとして稼働
(推論非稼働時) (再)学習, 画像・DB処理など
3) 複数のニューラルネット
ワークを性能劣化なく動
的、同期/非同期に稼働
Model
(Re)Training
at Field
Video
Compression
/Archive
Database
ANPR*
Kria SOM
6) スケーラビリティ
エッジ~クラウド
*ANPR = Automatic Number Plate & character Recognition
18
- 20. © Copyright 2020 Xilinx
CPUs ハードウェアが固定の
アクセラレータ
ASICs/ASSPs/GPUs
FPGAs
現在までのソリューション
20
- 23. © Copyright 2021 Xilinx
Adaptive
Adaptive Hardware for
Domain-Specific Applications
23
- 24. © Copyright 2021 Xilinx
Adaptive
Compute Acceleration
Adaptable
Engines
Scalar
Engines
Intelligent
Engines
24
- 25. © Copyright 2021 Xilinx
Platform
ENABLING:
データサイエンティスト
ソフトウェア開発者
ハードウェア開発者
開発ツール
HW/SW ライブラリ
ランタイム スタック
SW プログラマブル
シリコン インフラ
25
- 28. © Copyright 2020 Xilinx
さまざまな開発者に向けた環境
多様なアプリケーション
ヘテロジニアス アクセラレーション
業界世界初のACAP
7nm
FinFET
29
- 29. © Copyright 2021 Xilinx
スカラー
プロセッシングエンジン
Arm Cortex-A72
アプリケーション プロセッサ
Arm Cortex-R5
リアルタイム プロセッサ
プラットフォームマネジメントコントローラ
31
- 30. © Copyright 2021 Xilinx
アダプタブル
ハードウェアエンジン
再構築されさらなる高密度化を実現する
HWファブリック
階層メモリのカスタム設計を実現
動的リコンフィグレーションを従来の8倍
高速化
32
- 31. © Copyright 2021 Xilinx
インテリジェント
エンジン
DSP エンジン
高精度な浮動小数点演算と低レイテンシー
データパスのカスタム化と細やかな制御
AI エンジン
高スループット、低レイテンシー、高い消費電力効率
AI 推論 や 高度な信号処理に最適なアーキテクチャ
33
- 32. © Copyright 2021 Xilinx
AI エンジン
AI 推論 および 高度な信号処理に最適化
>1GHz VLIW/SIMD ベクタープロセッサコア
密結合されたメモリを有する大量なコアを相互接続
アダプタブルハードウェアエンジンと密接続することで
メモリ階層のカスタムデザインを実現
ソフトウェアプログラマブル、ライブラリを提供
ハードウェアの適合性
VECTOR
CORE
MEMORY
VECTOR
CORE
MEMORY
VECTOR
CORE
MEMORY
VECTOR
CORE
MEMORY
34
- 33. © Copyright 2021 Xilinx
AI Engine
˃ 1+ GHz VLIW / SIMD AI Engine
˃ 32-bit Scalar RISC processor
˃ Fixed and floating point vector units
Interconnect
˃ AXI-MM switch for config, control, and debug
˃ AXI-Stream crossbar for routing N/E/S/W streams
Data Memory
˃ Each AI Engine can access 4 Memory
Modules (N,E,S,W) as one contiguous memory
AI Engine Tile
MEM
I/F
Data
Memory
(32KB)
AXIS West
AXIM
Switch
MEM
I/F
AXIS East
MEM I/F
MM2S
DMA
MEM
I/F
Program
Memory
(16KB)
Instruction
Fetch &
Decode
Unit
Load & Store
Address
Generation
Units
32b Scalar
RISC Unit
Fixed Point
512b SIMD
Vector Unit
Floating Point
512b SIMD
Vector Unit
Stall
Handler
Control,
Debug
& Trace
Accumulator
Stream FIFO
Scalar
Register Files
Vector Register Files
S2MM
DMA
AXIS
North
AXIS
South
Core Mem Access
AXI Stream
AXI MM
Accumulator Stream
AI Engine Array
Single Tile
Architecture Manual am009
36
- 34. © Copyright 2021 Xilinx
AI エンジン: マルチコア コンピュート に革新をもたらす
core
L0
core
L0
core
L0
Block 0
L1
core
L0
core
L0
core
L0
Block 1
L1
L2
DRAM
D0
D0
D0
D0
固定した共有接続
• システム性能を制約
• レイテンシーの大幅なばらつき
データの複製
• レイテンシーの大幅な増大とばらつき
• 帯域不足による性能制約
• 消費電力の大幅な増大
従来のマルチコア
(キャッシュ アーキテクチャ)
MEM
AI
Engine
MEM
AI
Engine
MEM
AI
Engine
AI
Engine
MEM
AI
Engine
AI
Engine
MEM
AI
Engine
MEM
MEM
AI エンジン アレイ
(インテリジェント エンジン)
専用の接続
• システム性能の制約
とならない
• レイテンシーは短く、
かつ確定的
密結合したメモリを分散
• キャッシュミスは無し
• レイテンシーは短く、かつ確定的
• システム性能の制約とならない高帯域
• 全体のメモリサイズを節約
• 消費電力を大幅に低減
AI
Engine
MEM
MEM
AI
Engine
38
- 35. © Copyright 2021 Xilinx
クラウド エッジ
ネットワーク
ワイヤード ワイヤレス エンドポイント
AI の適用
データセンター
Versal が適用される代表的なマーケット
39
- 36. © Copyright 2021 Xilinx
HBM
Series
Prime
Series
Premium
Series
AI Core
Series
AI RF
Series
AI Edge
Series
40
- 37. © Copyright 2021 Xilinx
Versal AIEによる推論のパフォーマンス
1. Xeon Platinum 8124 Skylake、c5.18xlarge AWS インスタンス上で測定。Intel Caffe: https://github.com/intel/caffe
2. V100 のデータは Nvidia 社『Deep Learning Platform, Giant Leaps in Performance and Efficiency for AI Services』より引用
GoogLeNet の性能 (レイテンシ <7ms)
= ハイエンド CPU の 43 倍
GoogLeNet のリアルタイム性能 (レイテンシ <2ms)
= ハイエンド GPU (Nvidia) の 8 倍
出典 ; "Versal: The First Adaptive Compute Acceleration Platform (ACAP)" WP505 (日 / 英)
41
- 38. © Copyright 2021 Xilinx
VCK5000 : データセンター アクセラレーション 開発キット
https://japan.xilinx.com/products/boards-and-kits/vck5000.html
カードの仕様 VCK5000
デバイス VC1902
INT8 TOPs (ピーク) 145
サイズ FHFL デュアルスロット
メモリ
DDR メモリ容量 DDR4-3200 16 GB
DDR 総帯域幅 102.4 GB/s
内部 SRAM の容量 23.9 MB
内部 SRAM の総帯域幅 23.5 TB/s
インターフェイス
PCI Express Gen3 x 16 / Gen4 x 8
ネットワーク インターフェイス 2x QSFP28 (100GbE)
ロジック リソース
ルックアップ テーブル (LUT) 899,840
消費電力と熱
最大総消費電力 225W
42
二種類のSKUを提供する開発キット (商用デプロイメントはサポートしておりません)
(汎用版) Vitis™ 設計フローをサポート - AI、HPC、データセンターなど
(AI 限定版) 期間限定キャンペーン中 (購入条件あり、詳細はお問合せ)
Vitis AI 1.4 with 2 DPU variants (384 vs 288 AIE cores)
52+ model zoo support
Natural Language (BERT) & and RNN T demo
MLPerf submission ResNet 50 demo ( better than T4)
Getting started with Vitis AI & Board user guide documentation
MLCommons v1.0 Data Center Closed Division Server ResNet-50
- 40. © Copyright 2021 Xilinx
イノベーションの過程
ハードウェアの革新
世界初の FPGA
1984
ソフトウェアの革新
業界初のハイエンドな
大容量 FPGA
1999 業界初の SerDes と
プロセッサを統合した
FPGA
2001
業界初の 3D FPGA/
Zynq デュアル
HW プログラマブル SoC
2012
業界初の Zynq
MPSoC & RFSoC
2017
VERSAL
業界初の ACAP
(Adaptive Compute
Acceleration Platform)
2019
ALVEO
データセンター
アクセラレータ カード
2018
次世代開発環境 ソフトウェア開発者向け
プログラマビリティ
C、C++、
System C コードが
有効
1984 現在
統合ソフトウェア
プラットフォーム
ALVEO SN10xx
業界初の構成可能な
適応型 SmartNIC
2021
KRIA SOM
適応型システム
オン モジュール
(SOM) と
業界初の
エンベデッド
アプリ ストア
44
- 41. © Copyright 2021 Xilinx
Build
Deploy
UltraScale/UltraScale+
Zynq
エンベデッド
開発者
エンタープライズ
アプリケーション開発者
エンタープライズ
インフラ開発者
データ & AI
サイエンティスト
すべての開発者が多様なプラットフォーム向けに開発可能な統合環境
- 42. © Copyright 2021 Xilinx
Build
Run
System level
Simulation
ARM
Compiler
AIE
Compiler
Vitis HLS
Host CPU
System Compile/Link
Xilinx Runtime Library (XRT)
Analyze
ホスト
アプリケーション ライブラリ
アプリケーション
C/C++
ターゲット
プラットフォーム
RTL
Debug & Performance
Analysis
包括的な開発環境を提供
(2020年4月~)
- 43. © Copyright 2021 Xilinx
オープンソースのアクセラレーション ライブラリ
利用可能な400以上の最適化された無償ライブラリ
Vision &
Image
Finance Data Analytics &
Database
Data Management Data Security
ドメイン・スペシフィック ライブラリ
Math Linear Algebra Statistics DSP Data Compression
汎用ライブラリ
Matrix Decomposition
(Cholesky, LU, etc.)
Linear Solvers
Eigenvalue Solvers
BLAS, HPC, etc.
amax, asum, copy,
gbmv, scal, swap,
trmv, sparse, etc.
GEMM
Random Num Gen
Brownian Bridge Trans
Heston Model
Black-Scholes
Interpolations
Others
Monte-Carlo
Box-Meuller Trans
Probability Density
Binomial Tree
Markov Chain
filters, FFT/IFFT, etc.
lz4 Comp/Decomp
Huffman Enc/Dec
Snappy Comp/Decomp
GZip, etc.
AI
- 44. © Copyright 2021 Xilinx
48
オープンソースのアクセラレーション ライブラリ
利用可能な400以上の最適化された無償ライブラリ https://japan.xilinx.com/products/design-tools/vitis/vitis-libraries.html
Xilinx App Store
- 45. © Copyright 2020 Xilinx
DNN Processing Unit (DPU)
Direct Model Compilation
Minutes of Compile Times
MIN HRS
AI Model
Adaptive
Vitis Platform
Vitis AI
From Model to Implementation in Minutes
*
* Coming Soon
- 46. © Copyright 2021 Xilinx
ご参考
Vitis™
Vitis™ 統合ソフトウェアプラットフォーム (Alveoユーザーは無償)
VitisTM AI
VitisTMビデオ解析 SDK (VVAS)
Vitis™ アクセラレーションライブラリ
2021アダプティブコンピューティングチャレンジ
Alveo™ カード
ALVEOTMアクセラレータカード
Alveo U200 & U250 (ビデオ)
AlveoでのVitis アプリケーションアクセラレーション開発 (ビデオ)
Versal™ ACAP
Versal ACAP
Introducing the Versal Premium ACAP (ビデオ)
Versal ACAP: AI Engine (ビデオ)
SOM
および
評価ボード
評価ボード
Kria ; System on Modules (SOM)
ボードとキットの付属品
50
Xilinx Adapt カンファレンス (100+のセッション)
9月開催英語版オンデマンド配信中
11月中旬より数回に分けて日本語版開催予定
- 47. © Copyright 2021 Xilinx
FPGA/ACAPはアダプタブルなアクセラレーションを実現
SW プログラマブル
HW アダプタブル
フレキシビリティ
スループットとレイテンシー
消費電力効率
CPU
(Sequential)
GPU
(Parallel)
Custom ASIC
FPGA/ACAP
AI
Engines
51
- 48. © Copyright 2021 Xilinx
Building the Adaptable,
Intelligent World
Xilinx Mission