2015年度GPGPU実践プログラミング　第3回　GPGPUプログラミング環境

第3回 GPGPUプログラミング環境
長岡技術科学大学電気電子情報工学専攻出川智啓

今回の内容
2015/04/30GPGPU実践プログラミング
 ソフトウェア
 コンパイラ，ライブラリ
 CUDA等GPU向けのプログラムを開発する環境
 開発環境
 Visual Studio, Eclipse, Nsight
 ハードウェア
 GPU（PCI‐Exカード）
 組込用GPU
 GPGPU教育計算機システムGROUSEの利用方法
2

CUDA (Compute Unified Device Architecture)
 NVIDIA社製GPU向け開発環境
 Windows, Linux, Mac OS X
 2007年頃発表
 C/C++言語＋独自のGPU向け拡張
 専用コンパイラ（nvcc）とランタイムライブラリ
 いくつかの数値計算ライブラリ（線形代数計算，FFTなど）
2015/04/30GPGPU実践プログラミング3

CUDA付属のライブラリ
 cuBLAS
 BLASのGPU向け実装（密行列）
 BLAS（Basic Linear Algebra Subprogram）
 cuSPARSE
 BLASのGPU向け実装（疎行列）
 cuFFT
 高速フーリエ変換
 cuRAND
 乱数生成
 その他
 https://developer.nvidia.com/gpu‐accelerated‐libraries
GPGPU実践プログラミング 2015/04/304

CUDA Fortran
 FortranのNVIDIA GPU向け拡張
 PGI社の販売するFortranコンパイラで利用可能
 10.0以降で利用可能
 2015年4月30日現在の最新版は15.4
 CUDA Cを利用するが，新機能はFortranコンパイラが対応し
ないと利用できない
 CUDA Fortranと区別するために，CUDAをCUDA Cと呼ぶこともある
 GROUSEではCUDA Cのバージョンが4.0だが，PGIコンパイラのバー
ジョンが古いためバージョン3.2までしか利用できない

FORTRAN
 科学技術計算分野において利用
 情報処理を専門としない技術者・研究者が利用
 配列演算の記述が容易
 ポインタの明示的な取り扱いが不要

FortranによるGPGPU
 GPGPUの普及と裾野の広がり
 FORTRANからC言語を経由してGPUへ移植
 資産を多く持つFortranユーザからの要求の高まり
 新しい概念（GPUのプログラミングモデル）と開発言語の習得
は高負荷
 CUDA Fortranの登場
 かけた労力と得られる利得（性能向上）のバランスがよい
 並列計算の知識だけである程度の性能が得られる

CUDA Fortran
 CUDA Cと比較してコーディングが簡単
 CPUでプログラムを組む様な感覚
 GPUの制御を隠して数値計算に集中
 ライブラリよりも手間はかかるがチューニングが可能
 労力（チューニング）と利得（高速化）の比較
 CUDA Cよりも労力を少なく

CUDA Fortranサンプル（ベクトル和）
module kernel
implicit none
integer,parameter :: n = 2**20
contains
subroutine add(a,b,c)
implicit none
real :: a(n),b(n),c(n)
integer :: i
do i=1,n
c(i) = a(i)+b(i)
end do
end subroutine add
end module kernel
program add
use kernel
implicit none
real,allocatable :: a(:),b(:),c(:)
allocate(a(n)); a = 1.0
allocate(b(n)); b = 2.0
allocate(c(n)); c = 0.0
call add(a, b, c)
deallocate(a)
deallocate(b)
deallocate(c)
end program add

CUDA Fortranサンプル（ベクトル和）*
module kernel
implicit none
contains
attributes(global) &
implicit none
integer :: i
i = (blockIdx%x‐1)*blockDim%x
+ threadIdx%x
c(i) = a(i)+b(i)
end subroutine add
end module kernel
program add
use kernel
use cudafor
implicit none
real,allocatable,device :: &
a(:),b(:),c(:)
call add<<<n/256,256>>>(a, b, c)
deallocate(a)
deallocate(b)
deallocate(c)
end program add*並列プログラミングの詳細は次回以降取り扱う．
何となく似ているということだけ感じて欲しい
CUDA FortranについてはGPGPU講習会で取り扱う

module kernel
implicit none
contains
attributes(global) &
implicit none
integer :: i
i = (blockIdx%x‐1)*blockDim%x
+ threadIdx%x
c(i) = a(i)+b(i)
end subroutine add
end module kernel
program add
use kernel
use cudafor
implicit none
real,allocatable,device :: &
a(:),b(:),c(:)
call add<<<n/256,256>>>(a, b, c)
deallocate(a)
deallocate(b)
deallocate(c)
end program add
CUDA Fortranサンプル（ベクトル和）*
GPUカーネル
の目印
配列添字とス
レッドの対応
メモリ属性を指定
メモリ確保
は変化無し
並列実行の
度合を指定
メモリ解放も
変化無し
モジュールの追加
*並列プログラミングの詳細は次回以降取り扱う．
CUDA FortranについてはGPGPU講習会で取り扱う

CUDA Fortranプログラムのコンパイル
 コンパイル
 $ pgfortran –Mcuda=cc20 ファイル名.cuf
 pgfortranはpgf90でも可
 ファイルの拡張子は.cuf
 ‐Mcuda=cc20
 Compute Capability 2.0のGPU(Fermi)を対象
 エラーがなければa.outという実行ファイルが作成される
 実行
 $ ./a.out

OpenCL
 Open Computing Language
 Heterogeneous並列環境向けの標準化フレームワーク
 ロイヤリティ不要のオープンスタンダード
 処理するハードウェアに依存しない
 CPU, GPU, Cell等のプロセッサで動作
 統一されたAPIによる制御が可能
 OpenCL Working Groupによって策定
 Appleにより提案
 AMDが自社GPUの標準開発環境として採用

OpenCL
 計算機環境が多様化するとソフトウェアの移植が困難
 ハードウェア構造の違い
 命令の構文の違い
 均一な計算機環境から不均一な計算機環境へ移行
 マルチコアCPU
 CPU+GPU
 Cell/B.E.
 ソフトウェアの移植性を維持しつつ，ハードウェアの変更
を可能にしたい
 プロセッサの種類に依存しない統一された開発環境が必要
14

OpenCL
 ハードウェアの抽象化
 不均一な計算環境
 制御用プロセッサ＋演算用プロセッサ
 CPU（1コア）+CPU（その他のコア）
 CPU+GPU
 PPE+SPE （Cell/B.E.）
 演算用プロセッサ上でOSが動作していないと想定
 制御用プロセッサから演算プログラムを起動
 演算プログラムをOpenCL，制御用プログラムをC言語で作成
15

OpenCL
 二つの仕様を標準化
 OpenCL C言語仕様
 演算用プロセッサで動作するプログラムの記述方法
 C言語を拡張
 OpenCLランタイムAPI仕様
 制御用プロセッサが利用するAPI（C言語からの関数呼出）
 OpenCL C言語で作成されたプログラムを呼び出し，演算用プ
ロセッサで並列実行
16

プログラムの構成
 ホストプログラム(拡張子は.cpp)
 OpenCLランタイムAPIを利用してC/C++言語で記述
 カーネル（拡張子は.cl）
 OpenCLデバイスで動作するプログラム
 OpenCL C言語で記述
OpenCLデバイスホスト
CPU
メモリ
CUDA
Core
メモリ
ホストプログラムカーネル呼出
17

コンパイル
 ホストプログラムからカーネルを読み込んで実行
 オンラインコンパイル方式を採用
 プログラム実行時にOpenCLランタイムライブラリがカーネルを
コンパイル，実行（Just in Timeコンパイル）
 デバイスに依存せずにプログラムを配布可能
ホストプログラムカーネル
OpenCLランタイムライブラリ
ホスト OpenCLデバイス
コンパイル
カーネル
読込
実行
18

ハードウェアモデル
 OpenCLデバイスは複数の演算
ユニットから構成
 演算ユニットは複数のプロセッ
シングエレメント(PE)から構成
 GPUとの対応
 OpenCLデバイス = GPU
 演算ユニット = SM
 PE = CUDA Core
OpenCLデバイス
PE PE PEPE
･･･
PE PE PEPE
演算ユニット
PE PE PEPE
PE PE PEPE
演算ユニット

並列プログラミングモデル
 データ並列プログラミング
 タスク並列プログラミングモデル
ホスト
プログラムコマンドキュー
処理
OpenCLデバイス
演算ユニット
演算ユニット
演算ユニット
処
理
処
理
処
理
イ
ン
デ
ッ
ク
ス
空
間
1
2
3
データ並列
実行指示
データ並列
実行
ホスト
プログラムコマンドキュー
OpenCLデバイス
演算ユニット
演算ユニット
演算ユニット
処
理
処
理
処
理
タスク並列
実行指示
タスク並列
実行
処
理
処
理
処
理
インデック
ス空間1
インデック
ス空間1
インデック
ス空間1

並列プログラミングモデル
 データ並列実行時に，演算ユ
ニットとPEに固有のIDを付加
 インデックス空間の展開
 演算ユニットで実行する単位
 ワークグループ
 PEで実行する単位
 ワークアイテム
OpenCLデバイス
PE
PE
PE
演算ユニット
ワークアイテムID 0
ワークグループID 0
PE
PE
PE
演算ユニット
ワークグループID 1
グローバルアイテム数 6
ローカルアイテム数 3

メモリモデル
 グローバルメモリ
 全てのワークアイテムから読み書きできるメモリ領域
 コンスタントメモリ
 全てのワークアイテムから読み込みだけができるメモリ
 ローカルメモリ
 ワークグループ内のワークアイテムが共有できるメモリ
 プライベートメモリ
 ワークアイテム専用のメモリ

メモリモデル
 GPUとの対応
 グローバルメモリ=グローバ
ルメモリ
 コンスタントメモリ=コンスタ
ントメモリ
 ローカルメモリ=共有メモリ
 プライベートメモリ=レジスタ
全てのワークアイテム
がデータを共有
ワークグループ内
でデータを共有
コンスタントメモリ
OpenCLデバイス
P P P P
PE PE PE PE
ローカルメモリ
演算ユニット
P P P P
PE PE PE PE
ローカルメモリ
演算ユニット
グローバルメモリ
各ワークアイテムが
個別のデータを保有
プライベートメモリ

カーネルの作成
 関数に修飾子__kernelを付加
 引数となる変数にアドレス修飾子を付加
 グローバルメモリに存在する場合 __global
 コンスタントメモリに存在する場合 __constant
 ローカルメモリに存在する場合 __local
 プライベートメモリに存在する場合 __private
 一つのワークアイテムが実行する内容を記述
 ワークアイテムのIDを取得
 IDを基に振り分ける

CUDA Cのカーネル*
__global__ void init(float *a, float *b, float *c){
int i = blockIdx.x*blockDim.x + threadIdx.x;
a[i] = 1.0f;
b[i] = 2.0f;
c[i] = 0.0f;
}
__global__ void add(float *a, float *b, float *c){
int i = blockIdx.x*blockDim.x + threadIdx.x;
c[i] = a[i] + b[i];
}
OpenCLについてはGPGPU講習会で取り扱う

OpenCLのカーネルコード*
__kernel void init(__global float *a, __global float *b, __global float *c){
int i = get_global_id(0);
a[i] = 1.0f;
b[i] = 2.0f;
c[i] = 0.0f;
}
__kernel void add(__global float *a, __global float *b, __global float *c){
int i = get_global_id(0);
c[i] = a[i] + b[i];
}
OpenCLについてはGPGPU講習会で取り扱う

ホストコード
 カーネルを実行するための下準備を記述
1.実行するプラットフォーム
の特定
2.デバイスの特定*
3.コンテキストの作成
4.コマンドキューの作成
5.メモリオブジェクトの作成*
6.カーネルの読み込み
7.プログラムオブジェクトの
作成
8. カーネルのコンパイル
9. カーネルオブジェクトの
作成
10. カーネル引数の設定
11. コマンドキューへの投入
（カーネルの実行*）
12. メモリオブジェクトから結
果を読み出し*
13. オブジェクトの解放*
*GPUと共通

OpenCLプログラムのコンパイル
 使用（ログイン）している計算機環境でOpenCLが有効に
なっているかの確認
 grouseにはNVIDIA社が提供するOpenCL環境が存在
 コンパイル
 nvcc ‐lOpenCL ソースファイル名.cpp
 ソースファイルの拡張子は.cpp
$ ls /etc/OpenCL/vendors
nvidia.icd

OpenACC
 既存のプログラムソースにディレクティブ（指示句）を挿
入するだけでGPUコードを生成
 GPUに限らず，アクセラレータ・デバイスで動作するプログラム
を作成するための標準規格
 PGI によるPGI Accelerator Programming Modelを踏
襲し，2011年に規格化
 最適化にはそれなりの労力が必要
 手作業でCUDAへ移植するよりは簡単だが性能もそこそこ
 「何時間勉強して何倍高速化」という売り文句が使われている
29

円周率を求めるプログラム
 中点則による数値積分
 単位円の第1象限のみを考え，円をN個の長方形で近似
 長方形の面積の総和を求め，4倍して円の面積を導出
1
y
x
0
i
x=(i+0.5)dx
・・・・・・
x=idx
dx
i+1
幅 dx=r/N=1/N
高さ y=
2
1 x
 






1
0
2
1
0
2
5.011
N
i
dxdxidxdxx面積 A=
41
1
1
0
2





dx
x
を利用することも可能
この場合はプログラム中に数学関数が現れない

#include<stdio.h>
#include<math.h>
#include<time.h>
#define N (1000000000)
int main(void){
double a=0.0, x, dx=1.0/(double)N;
long long i;
clock_t start, stop;
double elapsedtime;
start = clock();
for(i=0; i<N; i++){
x = ((double)i+0.5)*dx; //積分点
a += sqrt(1.0 ‐ x*x) * dx; //中点則による面積の計算
}
stop = clock();
elapsedtime = (double)(stop‐start)/CLOCKS_PER_SEC;
printf("pi = %15.13f¥n elapsed time = %fsec¥n", 4.0*a, elapsedtime);
return 0;
}
コンパイルにはpgiコンパイラを利用
$ pgcc pi.c
$ ./a.out
pi = 3.1415926535902
elapsed time = 7.140000sec

#include<stdio.h>
#include<math.h>
#include<time.h>
#define N (1000000000)
int main(void){
double a=0.0, x, dx=1.0/(double)N;
long long i;
clock_t start, stop;
double elapsedtime;
start = clock();
#pragma acc kernels //OpenACCディレクティブを追加し，コンパイルオプションに‐accを追加
for(i=0; i<N; i++){
x = ((double)i+0.5)*dx; //積分点
a += sqrt(1.0 ‐ x*x) * dx; //中点則による面積の計算
}
stop = clock();
elapsedtime = (double)(stop‐start)/CLOCKS_PER_SEC;
printf("pi = %15.13f¥n elapsed time = %fsec¥n", 4.0*a, elapsedtime);
return 0;
}
コンパイルにはpgiコンパイラを利用
$ pgcc ‐acc pi.c
$ ./a.out
pi = 3.1415926535898
elapsed time = 2.770000sec

 コンパイルオプションでGPU向けにコンパイルされている
かが確認可能
$ pgcc ‐acc ‐Minfo pi.c
main:
13, Generating Tesla code
14, Loop is parallelizable
Accelerator kernel generated
14, #pragma acc loop gang, vector(128)
/* blockIdx.x threadIdx.x */
16, Sum reduction generated for a

Visual Studio
 マイクロソフト社が提供するソフトウェア開発製品群
＋統合開発環境
 Visual Studio Community 2013が無料で公開
 Windowsでも無料でGPU開発環境を構築可能

Visual Studio
 Microsoftのページからダウンロード可能
 インストールも含めて時間がかかるので気長に待ちましょう
http://www.microsoft.com/ja‐jp/dev/products/community.aspx
・・・
35

Visual Studio*
https://developer.nvidia.com/cuda‐zone
*Visual StudioにCUDAのプラグインが導入される

Visual Studio(CUDA)
 CUDAのインストーラ内にはToolkit, ドライバ， SDKが含まれる
 以前はパソコンの種類(Desktop, Notebook), OSのバージョン
（8.1, 7, XP, Server 2008, Server 2012）やビット数
（32bit, 64bit）で別れていたが簡略化された

Eclipse
https://developer.nvidia.com/cuda‐zone
*Nsight Eclipse Editionとして一つのパッケージになる

Eclipse
 LinuxはOSのバージョンで細か
く別れている
 OSによってインストールの方法
が異なる
 インストール前にやること
 インストールの方法
 インストール後にやること
 詳細はLinux Getting
Started Guideを参照のこと

Nsight
 デバッグ・プロファイルツール
 https://developer.nvidia.com/nsight‐eclipse‐
edition
 https://developer.nvidia.com/nvidia‐nsight‐
visual‐studio‐edition
 Visual StudioやEclipseと統合し，開発→デバッグ→
プロファイリングが可能

ハードウェア
 NVIDIA社のGPU
 GeForce パーソナルコンピュータ用
 Quadro 3次元CGを扱うワークステーション用
 Tesla スーパーコンピュータ等GPUコンピューティング用
 AMD社のGPU
 Radeon
 FirePro
 FireStream

Jetson TK1
 組込スーパーコンピューター
 NVIDIA Tegra K1を採用
 Keplarアーキテクチャ
 192 CUDA コア
 NVIDIA 4‐Plus‐1™ クアッドコア ARM® Cortex‐A15 CPU
 Linux for Tegraが動作
 CUDAやNsightも動作
https://developer.nvidia.com/
nvidia‐nsight‐tegra
42

2015年度GPGPU実践プログラミング　第3回　GPGPUプログラミング環境

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (9)

Similaire à 2015年度GPGPU実践プログラミング　第3回　GPGPUプログラミング環境

Similaire à 2015年度GPGPU実践プログラミング　第3回　GPGPUプログラミング環境 (20)

Plus de 智啓出川

Plus de 智啓出川 (20)