2015年度GPGPU実践基礎工学　第6回　ソフトウェアによるCPUの高速化技術

第6回ソフトウェアによる
CPUの高速化技術
長岡技術科学大学電気電子情報工学専攻出川智啓

今回の内容
GPGPU実践基礎工学
 ソフトウェアによる高速化技術
 プログラムの高速化
 最適化
 プロセッサが得意な処理への変更
 演算ユニットの効率的な利用
 条件判断の排除
 キャッシュの有効利用
 行列－ベクトル積
 時間計測
2 2015/10/14

プログラムの最適化
 最適化
 プログラムの実行結果を変えない範囲で効率化する
 プログラムの実行にかかる時間を低減
 プログラムの使用メモリ量を低減
 プログラムの実行に伴う消費電力を低減
 手動最適化
 プログラマがプログラムソースを直接変更
 コンパイラ最適化
 コンパイラが実行ファイルを作る過程で効率化
 プログラムソースは変更しない
GPGPU実践基礎工学3 2015/10/14

プログラムの最適化
 手動最適化は必要がない限り止めましょう
 コンパイラ最適化でどうしても早くならない場合だけ
 最近のコンパイラは優秀
 保守性が下がる
 ソースの可読性が下がる
 不要な箇所を最適化する可能性がある
 実行時間の1割を占める箇所を10倍高速化しても，プログラム全体
の実行時間は1割も高速化されない
 昔と比べてメモリを潤沢に利用できるため，数kB，数MBのメモリ使用
量を減らすことに意味はない

プログラム作成時に導入できる高速化技術
 プロセッサの内部構造（ハードウェア）に合わせたプログ
ラムの作成
 プロセッサが得意な処理へ変更
 アルゴリズムの変更も含む
 メモリの読み書きの効率化
 局所性を考慮したキャッシュの有効利用

処理の速度
 演算の速度
 加算，減算は非常に速い
 乗算は少し遅い
 除算は非常に遅い
 プログラム中で繰り返し出現する除算を乗算に変更すること
で高速化する場合がある

除算を乗算に変更
 除算は乗算よりも処理が遅い
 除算を逆数の乗算に変更することで処理を高速化
 プログラム中で除算を複数回実行している場合は変数に代入
b = a/2.0; b = a*0.5;
GPGPU実践基礎工学7
for(i=0;i<N;i++){
s[i] = sin(2.0*M_PI*x[i]/L);
c[i] = cos(2.0*M_PI*x[i]/L);
}
iL = 1.0/L;
for(i=0;i<N;i++){
s[i] = sin(2.0*M_PI*x[i]*iL);
c[i] = cos(2.0*M_PI*x[i]*iL);
}
2015/10/14
除算を1回しか行わない場合，高速化
は期待できない

除算の変更
 整数の乗除算
 2倍や1/2倍など2のべき乗の数による乗除算をシフト演算
に置き換え
 シフト演算
 左シフト << （上位ビットは棄却，下位ビットは0を格納）
 右シフト >> （下位ビットは棄却，上位ビットは0を格納）
b = a/2; b = a>>1;
b = a*4; b = a<<2;
int a=1; //0000 0000 0000 00012
a = a<<2; //0000 0000 0000 01002
a = a>>1; //0000 0000 0000 00102

処理の速度
 条件判断
 苦手ではないがそこまで速くない
 ループアンローリング
 条件判断不要なアルゴリズムへの変更

ループアンロール（loop unrolling）
 forやwhileは，ループの度に継続条件の判定を実行
 条件判定を減らすことで高速化
 処理を明示的に書くことで複数の命令を同時実行
double a[1000],sum;
int i;
//配列aに値を設定
sum=0.0;
for(i=0;i<1000;i++){
sum += a[i];
}
double a[1000],sum;
int i;
double sum0,sum1,sum2,sum3;
//配列aに値を設定
sum=sum0=sum1=sum2=sum3=0.0;
for(i=0;i<1000;i+=4){
sum0 += a[i ];
sum1 += a[i+1];
sum2 += a[i+2];
sum3 += a[i+3];
}
sum = sum0+sum1+sum2+sum3;
1000回繰り返し（条件判定は1000回） 250回繰り返し（条件判定は250回）

条件判断不要なアルゴリズムへの変更
 高速な演算の利用やループアンローリングはコンパイラ最適
化でも行われることがある
 アルゴリズムの変更はコンパイラ最適化の範囲外
 一部のアルゴリズムは除く
 行列－行列積は高速なコードに置き換えてくれることがある
 例題
 0以上1未満の乱数xを発生させ，定められた区分に入る個数をカウ
ントする（乱数のヒストグラムを生成する）
 0.00 ≤ x < 0.25
 0.25 ≤ x < 0.50
 0.50 ≤ x < 0.75
 0.75 ≤ x < 1.0

#include<stdio.h>
#include<stdlib.h>
#define N 256
int main(void){
int i;
int histogram[4];
float number;
for(i=0;i<4;i++){
histogram[i]=0;
}
for(i=0;i<N;i++){
//乱数を生成し，0から1の範囲に収める
number = ((float)rand())/RAND_MAX;
//乱数をカウント（条件判断）
if(0.0<=number && number<0.25){
histogram[0] += 1;
}else if(0.25<=number && number<0.50){
histogram[1] += 1;
}else if(0.50<=number && number<0.75){
histogram[2] += 1;
}else if(0.75<=number && number< 1.0){
histogram[3] += 1;
}
}
for(i=0;i<4;i++){
printf("%d¥n",histogram[i]);
}
return 0;
}
2015/10/14
ifを使って乱数の分布
を調べるプログラム

#include<stdio.h>
#include<stdlib.h>
#define N 256
int main(void){
int i;
int histogram[4];
float number;
for(i=0;i<4;i++){
histogram[i]=0;
}
for(i=0;i<N;i++){
//乱数を生成し，0から1の範囲に収める
number = ((float)rand())/RAND_MAX;
//乱数をカウント(ifを利用しない)
index = (int)(4.0*number);
histogram[index] += 1;
}
for(i=0;i<4;i++){
printf("%d¥n",histogram[i]);
}
return 0;
}
2015/10/14
ifを使わず乱数の分布
を調べるプログラム

考え方
 ある範囲に入った乱数の個数を数え，対応する配列の
要素に1を足す
 毎回ifの判定をするのが煩わしい
 ある範囲とそれに対応する配列の添字が判ればいい
 4倍して小数点以下を切り捨てる（int型へキャストする）
 得られた数字を配列添字として利用
0.0 0.25 0.5 0.75 1.0
histogram[0] histogram[1] histogram[2] histogram[3]
0 1 2 3 4
この範囲の
乱数は0に
この範囲の
乱数は1に
この範囲の
乱数は2に
この範囲の
乱数は3に
×4

利点と欠点
 利点
 ifを使わないので高速に実行されると期待
 範囲（区間）の変更が手軽
 配列添字と乱数にかける数を変更するだけ
 ifを使うと全条件の変更が必要
 欠点
 一見しただけでは何をしているのかわからない
 区間ごとに異なる範囲を定められない

プログラム作成時に導入できる高速化技術
 プロセッサの内部構造（ハードウェア）に合わせたプログ
ラムの作成
 プロセッサが得意な処理へ変更
 アルゴリズムの変更も含む
 メモリの読み書きの効率化
 局所性を考慮したキャッシュの有効利用

キャッシュの有効利用
 キャッシュ
 CPUとメモリ（主記憶）の間に置かれる記憶装置
 高速で小容量のメモリ
 CPUとメモリの性能差を埋める
 必要なデータだけでなく，その近傍のまとまったデータを管理
 多階層キャッシュ
 プロセッサの速度向上に伴い，キャッシュも多段構造化
 CPUから近い順に
 レベル1キャッシュ（L1キャッシュ）
高速，容量小
低速，容量大
2015/10/14

多階層キャッシュ
 L3キャッシュがなく，L2キャッシュを共有する場合もある
2015/10/14
主記憶（メモリ）
L3キャッシュ
・・・
・・・
CPU
L2キャッシュ
コア
演算器
レジスタレジスタ
L1キャッシュ
演算器
L2キャッシュ
コア
演算器
L1キャッシュ
演算器
L2キャッシュ
コア
演算器
L1キャッシュ
演算器

フォン・ノイマン・ボトルネック
 フォン・ノイマン型コンピュータ
 記憶装置（メモリ）が命令とデータを記憶
 1命令ごとにメモリアクセスが発生
 メモリへのアクセス時間で処理速度が頭打ち
 CPUが高速化しても性能を引き出せない
 現在のコンピュータ
 メモリへのアクセス時間>>演算時間
 1個のデータを読み出す間に100回以上演算が可能
 必要なデータをキャッシュに置く事でアクセス時間を短縮
 アウト・オブ・オーダー実行でデータの読み出しを先に行う
 厳密にはフォン・ノイマン型コンピュータではない
2015/10/14

メモリアクセスの局所性
 メモリに複数回アクセスする際のキャッシュの有効利用
 空間局所性
 メモリ上のあるデータにアクセスした後，その近くのアドレスの
データにアクセス
 キャッシュはある大きさのデータをまとめて管理
 あるデータにアクセスすると，その隣のデータがキャッシュに残って
いる可能性が高い
 時間局所性
 メモリ上のあるデータにアクセスした後，時間をおいて同じ
データにアクセス
 キャッシュから追い出されるかは不明
 短い間隔でアクセスすればキャッシュに残っている可能性が高い
2015/10/14

局所性を意識したプログラミング
 行列－ベクトル積
 
j
jjii BAC ,
































NNNN
N
N B
B
AA
AA
C
C





1
,1,
,11,11
),3,2,1( Ni 
2015/10/14

行列－ベクトル積のプログラム
for(i=0; i<N; i++){
for(j=0; j<N; j++){
c[i]=c[i] + a[i][j]*b[j];
}
}
do i=1,N
do j=1,N
c(i)=c(i) + a(i,j)*b(j);
end do
end do
C言語 Fortran
2015/10/14

行列を表現する際の注意点
 行列を表現するときのメモリ配置
 a[i][j]
 2次元配列でもメモリ上は1次元に配置
 i方向が先に配置されるか，j方向が先に配置されるか
 C言語はj方向優先
 Fortranはi方向優先
2015/10/14

 C言語におけるa[i][j]のメモリ上の配置
 1, 4, 7 ･･･ 2, 5, 8 ･･･3, 6, 9･･･
 Fortranにおけるa(i,j)のメモリ上の配置
 1, 2, 3 ･･･ 4, 5, 6 ･･･ 7, 8, 9･･･


















963
852
741
j
i
Row
Column
2015/10/14

 1, 4, 7 ･･･ 2, 5, 8 ･･･3, 6, 9･･･
 1, 2, 3 ･･･ 4, 5, 6 ･･･ 7, 8, 9･･･


















963
852
741
j
i
Row
Column
2015/10/14

for(i=0; i<N; i++){
for(j=0; j<N; j++){
c[i]=c[i] + a[i][j]*b[j];
}
}
do i=0,N
do j=0,N
c(i)=c(i) + a(i,j)*b(j);
end do
end do
C言語 Fortran
連続メモリアクセス（空間局所性あり）
同じ変数に何度もアクセス（時間局所性あり）
レジスタに格納することで高速化
2015/10/14

for(i=0; i<N; i++){
for(j=0; j<N; j++){
c[i]=c[i] + a[i][j]*b[j];
}
}
do i=0,N
do j=0,N
c(i)=c(i) + a(i,j)*b(j);
end do
end do
C言語 Fortran
不連続メモリアクセス（空間局所性なし）
aの型のサイズ*N[byte]間隔でアクセス
キャッシュを活用できない
2015/10/14

演習課題
 行列－ベクトル積の計算を行うプログラムを作成し，実
行時間を測定する
 forループの順番を変更し，処理時間がどのように変化する
かを測定する
 行列のサイズはN（4096程度，小さいと時間が計れない）
 行列a[i][j]の成分はi/N，ベクトルb[]の成分は全て1


















NNN
NNN
NNN
/2/2/2
/1/1/1
/0/0/0
j
i
2015/10/14

実行時間の測定
#include<time.h> // clock_t型や関数clock()を利用
int main(void){
clock_t start_c, stop_c;
float time_s;
start_c = clock(); //プログラム実行時からの経過時間を取得
: //
: //ここに時間を計りたい処理を記述
: //
stop_c = clock(); //プログラム実行時からの経過時間を取得
//処理に要した時間を秒に変換
time_s = (stop_c‐start_c)/(float)CLOCKS_PER_SEC;
printf(...); //画面表示
return 0;
}
2015/10/14

2038年問題
 time.hで定義されているtime関数
 プログラムで経過時間を計測したりする場合に利用
 1970年1月1日0時0分0秒から現在までの経過秒数を返す
 32bitの符号付き整数で秒数を表現すると，表現できる
最大秒数は231‐1 (=2,147,483,647)
 一日が86400秒なので，2147483647/86400=約24855
日後に破綻（経過秒数が負になる）
 24855/365=68
 1970年から68年後の2038年に正しく処理できない端末
が出てくる（可能性がある）
2015/10/14

行列－ベクトル積の計算
#include<stdio.h>
#include<time.h>
#define N 4096
int main(){
int i,j;
float a[N][N], b[N], c[N];
//ここで時間計測用の変数を宣言
//初期値の設定
for(i=0;i<N;i++){
for(j=0;j<N;j++){
a[i][j] = (float)i/(float)N;
}
}
for(i=0;i<N;i++){
c[i] = 0.0f;
b[i] = 1.0f;
}
//ここで時間計測
for(i=0;i<N;i++){ //ここのforを
for(j=0;j<N;j++){ //入替える
c[i] = c[i] + a[i][j]*b[j];
}
}
//実行時間を計算
//結果の表示（%dと%fの値が等しければ正解）
for(i=0;i<N;i++){
printf("c[ %d ] = %f ¥n",i,c[i]);
}
//実行時間の表示
return 0;
}
2015/10/14
mxv.c

#defineディレクティブ
 プリプロセッサ
 プログラムソースをコンパイルする前に，プリプロセッサディレ
クティブ（指示句，制御文）に従ってソースに処理を行う
 記号定数
 #define 文字1 文字2
 文字1を文字2に置き換える
 #define N 4096
 Nを4096に置き換え
 行列のサイズを変えたいときに変更が1箇所で済む
 プリプロセスが正常に行われているかを確認するには
 cc –E ソースファイル名.c
2015/10/14

実行時間がうまく測定できない場合
2015/10/14GPGPU実践基礎工学34
 実行時間が0.0000になる場合
 時間測定の最小単位よりも処理が早く終わる
 対策
 行列－ベクトル積を何回も繰り返し，実行時間を繰り返し回数
で割ることで対処
for(l=0; l<10; l++){ //行列－ベクトル積を繰り返し実行
for(i=0;i<N;i++){ //ここのforを入替えると
for(j=0;j<N;j++){ //実行時間がどのように変化するかを確認
c[i] = c[i] + a[i][j]*b[j];
}
}
}
//実行時間を計算(計算して出てきた実行時間を繰り返し回数（ここでは10）で割る)

 実行時間が0.0000になる場合
 最適化によって行列－ベクトル積の実行が省略されてしまう
 対策
 printf等を付けて，計算結果を利用する
for(i=0;i<N;i++){ //ここのforを入替えると
for(j=0;j<N;j++){ //実行時間がどのように変化するかを確認
c[i] = c[i] + a[i][j]*b[j];
}
}
//printfで計算結果を表示（計算結果を利用するので実行を省略できない）
for(i=0;i<N;i++){
printf("c[%d] = %f¥n",i,c[i]);
}
//実行時間を計算(計算して出てきた実行時間を繰り返し回数（ここでは10）で割る)

 コンパイルオプションで高度な最適化を行っても実行時間
がほとんど変わらない
 複数のコアを使うように並列化されている場合
 clock関数は実時間(wall clock time)ではなく，CPUの稼
働時間を測定
 複数のコアが稼働すると，稼働したコアの稼働時間を合計
 時間測定の方法を変更することで対処
 異なる関数（gettimeofday,QueryPerformanceCounterなど）
 Unixのtimeコマンド

2015年度GPGPU実践基礎工学　第6回　ソフトウェアによるCPUの高速化技術

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (11)

Similar to 2015年度GPGPU実践基礎工学　第6回　ソフトウェアによるCPUの高速化技術

Similar to 2015年度GPGPU実践基礎工学　第6回　ソフトウェアによるCPUの高速化技術 (20)

More from 智啓出川

More from 智啓出川 (20)