2015年度GPGPU実践基礎工学　第5回　ハードウェアによるCPUの高速化技術

第5回ハードウェアによる
CPUの高速化技術
長岡技術科学大学電気電子情報工学専攻出川智啓

今回の内容
GPGPU実践基礎工学
 CPUの性能の見積
 CPUの進化
 CPU（コア）に搭載されている高速化技術
2 2015/10/07

コンピュータの歴史
 世界初のデジタルコンピュータ
 1944年ハーバードMark I*1
 機械式リレーを採用
 世界初の汎用コンピュータ
 1946年 ENIAC*2
 軍事用に開発（ミサイルの弾道計算など）
 300FLOPS
 金融や株取引にも利用が拡大
 様々な用途に利用できるようコンピュータを設計
GPGPU実践基礎工学3 2015/10/07
*1https://en.wikipedia.org/wiki/Harvard_Mark_I
*2https://en.wikipedia.org/wiki/ENIAC

スーパーコンピュータ
 様々な用途に利用できるようコンピュータを設計
 設計が複雑化
 1970年代には性能が停滞
 科学技術計算に特化して性能を高めたコンピュータ
 Cray‐1*
 世界初のスーパーコンピュータ
 日本製スーパーコンピュータ
 日立，富士通，NECが製造
 たびたび世界トップの性能を達成
GPGPU実践基礎工学4 2015/10/07
*https://en.wikipedia.org/wiki/Cray‐1

TOP500 List（2015, Jun.）
 http://www.top500.org/lists/2015/6/
GPGPU実践基礎工学5
計算機名称（設置国）アクセラレータ
実効性能[PFlop/s]
/ピーク性能
[PFlop/s]
消費電力[MW]
1 Tianhe‐2 (China) Intel Xeon Phi 33.9/54.9 17.8
2 Titan (U.S.A.) NVIDIA K20x 17.6/27.1 8.20
3 Sequoia (U.S.A.) − 17.2/20.1 7.90
4 K computer (Japan) − 10.5/11.3 12.7
5 Mira (U.S.A.) − 8.59/10.1 3.95
6 Piz Daint (Switzerland) NVIDIA K20x 6.27/7.79 2.33
7 Shaheen II(Saudi Arabia) 5.54/7.24 2.83
8 Stampede (U.S.A.) Intel Xeon Phi 5.17/8.52 4.51
9 JUQUEEN (Germany) − 5.01/5.87 2.30
10 Vulcan (U.S.A.) − 4.29/5.03 1.97
2015/10/07

CPUの理論性能
 Floating Point Operations Per Second
 1秒あたりに浮動小数演算を何回実行できるか
 なぜ浮動小数点演算だけ？
 整数の加算はアドレス計算（プログラムカウンタなど）で頻繁に
使うので高速になるよう設計
 浮動小数点演算と比較すると整数演算の影響は非常に小さい
 影響が小さくないシステムは使い物にならない
2015/10/07

CPUの理論性能
 公式
 FLOPS = 1コアの演算性能 [？]
× コア数 [core]
× CPUの動作周波数 [Hz=clock/sec]
 1コアの演算性能
 ＝1度に発行出来る浮動小数点演算命令
 単位は[Floating Point Operations/clock/core]
 性能の評価には動作周波数だけでなく，1コアが1クロックで
発行できる命令数が重要
2015/10/07

CPUの理論性能
 FLOPS = 1コアの演算性能
× コア数
× CPUの動作周波数
 1コアの演算性能の向上
 演算器（トランジスタ）の増加
 コア数の増加
 トランジスタの増加
 CPUの動作周波数
 回路の効率化や印可電圧の向上
動作周波数の向上に注力
（ほぼ全ての処理が速くなる）
様々な機能を追加（今日の内容）
2015/10/07

CPUの性能の変化
 Intelの予告(Intel Developer Forum 2003)
 2007年頃には10GHzに達する
2015/10/07GPGPU実践基礎工学9
Intelが公開している資料を基に作成
http://pc.watch.impress.co.jp/docs/2003/0227/kaigai01.htmで見ることができる
4004
8080
8085
8086
286
386 Processor
486 Processor
Pentium Processor
Pentium II Processor
Pentium III Processor
Pentium 4 Processor

CPUの性能の変化
 2004年頃からクロックが停滞
Intelが公開している資料を基に作成
ASCII.technologies(Dec‐2009)やhttp://www.gdep.jp/page/view/248で見ることができる

CPUの性能向上*
 電子回路の構成部品
 機械式リレー
 真空管
 トランジスタ
 IC (Integrated Circuit)
 LSI (Large Scale Integrated Circuit)
 製造技術の進歩による配線の細線化
 250nm→180nm→130nm→90nm→65nm→45nm→32nm→22nm
 10nmまではなんとかなりそう→3次元構造へ
 集積できるトランジスタ数の増加
 抵抗の低下による消費電力低減
集積率が上昇
*姫野龍太郎，絵でわかるスーパーコンピュータ，講談社 (2012)

CPUの性能向上*
 製造技術の進歩による配線の細線化
1.集積できるトランジスタ数の増加
 同じ面積に集積できるトランジスタ数が増加
 複雑な回路を構成
2.プロセッサの処理速度の向上
 抵抗が線幅に比例して減少し，消費電力が低下
 減少した電力を周波数向上に利用
 1秒あたりに0と1を切り替える回数（動作周波数）を増加
 (トランジスタスイッチング速度，消費電力等のキーワードでGoogling)
*姫野龍太郎，絵でわかるスーパーコンピュータ，講談社 (2012)

ムーアの法則*
 インテルの共同設立者ムーアによる経験則
 半導体の集積率は1年で倍になる
 後に「18ヶ月で2倍」に修正
http://en.wikipedia.org/wiki/Moore%27s_law
*Moore, G.E., Electronics, Vol.38,No.8(1965).
http://ja.wikipedia.org/wiki/ムーアの法則
姫野龍太郎，絵でわかるスーパーコンピュータ，
講談社 (2012)に掲載されている絵を基に作成
1970 1975 1980 1985 1990 1995 2000 2005 2010
103
104
105
106
107
108
109
1010
NumberofTransistors
4004
8008
8080
8086
286
Intel386プロセッサ
Intel486プロセッサ
インテルPentiumプロセッサ
インテルPentium IIプロセッサ
インテルPentium IIIプロセッサ
インテルPentium 4プロセッサ
インテルItaniumプロセッサ
インテルItanium 2プロセッサ
デュアルコアインテルItanium 2プロセッサ
ムーアの法則
（12ヶ月で倍）
ムーアの法則
（18ヶ月で倍）

CPUの性能向上の方向性
 Evolution of Microprocessors
Makino, J., Hiraki, K. and Inaba, M.: GRAPE‐DR: 2‐
Pflops massively‐parallel computer with 512‐core,
512‐Gflops processor chips for scientific computin
g, SC07 (2007)の講演スライド（http://jun.artcompsci.or
g/talks/reno20071113.pdf）を基に作成
 トランジスタ数はこの15年
（1990~2005）で1000倍
 命令発行数は同じ期間で
8倍強
 100倍差

CPUの性能向上の方向性
 Evolution of Microprocessors
1サイクルで発行できる
命令数が増加
命令数が停滞
増加するトランジスタ数を
利用して複雑な回路を構成

マイクロアーキテクチャの進化
 フォン・ノイマン型コンピュータ
 プログラムが主記憶に置かれ，1命令ごとにメモリから取り出
して逐次実行
 現在のコンピュータではメモリへのアクセス時間>>演算時間
 あまりにも遅いので基本原理から逸脱して高速化
 キャッシュ
 命令パイプライン
 アウト・オブ・オーダー実行
 命令の同時実行（命令レベル並列），スーパースカラ実行
 分岐予測・投機的実行
2015/10/07

命令パイプライン
 複数の命令を少しずつずらしながらオーバーラップさせ
て実行
 一種のバケツリレー
 フォン・ノイマン型コンピュータの動作原理
 フェッチ，デコード，実行の3段階
 ある命令の実行が終わってから次の命令をフェッチ
 分岐命令以外は実行の終了を待つ必要はない
 命令の実行中に次の命令を実行（フェッチ，デコード）可能
2015/10/07

命令パイプラインの模式図
フェッチデコード実行命令1
実行開始
処理時間
2個の命令を実行する時間で4個の命令を実行
2015/10/07

命令の構成
 1命令の実行は5ステップで構成
 各ステップを担当するユニット（処理器）が存在
フェッチデコード実行
IF ID OF EX WB
IF : Instruction Fetch 命令をメモリから読み込み
ID : Instruction Decode 命令をデコード
OF : Operand Fetch データをメモリから読み込み
EX : Execution 演算の実行
WB : Write Back 演算結果をレジスタへ書き込み
2015/10/07

命令パイプラインの模式図（詳細）
 各ユニットの利用効率が上昇
 15ステップで3回利用→7ステップで3回利用
命令1
命令2
命令3
実行開始処理時間
IF ID OF EX WB
IF ID OF EX WB
IF ID OF EX WB
2015/10/07

パイプライン処理を阻害する要因
 全てのプログラムをパイプライン処理で高速化すること
は不可能
 パイプライン処理を阻害する要因
 物理的な資源の不足（構造的ハザード）
 直前の命令が未完了（データハザード）
 分岐命令による命令の未確定（制御ハザード）
2015/10/07

構造的ハザード
 プロセッサ内の資源の不足
 演算ユニットやレジスタなどの取り合い
 優先する命令に資源を割り当て，その他の命令は待機
 資源を追加すれば解消
命令1
命令2
命令3
IF ID OF EX WB
IF ID OF EX WB
IF ID OF EX WB
演算結果をレジスタへ
書き込み
データをメモリから読み
込み，レジスタへ格納
2015/10/07

データハザード
 直前の命令の結果を利用
 直前の命令の結果がレジスタに無く，フェッチが不可能
 結果をレジスタに戻さず次の命令のオペランドとして使用
（レジスタバイパス）
命令1
命令2
命令3
IF ID OF EX WB
IF ID OF EX WB
IF ID OF EX WB
c = a + b
e = c + d
WBが終わっていないので
cの値が未確定
2015/10/07

命令の同時実行（スーパースカラ実行）
 お互いに無関係な命令を並行して（同時に）実行
 並行して実行しても，順序を変えて実行しても結果は同じ
 命令レベル並列性
 tの計算にはt1とt2の両方が必要
 t1とt2はどちらを先に実行しても，並列に実行してもよい
 t1とt2を同時に処理することで高速化
 a,b,c,dを読み出し，CPUで乗算命令を2個同時に発行できるなら
t1 = a*b
t2 = c*d
t = t1 + t2
2015/10/07

命令の同時実行（スーパースカラ実行）
 お互いに無関係な命令を並行して（同時に）実行
 並行して実行できる演算
 t1,t2が浮動小数と整数なら同時実行が可能
 t1,t2が同じ型なら構造的ハザードを回避できる場合に同時
実行可能
命令1
命令2
命令3
IF ID OF EX WB
IF ID OF EX WB
IF ID OF EX WB
t1 = a*b
t2 = c*d
t = t1 + t2
2015/10/07

アウト・オブ・オーダー実行
 命令の順序を入れ替えて実行
 命令をいくつもフェッチし，デコードを行い，オペランドが得ら
れた順に実行
 順番通り計算した場合と同じ結果が得られるように制御
 実行の効率が向上
 メモリアクセスの改善
 現在の計算機はメモリへのアクセス時間>>演算時間
 1個のデータを読み出す間に100回以上演算が可能
 メモリ読み出し命令を可能な限り早く発行
2015/10/07

int a,b,c;
float x,y,z;
c = a+b;
c = c*c;
z = x+y;
z = z*z;
int a,b,c;
float x,y,z;
c = a+b;
z = x+y;
c = c*c;
z = z*z;
依存性
あり
依存性
あり
依存性なし
依存性なし
同時に命令を
フェッチ，デコード
同時に命令を
フェッチ，デコード
2015/10/07

 命令の順序を入れ替えて実行
 命令をいくつもフェッチし，デコードを行い，オペランドが得ら
れた順に実行
命令1
命令2
命令3
IF ID OF EX WB
IF ID OF EX WB
IF ID OF EX WB
c = a+b;
z = x+y;
c = c*c;
z = z*z;
オペランドが得られた方を先に実行（うまくいけば同時実行）
IF ID OF EX WB命令4
2015/10/07

制御ハザード
 条件分岐命令が存在
 どちらに分岐するかわからないため，命令をフェッチできない
 ループアンロールによる条件分岐（判断）の削減，分岐予測・
投機的実行
命令1
命令2? 3?
命令4
IF ID OF EX WB
IF ID OF EX WB
IF ID OF EX WB
if(命令1){
命令2
}else{
命令3
}
命令4
2015/10/07

分岐予測
 条件の判定を事前に予測
 予測した先の命令の実行を準備
 予測が当たると時間を大きく節約
命令1
命令2
命令4
実行開始
処理時間
IF ID OF EX WB
IF ID OF EX WB
IF ID OF EX WB
if(命令1){
命令2
}else{
命令3
}
命令4
条件確定
条件予測無し
2015/10/07

分岐予測
 予測が当たると大きな時間の節約になる
命令1
命令2
命令4
実行開始
処理時間
IF ID OF EX WB
IF ID OF EX WB
IF ID OF EX WB
if(命令1){
命令2
}else{
命令3
}
命令4
条件確定
命令2に分岐すると予測
2015/10/07

分岐予測
命令1
命令2
命令4
実行開始
処理時間
IF ID OF EX WB
IF ID OF EX WB
IF ID OF EX WB
if(命令1){
命令2
}else{
命令3
}
命令4
条件確定
命令2に分岐すれば
そのまま実行
2015/10/07

分岐予測
命令1
命令3
命令4
実行開始
処理時間
IF ID OF EX WB
if(命令1){
命令2
}else{
命令3
}
命令4
条件確定
命令3に分岐すれば，命令
2を破棄して命令3を準備
IF ID OF EX WB
IF ID OF EX WB
2015/10/07

静的な分岐予測
 ループの回数だけ条件判断
 i<Nならループ継続
 N‐1回はi<Nが成立，最後の1回でi<Nが不成立
 常に成立すると予測しておけば，予測が外れるのは1回のみ
for(i=0;i<N;i++){
命令1
}
命令2
2015/10/07

投機的実行
 両方の分岐先の実行を並列に進め，判定が出た段階で
正しい方の結果のみを残す
 大量のトランジスタを集積できるようになって実現
 GPUのif分岐は投機的実行に類似
命令1
命令2
命令3
実行開始
処理時間
IF ID OF EX WB
IF ID OF EX WB
IF ID OF EX WB
if(命令1){
命令2
}else{
命令3
}
命令4
条件確定
IF ID OF EX WB命令4
条件が成立
した方を残す
2015/10/07

2015年度GPGPU実践基礎工学　第5回　ハードウェアによるCPUの高速化技術

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (9)

Similaire à 2015年度GPGPU実践基礎工学　第5回　ハードウェアによるCPUの高速化技術

Similaire à 2015年度GPGPU実践基礎工学　第5回　ハードウェアによるCPUの高速化技術 (20)

Plus de 智啓出川

Plus de 智啓出川 (20)