Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

ハードウェア技術の動向 2015/02/02

5 257 vues

Publié le

2015年2月2日 マルレク第五回 at Microsoft

Publié dans : Périphériques & matériel
  • Soyez le premier à commenter

ハードウェア技術の動向 2015/02/02

  1. 1. ハードウェア技術の動向 第五回 マルレク
  2. 2. Agenda  Mooreの法則とマルチコアの時代  マルチコアの時代の終わりと新しい模索  半導体各社の動向  FPGAの利用の拡大  おわりに ハードとソフトの境界領域の課題  参考資料:検索でのFPGAの利用
  3. 3. Mooreの法則とマルチコアの時代 2005年〜2015年 Part I
  4. 4. Part I Mooreの法則とマルチコアの時代  Mooreの法則とマルチコア化の進行  メニコア・チップの3方向への進化  クラウド・ハードウェアの専用化  モバイル・ハードウェアのSoC化  CPU アークテクチャーの変化
  5. 5. Mooreの法則とマルチコア化の進行
  6. 6. チップ上のトランジス ター数の増大は、や むことなく進んでいる ムーアの法則
  7. 7. Mooreの法則で チップは、こんなにも小さくなった モバイル用 Cortex A7 MP2 1.3GHz, 2.2mm2 ハイエンド ウエアラブル用 Cortex A7 MP2 500MHz, 1.1mm2
  8. 8. Mooreの法則で チップは、こんなにも小さくなった ウエアラブル用 Cortex A7 UP 500MHz, 0.36mm2 IOT用 Cortex M0 40MHz, 0.05mm2 ハイエンド ウエアラブル用 Cortex A7 MP2 500MHz, 1.1mm2 モバイル用 Cortex A7 MP2 1.3GHz, 2.2mm2
  9. 9. トランジスター数の増大を チップのパワーにどう生かすか?  トランジスター数の増大は、自動的にチップのパ ワーを増大させる訳ではない。そこには、いくつか の選択肢がある。  コアの処理能力を高める  パイプライン処理の強化  vector演算等新しい命令の追加  ....  キャッシュを拡大する  コアの数を増やす  ....
  10. 10. チップのクロックは、 頭打ちの状態
  11. 11. チップのクロックの問題  チップの性能をあげる、最もストレートな方法は、 クロックの周波数を上げることである。しかし、そ こには、いくつかの大きな問題がある。  消費電力の増大/発熱の問題  高い周波数の為には、高い電圧が必要になるが、 リーク電流も増大し、性能が低下する  光のスピードでしか情報は伝わらないので、原理 的には、チップの大きさが限界を与える。  消費電力の増大の問題は、決定的に重要。
  12. 12. “New Microarchitecture Challenges in the Coming Generations of CMOS Process Technologies” http://bit.ly/1zPzu0s ACM 1999
  13. 13. “Is Dark Silicon Useful?” DAC 2012 http://bit.ly/1zB194Y
  14. 14. コアの増大は、2005年 あたりから顕著に
  15. 15. メニコア・チップの2方向への進化 メニコア・チップの3方向への進化 Many core GPU Many core CPU Mobile Hetero System
  16. 16. Ra nk Site System Cores Rmax Rpeak 1 National University of Defense Technology China Tianhe-2 (MilkyWay-2) - TH-IVB-FEP Cluster, Intel Xeon E5-2692 12C 2.200GHz, TH Express-2, Intel Xeon Phi 31S1P NUDT 3120000 33862. 7 54902. 4 2 DOE/SC/Oa k Ridge National Laboratory United States Titan - Cray XK7 , Opteron 6274 16C 2.200GHz, Cray Gemini interconnect, NVIDIA K20x Cray Inc. 560640 17590. 0 27112. 5 Top 500 2014 November
  17. 17. CPUとGPUのアーキテクチャーの違い CPUとGPUは、基本的には、異なるデザイン思想に基づいてている。
  18. 18. CPU: 低遅延を意識した設計  大きなキャッシュ  メモリーアクセスの長い遅 延をキャッシュで短かな遅 延に変える  高度な制御  分岐遅延を軽減する為の 分岐予測・投機的実行  データ遅延を軽減する為の データ先読み  強力な演算機能  演算の遅延を軽減する Cache ALU Control ALU ALU ALU DRAM CPU
  19. 19. Intel Xeon Phi 60 CPU core
  20. 20. GPU: 高スループットを意識した設計  小さなキャッシュ  メモリーのスループットを高める  単純な制御  分岐予測なし  データの先読みなし  エネルギー効率のいい演算 機能  遅延に打ち勝つために大量 スレッドを必要とする DRAM GPU
  21. 21. L2 キャッシュ PCI Express 3.0 Interface MemoryController MemoryController SMX x 15 SMX x 15, Memory Controller x 6 NVIDIA Kepler 2,880 GPU core
  22. 22. MobileのHetero化・SoC化 CPUとGPUが、一つのチップに  遅延が問題となる、 シーケンシャルな実行 の部分ではCPUを使う  シーケンシャルなコー ドでは、CPUはGPUの 10倍以上早い  スループットが重要と なるパラレルな実行の 部分では、GPUを使う  パラレルなコードでは、 GPUはCPUの10倍以 上早い Mobile Heterogeneous System
  23. 23. Tegra X1 64 bit CPU A57 x 4 32 bit CPU A53 x 4 Maxwell GPU core x 256
  24. 24. クラウド・ハードウェアの専用化 クラウド登場の最初期には、クラウドを構成するマシ ンと、クラウドの主要なクライアントであったPCとの違 いは、質的には、大きなものではなかった。その最大 の違いは、クラウドのマシンの巨大な集積の規模、い わば、量的なものであった。
  25. 25. 創成期のクラウド・サーバー
  26. 26. 創成期のクラウド・サーバー
  27. 27. 創成期のクラウド・サーバー
  28. 28. 創成期のクラウド・サーバー
  29. 29. カスタム化されたクラウド・サーバー
  30. 30. サーバー用チップの専用化  Googleのサーバーが、カスタムボードを使い始めるのは いつ頃からだったのかは、よくわからない。2003年には、 そういう記述はある。  明らかなのは、2005年頃から始まる CPUのマルチコア 化とそのコスト・パフォーマンスの向上の恩恵を、もっとも 受けたのは、それを受容した、クラウドのプレーヤである。  チップの「専用化」は、まず、クラウドのサーバーCPUのマ ルチコア化として起きた。もちろん、それをドライブしたの は、クラウドの規模拡大である。サーバー用マルチコアは、 クラウドという新しい顧客と新しい市場を発見したのだ。  ただし、母胎になったPCのCPUは、Dual Core化は早 かったものの、それ以上のマルチコア化は進んだわけで はなかった。
  31. 31. Scale-out Architectureの変化  この間、少し、反省したこと。クラウドのScale out Architecture を、「コモディティ化したマシンを沢山並べ る」と、特徴付けてきたが、それはGoogleが登場した時 代には妥当だったのだと思うが、今は、違うのだ。  現在、クラウドを構成しているのは、サーバー用に専用に 作られたチップでありマシンである。  ただし、Homogeneousなマシンを多数並べるというクラ ウドのScale-out Architectureのもう一つの特徴は、引 き継がれている。  現在、最も「コモディティ化」したマシンは、かつてのScale outの母体となったPCではなく、また、クラウドのサーバー マシンでもなく、70億人が持つ携帯・スマートフォンである。 (Microserver!)
  32. 32. モバイルは、人類史上最大の プラットフォーム
  33. 33. モバイル・ハードウェアのSoC化 “Mobile Processor Design Pitfalls” SICS 2014 Qualcomm http://bit.ly/1yFQSTi
  34. 34. モバイルのハードの進化  2007年にiPhone、2008年にAndroidが登場する。ス マホには、CPU・メモリーだけでなく、多数のセンサー・通 信用モジュール・マルチメディアモジュール・電源管理モ ジュールが必要となる。  サーバーの「専用チップ化」からは、少し遅れるが、サー バーのマルチコア化を可能とした半導体技術は、モバイ ルにも投入され、様々な機能は、Heteroなモジュールか らなるSoC(System on a Chip)として実現されるように なる。しかも低電力の。  この進化は、同時期のPCやサーバー側のチップの変化よ り、ドラスティックなものである。モバイルのハードは、PC とは異なる進化の道を歩むようになる。
  35. 35. PCとモバイルのプロセッサー 歴史的には、モバイルのプロセ ッサーは、PCに数年遅れていた。 ただし、現在(2014年)では、処 理能力でもメモリーのアクセス・ スピードでも、PCに並び、コア数 では、それを追い越している。 処理速度 コア数 メモリー・アクセス
  36. 36. Qualcomm のフラグシップ・モバイルCPUの パフォーマンスの変化 指数関数的に、スピードアップしている
  37. 37. Heterogeneous System としての Mobile SoC  CPU Complex  Multimedia  Display, Camera  GPU  UI, Audio, Video, ...  I/O & Sensors  SD, Touch Screen, USB, UART, ...  Modem  HSPA+, LTE  WLAN, BT, FM  GPS  Power Ctrl  たくさんのタイプの、 たくさんのプロセッ サーが存在している。  こうした機能分離は、 セキュリティーと並列 性を高め、また、機 能ごとの効率的な電 力管理を容易にして いる。  その分、ハードウェア とソフトウェアの開発 は、難しくなる。
  38. 38.  たくさんのタイプの、 たくさんのプロセッ サーが存在している。  こうした機能分離は、 セキュリティーと並列 性を高め、また、機 能ごとの効率的な電 力管理を容易にして いる。  その分、ハードウェア とソフトウェアの開発 は、難しくなる。 Heterogeneous System
  39. 39. Qualcomm Snapdragon 800  Quad core Krait 400 CPU at up to 2.3GHz per core, 28nm HPm  Adreno 330 GPU  USB 3.0対応
  40. 40. Samsung Exynos 5 Octa (Exynos 5420)  CPU: ARM Cortex-A15 x4コア + Cortex- A7 x4コア のbig.LITTLEオクタコア構成  GPU: Mali-T628 (8コア)  新モデル: 8コアが同時に 動く、「Heterogeneous Multi-Processing (HMP) 」機能 2013年9月発表
  41. 41. Tegra K1 Nexus 9 CPU: 64bit x 2 GPU: 72 core
  42. 42. CPU アークテクチャーの変化
  43. 43. CPU アークテクチャーの変化  21世紀初頭のマルチコアの時代、クラウド側のCPUは、 サーバー専用のマルチコア CPUに進化し、モバイル側の CPUは、モバイル専用のHeterogeneousなSoCに進化 した。  クラウドとモバイルの二つのドメインで、それぞれのドメイ ンに特化・専用化して、ハードの主要な進化は二つの流 れへ分岐した。PC市場の縮小に伴って、PCに使われてい た技術は、停滞した。  それぞれのドメインでの競争の中で、20世紀末には多数 存在していたCPUのアーキテクチャーの多くは、淘汰され 姿を消した。クラウド/サーバー側ではIntel、モバイル側 ではARMのアーキテクチャーが突出した勢力となった。
  44. 44. CPU アークテクチャーの変化
  45. 45. CPU アークテクチャーの変化
  46. 46. CPU アークテクチャーの変化
  47. 47. マルチコアの時代の終わりと 新しい模索 2015年〜 Part II
  48. 48. Part II マルチコアの時代の終わりと新しい模索  Dark Siliconとマルチコアの時代の終わり  Mooreの法則に対する楽観論と懐疑論  Heterogeneous System Architecture Foundation  3D積層技術  Silicon Photonics Technology  Micro Server  Heterogeneous Systemの 「進化」としての Project Ara
  49. 49. Dark Siliconと マルチコアの時代の終わり
  50. 50. “Dark Silicon and the End of Multicore Scaling”  「PARSECのベンチマークと ITRSのスケール予想を用い て、この研究は、現在から2024年の 8 nmの間の平均 のスピードアップは、最良の場合で7.9倍だと予想した。こ の結果は、年間のパフォーマンスの改善が、16%である と言い換えられる。」  「しかしながら ... こうした控えめなスケール予想でも、 (Mooreの法則に基づく)理想的な性能向上の半分は、 消え去ってしまう。8 nmへの道が2018年には達成され るとすると、高度に並列化されたコードを用いて、ベンチ マーク用に最適化を施した最良の場合で、平均3.7倍の スピードアップ。1年あたりでは14%という結果になる。実 際には、もっと低くなるのは確実だろう。」 ISCA 2011 http://bit.ly/15D4HY7 Mooreの法則では、年あたり40%の改善が必要
  51. 51. Dark Silicon?  「ダークシリコンとは、消費電力の制約から、シリコンチッ プ上で電力を供給してオンにできないエリアのことを示す。 実質的にCPUと同時にオンにできないエリアであり、何も しなければ使うことができないムダなエリアとなってしま う。」  「理由は、チップ上の回路の電力消費が、プロセスの微細 化ほどスケールダウンしないためだ。微細化とともにCPU コアが小さくなって行っても、電力はそれに見合うほど小さ くならない。そのために、チップに載せることができるCPU コア数が、段々と減って行く。」 後藤弘茂 http://bit.ly/1BO5YZt
  52. 52. ”Compute Power with Energy Efficiency” AFDS 2012 http://bit.ly/1GFr8w3 by ARM
  53. 53. Dark Silicon黙示録への対応 四人の騎士  THE SHRINKING HORSEMAN  半導体の面積は高価なもの。チップのデザイナーは、 シリコンのデザインの中で、Dark Siliconを持つ代わ りに、ただただ、小さなチップを作ればいい。  THE DIM HORSEMAN  電力の予算を超える、homogeneousなコアでチップ を埋めよう。ただし、その一部のコアにはロックをかけ る(空間的ディミング)か、あるいは、バースト時にだけ (時間的ディミング)、すべてのコアを利用する。 “Is Dark Silicon Useful?” DAC 2012 http://bit.ly/1zB194Y
  54. 54. Dark Silicon黙示録への対応 四人の騎士  THE SPECIALIZED HORSEMAN  我々は、すべてのDark Siliconの領域を専用コアとし て利用する。それぞれは、必要なタスク用に(10-100 倍エネルギー効率がいいように)チューンされている。 そして、必要な時にだけオンにされる。  THE DEUS EX MACHINA HORSEMAN  可能な “CMOSを超える” デバイスを目指す方向。 (まだ、そんなものはないと思うが) “Is Dark Silicon Useful?” DAC 2012 http://bit.ly/1zB194Y
  55. 55. Shrink Dim Specialized Beyond CMOS “Is Dark Silicon Useful?” DAC 2012 http://bit.ly/1zB194Y
  56. 56. Mooreの法則に対する 楽観論と懐疑論
  57. 57. Mooreの法則についての楽観論 ”Multi Core Trends in High Performance Computing” SICS 2014 http://bit.ly/1GFaoVQ Mooreの法則は続いている!
  58. 58. Mooreの法則についての楽観論 ”Multi Core Trends in High Performance Computing” SICS 2014 http://bit.ly/1GFaoVQ
  59. 59. Mooreの法則についての懐疑論 ”Compute Power with Energy Efficiency” AFDS 2012 http://bit.ly/1GFr8w3 by ARM Mooreの法則は、死んではいない Mooreの法則のあるバージョン は、この10年の間は、正しいだ ろう。 しかし、その効果は、ますます小 さなものになり、ますます重要では なくなる。 過去には、製造技術とMooreの法則が、消費電力とパフォーマンスと面積の 改善を、我々に無償で提供してくれていた。 ただ、これ以上は期待できない。
  60. 60. http://bit.ly/1GFr8w3 Mooreの法則についての懐疑論 ”Compute Power with Energy Efficiency” AFDS 2012 http://bit.ly/1GFr8w3 ARMの見解
  61. 61. Mooreの法則についての懐疑論 ”Compute Power with Energy Efficiency” AFDS 2012 http://bit.ly/1GFr8w3 ARMの見解
  62. 62. Mooreの法則についての懐疑論 ”Compute Power with Energy Efficiency” AFDS 2012 http://bit.ly/1GFr8w3 ARMの見解 それでは、我々に何ができるか? 我々は、もっと多くのトランジスタを持つことができる。 我々は、それら全てに同時に電力を供給できない。 我々は、それらの余分なトランジスタを新しいやり方で 使う必要がある。 • マルチ・コア • メニー・コア • ドメイン専用のプロセッサー それらは全てHeterogeneousな処理の方向を 向いている。積極的な電力管理のもとで。 計算は、最も効率的な場所で行われるべきせある。
  63. 63. Mooreの法則についての悲観論 ”Transitioning from the Era of Multicore to the Era of Specialization” SICS 2014 http://bit.ly/1BOIEuC Mooreの法則は、終わりつつある 経済が、ますます大きな力で、半導体の エコシステムをドライブしている。 最先端の製造工場を持つベンダーの数は、 縮小している。 性能を上げるためのコストは、増大する だろう。 ハードウェアの専用化は、重要な課題に なるだろう。 ノードのトランジスターあたりのコスト
  64. 64. マルチコアの時代から専用化の時代への移行 SICS 2014 http://bit.ly/1BOIEuC
  65. 65. Heterogeneous System Architecture Foundation AMD, ARM, Qualcomm, Samsung 他 のベンダーは、ポストMulticore時代を見据えて、 Heterogeneous System Architecture Foundationを設立する。 ただ、HSA Foundationに、Intel, NVIDIAは参加 していない。
  66. 66. Heterogeneous System Era
  67. 67. HSA Foundation http://www.hsafoundation.com/
  68. 68. HSA (Heterogeneous System Architecture) Foundation  2012年 6月設立  AMD, ARM Holdings, Qualcomm, Samsung, Imagination Technologies, MediaTek, Texas Instruments 他  HSA Platform System Architecture Specification http://bit.ly/1Jx4nXf  HSA Programmer Reference Manual Specification http://bit.ly/1t9EOJH  HSA Runtime Specification http://bit.ly/1yb14OV
  69. 69. Heterogeneous System Architecture: Goals  CPU/GPU のプログラム可能性の障壁を取り除く  CPU/GPU の通信の遅延を削減する  既存のプログラミングモデルを可能とすることで、 より広い範囲のアプリケーションに対してプログラ ミングプラットフォームの門戸を開く  CPU/GPUを超えた処理要素の追加を含んだ基 礎を作り出す
  70. 70. Heterogeneous System Architecture: Features  共有ページテーブルのサポート  ページの切り替え  ユーザー・レベルのコマンドのキューイング  ハードウェア・スケジューリング  コヒーレントなメモリー領域
  71. 71. これまでのメモリーシステム ・すべてのGPUのメモリーがCPUからアク セスできるわけではない ・GPUのLocal Frame Bufferは、作業用 に十分な大きさを持っていない ・デマンドpagingの機能がないので、GPU との通信を高速に行うためには、page out しないpinnedメモリー領域を確保する必要 がある HSA IOMMUv2 ・CPUとDMAでのcopyを減らせる ・GPUは、システムのメモリー空間に直接 アクセスできる HSAのメモリー空間
  72. 72. これまで、CPUとGPUのメモリー空間は 分離していた
  73. 73. GPUの処理は、GPUのメモリー空間で 行われていた
  74. 74. HSAでは、GPUからシステムのメモリー空間 に直接アクセスできる
  75. 75. GPUの処理は、システムのメモリー空間の ポインターを返すことができる
  76. 76. CPUとGPUは、お互いのコマンドを、キューイング できる CPU GPU CPU GPU
  77. 77. NVIDIAのNVLINKも、同じようにCPUとGPUが システムメモリーを共有することを目指している
  78. 78. 3D積層技術
  79. 79. Intel Custom Foundry の積層技術
  80. 80. Intel Custom Foundry の積層技術
  81. 81. NVIDIAのPASCALも3Dメモリーを使う
  82. 82. “Time to Rethink DDR4” http://bit.ly/1tfN8aD DDR4は、Stacked DRAM対応
  83. 83. “Time to Rethink DDR4” http://bit.ly/1tfN8aD
  84. 84. 非接触の積層技術
  85. 85. 非接触の積層技術
  86. 86. 現時点でのProject Araのコネクターは、バネ付きの接触型 のものだが .....
  87. 87. 製品版では、非接触型のものに変わる
  88. 88. Silicon Photonics Technology IDF 2014
  89. 89. データセンターは、新しいデバイスのために拡大している
  90. 90. ラック内の接続が、現在の10~40G から、25G~100Gになる 銅線では、 3mまでで、25G 2mまでで、32G が限界
  91. 91. データセンターは、世界につながっている
  92. 92. ラックの変化
  93. 93. Gilderの予想 ネットワークがコンピ ュータの内部バスと 同じぐらい早くなれ ば、マシンは、特定 の目的を持ったデバ イスのあつまりへと ネットワーク上で 分解するだろう。
  94. 94. 新しいデータセンターを可能に するためには、何が必要か? 統合されたスケーラブルなSilicon photonics 経済的で革新的なケーブルとコネクター 高品質で、サーバーに優しいパケージング コスト効率のよいサーバー・アーキテクチャーと ネットワークとリソースプールで利点があること データセンターを前進させるために鍵となる要素
  95. 95. この取り組みは、「もっとも コモディティ化したマシン」 のScale-outの試みだと 思うと面白い。
  96. 96. Heterogeneous Systemの 「進化」としての Project Ara
  97. 97. レシーバー ディスプレー カメラ WiFi USB アンテナ 3Gラジオ AP+GPS バッテリー スピーカー Project Ara プロトタイプ
  98. 98. アプリケーション プロセッサー モジュール ディスプレー モジュール カメラ モジュール WiFi モジュール ストレージ モジュール バッテリー モジュール 通信 モジュール 医療用 モジュール Uni-Pro Switch
  99. 99. 予告 Project Ara 勉強会 主催:マルレク+日本Androidの会+BLEガジェット勉強会 開催日時:2015年2月26日 18:30〜 開催場所:東海大学高輪校舎 申し込みページ:準備中です。 セッション概要 (予定):  Project Araが目指すハードウェア・エコシステム  MDKとUniProネットワーク  開発ツールMetamorphosys  3Dプリンターの動向  その他
  100. 100. 半導体各社の動向  Intel  NVIDIA  IBM  AMD  Oracle Part III
  101. 101. Intel Intel Xeon E5-2600 v3 22nm 18 core
  102. 102. Intel IDF 2014 Key Note 2020年には、500億のデバイス
  103. 103. Intelのウェアラブル MICA
  104. 104. Intel Edison
  105. 105. Make Everything Smart
  106. 106. 世界のデータセンター、1日に1兆トランザクション
  107. 107. The Era of Analytics
  108. 108. Health Care Data 2020年 Exa-scale
  109. 109. ガン研究での遺伝子治療
  110. 110. 2020年には、1日でガン治療薬を処方できる
  111. 111. すべてのプラットフォームに対応
  112. 112. Androidへの対応
  113. 113. Dellとの協業
  114. 114. Intel Xeon E5-2600 v3 “How to Build Next-Generation Data Center Infrastructure” http://intel.ly/1urN2ba
  115. 115. New Compute-Optimized EC2 Instances http://amzn.to/1yGqaKm  The new C4 instances are based on the Intel Xeon E5-2666 v3 (code name Haswell) processor. This custom processor, designed specifically for EC2, runs at a base speed of 2.9 GHz, and can achieve clock speeds as high as 3.5 GHz with Turbo boost.
  116. 116. Intel Xeon E5-2600 v3  製造プロセス: 22nm  コア数: 18、12、8  LLCキャッシュ/core : 2.5MB  LLCキャッシュ: 45MB/30MB/20MB  最大メモリー: 1.5TB  メモリー: DDR4-2133  PCI Express: PCI Express Gen3
  117. 117. サーバーのパフォーマンスの向上  3倍以上のパフォーマンスの向上  Intel® Advanced Vector Extensions 2 (Intel AVX2)では、1.9倍以上の向上  バーチャル・マシンの数は、1.7倍に増大  DDR4で、メモリーの帯域は 1.4倍に  PCIe 3.0のサポートで、2倍以上の帯域拡大  コア数・キャッシュは、1.5倍に
  118. 118. 仮想化のパフォーマンス向上  仮想化のパフォーマンス、50%向上  システムのオーバーヘッドが少ないVMは exit さ せて、VMの数を削減する  Advanced Programmable Interrupt Controller Virtualization (APICv)  Intel Virtual Machine Control Structure (VMCS) Shadowing  Cache Monitoring  Intel Virtualization Technology (Intel VT)
  119. 119. Unified Networkingと Virtualized networking  Intel Integrated I/O  Intel Data Direct I/O (Intel DDIO)  Intel Virtualization Technology for Connectivity (Intel VT-c)  Intel Ethernet Flow Director  Intel QuickAssist Technology  Intel Data Plane Development Kit (Intel DPDK)
  120. 120. Scale-outするストレージでの 効率的なデータ管理  Intel Rapid Storage Technology Enterprise 3.x (Intel RSTe)  Intel Cache Acceleration Software (Intel CAS)  Intel Intelligent Storage Acceleration Library (Intel ISA-L), Intel QuickData Technology, and RAID-5 Acceleration Engine
  121. 121. サイバー上の脅威に対する防御策  Intel Platform Protection  Intel Platform Protection Technology (with Trusted  Execution Technology [TXT])  Intel Platform Protection Technology (with BIOS Guard)  Intel Platform Protection Technology (with OS Guard)  Intel Platform Protection Technology (with XD Bit)  Intel Data Protection Technology  Intel Data Protection Technology (with Advanced Encryption Standard New Instructions [Intel AES-NI])  Intel Data Protection Technology (with Secure Key)
  122. 122. 電力管理  24%以上の電力削減(前世代のIntel Xeon プロセッ サー・ベースのサーバーに対して)  200%(3倍)のエネルギー効率(4年前の典型的なサー バーに対して)
  123. 123. NVIDIA Tegra K1 64bit CPU x 2 + GPU 192 core 32bit CPU x 4 + GPU 192 core Tegra X1 64bit CPU x 2 + 32bit CPU x 2 + GPU 256 core
  124. 124. GTC 2014
  125. 125. GPUのボトルネック
  126. 126. GPUのボトルネック
  127. 127. NVLinkの導入
  128. 128. NVLink
  129. 129. 5倍の帯域
  130. 130. 次世代GPU PASCAL
  131. 131. 次世代GPU PASCAL
  132. 132. Machine Learning への利用 メニーコアのGPUを何に使う か? グラフックだけではない。 Machine Learningでの利用 は、最も新しく、最も重要な分 野になるだろう。
  133. 133. Google Brainの成果
  134. 134. Google Brain
  135. 135. Bengio 2014 http://bit.ly/1zhaPyS ニューロンの数 ニューロンあたりのシナプスの数 コンピュータのAIのニューロン の数は、ミツバチと同じくらい。
  136. 136. この論文: http://stanford.io/162lrZ4
  137. 137. Tegra X1 CES 2015
  138. 138. 64bit CPU x 4 + 32bit CPU x 4 GPU core x 256
  139. 139. GPUを使った画像認識技術を生かして 自動運転カーへの搭載を目指す。
  140. 140. GPUは、ディープ・ラーニング革命の3つの ブレークスルーの一つ
  141. 141. FAIR open sources deep- learning modules for Torch  Many research projects on machine learning and AI at FAIR use Torch, an open source development environment for numerics, machine learning, and computer vision, with a particular emphasis on deep learning and convolutional nets. Torch is widely used at a number of academic labs as well as at Google/DeepMind, Twitter, NVIDIA, AMD, Intel, and many other companies. 2015年1月 http://bit.ly/1DWKgn2
  142. 142. FAIR open sources deep- learning modules for Torch  Today, we're open sourcing optimized deep- learning modules for Torch. These modules are significantly faster than the default ones in Torch and have accelerated our research projects by allowing us to train larger neural nets in less time.  This release includes GPU-optimized modules for large convolutional nets (ConvNets), as well as networks with sparse activations that are commonly used in Natural Language Processing applications.
  143. 143. IBM Power 8 22nm 12 core http://bit.ly/1yGXPUy
  144. 144. http://bit.ly/1yGXPUy
  145. 145. http://bit.ly/1yGXPUy
  146. 146. IBM, Nvidia team to build even faster supercomputers  The Department of Energy has awarded a $325 million contract to IBM to create two supercomputers that will be at least three times more powerful than any existing systems in deployment today. IBM's partners in this endeavor will be Nvidia and Mellanox. http://bit.ly/1uIeP7o
  147. 147. IBM, Nvidia team to build even faster supercomputers  The current leader is Tianhe-2 (Milky Way 2), a Chinese supercomputer with a theoretical max of 55 petaflops built with Xeon E5 processors and Xeon Phi co-processors. It may or may not be surpassed when the new Top500 supercomputer list comes out this week. Either way, a 165 petaFLOP supercomputer is a tall order.  The DoE supercomputer will use a mix of IBM Power 8 RISC CPUs, Nvidia's Tesla GPUs and NVlink GPU interconnects, and Mellanox's 100Gbit/sec. InfiniBand interconnects. The system is expected to be installed in 2017.
  148. 148. AMD SEATLE 28nm ARM A57 64bit x 8 KAVERI 28nm CPU x 4 + GPU x 8 Carrizo
  149. 149. “SEATTLE” WHAT IS IT AND WHY?  “Seattle” は、AMDの最初のARMベースの64bitプロ セッサーである。 ‒ 8 ARM CortexTM-A57 cores ‒ 2 DDR3/4 DRAM channels ‒ 10G Ethernet, PCI-Express, SATA ‒ GlobalFoundries 28nm process  ARMアーキテクチャーの32bitから64bitへの移行は、 x86の32bitから64bitへの移行と同じように、産業界に おける重要な変化である。  AMDは、64bitのx86の世界で 果たしてきたように、 64bitのARMの世界で、主導的な役割を果たそうとしてい る。
  150. 150. AMD “KAVERI”
  151. 151. KAVERI、GPUからシステムのメモリー空間 に直接アクセスできる
  152. 152. Oracle Sparc M7 20nm 32 core
  153. 153. 国産CPU 富士通 SPARC64 Xlfx 20nm 32 +2 core NEC SX-ACE
  154. 154. 富士通 SPARC64 Xlfx
  155. 155. NEC SX-ACE
  156. 156. FPGAの利用の拡大 Part IV
  157. 157. Part IV FPGAの利用の拡大  専用ハード・FPGA利用の事例  JS MorganでのFPGAの利用  MemcachedをFPGAで高速化  NoSQL Data EngineをFPGAで高速化  MS Bing検索でのFPGAの利用  専用ハードを必要とする現状認識  Reconfigurable Fabric
  158. 158. 専用ハード・FPGA利用の事例
  159. 159. JP MorganでのFPGAの利用 “Technology in banking – a problem in scale and complexity” http://stanford.io/1EtFz4l Stanford 2011
  160. 160. kazunori_279さん http://bit.ly/1ETFQLo に詳しい紹介がある
  161. 161. MemcachedをFPGAで高速化 “Thin Servers with Smart Pipes: Designing SoC Accelerators for Memcached” http://bit.ly/1BBNBEI ISCA 2013
  162. 162.  We discover that, regardless of CPU microarchitecture, memcached execution is remarkably inefficient, saturating neither network links nor available memory bandwidth. Instead, we find performance is typically limited by the per-packet processing overheads in the NIC and OS kernel— long code paths limit CPU performance due to poor branch predictability and instruction fetch bottlenecks.
  163. 163.  Hence, we argue for an alternate architecture— Thin Servers with Smart Pipes (TSSP)—for cost-effective high-performance memcached deployment. TSSP couples an embedded-class low- power core to a memcached accelerator that can process GET requests entirely in hardware, offloading both network handling and data look up. We demonstrate the potential benefits of our TSSP architecture through an FPGA prototyping platform, and show the potential for a 6X-16X power- performance improvement over conventional server baselines.
  164. 164. NIC FPGA
  165. 165. NoSQL Data Engineを FPGAで高速化 “Data Engine for NoSQL - IBM Power Systems™ Edition White Paper” http://bit.ly/1ETbecT IBM Impact 2014
  166. 166. Redis + Power8 CAPI + FPGA + Flash Memory  Power8のCAPI(Coherent Accelerator Processer Interface)は、大きなオバーヘッドなしに、FGPAチップを、 プロセッサと同一のメモリー空間に配置できる。このアプラ イアンスは、DRAMより安価なFlashメモリーをFPGAから アクセスして、20Tの大容量のKey-Value Cacheを実 現した。  IBMは、すでにFGPAベンダーのAlteraとの協業を始め ている。“Altera and IBM Unveil FPGA-accelerated POWER Systems with Coherent Shared Memory” http://bit.ly/1wHfZzK
  167. 167. http://bit.ly/1yGXPUy
  168. 168. http://bit.ly/1yGXPUy
  169. 169. Key-Value Cache Redis CAPI 40T
  170. 170. SICS 2014 http://bit.ly/1BOIEuC
  171. 171. http://bit.ly/1z2zMy1
  172. 172. MS Bing検索でのFPGAの利用 二つの問題意識  MSの取り組みは、二つの問題意識に基づいている。それ は、講演・論文のタイトルにはっきりと現れている。  一つは、”Transitioning from the Era of Multicore to the Era of Specialization” 「マルチコアの時代か ら、専用ハードの時代への移行」である。  もう一つは、“A Reconfigurable Fabric for Accelerating Large-Scale Datacenter Services” 「大規模データセンターサービスを高速化するための再構 成可能なネットワーク・ファブリック」
  173. 173. 専用ハードを必要とする 現状認識
  174. 174. 新しい時代が我々の前にある アナログ専用機 フォン・ノイマンの発明 統合 クロックの速度アップ マルチコア ハードウェアの専用化 2000BC~1940 1940~1975 1975~1990 1990~2005 2005~2015 2015~? Mooreの法則 の時代
  175. 175. Mooreの法則は、終わりつつある 経済が、ますます大きな力で、半導体の エコシステムをドライブしている。 最先端の製造工場を持つベンダーの数は、 縮小している。 性能を上げるためのコストは、増大する だろう。 ハードウェアの専用化は、重要な課題に なるだろう。 ノードのトランジスターあたりのコスト
  176. 176. 効率性と専用化
  177. 177. ハードウェア専用化への挑戦 汎用性 効率性 クラウド: 専用化への主要な二つの挑戦 可能な限り、Homogeneousなサーバーのインフラが望ましい ASICSが安定するまで5年はかかる。しかし、ソフトは毎月のように変わる。 クライアント: 半導体の「面積」は、貴重である。その利用は、汎用的でかつ効率的なもの でなければならない。 アクセラレータが、そこで死んでしまうような、CPUとASICの間の「危険な谷間」
  178. 178. 指数関数的な増加
  179. 179. データセンターの環境 ソフトウェアのサービスは、毎月のように変わる マシンは、3年たつと、役割に応じて新しく購入される マシンは、そのライフサイクルで、半分は再配置される ハードウェアのメインテナンスは、ほとんど行われない Homogeneityが、非常に望ましい 矛盾: 専用化しつつ均一なハード
  180. 180. A Reconfigurable Fabric 専用化しつつ均一なハードという矛盾した要 求を、どのように解決したか。
  181. 181. デザインの要求 あまり費用をかけない 現在のサーバーの30 %以下のコストで FPGAファブリックの 専用ハードウェア サーバーは Homogeneous 電力をたくさん食わ ないこと 10%以下の電力を PCIeから。25W max 何も壊さないこと 既存のサーバーで動く ネットワークの修正なし エラー率も同じままで
  182. 182. 2012年のデザイン1:柔軟で再構成可能なファブリック
  183. 183. 2012年のデザイン2:柔軟で再構成可能なファブリック
  184. 184. ハードウェアとソフトウェアが、二つの計算「平面」を持つ プログラム可能なSWファブリック プログラム可能なHWファブリック ハードウェアの「平面」は、第二のネットワークに 助けられて、専用のサービスを高速化できる
  185. 185. 8コア Xeon 2.1GHz CPU x 2 64 GB DRAM 4 HDD, 2SSD 10 Gb Ethernet ケーブルは無し Open Compute Project仕様
  186. 186. Shell は、すべてのIOと 管理タスクをハンドルする Roleは、アプリケーション・ ロジックのみ FIFOでShellにアクセス Roleは、部分的に再構成 可能な領域である shell Role
  187. 187. 遅延は、29%削減し、スピードは2倍
  188. 188. ハードウェアの専用化は、効率もパフォーマンスも与え てくれる。課題は、どうしたらそれを汎用的にできるか? FPGA Fabricは、サービスを高速化させるフレキシブル で柔軟なリソースを提供する。 一つのサービスの結果:1/2の数のRankingサーバー で、遅延なく、かつ多くのモデルを搭載できた。 スケーラビリティ、耐障害性は証明された。将来のアプリ にとって、大きな可能性を持っている。 結論
  189. 189. ハードとソフトの境界領域の課題 おわりに
  190. 190. クラウド/データセンターの 構成をめぐって SDIとContainer  小論では、MS Bingの検索エンジンの再構築の構想を紹 介したが、クラウド/データセンターの構成をハードのレベ ルで論ずる議論は、まだ、多くはない。  クラウドを、Reconfigurable Fabricにする試みは、むし ろ、Software Defined Infrastructure / Network Function Virtualization / Software defined Network という文脈で語られることが多い。 IntelもOpen Stackも、こうした取り組みに熱心である。  また、これらとは少し階層は異なるが、Docker, Container, kubernetes に対する関心も、柔軟なクラ ウド・リソースの利用を目指したものである。 3月末のマルレクで、クラウドを取り上げる予定
  191. 191. クラウド/データセンターの 構成をめぐって サーバーの機能  デバイス側が、Project Araのように物理的なモジュー ルの入れ替えでシステムを柔軟に再構成することができ るのに対して、クラウド側には、Homegeneousなマシン のScale-outという制約上、「仮想的」に対応せざるを得 ないのは、ある程度やむを得ないのかもしれない。  ただ、どのような機能を持つマシンが好ましいのかという 問題は、引き続き残り続けている。現状では、電力消費の 問題、仮想化・セキュリティへの対応等が差別化要因とし て働いている。今後は、HSAやCAPIのような、システム のHeterogeneous性を意識した機能拡張がサーバー・ マシンに必要になるかがカギになって行くだろう。その意 味では、アメリカの次期スパコンの選定も気になるところ である。
  192. 192. Heteroなシステムのプログラミング  CPUとGPUのHeteroなシステムのプログラミングの手法 としては、OpenCLが、現在でも、もっとも有力な選択肢 である。HSAアークテクチャーのハードウェアの元では、 使いやすさも性能も、大きくアップすることが期待できる。 ただ、OpenCLは、必ずしも習得が容易ではない。  こうした問題に対して注目すべき動きに、AMDとOracle が共同で進めている、Java9への採用が期待されている、 OpenCLのJavaバージョン、Project Sumatraがある。  Hetero環境が、一足先に一般化したスマートデバイスの 世界では、Javaは広く利用されている。ただ、肝心の AndroidでSumatraを使おうという動きが、起きていない のは残念である。
  193. 193. Heteroなサーバーのターゲット  Heteroなサーバーへの期待が高まるとすれば、検索・広 告と並んで、機械学習・Deep Learning系の処理への 期待が、一つの可能性になろう。ただ、後者に関しては、 その成熟には、まだ、少し時間が必要な気もする。(MSの Catapultでは、FPGAにMLの機能を組み込んでいる)  いずれにせよ、現在のクラウドのアーキテクチャーの骨組 みを規定しているのは、エンタープライズ起源のWebアプ リの3-tierモデルである。その「頭脳」は、データベースに すぎない。”IoT”も「ビッグデータ」も、その量的拡大の射 程内にある。  進化の質的飛躍が、クラウドというメイン・ストリームで起 きるとは限らない。少なくとも、この10年のハードウェアの 進化を牽引してきたのは、モバイルのハードだったと思う。
  194. 194. ハードウェア開発と開発ツール  FPGAの開発には、VerilogやVHDL等のHDL (Hardware Description Language)を使うことになる。 おそらく、OpenCLと同じように、書ける人は限られている。 ただ、今後、必要なスキルになるのかもしれない。  Arduinoの普及によって、ディジタル・システムの記述に SystemCを利用するユーザーが広がりを見せている。 FPGAの開発はできなくとも、チップを使ったハードウェア・ システムを自作する人は確実に増えている。  筆者が注目しているのは、Project Araのモジュール開 発のツールとして無償で提供されるMetamorphosys である。SystemCをベースにしている。オープンソースの ツールに支援されたモジュール開発者の増大が、ハード ウェア開発の新しい可能性を開くことに期待している。
  195. 195.  検索でのFPGAの利用  FPGAの動向 参考資料
  196. 196. 検索でのFPGAの利用
  197. 197. FPGAの動向  Xilinx  Altera
  198. 198. Xilinx
  199. 199. Xilinx http://bit.ly/1Bf9w1B
  200. 200. http://bit.ly/1LbfUiG
  201. 201. http://bit.ly/1En1ZUV
  202. 202. Altera
  203. 203. http://www.altera.com/

×